weekly/docs/2025/2025-22.md
2025-08-29 22:28:05 +08:00

76 lines
8.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

title: Linuxcat周刊(第46期) 清华团队发现 ChatGPT 中文词表污染高达 46.6%,含大量色情赌博词汇
tags:
- AI
- OpenAI
- 网络安全
- DeepSeek
- ChatGPT
categories:
- Linuxcat周刊
permalink: /weekly/bye.html
date: 2025-08-29 22:25:14
---
## 正文
### 1 清华团队发现 ChatGPT 中文词表污染高达 46.6%,含大量色情赌博词汇
清华大学、南洋理工大学和蚂蚁集团的研究人员发现GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文词表污染高达 46.6%,包含「波*野结衣」、「大发时时彩」、「大发快三」等色情、赌博相关词元。研究团队对 OpenAI 近期发布的 GPT-5 和 GPT-oss 词表分析显示,其中文 token 没有变化。
研究团队定义了中文污染词PoC tokens概念并将其分为成人内容、在线赌博、在线游戏、在线视频、奇怪内容等 5 个类别。专家标注团队对 ChatGPT 模型的 1659 个中文长词进行标注,发现污染词达 773 个,其中成人内容污染词最多,有 219 个。实验显示,输入中文污染词会导致 ChatGPT 在解释和重复任务上出现约 50% 的性能损失。研究团队还构建了自动化中文污染词识别模型,达到 97.3% 的识别正确率,并通过词表污染估计训练数据污染情况。
> 消息来源:[机器之心](https://mp.weixin.qq.com/s/_8xVPYyzZhvPPTSiwLmQeg) | [科技圈🎗在花频道](https://t.me/zaihuapd/35422)
### 2 OpenAI联创Greg Brockman规模假说源于意外发现ChatGPT模式是不得已选择
在Stripe播客中OpenAI联合创始人兼总裁Greg Brockman透露了AI发展的关键内幕。他表示规模假说并非OpenAI的初始战略而是2017年在Dota 2项目中意外发现——每当计算资源翻倍AI表现就相应提升这一发现彻底改变了AI研究方向。
Greg强调AI项目需要"过程导向"而非"结果导向"因为AI结果不可控。关于GPT-3产品化团队最初感到绝望因为做API违背传统创业原则但技术足够强大时市场会自己找到出路。他预测AI将在2-5年内解决千禧年数学难题能源将成为AI发展主要瓶颈数据墙问题已通过合成数据等新方法突破。
> 消息来源:[Solidot](https://www.solidot.org/story?sid=82116) | [YouTube](https://www.youtube.com/watch?v=E6hCFDfkijU) | [科技圈🎗在花频道](https://t.me/zaihuapd/35303)
### 3 RAR 压缩文件内文件名成“武器”:逃避杀毒软件检测、触发 Linux 恶意文件
网络安全公司 Trellix 昨日8 月 24 日)披露,近期网络上出现了针对 Linux 的新型攻击链,通过钓鱼邮件传播开源后门 VShell。攻击利用恶意 RAR 压缩包中文件名嵌入的 Bash 命令实现自动执行,并绕过杀毒软件文件扫描。
该技术利用了 shell 脚本在处理文件名时缺乏输入清理的漏洞,例如使用 eval 或 echo 时可能无意执行任意代码。由于杀毒引擎通常不会扫描文件名,这种方式能够绕过传统防御机制。
在被 shell 解析时如“ziliao2.pdf`{echo,<Base64-encoded command>}|{base64,-d}|bash`"”恶意文件名会触发执行下载器,从外部服务器获取适配架构的 ELF 安装文件。
> 消息来源:[IT之家](https://www.ithome.com/0/877/765.htm) | [LoopDNS资讯播报](https://t.me/DNSPODT/11261)
### 4 挪威证书颁发机构 Buypass 宣布停止签发 TLS/SSL 证书
挪威证书颁发机构 Buypass 宣布,将于 2025 年 10 月 15 日起停止提供 TLS/SSL 证书服务。该公司表示,这一决定基于对市场状况和证书颁发监管框架的全面评估,主要原因包括国际市场竞争激烈、免费证书普及导致收入下降,以及监管要求不断提高带来的投资成本增加。此前 Buypass 的免费 ACMEGoSSL证书有效期为 6 个月180 天),较业内常见的 90 天更长;随着此次调整,该免费服务也将随之终止。
现有的 TLS/SSL 证书将保持有效直至到期或被撤销撤销服务和证书状态服务将正常运行。Buypass 的企业证书服务将继续提供其他身份认证和数字签名解决方案不受影响。根据时间表2025 年 10 月 31 日为最后证书签发日期2026 年 10 月 31 日为 TLS/SSL 证书最后到期日。
> 消息来源:[Buypass](https://www.buypass.com/products/tls-ssl-certificates/discontinues-issuance-of-tls-ssl-certificates) | [科技圈🎗在花频道](https://t.me/zaihuapd/35340)
### 5 DeepSeek V3.1 出现严重 bug输出内容随机插入「极」字
DeepSeek V3.1 模型被发现存在严重输出错误会在生成内容中随机插入「极」字导致模型无法正常用于编程或结构化输出工作。该问题最初在火山、chutes 等第三方 API 平台上被发现,但经测试官方网站同样存在此问题。
分析显示,「极」字对应的 token 编号为 2577与省略号的 token 编号 2576 相邻,可能与数据集清理不当或模型"偷懒"行为有关。目前官方平台出现该 bug 的概率相对较低,但第三方平台概率显著增加,可能与量化、部署配置或设备差异相关。一旦出现该问题,后续输出中「极」字出现频率会进一步增加。
> 消息来源:[LINUX DO](https://linux.do/t/topic/897789) | [Reddit](https://www.reddit.com/r/LocalLLaMA/comments/1mzsg6v/deepseek_v31_getting_token_extreme_%E6%9E%81_%E6%A5%B5_out_of/) | [科技圈🎗在花频道](https://t.me/zaihuapd/35343)
### 6 互联网工程任务组发布草案:网页将添加 AI 内容披露标头字段,以便更容易确定网页是否使用了人工智能
互联网工程任务组IETF近日发布了一份草案文件提议为网页引入新的标头字段以便更容易确定网页是否使用了人工智能。根据《AI 内容披露标头》草案,这一拟议的元数据将使机器更容易确定 AI 如何参与特定网站的制作,从而实现更便捷的自动化、索引和合规性检查。
该标头将包含五个主要信息modeAI 使用模式、model使用的 AI 模型、provider模型提供方、reviewed-by内容审查人以及 date生成日期时间。其中 mode 包含四种值none未使用 AI、ai-modified人类创作但经 AI 修改、ai-originatedAI 生成但经人工编辑、machine-generated主要由 AI 生成,几乎无人工干预)。该草案目前仍处于草案阶段,尚未成为正式标准,采用完全自愿。
> 消息来源:[Tom's Hardware](https://www.tomshardware.com/tech-industry/artificial-intelligence/internet-standards-body-proposes-new-header-field-disclosing-ai-will-make-it-easier-for-machines-to-determine-if-ai-was-used-on-a-site)
## 写在最后
这大概是我最后一次更新 Linuxcat 周刊了由于一些精神和身体原因我无法继续这项坚持了一年半的“事业”截至这篇文章我一共写了48篇关于Linuxcat周刊的文章(包括愚人节和介绍),我不知道未来是否有人愿意接受周刊,下面写一些我筛选过数万条新闻的经验:
1. 周刊收录的有两种新闻,一种是好玩的(比如某某厂商整了什么新奇的活或者因为某些搞笑的原因炸掉了)另一种是可能对为未来有影响的最近几年是AI和机器人
2. 遇到不确定要不要收录的新闻,就不要收录了
3. 我写周刊很大一部分是为了好玩,并没有指望别人看(不知道会不会有人看到这段话)
周刊一开始是为了“接替linux中国硬核老王的每日观察”后来慢慢变成了现在这样至于为什么叫linuxcat只是因为当时想做一个linux中国的社区镜像想要一个和linux中国格式差不多的域名而`linuxcat.top`恰好没有注册还比较便宜就选择了linuxcat
最开始些周刊的时候我还是初四的初中生,后来上了高中,在各种阴间时间写过周刊,将近第二天的时候,中午睡觉前,还有很多...
关于我的后续信息,可以在`mmeiblog.cn`和`mei.lv`看到