bye

2025-08-29 22:28:05 +08:00 · 2025-08-29 22:28:05 +08:00 · f27cb75d89
commit f27cb75d89
parent 7e07c2a433
3 changed files with 78 additions and 7 deletions
--- a/README.md
+++ b/README.md
@ -1,12 +1,14 @@
 # Linuxcat周刊

 继Linux中国后,提供不那么及时的Linux,开源,软件,科技相关的新闻摘要  
-每周六发布
+<!-- 每周六发布 -->
+已停止更新，历时一年半，更新48期

 ## 2025

 **八月**

+- 第 46 期: [清华团队发现 ChatGPT 中文词表污染高达 46.6%，含大量色情赌博词汇](https://github.com/ssdomei232/Linux-weekly/blob/main/docs/2025/2025-22.md)
 - 第 45 期: [“疯狂阴谋论者”与“失控喜剧人”：Grok的AI人格指令被曝光](https://github.com/ssdomei232/Linux-weekly/blob/main/docs/2025/2025-21.md)
 - 第 44 期: [ChatGPT 的谄媚与即兴表演能让心智健全的人相信自己是超级英雄](https://github.com/ssdomei232/Linux-weekly/blob/main/docs/2025/2025-20.md)
 - 第 43 期: [量子计算机首次实现生成“认证的真正随机”数字](https://github.com/ssdomei232/Linux-weekly/blob/main/docs/2025/2025-19.md)
--- a/docs/2025/2025-21.md
+++ b/docs/2025/2025-21.md
@ -13,12 +13,6 @@ date: 2025-08-23 21:55:54

 ---

-{% note success %}
-👏我们的软件推荐站已经完成了升级,欢迎查看: [Github](https://github.com/ssdomei232/nav-next)
-可以向 [i@mei.lv](mailto:i@mei.lv) 发送邮件或通过 issue 投稿
-现在可以通过 [nav.linuxcat.top](https://nav.linuxcat.top/) 来访问
-{% endnote %}
-
 ## 正文

 ### 1 “疯狂阴谋论者”与“失控喜剧人”：Grok的AI人格指令被曝光
--- a/docs/2025/2025-22.md
+++ b/docs/2025/2025-22.md
@ -0,0 +1,75 @@
+title: Linuxcat周刊(第46期) 清华团队发现 ChatGPT 中文词表污染高达 46.6%，含大量色情赌博词汇
+tags:
+
+- AI
+- OpenAI
+- 网络安全
+- DeepSeek
+- ChatGPT
+
+categories:
+
+- Linuxcat周刊
+permalink: /weekly/bye.html
+date: 2025-08-29 22:25:14
+
+---
+
+## 正文
+
+### 1 清华团队发现 ChatGPT 中文词表污染高达 46.6%，含大量色情赌博词汇
+
+清华大学、南洋理工大学和蚂蚁集团的研究人员发现，GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文词表污染高达 46.6%，包含「波*野结衣」、「大发时时彩」、「大发快三」等色情、赌博相关词元。研究团队对 OpenAI 近期发布的 GPT-5 和 GPT-oss 词表分析显示，其中文 token 没有变化。  
+研究团队定义了中文污染词（PoC tokens）概念，并将其分为成人内容、在线赌博、在线游戏、在线视频、奇怪内容等 5 个类别。专家标注团队对 ChatGPT 模型的 1659 个中文长词进行标注，发现污染词达 773 个，其中成人内容污染词最多，有 219 个。实验显示，输入中文污染词会导致 ChatGPT 在解释和重复任务上出现约 50% 的性能损失。研究团队还构建了自动化中文污染词识别模型，达到 97.3% 的识别正确率，并通过词表污染估计训练数据污染情况。
+
+> 消息来源：[机器之心](https://mp.weixin.qq.com/s/_8xVPYyzZhvPPTSiwLmQeg) | [科技圈🎗在花频道](https://t.me/zaihuapd/35422)
+
+### 2 OpenAI联创Greg Brockman：规模假说源于意外发现，ChatGPT模式是不得已选择
+
+在Stripe播客中，OpenAI联合创始人兼总裁Greg Brockman透露了AI发展的关键内幕。他表示规模假说并非OpenAI的初始战略，而是2017年在Dota 2项目中意外发现——每当计算资源翻倍，AI表现就相应提升，这一发现彻底改变了AI研究方向。  
+Greg强调AI项目需要"过程导向"而非"结果导向"，因为AI结果不可控。关于GPT-3产品化，团队最初感到绝望，因为做API违背传统创业原则，但技术足够强大时市场会自己找到出路。他预测AI将在2-5年内解决千禧年数学难题，能源将成为AI发展主要瓶颈，数据墙问题已通过合成数据等新方法突破。
+
+> 消息来源：[Solidot](https://www.solidot.org/story?sid=82116) | [YouTube](https://www.youtube.com/watch?v=E6hCFDfkijU) | [科技圈🎗在花频道](https://t.me/zaihuapd/35303)
+
+### 3 RAR 压缩文件内文件名成“武器”：逃避杀毒软件检测、触发 Linux 恶意文件
+
+网络安全公司 Trellix 昨日（8 月 24 日）披露，近期网络上出现了针对 Linux 的新型攻击链，通过钓鱼邮件传播开源后门 VShell。攻击利用恶意 RAR 压缩包中文件名嵌入的 Bash 命令实现自动执行，并绕过杀毒软件文件扫描。  
+该技术利用了 shell 脚本在处理文件名时缺乏输入清理的漏洞，例如使用 eval 或 echo 时可能无意执行任意代码。由于杀毒引擎通常不会扫描文件名，这种方式能够绕过传统防御机制。  
+在被 shell 解析时，如“ziliao2.pdf`{echo,<Base64-encoded command>}|{base64,-d}|bash`"”恶意文件名会触发执行下载器，从外部服务器获取适配架构的 ELF 安装文件。
+
+> 消息来源：[IT之家](https://www.ithome.com/0/877/765.htm) | [LoopDNS资讯播报](https://t.me/DNSPODT/11261)
+
+### 4 挪威证书颁发机构 Buypass 宣布停止签发 TLS/SSL 证书
+
+挪威证书颁发机构 Buypass 宣布，将于 2025 年 10 月 15 日起停止提供 TLS/SSL 证书服务。该公司表示，这一决定基于对市场状况和证书颁发监管框架的全面评估，主要原因包括国际市场竞争激烈、免费证书普及导致收入下降，以及监管要求不断提高带来的投资成本增加。此前 Buypass 的免费 ACME（GoSSL）证书有效期为 6 个月（180 天），较业内常见的 90 天更长；随着此次调整，该免费服务也将随之终止。  
+现有的 TLS/SSL 证书将保持有效直至到期或被撤销，撤销服务和证书状态服务将正常运行。Buypass 的企业证书服务将继续提供，其他身份认证和数字签名解决方案不受影响。根据时间表，2025 年 10 月 31 日为最后证书签发日期，2026 年 10 月 31 日为 TLS/SSL 证书最后到期日。
+
+> 消息来源：[Buypass](https://www.buypass.com/products/tls-ssl-certificates/discontinues-issuance-of-tls-ssl-certificates) | [科技圈🎗在花频道](https://t.me/zaihuapd/35340)
+
+### 5 DeepSeek V3.1 出现严重 bug：输出内容随机插入「极」字
+
+DeepSeek V3.1 模型被发现存在严重输出错误，会在生成内容中随机插入「极」字，导致模型无法正常用于编程或结构化输出工作。该问题最初在火山、chutes 等第三方 API 平台上被发现，但经测试官方网站同样存在此问题。  
+分析显示，「极」字对应的 token 编号为 2577，与省略号的 token 编号 2576 相邻，可能与数据集清理不当或模型"偷懒"行为有关。目前官方平台出现该 bug 的概率相对较低，但第三方平台概率显著增加，可能与量化、部署配置或设备差异相关。一旦出现该问题，后续输出中「极」字出现频率会进一步增加。
+
+> 消息来源：[LINUX DO](https://linux.do/t/topic/897789) | [Reddit](https://www.reddit.com/r/LocalLLaMA/comments/1mzsg6v/deepseek_v31_getting_token_extreme_%E6%9E%81_%E6%A5%B5_out_of/) | [科技圈🎗在花频道](https://t.me/zaihuapd/35343)
+
+### 6 互联网工程任务组发布草案：网页将添加 AI 内容披露标头字段，以便更容易确定网页是否使用了人工智能
+
+互联网工程任务组（IETF）近日发布了一份草案文件，提议为网页引入新的标头字段，以便更容易确定网页是否使用了人工智能。根据《AI 内容披露标头》草案，这一拟议的元数据将使机器更容易确定 AI 如何参与特定网站的制作，从而实现更便捷的自动化、索引和合规性检查。  
+该标头将包含五个主要信息：mode（AI 使用模式）、model（使用的 AI 模型）、provider（模型提供方）、reviewed-by（内容审查人）以及 date（生成日期时间）。其中 mode 包含四种值：none（未使用 AI）、ai-modified（人类创作但经 AI 修改）、ai-originated（AI 生成但经人工编辑）、machine-generated（主要由 AI 生成，几乎无人工干预）。该草案目前仍处于草案阶段，尚未成为正式标准，采用完全自愿。
+
+> 消息来源：[Tom's Hardware](https://www.tomshardware.com/tech-industry/artificial-intelligence/internet-standards-body-proposes-new-header-field-disclosing-ai-will-make-it-easier-for-machines-to-determine-if-ai-was-used-on-a-site)
+
+## 写在最后
+
+这大概是我最后一次更新 Linuxcat 周刊了，由于一些精神和身体原因，我无法继续这项坚持了一年半的“事业”，截至这篇文章，我一共写了48篇关于Linuxcat周刊的文章(包括愚人节和介绍)，我不知道未来是否有人愿意接受周刊，下面写一些我筛选过数万条新闻的经验:
+
+1. 周刊收录的有两种新闻，一种是好玩的(比如某某厂商整了什么新奇的活或者因为某些搞笑的原因炸掉了)，另一种是可能对为未来有影响的，最近几年是AI和机器人
+2. 遇到不确定要不要收录的新闻，就不要收录了
+3. 我写周刊很大一部分是为了好玩，并没有指望别人看(不知道会不会有人看到这段话)
+
+周刊一开始是为了“接替linux中国硬核老王的每日观察”，后来慢慢变成了现在这样，至于为什么叫linuxcat，只是因为当时想做一个linux中国的社区镜像，想要一个和linux中国格式差不多的域名，而`linuxcat.top`恰好没有注册，还比较便宜，就选择了linuxcat  
+
+最开始些周刊的时候我还是初四的初中生，后来上了高中，在各种阴间时间写过周刊，将近第二天的时候，中午睡觉前，还有很多...
+
+关于我的后续信息，可以在`mmeiblog.cn`和`mei.lv`看到