bye
This commit is contained in:
parent
7e07c2a433
commit
f27cb75d89
@ -1,12 +1,14 @@
|
||||
# Linuxcat周刊
|
||||
|
||||
继Linux中国后,提供不那么及时的Linux,开源,软件,科技相关的新闻摘要
|
||||
每周六发布
|
||||
<!-- 每周六发布 -->
|
||||
已停止更新,历时一年半,更新48期
|
||||
|
||||
## 2025
|
||||
|
||||
**八月**
|
||||
|
||||
- 第 46 期: [清华团队发现 ChatGPT 中文词表污染高达 46.6%,含大量色情赌博词汇](https://github.com/ssdomei232/Linux-weekly/blob/main/docs/2025/2025-22.md)
|
||||
- 第 45 期: [“疯狂阴谋论者”与“失控喜剧人”:Grok的AI人格指令被曝光](https://github.com/ssdomei232/Linux-weekly/blob/main/docs/2025/2025-21.md)
|
||||
- 第 44 期: [ChatGPT 的谄媚与即兴表演能让心智健全的人相信自己是超级英雄](https://github.com/ssdomei232/Linux-weekly/blob/main/docs/2025/2025-20.md)
|
||||
- 第 43 期: [量子计算机首次实现生成“认证的真正随机”数字](https://github.com/ssdomei232/Linux-weekly/blob/main/docs/2025/2025-19.md)
|
||||
|
@ -13,12 +13,6 @@ date: 2025-08-23 21:55:54
|
||||
|
||||
---
|
||||
|
||||
{% note success %}
|
||||
👏我们的软件推荐站已经完成了升级,欢迎查看: [Github](https://github.com/ssdomei232/nav-next)
|
||||
可以向 [i@mei.lv](mailto:i@mei.lv) 发送邮件或通过 issue 投稿
|
||||
现在可以通过 [nav.linuxcat.top](https://nav.linuxcat.top/) 来访问
|
||||
{% endnote %}
|
||||
|
||||
## 正文
|
||||
|
||||
### 1 “疯狂阴谋论者”与“失控喜剧人”:Grok的AI人格指令被曝光
|
||||
|
75
docs/2025/2025-22.md
Normal file
75
docs/2025/2025-22.md
Normal file
@ -0,0 +1,75 @@
|
||||
title: Linuxcat周刊(第46期) 清华团队发现 ChatGPT 中文词表污染高达 46.6%,含大量色情赌博词汇
|
||||
tags:
|
||||
|
||||
- AI
|
||||
- OpenAI
|
||||
- 网络安全
|
||||
- DeepSeek
|
||||
- ChatGPT
|
||||
|
||||
categories:
|
||||
|
||||
- Linuxcat周刊
|
||||
permalink: /weekly/bye.html
|
||||
date: 2025-08-29 22:25:14
|
||||
|
||||
---
|
||||
|
||||
## 正文
|
||||
|
||||
### 1 清华团队发现 ChatGPT 中文词表污染高达 46.6%,含大量色情赌博词汇
|
||||
|
||||
清华大学、南洋理工大学和蚂蚁集团的研究人员发现,GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文词表污染高达 46.6%,包含「波*野结衣」、「大发时时彩」、「大发快三」等色情、赌博相关词元。研究团队对 OpenAI 近期发布的 GPT-5 和 GPT-oss 词表分析显示,其中文 token 没有变化。
|
||||
研究团队定义了中文污染词(PoC tokens)概念,并将其分为成人内容、在线赌博、在线游戏、在线视频、奇怪内容等 5 个类别。专家标注团队对 ChatGPT 模型的 1659 个中文长词进行标注,发现污染词达 773 个,其中成人内容污染词最多,有 219 个。实验显示,输入中文污染词会导致 ChatGPT 在解释和重复任务上出现约 50% 的性能损失。研究团队还构建了自动化中文污染词识别模型,达到 97.3% 的识别正确率,并通过词表污染估计训练数据污染情况。
|
||||
|
||||
> 消息来源:[机器之心](https://mp.weixin.qq.com/s/_8xVPYyzZhvPPTSiwLmQeg) | [科技圈🎗在花频道](https://t.me/zaihuapd/35422)
|
||||
|
||||
### 2 OpenAI联创Greg Brockman:规模假说源于意外发现,ChatGPT模式是不得已选择
|
||||
|
||||
在Stripe播客中,OpenAI联合创始人兼总裁Greg Brockman透露了AI发展的关键内幕。他表示规模假说并非OpenAI的初始战略,而是2017年在Dota 2项目中意外发现——每当计算资源翻倍,AI表现就相应提升,这一发现彻底改变了AI研究方向。
|
||||
Greg强调AI项目需要"过程导向"而非"结果导向",因为AI结果不可控。关于GPT-3产品化,团队最初感到绝望,因为做API违背传统创业原则,但技术足够强大时市场会自己找到出路。他预测AI将在2-5年内解决千禧年数学难题,能源将成为AI发展主要瓶颈,数据墙问题已通过合成数据等新方法突破。
|
||||
|
||||
> 消息来源:[Solidot](https://www.solidot.org/story?sid=82116) | [YouTube](https://www.youtube.com/watch?v=E6hCFDfkijU) | [科技圈🎗在花频道](https://t.me/zaihuapd/35303)
|
||||
|
||||
### 3 RAR 压缩文件内文件名成“武器”:逃避杀毒软件检测、触发 Linux 恶意文件
|
||||
|
||||
网络安全公司 Trellix 昨日(8 月 24 日)披露,近期网络上出现了针对 Linux 的新型攻击链,通过钓鱼邮件传播开源后门 VShell。攻击利用恶意 RAR 压缩包中文件名嵌入的 Bash 命令实现自动执行,并绕过杀毒软件文件扫描。
|
||||
该技术利用了 shell 脚本在处理文件名时缺乏输入清理的漏洞,例如使用 eval 或 echo 时可能无意执行任意代码。由于杀毒引擎通常不会扫描文件名,这种方式能够绕过传统防御机制。
|
||||
在被 shell 解析时,如“ziliao2.pdf`{echo,<Base64-encoded command>}|{base64,-d}|bash`"”恶意文件名会触发执行下载器,从外部服务器获取适配架构的 ELF 安装文件。
|
||||
|
||||
> 消息来源:[IT之家](https://www.ithome.com/0/877/765.htm) | [LoopDNS资讯播报](https://t.me/DNSPODT/11261)
|
||||
|
||||
### 4 挪威证书颁发机构 Buypass 宣布停止签发 TLS/SSL 证书
|
||||
|
||||
挪威证书颁发机构 Buypass 宣布,将于 2025 年 10 月 15 日起停止提供 TLS/SSL 证书服务。该公司表示,这一决定基于对市场状况和证书颁发监管框架的全面评估,主要原因包括国际市场竞争激烈、免费证书普及导致收入下降,以及监管要求不断提高带来的投资成本增加。此前 Buypass 的免费 ACME(GoSSL)证书有效期为 6 个月(180 天),较业内常见的 90 天更长;随着此次调整,该免费服务也将随之终止。
|
||||
现有的 TLS/SSL 证书将保持有效直至到期或被撤销,撤销服务和证书状态服务将正常运行。Buypass 的企业证书服务将继续提供,其他身份认证和数字签名解决方案不受影响。根据时间表,2025 年 10 月 31 日为最后证书签发日期,2026 年 10 月 31 日为 TLS/SSL 证书最后到期日。
|
||||
|
||||
> 消息来源:[Buypass](https://www.buypass.com/products/tls-ssl-certificates/discontinues-issuance-of-tls-ssl-certificates) | [科技圈🎗在花频道](https://t.me/zaihuapd/35340)
|
||||
|
||||
### 5 DeepSeek V3.1 出现严重 bug:输出内容随机插入「极」字
|
||||
|
||||
DeepSeek V3.1 模型被发现存在严重输出错误,会在生成内容中随机插入「极」字,导致模型无法正常用于编程或结构化输出工作。该问题最初在火山、chutes 等第三方 API 平台上被发现,但经测试官方网站同样存在此问题。
|
||||
分析显示,「极」字对应的 token 编号为 2577,与省略号的 token 编号 2576 相邻,可能与数据集清理不当或模型"偷懒"行为有关。目前官方平台出现该 bug 的概率相对较低,但第三方平台概率显著增加,可能与量化、部署配置或设备差异相关。一旦出现该问题,后续输出中「极」字出现频率会进一步增加。
|
||||
|
||||
> 消息来源:[LINUX DO](https://linux.do/t/topic/897789) | [Reddit](https://www.reddit.com/r/LocalLLaMA/comments/1mzsg6v/deepseek_v31_getting_token_extreme_%E6%9E%81_%E6%A5%B5_out_of/) | [科技圈🎗在花频道](https://t.me/zaihuapd/35343)
|
||||
|
||||
### 6 互联网工程任务组发布草案:网页将添加 AI 内容披露标头字段,以便更容易确定网页是否使用了人工智能
|
||||
|
||||
互联网工程任务组(IETF)近日发布了一份草案文件,提议为网页引入新的标头字段,以便更容易确定网页是否使用了人工智能。根据《AI 内容披露标头》草案,这一拟议的元数据将使机器更容易确定 AI 如何参与特定网站的制作,从而实现更便捷的自动化、索引和合规性检查。
|
||||
该标头将包含五个主要信息:mode(AI 使用模式)、model(使用的 AI 模型)、provider(模型提供方)、reviewed-by(内容审查人)以及 date(生成日期时间)。其中 mode 包含四种值:none(未使用 AI)、ai-modified(人类创作但经 AI 修改)、ai-originated(AI 生成但经人工编辑)、machine-generated(主要由 AI 生成,几乎无人工干预)。该草案目前仍处于草案阶段,尚未成为正式标准,采用完全自愿。
|
||||
|
||||
> 消息来源:[Tom's Hardware](https://www.tomshardware.com/tech-industry/artificial-intelligence/internet-standards-body-proposes-new-header-field-disclosing-ai-will-make-it-easier-for-machines-to-determine-if-ai-was-used-on-a-site)
|
||||
|
||||
## 写在最后
|
||||
|
||||
这大概是我最后一次更新 Linuxcat 周刊了,由于一些精神和身体原因,我无法继续这项坚持了一年半的“事业”,截至这篇文章,我一共写了48篇关于Linuxcat周刊的文章(包括愚人节和介绍),我不知道未来是否有人愿意接受周刊,下面写一些我筛选过数万条新闻的经验:
|
||||
|
||||
1. 周刊收录的有两种新闻,一种是好玩的(比如某某厂商整了什么新奇的活或者因为某些搞笑的原因炸掉了),另一种是可能对为未来有影响的,最近几年是AI和机器人
|
||||
2. 遇到不确定要不要收录的新闻,就不要收录了
|
||||
3. 我写周刊很大一部分是为了好玩,并没有指望别人看(不知道会不会有人看到这段话)
|
||||
|
||||
周刊一开始是为了“接替linux中国硬核老王的每日观察”,后来慢慢变成了现在这样,至于为什么叫linuxcat,只是因为当时想做一个linux中国的社区镜像,想要一个和linux中国格式差不多的域名,而`linuxcat.top`恰好没有注册,还比较便宜,就选择了linuxcat
|
||||
|
||||
最开始些周刊的时候我还是初四的初中生,后来上了高中,在各种阴间时间写过周刊,将近第二天的时候,中午睡觉前,还有很多...
|
||||
|
||||
关于我的后续信息,可以在`mmeiblog.cn`和`mei.lv`看到
|
Loading…
Reference in New Issue
Block a user