— 文章2026.06.06

当"看起来不错"不再携带信息

#agentic-workflow

我原本想消除文章里的“AI 味”，却发现真正失效的是“看起来不错”这一质量信号。AI 将内容生产的下限抬得极高，让完整性不再代表思考与投入。未来真正稀缺的不是内容，而是判断力，以及识别值得信任内容的能力。

Shunyang Li

这篇文章的起点很朴素：我想让 AI 帮我写出来的文章，没有那么重的"AI 味"。

我跟 AI 协作写文章有一段时间了。主体是 Agent 生成的，我做定方向、审内容、改表达。但每次发出去，读的人都能感觉到一股机器味儿——句子太匀称，论证太干净，用词在几个高频选项之间打转。于是我花了不少精力研究什么是 AI 味、怎么降 AI 味，调研了一堆论文，更新了写作 skill，做了词汇表和句式检查清单。自认为已经把这个问题搞清楚了。

但在调研和调试的过程中，一些我本来没打算想的问题慢慢冒了出来。AI 味让我不舒服，到底是因为它"像机器"，还是因为别的东西？如果有一天 AI 味完全消失了，我对一篇文章的信任会自动恢复吗？我越想越觉得，最初那个问题——怎么让文章看起来不像 AI 写的——可能问错了方向。

下面这些思考，就是从这个跑题开始的。

有一个观察我越想越觉得重要。

在 AI 之前，一个产品的打磨程度和它的质量是强相关的。你看到一个精美的 app，下意识就会觉得这个团队花了心思，对他们的功能、稳定性都会更有信心。这个启发式不总是对，但大多数时候对——把东西做精致需要时间和品味，愿意在这方面投入的人，通常也会把功能做好。

文字也一样。一篇结构工整、论证清晰、用词准确的文章，大概率是认真写的。读两段你就能做一个基本判断：这个人想了，花时间了，值得读下去。

AI 让这个判断启发式失效了。

"看起来不错"曾经是一个廉价的筛选工具。你一眼扫过去，完整性差的先淘汰，注意力留给剩下的。但 AI 把完整性的底线抬到了几乎不消耗人类时间的高度。你按一下回车，出来的文章结构完整、逻辑连贯、用词没有明显错误。你再按一下回车，出来的 app 界面看起来像经过了好几轮设计评审。完整性差的东西几乎从信息空间里消失了，所有东西都处在一个"看起来还行"的区间里。下限被拉得太高，以至于**"看起来不错"携带的信息量接近于零。**

这时候你想分出哪些真正值得花时间，就得读。而读需要三样东西：时间、注意力、判断力。

正好是这三样东西都在被系统性地消耗的时候。

内容总量在爆炸。AI 让一个人一天能产出的文本量翻了几个数量级，而这些文本大部分都会进入公共信息空间。以前你一天可能面对十篇新文章，现在可能是五十篇、一百篇。你不可能用同样的仔细程度对待每一篇——你做不到。留给每篇内容的时间在缩减。

而判断力本身也在退化。BCG 和 HBR 2026 年初调查了 1488 名美国员工，14% 的人报告 "AI brain fry"——持续监督和审查 AI 输出导致的精神疲劳超出了认知负荷。工程领域是 18%。这些人的决策疲劳高出 33%，犯重大错误的概率高 39%，离职意愿高 39%。这种疲劳跟传统 burnout 是两回事——用 AI 替代重复劳动，burnout 降了 15%；用 AI 做监督审查，疲劳涨了 12%。消耗来自盯着看，不是来自用 AI。

Zhu 等人 2024 年的实验发现，不标记来源的时候，人区分 AI 文本和人类文本的准确率接近抛硬币。Nature 同年的研究更让人不舒服：手机和社交媒体刷得越多的人，分辨能力越差。暴露不产生训练，产生的是麻木。Sourati 等人 2025 年在 Trends in Cognitive Sciences 上发表的综述证实，Reddit 上、科学论文里、期刊中，文体多样性已经在可测量地下降——AI 文本作为环境噪音，正在不知不觉中重塑人类的表达方式。

所以不是某一个东西出了问题。是三条曲线同时在往不利的方向走：需要分辨的东西在增加，用来分辨的时间在减少，分辨的能力本身在退化。 三条曲线，两条往上，一条往下。

这个处境其实不是全新的。

历史上每一次信息技术的跃迁，都在摧毁某种旧的质量信号。手抄本时代，一本书的存在本身就是信号——抄写一部《圣经》要耗费一个修士一年的时间。印刷术把这个信号废掉了：书不再是稀有物，"这是一本书"不再携带质量信息。人们转而依赖出版商声誉、作者名声、同行评议来筛选。电报和电话让信息传输速度也不再是信号——以前消息灵通需要人脉和资源，后来一个电报就解决了。互联网把分发成本打到了零：以前能出书、能上报纸本身是信号，后来任何人都可以开博客，信号又废了一个。

AI 正在做的事情属于同一个序列：它把"制作成本"这个信号打掉了。以前你觉得"写得还不错"意味着作者花了功夫，现在它不意味着任何事。它只是 AI 输出自带的默认水平。

每次旧信号失效之后，人类都会经历一段混乱期——然后逐渐重建新的筛选机制。出版商声誉用了大约一个世纪才稳定下来。同行评议制度从萌芽到成为学术标配，走了一百多年。互联网时代的社交筛选——看转发者是谁、看评论区质量、看作者历史记录——到现在也还在完善中。我们现在大概处在 AI 信号崩溃的混乱期，离新机制的稳定还有很长的距离。

在这个视角下重新看 AI 味，之前那个直觉是对的，但原因需要修正。

我们抵触 AI 味，不是因为它来自 AI。如果 AI 只负责措辞和结构、内容是你自己想的，你不会那么抵触。你抵触是因为 AI 味在你和内容之间建立了一道墙——它告诉你"这篇文章的表达层面经过了 AI 处理"，然后就没了。它回答不了你真正想问的问题：这篇文章值不值得读。 AI 味携带零信息。

这也能解释为什么我们会怀念人类写作中的小瑕疵。那些别扭的措辞、突兀的转折、段落节奏的突然变化——它们不是审美上的美德。它们曾经是一个成本信号：瑕疵证明作者做了选择，选择证明作者花了心思，心思意味着这里有值得你关注的东西。一个人类写作者反复推敲出来的精炼句子，和一个 AI 在统计上必然产生的简洁句子，外观可能一模一样，信息完全不同。前者告诉你"这个人想了"，后者告诉你"模型算了"。但你看不到这个区别。信号对你不开放。

说回我们自己。

我不觉得每个人都需要对抗这个趋势。你可以在乎，也可以不在乎，取决于你重视什么。但如果你想保持对信息质量的判断力而不是被动地被信息流冲刷，有几件事我在尝试。

第一件事是把"完整性"和"质量"在脑子里解绑。这比听起来难。AI 生成的东西看起来太完整了，大脑会自动把完整性当成质量的代理。我现在看一篇文章、一个 PR、一份设计文档，会刻意问自己一个很笨的问题：如果把它的表达润色到无可挑剔，内容本身还剩下什么？如果答案是"没剩什么"，那再漂亮的表达也只是表达。

第二件事是看选择而不是看正确。AI 输出的核心特征是每句话都正确，但没有一句是必须这么说的。人写的东西相反——会有瑕疵，会有不准确的判断，但某些表达是作者必须这么写的，因为那是他的判断、他真正想强调的东西、他不愿妥协的地方。我现在努力去找那些"不这么说也可以但他偏要这么说"的瞬间。在一个人人都能借助 AI 写出正确表达的年代，选择才是信号。

第三件事最朴素：控制节奏。你不需要对每篇东西投入同等的判断力。事实上你做不到。大部分东西，快速扫一眼就够了。把完整的判断留给那些你愿意押注的人——不是因为他的头衔，是因为他之前写的东西让你相信他值得你花这个时间。

正在写的这篇文章也在同一个困境里。

如果我不告诉你哪些是我想的、哪些是 AI 帮我整理的，你没有办法知道。开头那个关于完整性作为信号的观察，是我在调试 Agent 写作 skill 的过程中慢慢形成的。中间的研究数据是 AI 帮我找的。最后的判断是我推出来的。但我说的这些是不是实话，你无法验证。

所以这篇文章到底值不值得读，最终取决于你愿不愿意相信我。

在内容可以无限生产的世界里，真正稀缺的东西不会因为技术加速而加速。判断力依然稀缺。信任依然稀缺。一个愿意花时间想而不是花时间生成的人，依然稀缺。可能比 AI 出现之前更稀缺了。

我现在还没搞明白的一些事

好内容和坏内容在总量爆炸之后的比例是多少？我直觉上觉得好坏都在增长，但比例不等价——坏内容的增速远高于好内容，因为好内容需要判断力来做最后的筛选，而判断力正在被消耗。我没有任何数据。这个比例有没有自己的均衡点，还是持续恶化？如果趋近于零，好内容在数学上变成任意小的分数，那"寻找好内容"这件事本身就变成非理性的了——跟在大海里找一根特定的针没有区别。

从手工抄写到印刷术，到电报电话，到互联网，每次质量信号被摧毁之后，人类重建筛选机制用了多久？出版商声誉大概一个世纪，同行评议一百多年，社交筛选还在进行中。现在的答案是什么？Substack 式的个人声誉？某种还没出现的东西？我在文章里提了"看署名人的历史记录"，但说实话这太慢了，而且只对持续产出的人有效。一个新人怎么建立信任？一个偶尔写作但有真东西的人怎么被发现？这些我都没有答案。

还有一个关于时间尺度的问题。我刚才说 AI 味携带零信息——但如果未来的人类写作被 AI 长期暴露同化，AI 味会不会反而变成"人类写作"的默认特征？到时候区分人类和 AI 的信号会是什么？有瑕疵、有松动、有个人口癖的文字，会不会反而被算法优化掉，因为它们在统计上被认为是"不够好的表达"？这篇文章可能过三年就没法看了——不是因为结论错了，是因为"完整性"、"质量"、"AI 味"这些词所指向的东西，到那时候可能已经不是我今天在讨论的东西了。

参考文献

Bedard, J. et al. (2026). AI Brain Fry: Managing Cognitive Overload in the Age of Artificial Intelligence. Harvard Business Review. 1488 名美国员工调查，14% 报告 AI brain fry，工程领域 18%，与 33% 更高决策疲劳、39% 更高错误率、39% 更高离职意愿相关。
Zhu, T., Weissburg, I., Zhang, K., & Wang, W. Y. (2024). Human Bias in the Face of AI: Examining Human Judgment Against Text Labeled as AI Generated. arXiv:2410.03723. 无标签时检测准确率接近随机，标签可操控判断。
Nature Scientific Reports (2024). Human intelligence can safeguard against artificial intelligence. 社交媒体和智能手机重度使用者分辨 AI 文本能力更差，暴露产生习惯化而非训练。
Sourati, Z., Ziabari, A. S., & Dehghani, M. (2025). The Homogenizing Effect of Large Language Models on Human Expression. Trends in Cognitive Sciences. 文体多样性在 Reddit、科学写作和期刊中可测量下降，反馈循环具有递归结构。

#我现在还没搞明白的一些事

#参考文献

讨论

讨论

我现在还没搞明白的一些事

参考文献