一、起点:当对方总是在逃避核心话题
最近很喜欢看抖音王洋律师的切片视频,可以了解到很多有意思的法律纠纷,今天刷评论区看到一个有意思的评论:”xxx是真能说,跟她谈感情,她跟你讲道理。跟她讲道理,她跟你讲感情”。让我想起了我确实也遇到很多类似的沟通问题:想和某人聚焦在某个问题上,对方却不断切换话题、模糊焦点,之前没经验总是追着给对方的角度解释,然后发现沟通起来没完没了,还没有解决方案。
我好奇AI会给我什么建议,于是我把这个问题交给了国内外四个主流大模型:豆包、ChatGPT、Claude、Gemini。
结果令人意外:四个模型的回答,差异之大,几乎像是出自四类完全不同的人。
二、四种截然不同的回答方式
ChatGPT — 犀利分析师
开篇即将对方行为定性为”策略性回避与话语权控制”,用”权力结构””博弈局””防御机制”等词汇,逻辑分三层展开,最终给出四步执行框架。
- 字数:1500字+
- 回答逻辑:本质定性 → 指出用户误区 → 分析对方行为模式 → 给策略 → 可执行步骤
- 语气:理性、冷峻、学术化,像一位不苟言笑的咨询师
豆包 — 共情教练
以”太懂这种感觉了”开场,立即建立情感连接,用”两套逻辑错位”解释现象,提供可直接复制的话术模板,结尾主动邀请用户继续互动。
- 字数:约800字
- 回答逻辑:共情 → 归因(她不是杠,是两套逻辑)→ 万能公式 → 话术模板 → 关系判断
- 语气:温暖、口语化、大量emoji,像一位循循善诱的情感教练
Claude — 简约智者
全篇仅约200字。一句话定性:”她在用规则不对称来赢”。只给三条核心建议,不展开细节,最后引导用户思考这段关系本身是否有意义。
- 字数:约200字
- 回答逻辑:本质 → 3条行动建议 → 关系本质反思
- 语气:冷静、克制、富有哲理,像一位话少但深刻的智者
Gemini — 结构化顾问
进行双重归因(防御机制 + 核心诉求未被满足),引入”元沟通”等心理学概念,提供四种策略组合,明确提出”先给情绪价值,再拉回客观现实”。
- 字数:约600字
- 回答逻辑:双重原因分析 → 4种策略(含心理学概念)→ 总结关键 → 邀请深化
- 语气:专业但不生硬,平衡理论与实践
总结下来,各家大模型的回复特点如下:
ChatGPT:其回复更偏向本质,但往往很难执行。
豆包:提供了很多情绪价值,给出的建议非常适合实战。
Claude:建议同样适合实战,且语言风格比较克制、简单。
Gemini:介于本质和实战之间。虽然本质层面没有像 ChatGPT 那样深刻,但它的本质更多体现在心理分析那一层。
三、为什么会有这些差异?从训练机制说起
我大概了解这些模型训练的底层特点,主要分为预训练、微调和对齐三个阶段。
模型在预训练阶段使用的数据、监督过程中使用的专业数据和用例模板,以及对齐过程中的价值观映射,都会对其最终的回复风格产生影响。
以及这四个模型作为一个有用户使用的产品,也受到了商业激励的影响。
1 | 预训练语料(Pre-training Data) |
第一层:预训练语料——模型”语言直觉”的来源
预训练阶段,模型”吃”的语料塑造了它默认的语言风格。各大厂商对具体训练数据的配比严格保密,但通过官方技术报告和模型所背靠的商业生态,可以推断出它们在”饮食结构”上的差异——这很可能是它们说话方式差异的底层来源之一。
ChatGPT 在这次测试中呈现出的分析师框架感,需要特别说明:如前文所述,这一结果受到自定义提示词的干预,无法直接归因于训练数据。但从训练数据的角度来看,仍有一个值得注意的结构性事实:根据 OpenAI 发布的 GPT-4 Technical Report,其预训练数据除公开网络内容外,特别纳入了”来自第三方的授权数据”[1]。报告同时展示了 GPT-4 在统一律师资格考试、GRE 和医学执照考试中的高水准表现。一个合理的推论是:为了在这些专业领域达到顶尖表现,预训练语料库中大概率包含了大量学术文献、法律文书和专业报告。这种语料结构,可能使模型形成了偏向结构化论证的默认倾向。
豆包的情感共鸣风格,有一条更清晰的生态线索可循。字节跳动在官方技术资料中披露,豆包大模型深度嵌入了公司内部超过50个业务线,涵盖拥有数亿日活用户的抖音和今日头条[2]。字节跳动在近期的模型发布说明中,也明确将”拟人化情感承接”和”高情商互动”列为核心能力定位。这些公开信息指向一个合理的假说:豆包的训练语料和对齐目标,很可能受到字节内容生态的系统性影响——但这一推断尚未得到官方数据配比层面的直接证实。
Claude 的极简风格,与 Anthropic 在数据质量上的公开取向存在一致性。根据 Claude 3 Model Card,Anthropic 对训练数据进行了严苛的清洗和多轮质量过滤[3]。这种对”信噪比”的重视,与 Claude 回复中字少、克制、信息密度高的特征在方向上吻合——但质量过滤本身是否直接导致了这种风格,目前没有直接证据链。
Gemini 在回答时呈现的多角度结构,与 Google 的数据生态有值得关注的相关性。根据 Google 发布的 Gemini Technical Report,其训练数据依托于 Google 搜索、Google Scholar 和 Google Books 所构建的庞大知识图谱[4]。搜索引擎的数据本身具有”平衡、多维度”的属性,这与 Gemini 倾向于呈现并列视角的输出风格在方向上一致——但同样,这是推断性的相关,而非因果。
第二层:RLHF——标注者的偏好如何嵌入模型
RLHF(从人类反馈中强化学习)是目前被认为对模型”性格”影响最大的训练阶段之一。正如 OpenAI 在 2022 年的 InstructGPT 论文中所披露的,其核心机制是:收集人类标注者的偏好数据,训练一个奖励模型(Reward Model),再用这个奖励模型指导大模型的强化学习[5]。关键问题在于——不同公司招募的标注者群体不同,且背后的对齐目标(Alignment Goal)不同,这在理论上会影响模型被强化的行为方向。
学术界已有研究对标注者背景的影响做出量化分析。ACL 2023 的一项研究通过定量分析表明,标注者的人口统计学背景(包括性别、教育程度等)会影响他们对语言任务的评判标准,进而影响模型的偏置倾向[6]。这一研究证明了”标注者背景影响模型输出”这一机制的存在,但它并未针对这四个具体模型做直接测量。针对 RLHF 局限性的前沿研究也指出:如果标注指南偏好过分礼貌或迎合性的回复,模型就会产生”阿谀奉承(Sycophancy)”现象——奖励模型学会了奖励什么,模型就会趋向什么。
豆包所表现出的情感共鸣风格,与字节跳动的商业逻辑之间存在值得关注的一致性。东方财富证券 2024 年发布的行业深度报告指出,字节跳动的 AI 商业化高度聚焦于”情感表达”与”降低交互门槛”,豆包在产品端也明确强调拟人化情感承接和交互体验[7]。从逻辑上推断,这种商业导向很可能渗透进了 RLHF 阶段的标注指南——但字节跳动尚未公开其标注指南的具体内容,这一推断目前缺乏直接的文本证据。
第三层:价值对齐——公司理念写进训练原则
在这一层,Anthropic 是唯一将核心训练原则全文公开的主要实验室,这使得对 Claude 的分析相对更有直接依据。
2022年12月,Anthropic 发表了 Constitutional AI 论文,提出用”宪法原则”指导模型自我修订,并用 AI 生成的偏好标签做强化学习(RLAIF)[8]。2023年,Anthropic 将这套宪法全文公开,演化为现在的 Model Spec。文件明确将优先级顺序设定为:安全 → 道德 → Anthropic 原则 → 有帮助性,并明确表达不以迎合用户情绪为导向[9]。这是目前四个模型中,训练原则与输出风格之间证据链最完整的一个——因为原则文件本身是公开的,可以直接比对。
OpenAI(ChatGPT) 采用 RLHF 训练,但没有公开等效的训练原则全文,其 Model Spec 的透明度相比 Anthropic 更为有限[5:1]。
豆包 和 Gemini 在这一层的公开信息更少,因此文章对这两个模型价值对齐层面的分析主要依赖外部推断,确定性相对较低。
四、总结
4.1 四个模型的回复特点
- ChatGPT:其训练哲学倾向于”有用性最大化”
- 豆包:是”用户留存最大化”的产物
- Claude:是”真实帮助而非讨好”的产物
- Gemini:是”全面覆盖与工程严谨性”的产物
4.2 各模型适合的任务场景
ChatGPT — 适合深度分析与系统规划
- 复杂商业问题的结构化拆解
- 需要系统性执行方案的决策
- 学术性或专业性强的研究辅助
- 博弈关系与利益分析
豆包 — 适合情感支持与日常沟通
- 需要情感共鸣的个人困惑
- 人际关系中的实战话术
- 想要现成模板直接使用的场景
- 日常聊天与轻松互动
Claude — 适合深层反思与哲理探讨
- 需要被直接点破本质的问题
- 写作、创作与文本润色
- 伦理与价值观方面的思考
- 不需要废话只要核心要点
Gemini — 适合多角度策略与心理学视角
- 需要从多维度理解一个问题
- 结合心理学框架的沟通分析
- 想要同时了解多种处理策略
- 与 Google 生态深度整合的任务
简单一句话:
要深度,找 ChatGPT
要情绪价值,找豆包
要简约直接准确,找 Claude
要全面,找 Gemini
参考来源
注:本文中关于各公司标注者具体背景构成的描述,属于基于公开训练机制信息的合理推断,相关公司未完整公开其标注人员的人口统计学信息。涉及训练数据和对齐方法的核心论点,均已附有公开学术论文或官方文档链接。
[1] OpenAI. (2023). GPT-4 Technical Report. arXiv:2303.08774. 披露预训练数据来源(含第三方授权数据)及 GPT-4 在专业考试中的表现基准。
https://arxiv.org/abs/2303.08774 ↩︎
[2] 字节跳动 / 火山引擎. (2024–2025). 豆包大模型技术介绍与产品发布资料. 披露豆包与字节内部业务线的集成情况及情感交互能力定位。
火山引擎官方页面:https://www.volcengine.com/product/doubao
豆包实时语音模型发布说明:https://team.doubao.com/zh/special/realtime_voice ↩︎
[3] Anthropic. (2024). The Claude 3 Model Family: Opus, Sonnet, Haiku — Model Card. 官方技术文档,披露预训练数据构成、RLHF 流程与 Constitutional AI 应用。
https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf ↩︎
[4] Google DeepMind. (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv:2312.11805. 披露 Gemini 预训练数据构成,包括网页、书籍、学术文献等多模态语料。
https://arxiv.org/abs/2312.11805 ↩︎
[5] Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. OpenAI, arXiv:2203.02155. InstructGPT 论文,描述 RLHF 三阶段流程(SFT → Reward Model → PPO)。
https://arxiv.org/abs/2203.02155 ↩︎ ↩︎
[6] Pei, J., et al. (2023). When Do Annotator Demographics Matter? Measuring the Influence of Annotator Demographics on Text Classification Tasks. ACL Anthology (ACL 2023 Workshop on Linguistics and Annotation).
https://aclanthology.org/2023.law-1.25.pdf ↩︎
[7] 东方财富证券研究所. (2024). 《AI 商业化的旗手:不止豆包的字节跳动》. 行业深度报告,分析豆包大模型在产品端强调”情感表达”和拟人化情感承接的商业化路径。
https://pdf.dfcfw.com/pdf/H3_AP202412301641472774_1.pdf ↩︎
[8] Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI Feedback. Anthropic, arXiv:2212.08073. Constitutional AI 原始论文,提出 RLAIF 机制。
https://arxiv.org/abs/2212.08073
(Anthropic 官方链接)https://www.anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback ↩︎
[9] Anthropic. (2023–2026). Claude’s Model Spec(宪法 / Soul Document). 全文公开的训练原则文件,定义 Claude 价值观优先级顺序(安全 > 道德 > Anthropic 原则 > 有帮助性)。
官方 Model Spec:https://www.anthropic.com/claude/model-spec
Soul Document 公开讨论:https://simonwillison.net/2025/Dec/2/claude-soul-document/
LessWrong 分析:https://www.lesswrong.com/posts/mLvxxoNjDqDHBAo6K/claude-s-new-constitution ↩︎