四个模型，一个问题，截然不同的答案，一次底层分析

一、起点：当对方总是在逃避核心话题

最近很喜欢看抖音王洋律师的切片视频，可以了解到很多有意思的法律纠纷，今天刷评论区看到一个有意思的评论：”xxx是真能说，跟她谈感情，她跟你讲道理。跟她讲道理，她跟你讲感情”。让我想起了我确实也遇到很多类似的沟通问题：想和某人聚焦在某个问题上，对方却不断切换话题、模糊焦点，之前没经验总是追着给对方的角度解释，然后发现沟通起来没完没了，还没有解决方案。

我好奇AI会给我什么建议，于是我把这个问题交给了国内外四个主流大模型：豆包、ChatGPT、Claude、Gemini。

结果令人意外：四个模型的回答，差异之大，几乎像是出自四类完全不同的人。

二、四种截然不同的回答方式

ChatGPT — 犀利分析师

开篇即将对方行为定性为”策略性回避与话语权控制”，用”权力结构””博弈局””防御机制”等词汇，逻辑分三层展开，最终给出四步执行框架。

字数：1500字+
回答逻辑：本质定性 → 指出用户误区 → 分析对方行为模式 → 给策略 → 可执行步骤
语气：理性、冷峻、学术化，像一位不苟言笑的咨询师

豆包 — 共情教练

以”太懂这种感觉了”开场，立即建立情感连接，用”两套逻辑错位”解释现象，提供可直接复制的话术模板，结尾主动邀请用户继续互动。

字数：约800字
回答逻辑：共情 → 归因（她不是杠，是两套逻辑）→ 万能公式 → 话术模板 → 关系判断
语气：温暖、口语化、大量emoji，像一位循循善诱的情感教练

Claude — 简约智者

全篇仅约200字。一句话定性：”她在用规则不对称来赢”。只给三条核心建议，不展开细节，最后引导用户思考这段关系本身是否有意义。

字数：约200字
回答逻辑：本质 → 3条行动建议 → 关系本质反思
语气：冷静、克制、富有哲理，像一位话少但深刻的智者

Gemini — 结构化顾问

进行双重归因（防御机制 + 核心诉求未被满足），引入”元沟通”等心理学概念，提供四种策略组合，明确提出”先给情绪价值，再拉回客观现实”。

字数：约600字
回答逻辑：双重原因分析 → 4种策略（含心理学概念）→ 总结关键 → 邀请深化
语气：专业但不生硬，平衡理论与实践

总结下来，各家大模型的回复特点如下：

ChatGPT：其回复更偏向本质，但往往很难执行。
豆包：提供了很多情绪价值，给出的建议非常适合实战。
Claude：建议同样适合实战，且语言风格比较克制、简单。
Gemini：介于本质和实战之间。虽然本质层面没有像 ChatGPT 那样深刻，但它的本质更多体现在心理分析那一层。

三、为什么会有这些差异？从训练机制说起

我大概了解这些模型训练的底层特点，主要分为预训练、微调和对齐三个阶段。

模型在预训练阶段使用的数据、监督过程中使用的专业数据和用例模板，以及对齐过程中的价值观映射，都会对其最终的回复风格产生影响。

以及这四个模型作为一个有用户使用的产品，也受到了商业激励的影响。

预训练语料（Pre-training Data）
   →  模型的"语言直觉"和词汇偏好
        ↓
SFT 示范数据（Supervised Fine-Tuning）
   →  模型的"回答格式"和"对话结构"
        ↓
RLHF 标注者（Human Feedback）
   →  什么样的回答被认为"好"
        ↓
Constitutional AI / 价值观文件
   →  边界和倾向
        ↓
商业目标（Business Objectives）
   →  以上所有环节的隐性导向

第一层：预训练语料——模型”语言直觉”的来源

预训练阶段，模型”吃”的语料塑造了它默认的语言风格。各大厂商对具体训练数据的配比严格保密，但通过官方技术报告和模型所背靠的商业生态，可以推断出它们在”饮食结构”上的差异——这很可能是它们说话方式差异的底层来源之一。

ChatGPT 在这次测试中呈现出的分析师框架感，需要特别说明：如前文所述，这一结果受到自定义提示词的干预，无法直接归因于训练数据。但从训练数据的角度来看，仍有一个值得注意的结构性事实：根据 OpenAI 发布的 GPT-4 Technical Report，其预训练数据除公开网络内容外，特别纳入了”来自第三方的授权数据”[1]。报告同时展示了 GPT-4 在统一律师资格考试、GRE 和医学执照考试中的高水准表现。一个合理的推论是：为了在这些专业领域达到顶尖表现，预训练语料库中大概率包含了大量学术文献、法律文书和专业报告。这种语料结构，可能使模型形成了偏向结构化论证的默认倾向。

豆包的情感共鸣风格，有一条更清晰的生态线索可循。字节跳动在官方技术资料中披露，豆包大模型深度嵌入了公司内部超过50个业务线，涵盖拥有数亿日活用户的抖音和今日头条[2]。字节跳动在近期的模型发布说明中，也明确将”拟人化情感承接”和”高情商互动”列为核心能力定位。这些公开信息指向一个合理的假说：豆包的训练语料和对齐目标，很可能受到字节内容生态的系统性影响——但这一推断尚未得到官方数据配比层面的直接证实。

Claude 的极简风格，与 Anthropic 在数据质量上的公开取向存在一致性。根据 Claude 3 Model Card，Anthropic 对训练数据进行了严苛的清洗和多轮质量过滤[3]。这种对”信噪比”的重视，与 Claude 回复中字少、克制、信息密度高的特征在方向上吻合——但质量过滤本身是否直接导致了这种风格，目前没有直接证据链。

Gemini 在回答时呈现的多角度结构，与 Google 的数据生态有值得关注的相关性。根据 Google 发布的 Gemini Technical Report，其训练数据依托于 Google 搜索、Google Scholar 和 Google Books 所构建的庞大知识图谱[4]。搜索引擎的数据本身具有”平衡、多维度”的属性，这与 Gemini 倾向于呈现并列视角的输出风格在方向上一致——但同样，这是推断性的相关，而非因果。

第二层：RLHF——标注者的偏好如何嵌入模型

RLHF（从人类反馈中强化学习）是目前被认为对模型”性格”影响最大的训练阶段之一。正如 OpenAI 在 2022 年的 InstructGPT 论文中所披露的，其核心机制是：收集人类标注者的偏好数据，训练一个奖励模型（Reward Model），再用这个奖励模型指导大模型的强化学习[5]。关键问题在于——不同公司招募的标注者群体不同，且背后的对齐目标（Alignment Goal）不同，这在理论上会影响模型被强化的行为方向。

学术界已有研究对标注者背景的影响做出量化分析。ACL 2023 的一项研究通过定量分析表明，标注者的人口统计学背景（包括性别、教育程度等）会影响他们对语言任务的评判标准，进而影响模型的偏置倾向[6]。这一研究证明了”标注者背景影响模型输出”这一机制的存在，但它并未针对这四个具体模型做直接测量。针对 RLHF 局限性的前沿研究也指出：如果标注指南偏好过分礼貌或迎合性的回复，模型就会产生”阿谀奉承（Sycophancy）”现象——奖励模型学会了奖励什么，模型就会趋向什么。

豆包所表现出的情感共鸣风格，与字节跳动的商业逻辑之间存在值得关注的一致性。东方财富证券 2024 年发布的行业深度报告指出，字节跳动的 AI 商业化高度聚焦于”情感表达”与”降低交互门槛”，豆包在产品端也明确强调拟人化情感承接和交互体验[7]。从逻辑上推断，这种商业导向很可能渗透进了 RLHF 阶段的标注指南——但字节跳动尚未公开其标注指南的具体内容，这一推断目前缺乏直接的文本证据。

第三层：价值对齐——公司理念写进训练原则

在这一层，Anthropic 是唯一将核心训练原则全文公开的主要实验室，这使得对 Claude 的分析相对更有直接依据。

2022年12月，Anthropic 发表了 Constitutional AI 论文，提出用”宪法原则”指导模型自我修订，并用 AI 生成的偏好标签做强化学习（RLAIF）[8]。2023年，Anthropic 将这套宪法全文公开，演化为现在的 Model Spec。文件明确将优先级顺序设定为：安全 → 道德 → Anthropic 原则 → 有帮助性，并明确表达不以迎合用户情绪为导向[9]。这是目前四个模型中，训练原则与输出风格之间证据链最完整的一个——因为原则文件本身是公开的，可以直接比对。

OpenAI（ChatGPT） 采用 RLHF 训练，但没有公开等效的训练原则全文，其 Model Spec 的透明度相比 Anthropic 更为有限[5:1]。

豆包和 Gemini 在这一层的公开信息更少，因此文章对这两个模型价值对齐层面的分析主要依赖外部推断，确定性相对较低。

四、总结

4.1 四个模型的回复特点

ChatGPT：其训练哲学倾向于”有用性最大化”
豆包：是”用户留存最大化”的产物
Claude：是”真实帮助而非讨好”的产物
Gemini：是”全面覆盖与工程严谨性”的产物

4.2 各模型适合的任务场景

ChatGPT — 适合深度分析与系统规划

复杂商业问题的结构化拆解
需要系统性执行方案的决策
学术性或专业性强的研究辅助
博弈关系与利益分析

豆包 — 适合情感支持与日常沟通

需要情感共鸣的个人困惑
人际关系中的实战话术
想要现成模板直接使用的场景
日常聊天与轻松互动

Claude — 适合深层反思与哲理探讨

需要被直接点破本质的问题
写作、创作与文本润色
伦理与价值观方面的思考
不需要废话只要核心要点

Gemini — 适合多角度策略与心理学视角

需要从多维度理解一个问题
结合心理学框架的沟通分析
想要同时了解多种处理策略
与 Google 生态深度整合的任务

简单一句话：

要深度，找 ChatGPT

要情绪价值，找豆包

要简约直接准确，找 Claude

要全面，找 Gemini

参考来源

注：本文中关于各公司标注者具体背景构成的描述，属于基于公开训练机制信息的合理推断，相关公司未完整公开其标注人员的人口统计学信息。涉及训练数据和对齐方法的核心论点，均已附有公开学术论文或官方文档链接。

[1] OpenAI. (2023). GPT-4 Technical Report. arXiv:2303.08774. 披露预训练数据来源（含第三方授权数据）及 GPT-4 在专业考试中的表现基准。
https://arxiv.org/abs/2303.08774 ↩︎

[2] 字节跳动 / 火山引擎. (2024–2025). 豆包大模型技术介绍与产品发布资料. 披露豆包与字节内部业务线的集成情况及情感交互能力定位。
火山引擎官方页面：https://www.volcengine.com/product/doubao
豆包实时语音模型发布说明：https://team.doubao.com/zh/special/realtime_voice ↩︎

[3] Anthropic. (2024). The Claude 3 Model Family: Opus, Sonnet, Haiku — Model Card. 官方技术文档，披露预训练数据构成、RLHF 流程与 Constitutional AI 应用。
https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf ↩︎

[4] Google DeepMind. (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv:2312.11805. 披露 Gemini 预训练数据构成，包括网页、书籍、学术文献等多模态语料。
https://arxiv.org/abs/2312.11805 ↩︎

[5] Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. OpenAI, arXiv:2203.02155. InstructGPT 论文，描述 RLHF 三阶段流程（SFT → Reward Model → PPO）。
https://arxiv.org/abs/2203.02155 ↩︎ ↩︎

[6] Pei, J., et al. (2023). When Do Annotator Demographics Matter? Measuring the Influence of Annotator Demographics on Text Classification Tasks. ACL Anthology (ACL 2023 Workshop on Linguistics and Annotation).
https://aclanthology.org/2023.law-1.25.pdf ↩︎

[7] 东方财富证券研究所. (2024). 《AI 商业化的旗手：不止豆包的字节跳动》. 行业深度报告，分析豆包大模型在产品端强调”情感表达”和拟人化情感承接的商业化路径。
https://pdf.dfcfw.com/pdf/H3_AP202412301641472774_1.pdf ↩︎

[8] Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI Feedback. Anthropic, arXiv:2212.08073. Constitutional AI 原始论文，提出 RLAIF 机制。
https://arxiv.org/abs/2212.08073
（Anthropic 官方链接）https://www.anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback ↩︎

[9] Anthropic. (2023–2026). Claude’s Model Spec（宪法 / Soul Document）. 全文公开的训练原则文件，定义 Claude 价值观优先级顺序（安全 > 道德 > Anthropic 原则 > 有帮助性）。
官方 Model Spec：https://www.anthropic.com/claude/model-spec
Soul Document 公开讨论：https://simonwillison.net/2025/Dec/2/claude-soul-document/
LessWrong 分析：https://www.lesswrong.com/posts/mLvxxoNjDqDHBAo6K/claude-s-new-constitution ↩︎

本文采用署名-非商业性使用-相同方式共享 4.0 国际许可协议，转载请注明出处。