Deep Dive into LLMs like ChatGPT 视频总结

一、概述（Overview）

本视频是著名 AI 专家 Andrej Karpathy 针对大型语言模型（Large Language Models，简称 LLMs）如 ChatGPT 的深层工作原理进行的全景式技术解密。视频的核心论题指出，当今看似具备魔法般人类智能的 LLMs，其底层本质上是一个基于 Transformer 架构的”下一个 Token 预测器”（Next-Token Predictor）。从最初的原始网页数据抓取，到基础模型的无监督预训练（Pre-training），再到通过有监督微调（Supervised Fine-Tuning, SFT）和基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）向对齐模型的转变，整个大语言模型的构建是一条高度工程化、流水线式的技术路径。视频最终得出结论：虽然当前的 LLMs 已经在推理、编码和数学等”可验证领域”展现出令人惊叹的自发思考潜能（如类比人类在围棋比赛中的创造性突破），但在日常使用中，用户必须深刻理解其缺乏”工作内存”和易发生”幻觉”（Hallucination）的认知缺陷，应将其定位为大幅提升工作效率的协同工具，而非绝对可信的真理实体。

二、按照主题来梳理

3.1 预训练阶段：互联网海量数据的下载与清洗过滤流程

大语言模型构建的第一步也是最基础的一步是预训练阶段（Pre-training Stage），其核心任务是对公开的互联网数据进行无监督的”下载与处理”。Andrej Karpathy 举例并推荐了 Hugging Face 公司开源并精心策划的 Fine Web 数据集。像 OpenAI、Anthropic、Google 等主流大模型厂商在内部都有极其类似的数据集作为底座。在这个阶段，目标是获取海量、高质量、且具备高度多样性的文档，从而让模型内部储备充足的世界知识（World Knowledge）。

原始数据源： 大部分数据最初来源于公共爬虫组织 Common Crawl。该组织自 2007 年以来持续抓取互联网，截至 2024 年已索引了超过 27 亿个网页。
URL 过滤（URL Filtering）： 数据清洗的第一步是应用各种黑名单（Block lists）和域名拦截规则。这一步会直接将包含恶意软件（Malware）、垃圾邮件（Spam）、过度营销、种族歧视、成人色情等低质和有害的内容彻底淘汰出局。
文本提取（Text Extraction）： 由于爬虫抓取回来的都是包含大量标记、样式表（CSS）和脚本的原始 HTML 源码（Raw HTML），因此必须通过复杂的启发式算法（Heuristics）和逻辑，将其中的导航栏、侧边栏和广告剔除，仅保留纯净、高价值的正文文本。
语言过滤（Language Filtering）： 以 Fine Web 为例，它会运行一个语言分类器（Language Classifier）来评估每个网页的语种比例，最终只保留那些英文内容占比超过 65% 的网页。Andrej Karpathy 强调，这是一种权衡和设计抉择（Design Decision），如果一个企业选择大量过滤掉西班牙语、中文等其他语言，其训练出的模型在对应语言上的表现就会大打折扣。
个人隐私信息移除（PII Removal）： 在清洗的最后阶段，算法会自动检测并擦除所有涉及个人可识别隐私的信息（Personally Identifiable Information），例如个人的家庭住址、社会安全号码（Social Security Numbers）或电话号码，确保这些隐私不会泄露给模型。
最终数据规模： 尽管互联网庞大无比，但经过极其严苛和激进的过滤脱水后，最终保留下来的 Fine Web 高质量文本数据集的大小实际上只有大约 44 太字节（44 Terabytes），这个体量甚至可以轻松装进今天的一个民用移动硬盘或几支大容量 U 盘中。

3.2 文本表示与 Token 标记化的底层数学转换机制

通过数据处理得到纯文本后，这些文本作为一维的字符序列，并不能直接输入进只懂数学运算的计算机神经网络中。因此，数据必须经历从字符到数值、再到所谓”Token（标记/词元）“的转换过程。

基础编码（UTF-8 Encoding）： 首先，文本会通过 UTF-8 编码转化为一维的原始比特流。此时，每一个字符都对应一个范围在 0 到 255 之间的字节数值（共有 256 种可能的唯一符号表示）。Andrej Karpathy 建议，为了更直观地理解，可以把这 256 个数值想象成 256 种不同的”Emoji 表情”。
Token 标记化（Tokenization）： 为了让网络处理文本的效率更高，业界引入了字节对编码（Byte Pair Encoding, BPE）等算法。它通过统计和寻找最常连续出现的字节对，逐步把这些频繁组合的片段聚合成一个新的、更长的词根、单词或符号。例如，在业界现代的大模型中，这个容纳所有合法标记的”词表”（Vocabulary）通常会扩大到包含 100,277 种不同 Token 的规模。
嵌入矩阵（Embedding Matrix）： 当文本被切分成 Token 序列后，每个 Token 都会在神经网络中映射为一个高维向量（Vector）。神经网络的入口处存在着一个嵌入矩阵，在这个矩阵里，每一个唯一的 Token 都有其专属的一排数学权重来表达其在多维空间中的基础语义特征。这个变长序列（Variable length，通常在 0 到 8000 甚至更长的上下文窗口内）就是输入 Transformer 神经网络的核心原料。

3.3 Transformer 神经网络预测下一个 Token 的前向与反向训练循环

模型的核心结构是 Transformer 神经网络，它本质上是一个宏大的、由基础数学公式嵌套组合而成的多层网络。

结构流转： Token 的嵌入特征流经网络后，会经过层归一化（Layer Norms）、矩阵乘法（Matrix Multiplications）、自注意力机制（Self-Attention Blocks）以及多层感知机（Multi-Layer Perceptron, MLP Blocks）等模块。所有的参数、中间层权重都在此时参与计算。
输出概率（Output Probability）： 由于词表大小为 100,277，Transformer 的最后一层会精准输出 100,277 个对应的浮点数。经过 Softmax 函数转化后，这些数字代表了每个 Token 作为当前序列下一个续写内容的概率（Probability distribution）。
初始状态与 nudge（微调 nudging 机制）： 在预训练刚刚开始的初始状态下，网络所有的权重参数全都是随机初始化的（Randomly initialized）。此时输入一段文本，模型给出的”下一个预测 Token”全是一团混乱、毫无章法的概率，每个词的期望值都差不多。
梯度更新（Gradient Updates）： 每一次训练，算法会比对当前真实的下一个 Token 和模型预测的概率分布。利用反向传播，对网络所有的权重参数进行极轻微的、针对性的推搡和方向微调（Nudging），从而让真实发生的那个 Token 的预测概率缓慢上升（比如从 1% 上升到 4%）。
参数量级与迭代： 以早期的 GPT-2 模型为例，它包含了 15 亿个权重参数（Parameters）。在训练迭代中，每条更新指令（Update line）都会同时评估和优化训练集中多达 100 万个 Token 的预测效果。通过日以继夜、在数以万亿计的互联网词元上不断重复执行这个”前向预测 - 计算误差 - 反向 nudge 微调”的循环，模型参数最终被锁死在能够完美契合、模拟互联网 pattern（模式规律）的状态，至此，“基础模型（Base Model）“便诞生了。

3.4 基础模型在推理生成阶段的自回归特性与局限性

训练完成的基础模型可以通过”推理（Inference）“过程来生成全新的文本数据，这体现了大语言模型最纯粹的统计预测本色。

自回归生成（Autoregressive Generation）： 推理开始时，输入一小段提示词 Token。模型前向传播一次，输出整个词表上的概率。随后，系统会根据某种随机策略或最高概率策略对这个分布进行采样（Sampling），捕获到一个单一的、高确定性的唯一 Token（例如 Token ID 为 860 的词）。接着，将这个最新生成的 Token 追加（Append）到原有序列的末尾，作为一个全新的整体重新塞回 Transformer 模型的入口。如此循环往复，实现从左到右一步一个 Token 地吐出文章。
基础模型的认知局限： Andrej Karpathy 特别指出了基础模型在推理上的重大心智漏洞。基础模型在生成下一个 Token 时，它花费在每一个 Token 上的数学计算量（Compute per token）是完全恒定、锁死的。无论你要预测的下一个 Token 只是一个简单的标点符号，还是一个需要极其精密的逻辑、复杂的数学心智心算（Mental Arithmetic）才能得出的数学题答案，模型在每一次前向传播中经过的矩阵乘法层数和时间都是绝对一样、一成不变的。这种缺乏”工作内存（Working memory）“和”思考缓冲时间”的底层硬缺陷，导致它在面对高阶复杂推理时，极其容易随机地略过必要的中间步骤，从而直接犯下低级的计算错误或产生漫无边际的”幻觉（Hallucination）“。

3.5 从有监督微调到人类反馈强化学习的”模型对齐”演进

一个仅仅经过预训练的”基础模型（Base Model）“其实并不是一个好用的对话助手。如果你对它输入”请帮我写一首关于春天的诗”，它的第一反应不是帮你写诗，而是将你的输入视作一个互联网网页的开头，顺着这个格式自顾自地往下续写出类似”第二，请帮我检查一下作业；第三，请给我推荐一本书”这样的无意义排比。为了把它改造得像一个听得懂指令的人类对话者，必须经历从有监督微调（Supervised Fine-Tuning, SFT）到强化学习（Reinforcement Learning, RL）的对齐转换。

有监督微调（SFT）： 在这个阶段，大模型厂商会雇佣大量的人类数据标注员（Human Data Labelers）。这些人专门编写大量的”Prompt（提示词） - Response（理想回答）“的高质量完美问答对。随后，将这些人工撰写的、标准答案式的结构化文本作为训练集重新喂给基础模型。模型通过相同的”预测下一个 Token”训练，去强行模仿这些数据标注员的语气、章法和助人习惯。经历 SFT 后，基础模型便蜕变为了”助理模型（Assistant Model）”。
强化学习（RL）与可验证领域（Verifiable Domains）： 在对齐的最前沿（例如 OpenAI 的思考模型系列），强化学习（Reinforcement Learning）正扮演着革命性的角色。在强化学习框架下，模型被赋予了”思考链条（Chains of thought）“的缓冲空间。在最终给出人类可见的答案前，模型可以在一条不公开的内部通道里进行漫长的自我检索、逻辑试错和推导。在诸如数学、编程代码等”可验证领域（Verifiable Domains）“中，系统可以通过环境反馈（如代码是否编译通过、数学公式是否推导相等）给出极高清晰度的奖励或惩罚（Reward Signal）。通过这种在大规模确定性模拟环境下的自发强化，模型在推理深度上产生了惊人的跃迁。它不再仅仅是在模仿、扮演一个普通的数据标注员，而是自发地涌现出（Emergent）甚至连人类都未曾设想过的创新性思考路径或解题类比，这就像当年 AlphaGo 在围棋比赛中下出的、令全人类棋手震惊的”第 37 手”（Move 37）一样，拥有了全新的、破局式的原发创造力。

三、框架与心智模型（Framework & Mindset）

4.1 “下一个 Token 预测器”的底层心智模型（The Next-Token Predictor Mindset）

核心思维转型： 用户在与 ChatGPT 等高级大语言模型交互时，容易在心理上产生一种将对方视作”具有主观意识、情感与完备认知的人类实体”的直觉误区。Andrej Karpathy 强调，要真正掌握这个工具并规避其带来的”明枪暗箭”，必须在脑海中建立起坚不可摧的”下一个 Token 预测器”心智模型。我们需要明白，在每一个输入框（Text box）的背后，并没有一个正在沉思和打草稿的灵魂，而是一个极其复杂的庞大数学概率分布。
运行机制的步骤分解：
- 第一步：序列锁定。 当你向模型发送包含你的 Prompt、先前的对话历史，甚至是模型自己前一秒吐出的字句时，这个一维的 Token 序列即被死死锁定为当前系统前向传播的全局边界条件。
- 第二步：模式检索（Pattern Matching）。 Transformer 结构对该序列进行多层高维度的特征提取与交叉注意力计算，其本质是在数万亿互联网语料锤炼出的万亿级权重参数空间内，寻找并共振出最契合、最合理的统计学统计规律（Pattern）。
- 第三步：概率采样（Sampling）。 系统给出十万多个可能词汇在当下位置出现的概率。通过采样算法，系统抓取一个符合统计学直觉的 Token。在这个模型里，对与错、真与假全部都退化成了数值上的”概率高与低”。
实际应用指导： 在这一心智模型的指导下，当你发现模型表现出愚蠢、胡言乱语或者直接给出完全错误的荒谬结论时，你不需要感到愤怒或沮丧。因为大语言模型从不保证内容的绝对”真实性”，它只保证内容的”统计学合理性”。它是对海量人类互联网行为模式的群体无意识模拟。当给定的提示词模糊不清、或者将模型引导到了互联网语料中充斥着错误和胡说八道的特定概率空间时，模型顺理成章、理直气壮地吐出”幻觉”就是概率论上的必然结果。因此，用户在使用时的首要思维，应当是思考”我该如何优化当前的 Token 上下文输入，才能将模型的预测概率分布强行约束到最高质量、最精确的知识区间内”。

4.2 “计算量配给与思考缓冲”的工程学设计框架（Compute-Per-Token Allocation Framework）

核心思维转型： 这一框架直击大语言模型在推理性能上的深层软肋：传统模型在生成每个 Token 时所配给的计算机矩阵运算量是绝对一成不变、完全卡死的。为了打破这一底层认知缺陷，新一代的模型正在全面转向”允许模型在输出最终答案前进行隐式思考与逻辑演练”的工程学对齐框架。理解这一计算量配给的变化，对于理解和驾驭前沿的”思考型/推理型模型”至关重要。
工程框架的设计步骤：
- 第一步：提示词激发与思考流激活（Triggering Chain of Thought）。 当用户抛出一个极高难度的复杂逻辑挑战、高级数学证明或代码架构设计任务时，模型不再被逼迫着去立刻预测和输出第一个答案 Token。对齐层面的工程机制会首先在暗处激活一段不直接对用户显现的、长篇大论的”思考链（Chains of thought）”。
- 第二步：隐式试错与验证（Verifiable Self-Correction）。 在隐式思考流中，模型通过自我生成的 Token 序列，充当自己的”临时工作内存”。它开始在这个内部沙盒中执行逻辑算术、草稿推演，甚至在运行出矛盾结论时进行自我否定和重头推导。尤其是在数学和代码等可以被严格验证的”可验证领域（Verifiable Domains）“中，通过强化学习沉淀下的奖励信号，模型会像人类解题一样，不断调整和修正自己的思考步骤。
- 第三步：结算与高质量输出（Final Generation）。 只有当内部的隐式思考链条达到某种收敛、完成自洽或耗尽了预设的思考算力配额后，模型才会转过身来，面向用户的前端文本框正式开始”下一个 Token”的回归生成。
实际应用指导： 针对这一框架，用户应当改变以往对待旧大模型的交互习惯。在面对极度困难、多步骤的综合复杂任务时，不要再期望大模型通过一次简单的直觉式单次输出就给出完美无缺的解答。
- 首先，我们要积极利用并主动为模型创造这种”计算量配给”。如果使用的是传统大模型，应当在 Prompt 中使用类似于”请一步步详细思考并列出草稿，在仔细校对后再给出最终答案”等指令，人为地通过显式 Token 序列强行为模型注入”思考缓冲期”与工作内存。
- 其次，在面对最新的原生思考大模型时，应当给予它充足的在后台消耗算力和运转时间的心里预期，并且要明白这些模型最大的优势舞台是在那些有严密对错标准的”可验证领域”（如数学、算法、硬核逻辑证明）。而当面对那些完全无法在逻辑上进行黑白验证的纯创意写作、主观修辞等”不可验证领域”时，强化学习和隐式思考链条究竟能带来多大程度的跨领域泛化增益，在当前整个 AI 业界依然是一个未知的开放性问题（Open Question），因此在这种场景下不应盲目迷信和滥用思考时间。

4.3 “Owning the Product”的效能与责任共担心智模型（Owning the Product Mindset）

核心思维转型： 随着大语言模型在有监督微调和强化学习的加持下表现得越来越完美、流畅、甚至带有权威专家的语气，人类极容易陷入”自动化偏见（Automation Bias）“，进而无条件地信任、直接复制模型生成的任何结果。Andrej Karpathy 在视频的最后部分提出了极其严肃的警告，并构建了”拥有属于你自己的工作成果（Own the product of your work）“这一至关重要的效能协作心智模型。这一模型的精髓在于：LLM 是你职场与创作中无与伦比的高性能催化剂，但它永远只是工具箱里的一件高效工具，它不具备承担任何社会责任、法律责任或逻辑崩塌后果的实体资格。
高效协同与责任绑定的核心步骤：
- 第一步：定位为首稿激发器（First Draft Generator）。 在工作的起始阶段，应把大语言模型视为一个博闻强识但时常粗心大意的”超级实习生”。利用它强大的生成速度和跨领域知识的多样性，去瞬间炸裂灵感、产出初稿、搭建基础的代码骨架、或者批量产出文案的第一版本，以此彻底消灭人类面对空白文档时的拖延与低效。
- 第二步：全量交叉验证与审计（Rigorous Cross-Verification）。 初稿产生后，人类必须立刻从”依赖者”的角色切换为冷酷无情的”主审官”与”代码审计员”。基于大模型会”随机犯下极愚蠢错误、随机漏掉关键心算步骤、随机在常识计数上翻车”的不可预测特性，对其给出的每一个核心数字、关键事实引述、每一行核心算法逻辑，都必须进行全量、人工、独立的交叉核对与验证。
- 第三步：成果所有权签署与最终担责（Owning ownership）。 当成果从你的手中提交、发布、应用到实际业务或发布到外界时，你必须在心理上对这一产出进行绝对的责任绑定。你要确信，这个作品现在的署名是你自己，所有因模型幻觉导致的潜在损失、代码漏洞或版权纷争，后果都将由你完全承担。
实际应用指导： 通过牢固树立这一心智模型，用户在日常工作中就能达到一种近乎完美的平衡境界：你能够每天数十次甚至上百次地疯狂调用 LLM，以此获得 5 到 10 倍的恐怖工作效率跃迁与财富创造（Wealth creation）加速度；但与此同时，因为你心中永远紧绷着一根”严密审计、绝不盲信、我才是作品第一责任人”的防线，你将永远不会因为大模型偶尔出现的、不可避免的随机愚蠢”幻觉”而让自己陷入毁灭性的业务灾难或职场声誉危机中。