Skip to content

大千世界无奇不有,大千AI智探万象

深度解密: 大模型真的会思考吗

当ChatGPT或DeepSeek流畅地回答你的问题,甚至生成JSON、调用工具时,你是否以为它真的在“思考”?

如果你回答 “是” 的话,那么你...

too-young-too-naive

事情的真相是——它只是在玩一场高级的“字符串拼图”游戏。今天,我们深度解密LLM输出的本质,看看它如何把冰冷的数字变成结构化的输出从而实现智能交互。

神经网络

我们知道现在的LLM本质上都是各种复杂的数学公式y = f(x), 底层实现都是各种各样的神经网络(Neural Network),不管是什么架构的神经网络都可以抽象为对输入数据的一种计算变换。

而要想计算,那参与计算的必然是某种量化的可计算的数值,就像1, 2, 3, 1.4, 2.1一样,输出也是一样的。当然神经网络的输入数据和输出数据没有这么简单,而是高维向量。

那为什么我们看到的输出是文本的,怎么办?那就是Embedding干的事情,简单来讲它可以在文本和高维向量之间相互转换。

Embedding

每次的问题在真的被送到LLM时,都需要先进行Embedding,转换为高维向量。而LLM的每一次输出,本质都是高维向量(Embedding)的概率采样。模型接收输入后,在巨大的参数空间里计算下一个词的概率分布,最终输出一串Token ID(如[203, 57281, 3341...]),再解码成人类可读的文本。

从Embedding到文本:LLM的“翻译”过程

  1. 从Embedding到文本:LLM的“翻译”过程 LLM的每一次输出,本质都是高维向量(Embedding)的概率采样。模型接收输入后,在巨大的参数空间里计算下一个词的概率分布,最终输出一串Token ID(如[203, 57281, 3341...]),再解码成人类可读的文本。

关键点:

温度(Temperature):调整输出的随机性,本质是控制概率采样的“激进”程度。

结构化输出:当你要求“返回JSON格式”时,模型其实在预测{、"key"、:等符号的概率,确保语法正确。

一、技术本质:Embedding矩阵的"变形记"

  1. 热力学视角的AI
    "每个LLM输出本质上都是概率空间里的向量漂流——温度系数τ不过是给embedding矩阵加的热噪声"
    (用物理学类比降低理解门槛)

  2. 从数字到文字的魔幻翻译

    • 展示OpenAI API原始响应片段:{"tokens": [203, 57281, 3341...]}
    • 可视化Embedding矩阵→Token→字符的转换过程
      (代码级硬核内容)
  3. 结构化输出的技术黑箱
    "当你要求'用JSON格式回答'时,模型其实在:
    (1) 预测左大括号概率
    (2) 预测'response'键名概率
    (3) 递归生成合规语法结构"
    (逆向工程思维)


二、行业反思:结构化的商业魔法

争议点
"为什么所有AI公司都在强推JSON输出?这本质是:

  • 对传统软件体系的妥协(解析成本↓)
  • 对投资人讲的故事("看!它能对接ERP!")
  • 对技术短板的掩饰(结构化≠真逻辑)"

最新案例
分析Google DeepMind最新论文《Structured Generation as Diffusion Process》如何用扩散模型优化JSON生成(蹭学术热点)


三、实战演示:用Python"解剖"GPT

python
import openai
response = openai.ChatCompletion.create(
    model="gpt-4",
    messages=[{"role": "user", "content": "用JSON输出北京上海GDP对比"}],
    response_format={"type": "json_object"}  # 关键控制参数
)
print(response.choices[0].message.content) 
# 输出:{"cities": [{"name": "北京", "gdp": "4.3万亿"},...]}

(可执行代码增加实操价值)


四、未来畅想:超越字符串的次世代交互

大胆预言
"当多模态embedding成熟时,LLM的输出将是:

  • 直接生成可执行Wasm字节码
  • 输出数学公式的LaTeX+数值计算树
  • 返回3D模型的参数化数据结构"

读者互动
"你认为AI最终会进化出非文本的'原生思维语言'吗?
A) 会,字符串只是过渡
B) 不会,人类文明基于文本
C) 我是AI,我选C"
(制造话题性)


结尾钩子
"下期预告:我们用频谱分析仪抓取LLM推理时的电磁泄漏,发现当它生成'作为AI我无法...'时——功耗骤降30%!这究竟是伦理约束...还是偷懒省电?"
(埋设悬念)


这篇文章融合了:

  1. 技术深度(embedding/JSON生成原理)
  2. 行业批判(商业化包装的真相)
  3. 热点结合(GPT-4o/Google论文)
  4. 互动设计(投票+下期预告)

需要调整任何部分或补充具体技术细节请随时告知。

Last updated:

build with vitepress