🪴 Luckyrand's Garden

Search

❯

❯

柏拉图表征假说

柏拉图表征假说

May 26, 20245 min read

DeepLearning

视频介绍

主持人：大飞
Ilya Sutskever离职后点赞了一篇AI论文，引起广泛关注（这个有点没意思了。关注他发帖也就是了，他点赞也关注，是不是有点过了）。
- https://x.com/phillip_isola/status/1790488966308769951
论文标题：柏拉图表征假说（The Platonic Representation Hypothesis），由MIT团队发表。

柏拉图洞穴寓言

柏拉图提出的思想模型，探讨“现实”的本质。
- 囚犯被锁在洞穴中，只能看到墙壁上的影子，认为影子就是现实。
- 哲学家像获释的囚犯，逐渐明白影子只是现实的投影，不是真实的世界。

柏拉图表征假说

定义：神经网络在不同数据和模态上以不同目标训练，趋向于在表征空间中收敛成一个共享的现实世界统计模型。
简单解释：不同AI模型正在趋向于一个统一的现实表征。
“As we train on more tasks, there are fewer reps that can satisfy all, leading to an Anna Karenina scenario (https://arxiv.org/abs/2106.07682): all strong models are alike, each weak model is weak in its own way.”

论文具体解释

假设现实Z是一个圆锥加圆球。
- X是现实Z的图片模态投影。
- Y是现实Z的文本模态投影。
训练两个AI模型：
- CV模型fimg学习X的表征。
- 文本模型ftext学习Y的表征。
模型参数规模和训练数据扩大后，两个模型会学到X、Y背后的现实Z的表征方式。
结论：足够聪明的AI模型会像走出洞穴的哲学家，理解更高维度的现实。

柏拉图表征假说的推论

不同模态、算法架构的AI模型最终会汇聚到同一个目标，形成对高维现实的准确表征。
表征可以理解为一个现实事件的联合分布，通过多种方式观察和感知。

验证方法

使用数学工具验证假说的有效性。
- 表征对齐（Representation Alignment）：两个表征的核函数相似性度量。
- 模型拼接（Model Stitching）：通过拼接层连接两个模型中间表示层，形成新模型。
  - 若新模型性能良好，原始模型表征兼容。
- 选取78个CV模型进行表征相似度分析。
  - 性能越强的模型，表征相似度越高。

实验结果

柱状图：性能越强的模型，表征相似度越高。
散点图：强大模型聚集，表征相似度高；弱小模型分散，表征相似度低。

柏拉图表征假说的原因

任务通用性
- 多任务目标对模型施加更多约束，表征空间收敛到较小范围。
模型容量
- 模型越大，越容易逼近全局最优表征，实现表征收敛。
- 模型在相同训练目标下，架构不同但模型够大，倾向于收敛到同一最优解。
简单性偏见
- 模型倾向于选择最简单的解决方案。
- 更多参数接近零，关注关键特征，忽略噪声和异常点。

启示

随着模型参数、任务多样性、算力增加，模型表征逐渐收敛趋同。
- Scaling up能实现表征收敛，但效率差异大。
独立任务可单独训练shortcut模型，实现局部最优解。
多模态数据间关系的新视角：
- 训练CV模型时纳入文本数据，有助于模型训练。
- 跨模态数据提升表征收敛效率。

Graph View

视频介绍
柏拉图洞穴寓言
柏拉图表征假说
论文具体解释
柏拉图表征假说的推论
验证方法
实验结果
柏拉图表征假说的原因
启示

Backlinks

No backlinks found

Created with Quartz v4.2.3 © 2024

GitHub
Discord Community