VIDEO
视频介绍
主持人:大飞
Ilya Sutskever离职后点赞了一篇AI论文,引起广泛关注(这个有点没意思了。关注他发帖也就是了,他点赞也关注,是不是有点过了)。
论文标题:柏拉图表征假说(The Platonic Representation Hypothesis),由MIT团队发表。
柏拉图洞穴寓言
柏拉图提出的思想模型,探讨“现实”的本质。
囚犯被锁在洞穴中,只能看到墙壁上的影子,认为影子就是现实。
哲学家像获释的囚犯,逐渐明白影子只是现实的投影,不是真实的世界。
柏拉图表征假说
定义:神经网络在不同数据和模态上以不同目标训练,趋向于在表征空间中收敛成一个共享的现实世界统计模型。
简单解释:不同AI模型正在趋向于一个统一的现实表征。
“As we train on more tasks, there are fewer reps that can satisfy all, leading to an Anna Karenina scenario (https://arxiv.org/abs/2106.07682 ): all strong models are alike, each weak model is weak in its own way.”
论文具体解释
假设现实Z是一个圆锥加圆球。
X是现实Z的图片模态投影。
Y是现实Z的文本模态投影。
训练两个AI模型:
CV模型fimg学习X的表征。
文本模型ftext学习Y的表征。
模型参数规模和训练数据扩大后,两个模型会学到X、Y背后的现实Z的表征方式。
结论:足够聪明的AI模型会像走出洞穴的哲学家,理解更高维度的现实。
柏拉图表征假说的推论
不同模态、算法架构的AI模型最终会汇聚到同一个目标,形成对高维现实的准确表征。
表征可以理解为一个现实事件的联合分布,通过多种方式观察和感知。
验证方法
使用数学工具验证假说的有效性。
表征对齐(Representation Alignment):两个表征的核函数相似性度量。
模型拼接(Model Stitching):通过拼接层连接两个模型中间表示层,形成新模型。
选取78个CV模型进行表征相似度分析。
实验结果
柱状图:性能越强的模型,表征相似度越高。
散点图:强大模型聚集,表征相似度高;弱小模型分散,表征相似度低。
柏拉图表征假说的原因
任务通用性
多任务目标对模型施加更多约束,表征空间收敛到较小范围。
模型容量
模型越大,越容易逼近全局最优表征,实现表征收敛。
模型在相同训练目标下,架构不同但模型够大,倾向于收敛到同一最优解。
简单性偏见
模型倾向于选择最简单的解决方案。
更多参数接近零,关注关键特征,忽略噪声和异常点。
启示
随着模型参数、任务多样性、算力增加,模型表征逐渐收敛趋同。
Scaling up能实现表征收敛,但效率差异大。
独立任务可单独训练shortcut模型,实现局部最优解。
多模态数据间关系的新视角:
训练CV模型时纳入文本数据,有助于模型训练。
跨模态数据提升表征收敛效率。