第21章 你们看懂了吗?
  “就像在平底锅里放了一颗玻璃球,平底锅太平了,球不动,常规做法是倾斜锅底(梯度下降),但是现在锅底卡死了,那么我就在锅里人为製造一个磁场,让球自己旋转起来!
  利用——洛伦兹力逃逸!”
  思路清楚了,齐物开始在latex里输入自己的答案。
  ————
  与此同时,千里之外的杭城。
  阿力八八西溪园区,达摩院ai大模型【九章】的核心研发中心。
  大屏幕上,代表著阿里耗资百亿打造的下一代通用大模型【九章】的训练损失函数(loss曲线),正死死地卡在一个平缓的平台上,犹如一条死去的心电图,已经整整停滯了三个月。
  “还是不行!张总,我们增加了学习率、引入了动量梯度下降,甚至使用了最新的adamw优化器,但是梯度流依然在11维度的张量特徵空间里打转!
  彻底迷失了!”
  高级算法研究员小林无奈地道。
  达摩院首席ai科学家,张宙双手抱在胸前,眉头紧锁,站在屏幕前一言不发。
  这是他从openai跳槽回国之后,开发的第一个大模型,没想到就遭遇了罕见的高位拓扑死锁。
  在超高维度的参数空间里,模型陷入了一个巨大的鞍点陷阱,这就像是一辆汽车开进了一个四周都是平缓高地的盆地,无论怎么踩油门,都找不到冲向真正谷底的下坡路。
  他和达摩院將近百名来自世界各个名校的博士、研究员,奋战了三个月,仍旧找不到那一丝破局的灵感。
  loss降不下来,不仅仅是工程问题了,张宙觉得这是一个纯粹的数学死锁。