第128 章 沈默的优化
⚡ 自动翻页
开启后阅读到底自动进入下一章
⚡ 开启自动翻页更爽
看到章尾自动进入下一章,追书不用一直点。
  会议室里安静了一瞬。
  几个研发人员面面相覷,有人小声嘀咕:
  “反馈路径?那是標准配置啊……”
  沈默没有理会,继续说道:
  “你们用的是时序差分误差作为反馈信號,这是dqn的標准做法。”
  “但你们忽略了一个问题,那就是在这个场景下,环境状態的稀疏性会导致梯度消失。”
  他走到白板前,拿起记號笔,快速画了一个简化的网络结构图。
  “你们看,输入层到隱藏层的连接有四个,但隱藏层到输出层只有两个。”
  “当环境反馈稀疏时,梯度反向传播到隱藏层就已经衰减得差不多了。”
  “所以训练一周,准確率只提升3.7%。”
  他放下笔,看向宋远:
  “解决方案有两个:一是增加隱藏层的残差连接,让梯度有捷径可走;”
  “二是改用ppo算法,用优势函数替代时序差分误差。”
  会议室里瞬间没声音了。
  宋远盯著白板上那张图,眼睛慢慢睁大。