第128 章 沈默的优化

⚡ 自动翻页 开启后阅读到底自动进入下一章
⚡ 开启自动翻页更爽 看到章尾自动进入下一章,追书不用一直点。

  会议室里安静了一瞬。

  几个研发人员面面相覷,有人小声嘀咕:

  “反馈路径?那是標准配置啊……”

  沈默没有理会,继续说道:

  “你们用的是时序差分误差作为反馈信號,这是dqn的標准做法。”

  “但你们忽略了一个问题,那就是在这个场景下,环境状態的稀疏性会导致梯度消失。”

  他走到白板前,拿起记號笔,快速画了一个简化的网络结构图。

  “你们看,输入层到隱藏层的连接有四个,但隱藏层到输出层只有两个。”

  “当环境反馈稀疏时,梯度反向传播到隱藏层就已经衰减得差不多了。”

  “所以训练一周,准確率只提升3.7%。”

  他放下笔,看向宋远:

  “解决方案有两个:一是增加隱藏层的残差连接,让梯度有捷径可走;”

  “二是改用ppo算法,用优势函数替代时序差分误差。”

  会议室里瞬间没声音了。

  宋远盯著白板上那张图,眼睛慢慢睁大。