首页| 新闻| 江苏| 国内| 国际| 社会| 娱乐| 教育| 旅游| 文化| 美食| 财经| 汽车| 科技| 体育| 健康| 房产| 军事| 地方| 图说| 视界

Uber AI试验室总结「神经进化」研讨:如何应用遗传算法优化网络?

2017-12-21 08:31:33 来源:新 责任编辑: 字体:

原题目:Uber AI实验室总结「神经进化」研究:如何利用遗传算法优化网络?

本文受权转自雷克世界(微信:ROBO_AI)

编译 | 嗯~阿童木呀

现现在,在深度学习领域中,我们通过随机梯度降落(SGD)对具有多个层和数百万个衔接的深度神经网络(DNN)进行惯例训练。许多人以为,SGD所具有的对梯度进行有效训练的能力是它有能力对深度神经网络进行训练的要害所在。然而,在我们早先发布的五篇论文中,我们支撑这样一种新提出的观点,神经进化(neuroevolution)也是一个用于解决强化学习(RL)问题的训练深度神经网络的有效方法,其中,通过进化算法优化神经网络。Uber波及的领域良多,其中机器学习可以改进其操作,而开发一系列涵盖神经进化在内的强有力学习方法将辅助我们实现我们的使命,即开发出更安全、更牢靠的交通解决计划。

遗传算法??用于训练深度神经网络的有效替代方案

使用我们发现的一种新技术来使深度神经网络进化,在这个进程中,我们发现一个极其简单的遗传算法(GA)可以对超过400万个参数的深度卷积网络进行训练,从而使其能够从像素点进行Atari游戏,而且在许多游戏中的性能表现要远超过现代深度强化学习(RL)算法(例如DQN和A3C)或进化策略(ES),与此同时,还因为具有更好的并行化而运行地更快。这个结果是令人惊奇的,我们之所以这样认为是因为,一方面是没有等待这个不是基于梯度的遗传算法能够很好地扩展到如斯大的参数空间中,另一方面是认为在强化学习中使用遗传算法的性能表现是不可能匹配或超出现有技术的。

我们进一步表明,现代遗传算法改良提高了系列遗传算法的能力,例如全新性搜索,也可以在深度神经网络规模下运作,并且可以促进探索以解决诱骗性问题(那些拥有挑战局部最优的问题),这些问题妨碍了诸如Qlearning(DQN)、政策梯度(A3C)、进化策略和遗传算法等嘉奖最大化算法。

左:GA策略在Frostbite游戏中得到了10500分,而DQN、A3C、ES等得分不足1000分。

右:GA策略在Asteroids游戏中表现十分好,均匀分超过了DQN和ES,但不迭A3C。

通过梯度计算实现安全突变

在一篇论文中,我们将展现梯度是如何与神经进化相结合,以提高进化循环和极其深的深度神经网络的能力,实现了超过一百层的深度神经网络的进化,这要远远超过以前通过神经进化实现的程度。我们通过计算网络输出绝对于权重的梯度(即,不同于传统深度学习中的误差梯度)来实现这一点,使得随机突变的校准可以更精致地对最敏感的参数进行处置,从而解决大型网络中随机突变的重要问题。

两个动画分辨显示了一个解决迷宫问题的单一网络中的一组变异(从左下角到左上角),畸形渐变大多不能达到终点,而保险突变很大水平上保存了这种才能,同时还发生了多样性,这阐明平安变异存在明显的上风。

进化策略(ES)如何与随机梯度下降(SGD)相关系?

在一篇论文中,我们对OpenAI的一个团队首次提出的一个发明做出了弥补,神经元进化的进化策略多样性可以在深度强化学习任务上有效优化深度神经网络。然而,迄今为止,走进白宫的中国黑科技!霎时解决70亿人的需要!,这个结果的更为普遍的影响依然受到质疑。基于进化策略,为了进前进一步探索,【必看】洗完澡热水器要不要关掉 看完才晓得电费白交了!,我们通过一个全面的研究,深刻懂得了ES与SGD的关联,研究了ESIST梯度近似与MNIST数据集上由SGD计算的每个小批量的最佳梯度的近似程度,以及这个近似值所必需要表现良好的程度。结果证实,假如供给足够的计算来改良其梯度近似,ES可以在MNIST上到达99%的准确度,这暗示了为什么ES将越来越成为深度强化学习中的一个强有力的竞争者,其中,在并行计算增长的情形下,不任何方法可以取得完善的梯度信息。

ES不仅仅是传统的有限差分法(finite differences)

为了加强进一步的理解,经同行业研究证明,ES(具有足够大的干扰大小参数)的行动与SGD不同,因为它优化的是由概率散布所描写的策略的预期奖励(搜索空间中的一片云),而SGD优化的是单一策略的奖励(搜索空间中的一个点)。这种变更使得ES拜访搜索空间的不同区域,无论好坏(这两种情况都有相干说明)。对参数干扰总体进行优化的另一个结果是,ES获得了不是通过SGD获得的鲁棒性属性。强调ES在参数总体上所进行的优化,也就强调了ES和贝叶斯方法之间的有趣接洽。

由TRPO学习的步行者权重引发的随机烦扰,导致它与由ES进化出来的雷同品质步行者发生的随机干扰比拟,步态显明更不稳固。原始的步行者位于每个九宫格中央。

传统有限差分(梯度下降)不能逾越低适应性的窄通道,而ES能够轻松跨越它,在右侧找到一个更高的适应性。

当高适应性路径通道时,ES停止不前;而传统的有限差分(梯度下降)毫无犹豫地穿过了相同的门路。这与上面的视频一起显示出了两种方法的差别和折中。

改善ES中的探索(exploration)

有关深度神经进化的一个令人高兴的成果是,之前为神经进化开发的工具聚集当初已经成为增强深度神经网络练习的备选方式。咱们通过引入一种新的方法来探索这种可能性,这种方法将ES的优化能力和可扩大性与神经进化的奇特办法??通过鼓励不同的智能体的不同表现来增进在强化学习范畴的探索。这种基于群体的探索与强化学习中的单一智能体传统不同,[TC IDEA案例]海岸环庆大厦导视体系设计,包括最近在深度强化学习中的探索。我们的试验显示,增添这种新的探索方法,能够在很多须要摸索以防止诈骗性的部分最优化域中进步ES的机能表示,包含一些Atari游戏和Mujoco模仿器中的类人动作义务。

使用我们的超参数,ES很快收敛于局部最优,而没有考虑氧气(oxygen),因为这样做临时废弃了失掉奖励。然而,通过探索,智能体学会了寻找氧气,从而在将来获得更高的奖励。值得留神的是,Salimans等人在2017年没有讲演,使用超参数,ES碰到了这个特别的局部优化,但是没有探索的那个点可能会被无穷期地困在局部最优(而探索则能够赞助它解脱窘境),正如我们的论文所显示的那样。

智能体的任务是尽量向前跑,而ES则永远都学不会避开这个陷阱,然而,有了探索的压力,其中的一个智能体学会了在陷阱中寻找前途。

论断

总而言之,对那些有兴致转向深度网络的神经进化的研讨职员来说,有多少个主要的斟酌因素:首先,这些类型的实验较之前需要更多的计算;对于这些新论文中的实验,在每次运行中,我们常常应用数百甚至数千个同步CPU。然而,对更多CPU或GPU的渴求不应被视为一种累赘;从久远来看,将进化扩展到大范围并行盘算核心的简略性象征着,神经进化可能最有利于应用行将到来的世界。

新的结果与以前在低维度神经进化中所察看到的结果大有不同,它们有效地颠覆了多年的直觉,特殊是高维度的搜索的影响上。正如在深度学习中发现的那样,考虑到某种庞杂性,搜索仿佛实际上在高维度方面变得更加轻易,因为它不易受局部最优的影响。固然深度学习领域熟习这种思维方式,但它的含意才刚开端在神经进化中被懂得。

神经进化的再度呈现是一个很好的例子,解释旧算法与古代计算量的联合可以很好地施展作用。神经进化的可行性是有趣的,由于在神经进化社区开发出的许多技巧可能即刻在深度神经网络规模上得到利用,每个技术提供不同的工具以解决那些具备挑衅性的问题。此外,正如我们的论文所显示的,神经进化搜寻与SGD不同,因而机器学习工具箱中提供了有趣的可替代方法。我们想晓得,深度神经进化是否会像深度学习一样阅历振兴。如果是这样的话,那么2017年可能就标记着这个时期的开始,而今后会产生什么,且刮目相待!

以下是我们宣布的五篇论文链接,有兴趣的读者可以点击链接查看详情:

《深度神经进化:遗传算法是强化学习顶用于训练深度神经网络的一种有效可替换方法》,链接:http://eng.uber.com/wpcontent/uploads/2017/12/deepgaarxiv.pdf

《通过输出梯度对深度跟轮回神经网络进行安全突变》,链接:http://eng.uber.com/wpcontent/uploads/2017/12/arxivsm.pdf

《对于OpenAI进化策略和随机梯度降低之间的关系》,链接:http://eng.uber.com/wpcontent/uploads/2017/12/ES_SGD.pdf

《进化策略不仅仅是一个传统的有限差分近似》,链接:http://eng.uber.com/wpcontent/uploads/2017/12/arxivfd.pdf

《通过一群寻找新奇事物的智能体来改进对深度强化学习中进化策略的探索》,链接:http://eng.uber.com/wpcontent/uploads/2017/12/improvingesarxiv.pdf

原文起源 | Uber Engineering

作者 | Kenneth O. Stanley、Jeff Clune

  • 新闻
  • 地方
  • 教育
  • 旅游
  • 财经
  • 汽车
  • 房产
关于本站 | 广告服务 | 免责申明 | 招聘信息 | 联系我们 |
桤泉新闻网 版权所有,未经书面授权禁止使用