谷歌最新的PlaNet对强化学习以及迁移学习的意义及启发

情感导师 7127

 添加导师微信MurieL0304

获取更多爱情挽回攻略 婚姻修复技巧 恋爱脱单干货

在自主嵌入式系统中,减少现实世界中采取的行动量和学习政策所需的能量通常至关重要。从高维图像表示中训练强化学习代理可能非常昂贵且耗时。自动编码器是深度神经网络,用于将像素化图像等高维数据压缩成小的潜在表示。

要想跑步先学会走路

如今,迁移学习在机器学习社区中风靡一时。

迁移学习是Google,Salesforce,IBM和Azure提供的许多托管AutoML服务的基础。现在关于最新的研究NLP -从transformers(谷歌的双向编码器交涉出现BERT)模型,到塞巴斯蒂安罗德和杰里米·霍华德的通用语言模型微调进行文本分类。

谷歌最新的PlaNet对强化学习以及迁移学习的意义及启发

正如塞巴斯蒂安在他的文章中写道,“ NLP的ImageNet时刻已经到来 ”

这些作品通过展示预训练语言模型可用于在各种NLP任务上实现最先进的结果而成为 头条新闻。这些方法预示着一个分水岭:它们可能会像预训练的ImageNet模型对计算机视觉一样对NLP产生广泛的影响。

我们也开始看到可以使用跨域迁移学习处理多个任务的神经网络示例。Paras Chopra为一个PyTorch网络提供了一个很好的教程,可以根据文本描述进行图像搜索,搜索类似的图像和文字,并为图像写下标题。

迁移学习能否在强化学习中应用?

与其他机器学习方法相比,深度强化学习因数据饥饿而受到称赞,其学习过程中存在不稳定性,以及在性能方面落后。我们已经看到应用强化学习的主要领域和用例是游戏或机器人-这就是可以产生大量模拟数据的场景。

与此同时,许多人认为强化学习仍然是实现人工智能(AGI)最可行的方法。然而,强化学习不断突然反对在不同环境中推广到许多任务的能力-这是智能的关键属性。

毕竟,学习并不是一件容易的事。当这些环境既具有高维感觉输入又不具有进展,奖励或成功的概念或极度延迟的概念时,这些强化学习代理必须处理并获得其环境的有效表示。最重要的是,他们必须使用这些信息将过去的经验概括为新的情况。

到目前为止,强化学习技术和研究主要集中在掌握个人任务上。我很有兴趣看迁移学习是否有助于强化学习研究达到普遍性 - 所以当Google AI团队今年早些时候发布深度规划网络(PlaNet)代理时,我感到非常兴奋。

在PlaNet背后

对于该项目,PlaNet代理的任务是“规划”一系列动作,以实现像杆平衡这样的目标,教导虚拟实体(人或猎豹)走路,或通过在特定位置击打它来保持盒子旋转。

深度规划网络(PlaNet)代理必须执行的六个任务的概述。

从最初的Google AI博客文章介绍PlaNet,这里有六个任务:

Cartpole Balance:从平衡位置开始,代理必须快速识别以保持杆位Cartpole Swingup:使用固定的摄像头,因此推车可以移出视线。因此,代理必须吸收并记住多个帧的信息。Finger Spin:需要预测两个独立的对象,以及它们之间的交互。Cheetah Run:包括难以准确预测的地面接触,需要一个能预测多种可能未来的模型。Cup Catch:只有在球被抓住时才会提供稀疏的奖励信号。这需要在未来很准确的预测,以规划精确的行动序列。Walker Walk:模拟机器人躺在地上开始,必须先学会站起来然后走路。PlaNet需要实现这些任务之间的一些共同目标:

代理需要预测各种可能的未来代理需要根据最近操作的结果/奖励更新计划代理需要在很多时间步骤中保留信息那么Google AI团队是如何实现这些目标的呢?

PlaNet AI

PlaNet AI以三种不同的方式标志着与传统强化学习的背离:

使用潜在动力学模型学习--PPNet从一系列隐藏或潜在状态而不是图像中学习,以预测潜在状态向前发展。基于模型的计划 - PlaNet在没有策略网络的情况下工作,而是基于持续计划做出决策。迁移学习 - Google AI团队训练了一个PlaNet代理,以解决所有六种不同的任务。让我们深入研究这些差异化中的每一个,看看它们如何影响模型性能。

潜在动力学模型

作者在这里的主要决定是使用紧凑的潜在状态还是来自环境的原始感官输入。

这里有一些权衡。使用紧凑的潜在空间意味着额外的难度提升,因为现在代理人不仅必须学会打败游戏,还必须建立对游戏中视觉概念的理解 - 这种编码和图像解码需要大量计算。

使用紧凑潜状态空间的关键好处是它允许代理学习更多抽象表示,如对象的位置和速度,并避免生成图像。这意味着实际规划要快得多,因为代理只需要预测未来的奖励而不是图像或场景。

潜在动力学模型现在更常用,因为研究人员认为“ 同时训练潜在动力学模型并结合提供的奖励将产生对与奖励信号相关的变异因素敏感的潜在嵌入,并且对模拟的外来因素不敏感训练期间使用的环境。”

学习潜在动力学模型 - 编码器网络(灰色梯形)不是直接使用输入图像,而是将图像信息压缩为隐藏状态(绿色圆圈)。然后使用这些隐藏状态来预测未来图像(蓝色梯形)和奖励(蓝色矩形)。

他们指出:

在自主嵌入式系统中,减少现实世界中采取的行动量和学习政策所需的能量通常至关重要。从高维图像表示中训练强化学习代理可能非常昂贵且耗时。自动编码器是深度神经网络,用于将像素化图像等高维数据压缩成小的潜在表示。

基于模型的计划与无模型

基于模型的强化学习试图让代理人了解世界的一般行为。这不是直接将观察映射到行动,而是允许代理人明确地提前计划,通过“想象”他们的长期结果来更仔细地选择行动。采用基于模型的方法的好处是它的样本效率更高 - 这意味着它不会从头开始学习每个新任务。

查看无模型和基于模型的强化学习之间差异的一种方法是查看我们是否针对最大奖励或最低成本进行优化(无模型=最大奖励,而基于模型=最低成本)。

像使用Policy Gradients这样的无模型强化学习技术可以是强力解决方案,最终发现正确的行为并将其内化到策略中。政策梯度实际上必须经历积极的回报,并经常经历它,以便最终并缓慢地将政策参数转向重复给予高回报的动作。

一个有趣的注意事项是任务类型如何影响您可能选择采用的方法。在Andrej Kaparthy描述了Policy Gradients可以击败人类的游戏/任务:

“有很多游戏政策梯度很容易打败人类。特别是,任何需要精确游戏,快速反应和不太长期规划的频繁奖励信号都是理想的,因为奖励和行动之间的这些短期相关性可以通过该方法轻松“注意到”,并且执行得到政策的精心完善。你可以在我们的Pong代理中看到已经发生过这种情况的提示:它开发了一种策略,它等待球,然后迅速破折,以便在边缘捕获它,快速启动它并具有高垂直速度。代理人连续几次重复此策略。有许多ATARI游戏,其中Deep Q Learning以这种方式破坏人类基线表现 - 例如弹球,突围等。"

迁移学习

在第一场比赛之后,PlaNet特工已经对重力和动力学有了基本的了解,并且能够在下一场比赛中重复使用知识。因此,PlaNet的效率通常比从头开始学习的技术高50倍。这意味着代理只需要查看动画的五个帧(实际上是1/5秒的镜头)就能够以非常高的精度预测序列将如何继续。在实施方面,这意味着团队无需训练六个单独的模型来实现任务的可靠性能。

来自论文:“PlaNet解决了各种基于图像的控制任务,在最终性能方面与先进的无模型代理竞争,平均数据效率提高了5000%......这些学习动态可以独立于任何特定任务,因此有可能很好地迁移到环境中的其他任务"

查看PlaNet对D4PG的惊人数据效率增益,仅有2,000集:

从论文中可以看出:PlaNet在所有任务上明显优于A3C,并且达到接近D4PG的最终性能,同时平均与环境的交互减少5000%。

除了这些测试表现与收集的剧集数量(PlaNet是蓝色)的情节:

图来自PlaNet论文,将PlaNet与无模型算法进行比较。

这些令人难以置信的令人兴奋的结果意味着数据高效和普遍强化学习的新时代。

评论列表

头像
2023-11-27 04:11:04

有情感误区能找情感机构有专业的老师指导,心情也好多了

头像
2023-09-23 23:09:44

被拉黑了,还有希望么?

头像
2023-06-13 13:06:55

可以帮助复合吗?

头像
2023-06-07 07:06:56

可以帮助复合吗?

 添加导师微信MurieL0304

获取更多爱情挽回攻略 婚姻修复技巧 恋爱脱单干货

发表评论 (已有4条评论)