DeepMind最新的AI无需掌握游戏规则即可掌握游戏-win7旗舰版

当前位置：首页 >系统安装教程 > 办公教程 >

DeepMind最新的AI无需掌握游戏规则即可掌握游戏

更新时间：2020-12-29 09:01:42 阅读：200 作者：残月

在2016年，Alphabet的DeepMind与AlphaGo一起问世，该AI一直领先于人类最佳Go玩家。一年后，该子公司继续完善其工作，创建了AlphaGo Zero。它的前身通过观察业余比赛和专业比赛学会了围棋，而AlphaGo Zero通过简单地与自己对战来掌握古代游戏。然后，DeepMind创建了AlphaZero，该AlphaZero可以通过单一算法玩围棋，象棋和将棋。将所有这些AI捆绑在一起的是，他们知道在训练中必须掌握的游戏规则。DeepMind的最新AI MuZero不需要被告知去棋，下棋，将棋和一套Atari游戏的规则即可掌握。取而代之的是，它独自学习了它们，并且与DeepMind以前的任何算法一样，有能力或更胜一筹。

DeepMind最新的AI无需掌握游戏规则即可掌握游戏

创建一种可以适应一种情况的算法是AI研究人员尝试解决的一个挑战，该算法虽然不了解控制仿真的所有规则，但仍然可以找到规划成功的方法。DeepMind一直尝试使用称为超前搜索的方法来解决该问题。使用这种方法，算法将考虑未来状态以计划行动计划。解决这个问题的最好方法是考虑如何玩象棋或星际争霸II这样的策略游戏。在采取行动之前，您将考虑对手的反应并尝试做出相应的计划。以几乎相同的方式，利用前瞻方法的AI将尝试预先计划几个动作。即使是像国际象棋这样相对简单的游戏，也无法考虑所有可能的未来状态，因此AI会优先考虑最有可能赢得比赛的游戏。

这种方法的问题在于，大多数现实情况，甚至某些游戏，都没有一套简单的规则来管理操作方式。因此，一些研究人员试图通过使用一种方法来解决该问题，该方法试图对特定游戏或场景环境将如何影响结果进行建模，然后使用该知识制定计划。该系统的缺点是某些领域过于复杂，几乎不可能对各个方面进行建模。例如，事实证明，大多数Atari游戏都是这种情况。

在某种程度上，MuZero结合了两个方面的优势。它没有尝试对所有模型进行建模，而只是尝试考虑那些对决策至关重要的因素。正如DeepMind所指出的，这是您作为人类所做的事情。当大多数人看着窗外，看到地平线上形成乌云时，他们通常不会陷入凝结和压力前沿之类的问题。相反，他们思考如果出门应该如何穿着以保持干燥。MuZero做类似的事情。

DeepMind最新的AI无需掌握游戏规则即可掌握游戏(1)

在必须做出决定时，它考虑了三个因素。它将考虑其先前决定的结果，它所处的当前位置以及下一步的最佳行动方案。这种看似简单的方法使MuZero成为迄今为止DeepMind最有效的算法。在测试中，它发现MuZero在国际象棋，围棋和将棋中的表现都和AlphaZero一样好，并且比Atari游戏中以前的所有算法(包括Agent57)都更好。它还发现，MuZero考虑动作的时间越长，执行效果就越好。DeepMind还进行了测试，该测试限制了MuZero在承诺搬迁Pac-Man女士之前可以完成的模拟数量。在那些测试中，它发现MuZero仍然能够取得良好的结果。

在Atari游戏中获得高分固然很好，但是DeepMind最新研究的实际应用又如何呢?总之，它们可能是开创性的。虽然我们还没有，但MuZero是最接近研究人员来开发通用算法的。该子公司表示，MuZero的学习能力有一天可以帮助它解决没有简单规则的机器人领域的复杂问题。