资讯正文
内容关注今年月,《王者荣耀》迎来了一次另类的“更新”,腾讯公布了《王者荣耀》新的系�“觉悟”。这一新的能在一场比赛里打败职业选手。《王者荣耀》是一款游戏,游戏的特点在�“信息量不完备,不存在最优策�”。战争迷雾的存在导致玩家们彼此不知道对方阵营的决策,需要玩家即时捕捉、处理多种信息。所以,能够击败真人玩家的系统是一个巨大的突破。而它的影响可能不会只停留在《王者荣耀》上,这个技术未来或将成为解决许多社会难题的基础�
像《王者荣耀》这样的即时决策类游戏,所需求的动作指令和微操极其复杂,是传统桌面游戏和街机游戏完全无法比拟的。MOBA类游戏的地图设计也会产生巨大的操作序列空间,每一局游戏都有超过10�18000次方种操作可能性�
MOBA的操�“需要从大量、复杂、连续的即时决策到长期决策中不断博弈,一切以最终胜利为目标”——这就意味着AI需要能够同时计划、进攻和防守,能够打出连招、引诱敌人并隐瞒信息,能够争夺中立资源、野怪和防御塔�
腾讯的AI架构有四个模块:强化学习机器、AI服务器、分发模块和记忆池。AI服务器负责处理AI模型与游戏物件的互动,它会通过自主学习产生一个当前游戏环境的切片。AI服务器能够从这个切片中选取相关的游戏要素,并以此为依据来预测玩家指令,再将它们传达给游戏核心去执行。游戏核心接下来会输出下一个游戏场景以及相对应的奖励值,这个数值将会影响模型的决策�
分发模块与多个AI服务器捆绑在一起,负责收集包含奖励,游戏环境,决策纪律等数据样本,将它们打包压缩并发送至记忆池。记忆池则是一个存储空间,使用一个圆形队列架构来存储数据�
最后要说的就是强化学习机器。它是一个分布式的训练环境,使用actor-critic算法来提升规则更新速度与效率。多个强化学习机器同时从记忆池中平行地提取数据,然后通过共享的内存来交流。比如一个组件负责目标选取,而另外一个长短期记忆算法(一种时间递归神经网络)将会建立倾向性,学习释放非指向性技能和能够打出大量伤害的关键连招�
腾讯的研究团队将游戏信息和图像全部以数字的形式表现出来。数字化使得AI系统能够从真人玩家的数据中学习,避免它们尝试游戏范围之外的指�——比如试图翻越不可交互的地彀�
在实验中,论文的作者们使用60万个CPU内核�1064张显卡测试了这个架构,得到了16000个游戏场景。训练AI系统使用一个英雄需�48张显卡和18000个核心,每张显卡每秒处理了近80000个样本数据。简单地说,AI系统打一天等于人类打500年;AI的隐藏分�30个小时内就超过了99%的玩家,�80小时后达到职业玩家水平�
这个系统�133毫秒就能执行一个操作,这个反应速度几乎是业余玩家中顶尖的了�8月的China Joy上,腾讯邀请了五位职业选手�“绝悟”对战。尽管这些选手们选择了版本最强的英雄�“绝悟”依然平均每局游戏能拿到五次击杀并仅死亡1.33次。在和普通玩家的2100场对战中�“绝悟”的胜率是99.81%�
腾讯近期宣布他们将会开�“绝悟”的架构和算法,以求继续为《王者荣耀》这样复杂的游戏制作AI系统�
来源:游戏葡�
本文文章转载自新浪新�