《星际争霸2》AI和人类职业选手同台竞技MaNa被打败
明天中午,子公司研发的《星际争霸2》电竞AI与人类职业选手将上台竞技,此前对阵职业选手的比赛视频也将在直播中公布。
其中,在12月份的全部10场联赛中,他们以10:0的比分战胜了人类,让液体()队的两名职业球员一筹莫展。在上一场直播比赛中,星际职业选手MaNa险胜AI,成功“复仇”。
虽然在第一次和锦标赛之前,MaNa就已经打算被击倒了。
“我不认为我可以赢得所有 5 场比赛。我的假设是我将与 AI 以 4:1 的比分获胜。”
虽然在备战MaNa之前,他已经以5:0的比分击败了自己的队友,虫族职业选手TLO,但MaNa仍然认为自己有更大的获胜机会。
“毕竟我从5岁就开始玩星际了。TLO已经输了星际争霸2对战视频,我不能再输了。”
目前世界排名第13的俄罗斯选手玛娜
但在前两场比赛中,他表现出了惊人的操作水平和果断的战术,两次都在半小时内占据了MaNa的制高点。
第三场比赛前,MaNa失望地说:“我现在只有一个想法:活下去。”
最后,MaNa输掉了5场比赛。人类第一次对决以10局全败告终。
星际争霸 II:AI 无法跨越的障碍
其实在联盟里,科学家大概比MaNa还紧张。因为这个游戏太复杂了。
在此之前,人工智能发展为在国际象棋中击败人类,但星际争霸 II 比国际象棋复杂得多。
雅达利、国际象棋和“星际”难度比较
首先,在国际象棋比赛中,AI可以看到人类对手的一举一动和整个棋盘,但在《星际争霸2》中,由于“战争迷雾”的视野限制,AI只能观察到部分地图的副本。如果 AI 想知道对手在做什么,它必须向侦察员发送资源。
因此,在这场信息不完全博弈中,AI对全局的把握能力受到了极大的挑战。
视野受限
其次,在国际象棋比赛中,总共只有361个棋子,而在《星际争霸II》中,每个单元可以选择300多个基本动作。此外,《星际穿越》中的很多动作都需要精确到屏幕上的一个点,虽然屏幕尺寸小到 84x84,但可能的动作大约有 1 亿个。
在联赛中,AI需要同时选择和控制数百个单位,但稍有失误就很难卷土重来。
人类和人工智能对单位采取的行动
最后,也是最重要的一点是星际争霸 II 本身的战术复杂性。
作为一款风靡20多年的即时战略游戏,《星际穿越》非常注重常年战略。在这个游戏中,玩家需要不断的收集和分配资源星际争霸2对战视频,然后建造不同的建筑和兵种,逐步扩大和推广。如果玩家一开始没有形成策略,后期很容易因为资源不足而被打败。
这对 AI 来说是一项非常难以理解的任务。
作为反例,在中,AI只需打破更多的砖块即可获得更高的分数,而在中,情况非常复杂。哪个分数最重要?是瓦斯矿还是水晶?是建筑物还是士兵?因此,为了赢得比赛,AI必须学会根据对手的动作“权衡利弊”。
这一切都让星际争霸II的AI开发比国际象棋困难多了。
幸运的是,我们不必等待太久。
如何打败人类
要想打败人类,首先要了解游戏中发生了什么。
科学家们与《星际穿越》的制造商暴雪娱乐合作,将游戏界面分解为几个“功能层”。各种游戏元素(如不同类型的单位、生命值和地图)以色块区分,同时保留了游戏的空间元素。
接下来,为了让AI了解游戏中的各种任务,《星际穿越》被拆解成多个小游戏:例如连接视角、选择单位、收集和建造。通过这些方法,研究人员希望能够更直观地看到 AI 在各种任务上的表现。
然而,虽然通过一系列的深度强化学习训练,AI早已能够很好地完成独立的任务,但在实际游戏战斗中,AI仍会深度介入复杂的任务,无法顾及大局,并且会被人类玩家完全摧毁。 .
因此,引入了另一种训练方法——模仿学习()。
通过学习暴雪提供的超过 10 万个真实玩家视频和游戏回放,我开始模仿人类玩家在特定环境中的行为,了解游戏的基本机制。通过这些方法,我学会了人类的围观操作和宏观策略。
通过这些方法,得到多个版本,不断相互竞争,最终得到胜率最高的版本。
这些称为“Alpha”的训练方法非常有效。经过一两周的训练,我已经玩了 200 年的星际争霸 II。
在实际比赛中,不断分析对手的动作,做出获胜概率最高的决定。从现场直播的视频来看,比赛进行到一半,他就已经预测到自己有80%的几率战胜MaNa。
虽然已经做了一切让它显得更加强大,但在直播过程中,科学家奥里奥尔直言自己非常着急。说:“老实说,我们也很紧张。直到 TLO 第一次失利后,他们才对我们说,‘你真的做到了’,我才松了口气。”
人类没有被打败
首战10胜就等于失败?好像不是这样的。
下午,人机大战直播中最大的逆转发生在最后一场MaNa对抗赛的现场比赛中。 MaNa 很紧张,认为她是在为 Team 和人类尊严而战。
本次活动,MaNa不断空投神仙恐吓基地,被撕裂的守军在家乡和前线之间来回奔跑,就像古代游戏中的人工伤残一样。在逼迫AI不断消耗资源的同时,MaNa守军成型,一举报复。
“如果对手是人类,我绝不会犯这种错误。”
看完这场复仇之战,主持人和MaNa都表达了同样的感受。
不难看出,在实战中,人类玩家和人类玩家之间一直存在差异,人类很容易找到固定套路,钻空子,然后被打败。
然而,最终,像这样的 AI 的目标不是在电子竞技中击败人类,而是找到一种方法来加强 AI 训练,为更复杂的虚拟环境做好准备。