欢迎来到智能系统与工程研究中心
关注微信
菜单
新闻中心 News Center
头条新闻 Headline news

人机对抗智能门户网站开源星际争霸2基准AI

发布时间: 2021-04-09
浏览次数: 123

决策智能是国家新一代人工智能的重要发展方向,也是实现国家创新发展战略的重要基石。在决策智能的探索道路上,人机对抗已成为国际公认的重要途径之一。由中科院自动化所智能系统与工程研究中心发布的人机对抗智能门户网站(http://turingai.ia.ac.cn)致力于汇聚人机对抗平台环境,共享人机对抗技术成果,发布人机对抗领域最新消息,从而推动人机对抗智能技术生态建设与发展。

 

本周,人机对抗智能门户网站上线了针对星际争霸2游戏的一款开源样例基准AI。星际争霸2是一款即时战略类游戏,由于兼具大状态空间、大动作空间、实时性、不完美信息博弈等特点,因此无论对于人类玩家还是AI算法来说都是很大的挑战,被学术界广泛用于人工智能算法的训练平台和评估标准。

人机对抗智能门户网站开源星际争霸2基准AI

图:星际争霸2开源基准AI运行截图

 

本次发布的开源基准AI基于状态、动作空间抽象技术和深度强化学习算法Dueling DQN实现。提供了完整的样例代码、详细的环境配置指南、命令行使用指南、代码逐段分析文档、训练测试图表及预训练模型。由于星际争霸是一款极其复杂的游戏,训练一款限制较少的AI开销异常巨大(如DeepMind初版AlphaStar在限制只打PvP的情况下依然收集了大约200年游戏时长的经验[1],而这需要一笔巨额的算力开销)。本AI作为开源基准AI,其目标定位并非追求极限跑分,而是能使网友下载后快速读懂代码、方便地进行修改以及在合理的时间内用普通配置的计算机训练出效果。因此,我们对AI做了一些必要的限制:
1,限制了只进行 TvT(人族对战人族)对战模式。
2,限制了有限的几种兵种和建筑。
3,抽象了状态空间、动作空间。
4,去掉了战争迷雾的设定。
5,限制只在一张尺寸较正常比赛用图小一些的地图(Simple64)上对战。
6,限制每局游戏的时长,超时按平局计算。


最终,在实验效果方面,我们用本AI(基于Dueling DQN的学习型AI)和内置的专门用于辅助训练的随机AI进行对抗训练,共训练了3000局,最终本AI的赢率稳定在100%附近。

[1] Stoyan Todorov: AlphaStar AI Played 200 Years to Defeat StarCraft Pros


本基准AI已经开源在人机对抗智能门户网AI开发中心

http://turingai.ia.ac.cn/ai_center/show?mid=4,欢迎申请下载,改进提高。

人机对抗智能门户网站开源星际争霸2基准AI


关注公众号

电话:010-82544577
邮编:100190 
传真:010-82544577
地址:北京市海淀区中关村东路95号
Copyright ©2018 - 2021 中国科学院自动化研究所
犀牛云提供企业云服务