人机对抗是“图灵测试”的重要手段,作为验证机器智能的试金石,为探寻博弈智能生长机制和关键技术验证提供试验环境、评价标准,具有重要科学研究意义和应用价值[1]。
开放背景:继Deepmind星际争霸智能技术取得突破之后,兵棋推演作为人机对抗的下一个挑战,将牵引智能决策技术新的发展[2],其独特的智能体异步协同、非对称环境决策等挑战性问题吸引着博弈智能研究者的持续关注[3]。为了促进学术界更好针对如上问题开展研究,人机对抗智能门户网站将持续发布兵棋AI学习环境,填补兵棋决策智能研究关键问题基准学习环境空白,满足研究人员对标准学习环境库的需求,推动兵棋推演AI的突破。
图1 兵棋推演AI学习环境库
已开放环境:人机对抗门户网站已发布“部分可观测异步智能体协作学习环境”[4],即多智能体不完美信息下异步协作算法学习验证环境(http://turingai.ia.ac.cn/notices/detail/358),其对应多智能体异步协作这一挑战,是目前学界多智能体协作(默认假设同步)更一般化的问题。
本期开放环境:本次发布的学习环境对应兵棋推演中智能体因聚合与解聚合造成的可变化智能体协作问题,即如何实现对抗过程中“多智能体合并为一”以及“单智能体拆分为多”下的智能体控制与协作,需要有效控制新产生的、变化属性的智能体。环境地址:http://turingai.ia.ac.cn/app/detail/32
该环境设定具有以下特点:
· 多智能体协作更一般化设定。相比于传统如星际争霸微操等典型多智能体协作环境,可变智能体协作可以模拟非定式智能体协作,是更一般化的多智能体协作设定。
· 对多智能体协作算法提出了新的挑战。目前的多智能体协作算法在训练过程中假设智能体数目不发生变化,针对可变智能体协作,当前主流算法无法直接迁移。
· 更广泛的应用场景。可变智能体协作的研究符合现实中更广泛的应用场景,往往需要应对因各种因素(如追加、失联等)造成的动态变化的智能体协作。
图2 可变智能体协作学习环境
走向通用人工智能前路漫漫,让我们共同努力,共同推动智能技术的变革与突破!
[1] 黄凯奇,兴军亮,张俊格,倪晚成, “人机对抗智能技术”,中国科学:信息科学, 2020, 50(4):540-550.
[2] Qiyue Yin, Jun Yang, Wancheng Ni, Bin Liang, KaiqiHuang. AI in Games: Techniques, Challenges and Opportunities, arXiv:2111.07631.[3] 尹奇跃,赵美静,倪晚成,张俊格,黄凯奇. “兵棋推演的智能决策技术与挑战”. 自动化学报,2021,47:1–15.[4] Meng Yao, Qiyue Yin, Jun Yang, Tongtong Yu, ShengqiShen, Junge Zhang, Bin Liang, Kaiqi Huang. The Partially ObservableAsynchronous Multi-Agent Cooperation Challenge, arXiv:2112.03809.