人机对抗智能门户网站发布兵棋推演AI学习环境——强随机与高风险多智能体学习环境

发布时间： 2022-05-23

浏览次数: 33

国庆节献礼：智能启航，谁占先机？——“庙算·先启杯”2021第一赛季，等你来战！

人机对抗是“图灵测试”的重要手段，作为验证机器智能的试金石，为探寻博弈智能生长机制和关键技术验证提供试验环境、评价标准，具有重要科学研究意义和应用价值[1]。

开放背景：继 Deepmind 星际争霸智能技术取得突破之后，兵棋推演作为人机对抗的下一个挑战，将牵引智能决策技术新的发展[2]，其独特的智能体异步协同、非对称环境决策等挑战性问题吸引着博弈智能研究者的持续关注[3]。为了促进学术界更好针对如上问题开展研究，人机对抗智能门户网站将持续发布兵棋AI学习环境，填补兵棋决策智能研究关键问题基准学习环境空白，满足研究人员对标准学习环境库的需求，推动兵棋推演AI的突破。

人机对抗智能门户网站发布兵棋推演AI学习环境——部分可观测异步智能体协作问题学习环境（POAC）

图1 兵棋推演AI学习环境库

已开放环境：部分可观测异步智能体协作学习环境”，即多智能体不完美信息下异步协作算法学习验证环境（http://turingai.ia.ac.cn/notices/detail/358），其对应多智能体异步协作这一挑战，是目前学界多智能体协作(默认假设同步)更一般化的问题。“可变智能体协作学习”，即实现对抗过程中“多智能体合并为一”以及“单智能体拆分为多”新产生的属性变化智能体控制与协作（http://turingai.ia.ac.cn/notices/detail/354），以应对现实世界因各种因素（如追加、失联）等造成的动态变化的智能体协作。

本期开放环境：强随机与高风险多智能体学习环境，取自兵棋推演中智能体受强随机因素影响产生的裁决及其带来的高风险收益/代价问题，使得智能体面临不确定的状态转移及奖励回报等挑战。该环境针对当前学界中多智能体环境缺乏随机因素影响的局限而提出，可应用于多智能体高效探索、奖励不确定、安全的多智能体强化学习等问题关键算法验证。环境地址：http://turingai.ia.ac.cn/app/detail/33

人机对抗智能门户网站发布兵棋推演AI学习环境——强随机与高风险多智能体学习环境

图2 高随机智能体学习环境

走向通用人工智能前路漫漫，让我们共同努力，共同推动智能技术的变革与突破！

[1] 黄凯奇，兴军亮，张俊格，倪晚成, “人机对抗智能技术”，中国科学：信息科学, 2020, 50(4):540-550.

[2] Qiyue Yin, Jun Yang, Wancheng Ni, Bin Liang, KaiqiHuang. AI in Games: Techniques, Challenges and Opportunities, arXiv:2111.07631.

[3] 尹奇跃，赵美静，倪晚成，张俊格，黄凯奇. “兵棋推演的智能决策技术与挑战”. 自动化学报，2021，47：1–15.

上一篇：喜报：自动化所黄凯奇研究员当选国际模式识别学会会士（IAPR Fellow）下一篇：方寸棋盘，点兵励将——庙算人机对抗天梯即将开启

友情链接

关注公众号

电话：010-82544577

邮编：100190

传真：010-82544577

地址：北京市海淀区中关村东路95号

粤ICP备09063742号-1

犀牛云提供企业云服务