我院高阳教授团队基于深度强化学习“玩转”游戏博弈

发布者:李茜发布时间:2024-02-03浏览次数:895

 1月30日,《计算机研究与发展》期刊官方公众号发文《推荐| 菠菜担保论坛大全高阳团队带您“玩转”掼蛋》,推荐我院高阳教授团队在强化学习领域最新研究成果《基于深度强化学习的掼蛋扑克博弈求解》。

 在不确定信息的复杂环境下进行决策是现实中人们经常面对的困难之一,因此具有能够进行良好决策的能力被视为人工智能的重要能力之一而游戏类型的博弈作为对现实世界的一种高度抽象,具有良定义、易检验算法优劣等特点,成为研究的主流

   文章提出了一种针对掼蛋扑克博弈的软深度蒙特卡洛SDMC方法SDMC方法在学习过程中不仅采用了软启动方法,结合已有策略,加速模型训练过程,同时采取软动作采样,在实际对战过程中,保证选择的策略在当前模型下的评估值变化不大的情况下对动作进行采样,降低训练过程中方差带来的影响,并增加被对手利用的难度

   

   SDMC方法训练出的策略模型参加第2届“中国人工智能博弈算法大赛”时获得冠军经过与第1届冠军策略模型和第2届其他策略模型的实验对比证明了该方法在解决掼蛋扑克博弈中的有效性