我院高阳教授团队基于深度强化学习“玩转”游戏博弈

发布者：李茜发布时间：2024-02-03浏览次数：895

1月30日，《计算机研究与发展》期刊官方公众号发文《推荐| 菠菜担保论坛大全高阳团队带您“玩转”掼蛋》，推荐我院高阳教授团队在强化学习领域最新研究成果《基于深度强化学习的掼蛋扑克博弈求解》。

文章提出了一种针对掼蛋扑克博弈的软深度蒙特卡洛SDMC方法。SDMC方法在学习过程中不仅采用了软启动方法，结合已有策略，加速模型训练过程，同时采取软动作采样，在实际对战过程中，保证选择的策略在当前模型下的评估值变化不大的情况下对动作进行采样，降低训练过程中方差带来的影响，并增加被对手利用的难度。

SDMC方法训练出的策略模型参加第2届“中国人工智能博弈算法大赛”时获得冠军，经过与第1届冠军策略模型和第2届其他策略模型的实验对比证明了该方法在解决掼蛋扑克博弈中的有效性。