德州扑克辅助工具,专业玩家水平让你轻松赢得多多

专业 举报 | 买帖

点击微信咨询
2941336443  (扫码)

德州扑克辅助工具,专业玩家水平让你轻松赢得多多

德州扑克是国际上最为流行的扑克游戏,由于最早起源于20世纪初美国德克萨斯州而得名。德州扑克的规则是使用去掉王牌的一副扑克牌,共52张牌,至少2人参与,至多22人,一般参与人数为两人和十人之间。

游戏开始时,首先为每个玩家发两张私有牌作为各自的「底牌」,随后将五张公共牌依次按三张、一张、一张朝上发出。在发完两张私有牌、三张共有牌、第四张公共牌、第五张公共牌后玩家都可以多次无限制押注,这四轮押注分别称为「翻牌前」、「翻牌」、「转牌」、「河牌」。

图1展示了一场德州扑克游戏的完整流程示意。经过四轮押注之后,若仍不能分出胜负,游戏进入「摊牌」阶段,所有玩家亮出各自底牌并与公共牌组合成五张牌,成牌最大者获胜。图2给出了德州扑克不同组合的牌型解释和大小。

德州扑克不仅是最流行的扑克类游戏,而且也为研究智能博弈基础理论和方法提供了一个绝佳试验和测试平台。

首先,德州扑克博弈的问题复杂度很大,两人无限注德州扑克的决策空间复杂度超过10的161次方[3];其次,德州扑克博弈过程属于典型的回合制动态博弈过程,游戏参与者每一步决策都依赖于上一步的决策结果,同时对后面的决策步骤产生影响;另外,德州扑克博弈属于典型的不完美信息博弈,博弈过程中玩家各自底牌信息不公开使得每个玩家信息都不完备,玩家在每一步决策时都要充分考虑对手的各种可能情况,这就涉及到对手行为与心理建模、欺诈与反欺诈等诸多问题。

此外,由于德州扑克游戏规则又非常简单且边界确定,特别适合作为一个虚拟实验环境对博弈的相关基础理论方法和核心技术算法进行深入探究。

目前主流德州扑克AI背后的核心思想是利用反事实遗憾最小化(Counterfactual Regret Minimization, CFR)算法[6]逼近纳什均衡策略。具体来说,首先利用抽象(Abstraction)技术[3][7]压缩德扑的状态和动作空间,从而减小博弈树的规模,然后在缩减过的博弈树上进行CFR算法迭代。

这些方法严重依赖于人类专家知识进行博弈树抽象,并且CFR算法需要对博弈树的状态结点进行不断地采样遍历和迭代优化,即使经过模型缩减后仍需要耗费大量的计算和存储资源。

例如,DeepStack使用了153万的CPU时以及1.3万的GPU时训练最终AI,在对局阶段需要一个GPU进行1000次CFR的迭代过程,平均每个动作的计算需耗时3秒。

Libratus消耗了大于300万的CPU时生成初始策略,每次决策需要搜索4秒以上。这样大量的计算和存储资源的消耗严重阻碍了德扑AI的进一步研究和发展;同时,CFR框架很难直接拓展到多人德扑环境中,增加玩家数量将导致博弈树规模呈指数增长。

另外,博弈树抽象不仅需要大量的领域知识而且会不可避免地丢失一些对决策起到至关作用的信息。

表1:不同算法的训练测试资源对比

方法介绍

不同于已有的基于CFR算法的德州扑克AI,中国科学院自动化研究所博弈学习研究组基于端到端的深度强化学习算法研发了一款高水平轻量型的德州扑克AI程序AlphaHoldem,其整体架构如图4所示。

AlphaHoldem采用Actor-Critic学习框架[8],其输入是卡牌和动作的编码,然后通过伪孪生卷积网络(结构相同参数不共享)提取特征,接下来通过两个全连接层得到状态的高层特征,最终输出动作概率和价值估计。

AlphaHoldem的成功得益于其采用了一种高效的状态编码来完整地描述当前及历史状态信息、一种基于Trinal-Clip PPO损失的深度强化学习算法来大幅提高训练过程的稳定性和收敛速度、以及一种新型的Best-K自博弈方式来有效地缓解德扑博弈中存在的策略克制问题。
德州扑克辅助工具,专业玩家水平让你轻松赢得多多,需要辅助工具帮你玩游戏的朋友加文章微信联系我。

点击微信咨询
2941336443  (扫码)

专业百度关键词优化排名,软文代发,高权重收录排名高