睿诚科技协会

AlphaGo核心技术是什么?

AlphaGo 的核心技术是深度神经网络蒙特卡洛树搜索 的完美结合,下面我们来详细拆解这座大厦的每一块基石。

AlphaGo核心技术是什么?-图1
(图片来源网络,侵删)

核心基石一:深度神经网络

深度神经网络是 AlphaGo 的“大脑”,它负责学习和理解围棋的“直觉”和“策略”,AlphaGo 使用了两种不同但相互协作的神经网络:

策略网络

  • 作用: “下一步下哪里?” (Where to play next?)
  • 工作原理: 这个网络通过学习海量的人类高手对局数据,学会了在任意一个棋盘局面下,给出一个概率分布,告诉 AI 哪些位置是“好”的落子点,哪些是“差”的,它就像一个经验丰富的棋手,看到棋盘后能凭直觉快速筛选出几个有潜力的候选着法。
  • 价值: 极大地提高了搜索效率,在传统围棋 AI 中,需要计算所有可能的落子点,计算量巨大,而策略网络可以只关注最有希望的几个点,让后续的搜索更有针对性。

价值网络

  • 作用: “当前局面谁赢了?” (Who is winning from this position?)
  • 工作原理: 这个网络不看具体的落子点,而是直接“看”整个棋盘局面,然后给出一个从 0 到 1 之间的分数,分数接近 1 表示当前局面下黑棋(或白棋)的胜率很高,接近 0 则表示胜率很低,它不关心过程,只给出对最终结果的判断。
  • 价值: 提供了一种快速评估局面优劣的方法,在围棋中,精确计算每一步的得失非常困难,价值网络通过学习,能够像顶尖高手一样,对全局形势有一个宏观的、直觉性的判断。

核心基石二:蒙特卡洛树搜索

MCTS 是 AlphaGo 的“思考引擎”和“决策框架”,它负责在策略网络和价值网络的指导下,模拟对局,并选择当前最佳的一步。

  • 传统 MCTS 的问题: 它需要随机地模拟很多很多局棋直到终局,然后根据胜负结果来反推每一步的好坏,这种方法在围棋上行不通,因为围棋的分支因子(每一步的可能选择)巨大,模拟到终局极其耗时,而且随机模拟的质量很差。

  • AlphaGo 的改进: AlphaGo 将深度神经网络融入到了 MCTS 的四个关键步骤中,使其变得无比强大:

    AlphaGo核心技术是什么?-图2
    (图片来源网络,侵删)
    1. 选择: 从根节点(当前局面)开始,一路向下选择子节点,直到到达一个“叶子节点”,在选择路径上,AlphaGo 不再是纯随机,而是结合了策略网络的指导,优先探索策略网络认为有希望的着法。
    2. 扩展: 当到达一个叶子节点后,如果这个局面不是终局,AlphaGo 会使用策略网络来为这个局面生成几个有潜力的下一步着法,从而扩展出新的子节点。
    3. 评估: 对于扩展出的新节点,AlphaGo 不再需要进行复杂的模拟计算,它直接调用价值网络,让网络对这个新局面进行评估,给出一个胜率分数,这是 AlphaGo 相比传统 MCTS 最核心的提速和优化。
    4. 回溯: 将评估得到的胜率分数(以及模拟过程中的胜负结果)沿着路径反向传播,更新路径上所有节点的统计数据(比如访问次数和累计胜率)。

通过这个不断循环的过程,MCTS 逐渐构建出一棵“决策树”,这棵树不仅包含了大量可能的走法,还通过神经网络的指导,为每个节点赋予了“优劣”的判断,AlphaGo 会选择访问次数最多(通常意味着综合胜率最高)的那一步作为最终的落子。


AlphaGo 的进化:从版本看技术演进

AlphaGo 的技术并非一成不变,它在与李世石和柯洁的对战中不断进化。

AlphaGo Lee (李世石版)

  • 技术特点: 这是第一个击败人类世界冠军的版本。
  • 训练方式: 监督学习,它通过学习 1600万盘人类高手对局 来训练策略网络和价值网络,让它具备了人类的“棋感”,这个过程就像一个学生在做题库。
  • 局限: 它的“智慧”上限受限于人类棋手的水平,虽然能超越人类,但可能无法发现人类未曾想到的全新下法。

AlphaGo Master (Master版,60:0击败包括柯洁在内的顶尖棋手)

  • 技术特点: 在 Lee 版本的基础上进行了关键升级。
  • 训练方式: 强化学习,在掌握了人类棋谱后,让它自己和自己下棋(称为“自我对弈”),在数百万盘的自我对弈中,它不断试错,奖励那些能赢棋的走法,惩罚那些会输棋的走法,这个过程让 AI 完全摆脱了人类的思维定式,发现了许多全新的、甚至让人类震惊的“神之一手”(如著名的“点三三”)。
  • 结果: 实力远超 Lee 版本,达到了一个全新的高度。

AlphaGo Zero (零版,从零开始,100天超越Master)

  • 技术特点: 这是一次更彻底的革命,也是大家常说的“从零开始”。
  • 训练方式: 纯强化学习 + 自我对弈,它完全没有使用任何人类棋谱!只给它输入围棋的基本规则(比如气、提子、胜负判定),然后让它从随机走子开始,通过纯粹的自我对弈来学习。
  • 结果: 经过短短3天的训练,它就超越了 Lee 版本;40天后,它以100:0的战绩击败了 Master 版本,这证明了,只要有足够的时间和计算资源,AI 可以通过自我探索,发现比人类更优的围棋策略。

AlphaZero (通用版,不只下围棋)

  • 技术特点: 这是 AlphaGo Zero 的通用化版本。
  • 技术抽象: DeepMind 团队发现,AlphaGo Zero 的核心算法(MCTS + 策略/价值网络)与棋类规则无关,他们将这个框架抽象出来,只更换了规则,就让它去学习国际象棋和日本将棋。
  • 结果: AlphaZero 在这些领域同样以惊人的速度超越了当时最强的专用 AI(如 Stockfish、Elmo),证明了其技术的通用性和强大潜力

技术 角色 作用 在不同版本中的体现
策略网络 直觉/筛选器 快速判断在当前局面下,哪些着法是有潜力的。 Lee版:学习人类棋谱;Master/Zero版:通过自我对弈优化。
价值网络 判断/评估器 快速评估任意一个局面的胜率。 Lee版:学习人类棋谱;Master/Zero版:通过自我对弈优化。
蒙特卡洛树搜索 思考/决策引擎 在神经网络的指导下,模拟和选择最佳着法。 所有版本的核心框架,但在与神经网络结合的深度上不断优化。
监督学习 启蒙老师 通过学习人类数据,快速获得基础知识和棋感。 Lee版使用,Master/Zero版不再使用。
强化学习 自我修炼 通过自我对弈和试错,不断超越自我,发现新策略。 Master/Zero/Zero版的核心驱动力,实现了从“学习人类”到“超越人类”的飞跃。

AlphaGo 的本质,是利用深度神经网络赋予 AI “直觉”和“大局观”,再利用蒙特卡洛树搜索构建一个高效的“决策思考”框架,最后通过强化学习让 AI 能够在没有人类指导的情况下,自我进化到超越人类智慧的境界。 这一系列技术的结合,不仅在围棋领域取得了突破,也为整个人工智能领域的发展指明了新的方向。

AlphaGo核心技术是什么?-图3
(图片来源网络,侵删)
分享:
扫描分享到社交APP
上一篇
下一篇