AlphaGo核心技术是什么？-睿诚科技协会

AlphaGo 的核心技术是深度神经网络与蒙特卡洛树搜索 的完美结合,下面我们来详细拆解这座大厦的每一块基石。

（图片来源网络，侵删）

核心基石一：深度神经网络

深度神经网络是 AlphaGo 的“大脑”，它负责学习和理解围棋的“直觉”和“策略”，AlphaGo 使用了两种不同但相互协作的神经网络：

策略网络

作用： “下一步下哪里？” (Where to play next?)
工作原理： 这个网络通过学习海量的人类高手对局数据，学会了在任意一个棋盘局面下，给出一个概率分布，告诉 AI 哪些位置是“好”的落子点，哪些是“差”的，它就像一个经验丰富的棋手,看到棋盘后能凭直觉快速筛选出几个有潜力的候选着法。
价值： 极大地提高了搜索效率，在传统围棋 AI 中，需要计算所有可能的落子点，计算量巨大，而策略网络可以只关注最有希望的几个点,让后续的搜索更有针对性。

价值网络

作用： “当前局面谁赢了？” (Who is winning from this position?)
工作原理： 这个网络不看具体的落子点，而是直接“看”整个棋盘局面，然后给出一个从 0 到 1 之间的分数，分数接近 1 表示当前局面下黑棋（或白棋）的胜率很高，接近 0 则表示胜率很低，它不关心过程,只给出对最终结果的判断。
价值： 提供了一种快速评估局面优劣的方法，在围棋中，精确计算每一步的得失非常困难，价值网络通过学习，能够像顶尖高手一样，对全局形势有一个宏观的、直觉性的判断。

核心基石二：蒙特卡洛树搜索

MCTS 是 AlphaGo 的“思考引擎”和“决策框架”，它负责在策略网络和价值网络的指导下，模拟对局,并选择当前最佳的一步。

传统 MCTS 的问题： 它需要随机地模拟很多很多局棋直到终局，然后根据胜负结果来反推每一步的好坏，这种方法在围棋上行不通，因为围棋的分支因子（每一步的可能选择）巨大，模拟到终局极其耗时,而且随机模拟的质量很差。
AlphaGo 的改进： AlphaGo 将深度神经网络融入到了 MCTS 的四个关键步骤中,使其变得无比强大：
（图片来源网络，侵删）
1. 选择: 从根节点（当前局面）开始，一路向下选择子节点，直到到达一个“叶子节点”，在选择路径上，AlphaGo 不再是纯随机，而是结合了策略网络的指导,优先探索策略网络认为有希望的着法。
2. 扩展: 当到达一个叶子节点后，如果这个局面不是终局，AlphaGo 会使用策略网络来为这个局面生成几个有潜力的下一步着法,从而扩展出新的子节点。
3. 评估: 对于扩展出的新节点，AlphaGo 不再需要进行复杂的模拟计算，它直接调用价值网络，让网络对这个新局面进行评估，给出一个胜率分数，这是 AlphaGo 相比传统 MCTS 最核心的提速和优化。
4. 回溯: 将评估得到的胜率分数（以及模拟过程中的胜负结果）沿着路径反向传播，更新路径上所有节点的统计数据（比如访问次数和累计胜率）。

通过这个不断循环的过程，MCTS 逐渐构建出一棵“决策树”，这棵树不仅包含了大量可能的走法，还通过神经网络的指导，为每个节点赋予了“优劣”的判断，AlphaGo 会选择访问次数最多（通常意味着综合胜率最高）的那一步作为最终的落子。

AlphaGo 的进化：从版本看技术演进

AlphaGo 的技术并非一成不变,它在与李世石和柯洁的对战中不断进化。

AlphaGo Lee (李世石版)

技术特点： 这是第一个击败人类世界冠军的版本。
训练方式： 监督学习，它通过学习 1600万盘人类高手对局 来训练策略网络和价值网络，让它具备了人类的“棋感”,这个过程就像一个学生在做题库。
局限： 它的“智慧”上限受限于人类棋手的水平，虽然能超越人类,但可能无法发现人类未曾想到的全新下法。

AlphaGo Master (Master版，60:0击败包括柯洁在内的顶尖棋手)

技术特点： 在 Lee 版本的基础上进行了关键升级。
训练方式： 强化学习，在掌握了人类棋谱后，让它自己和自己下棋（称为“自我对弈”），在数百万盘的自我对弈中，它不断试错，奖励那些能赢棋的走法，惩罚那些会输棋的走法，这个过程让 AI 完全摆脱了人类的思维定式，发现了许多全新的、甚至让人类震惊的“神之一手”（如著名的“点三三”）。
结果： 实力远超 Lee 版本,达到了一个全新的高度。

AlphaGo Zero (零版，从零开始，100天超越Master)

技术特点： 这是一次更彻底的革命，也是大家常说的“从零开始”。
训练方式： 纯强化学习 + 自我对弈，它完全没有使用任何人类棋谱！只给它输入围棋的基本规则（比如气、提子、胜负判定），然后让它从随机走子开始,通过纯粹的自我对弈来学习。
结果： 经过短短3天的训练，它就超越了 Lee 版本；40天后，它以100:0的战绩击败了 Master 版本，这证明了，只要有足够的时间和计算资源，AI 可以通过自我探索,发现比人类更优的围棋策略。

AlphaZero (通用版，不只下围棋)

技术特点： 这是 AlphaGo Zero 的通用化版本。
技术抽象： DeepMind 团队发现，AlphaGo Zero 的核心算法（MCTS + 策略/价值网络）与棋类规则无关，他们将这个框架抽象出来，只更换了规则,就让它去学习国际象棋和日本将棋。
结果： AlphaZero 在这些领域同样以惊人的速度超越了当时最强的专用 AI（如 Stockfish、Elmo），证明了其技术的通用性和强大潜力。

技术	角色	作用	在不同版本中的体现
策略网络	直觉/筛选器	快速判断在当前局面下，哪些着法是有潜力的。	Lee版：学习人类棋谱；Master/Zero版：通过自我对弈优化。
价值网络	判断/评估器	快速评估任意一个局面的胜率。	Lee版：学习人类棋谱；Master/Zero版：通过自我对弈优化。
蒙特卡洛树搜索	思考/决策引擎	在神经网络的指导下，模拟和选择最佳着法。	所有版本的核心框架，但在与神经网络结合的深度上不断优化。
监督学习	启蒙老师	通过学习人类数据，快速获得基础知识和棋感。	Lee版使用，Master/Zero版不再使用。
强化学习	自我修炼	通过自我对弈和试错，不断超越自我，发现新策略。	Master/Zero/Zero版的核心驱动力，实现了从“学习人类”到“超越人类”的飞跃。

AlphaGo 的本质，是利用深度神经网络赋予 AI “直觉”和“大局观”，再利用蒙特卡洛树搜索构建一个高效的“决策思考”框架，最后通过强化学习让 AI 能够在没有人类指导的情况下，自我进化到超越人类智慧的境界。这一系列技术的结合，不仅在围棋领域取得了突破,也为整个人工智能领域的发展指明了新的方向。

（图片来源网络，侵删）

AlphaGo核心技术是什么？

核心基石一：深度神经网络

策略网络

价值网络

核心基石二：蒙特卡洛树搜索