首页科技娱乐体育干货女人设计时尚旅游美食语录健康

用深度神经网络和搜索树主宰围棋游戏!

2016-02-14 11:20:00来源:20区编辑:转角遇见你

用深度神经网络和搜索树主宰围棋游戏!

论文的摘要:

围棋游戏被视为是人工智能领域最具有挑战性的古典游戏,没有之一。它主要的难点在于如何估量场上局势和判断落子位置。这里我们介绍一种新的计算机算法,通过“价值网络”来估量局势,通过“策略网络”来决定落子策略。这种深度神经网络是通过对人类专业围棋比赛中的特征提取学习,和AI自己同自己的对战的强化学习,将两种学习方式相结合而训练出来的网络。该神经网络并未采取任何超前的研究,而仅仅是采取了最先进的蒙特卡洛树形研究项目模拟了上千局自我对战。我们同样也会介绍一种新型的搜索算法,该算法结合了蒙特卡洛仿真方法与价值和策略网络。使用这种搜索算法,我们的项目AlphaGO对其他的渣渣人工智能围棋算法达到了99.8%的胜率,并且以5:0击败了人类的欧洲围棋冠军。这可是电脑程序第一次在19X19的棋盘上战胜人类职业选手,比之前的预测足足早了数十年。


译者注:

简单来说,这篇摘要还真是写得霸气内敛,行文间有隐藏不住的得意和得意。要知道,几个月前,大家还一致认为人类在围棋运动上还有十几年的优势,这忽然就搞出了一个大新闻。也难怪作者们要在题目里用了master这个词。看过功夫熊猫或者星球大战的你们一定都知道,这个词作为名词指代的是什么样的高手。

有人说,不过下赢了欧洲冠军而已,放在中韩两国的分段制度里,不过区区二段,和九段的水平,不亚于鲁能与巴萨。我非常赞同这个观点,谷歌的研究者也赞同这个观点,于是他们宣布,3月8日,AlphaGo将与九段李世石进行五番棋对决。而结果呢,我在这里已经可以小小预言下,不出意外应该是人工智能获胜。我并非是过于吹捧人工智能的技术,而是这一次谷歌采取了类似作弊一样的弯道超车。

在我们传统的认知中,人工智能是通过类似穷举的方式,探索棋类游戏所有的分支结果,并从中找出最优解。在深蓝战胜国际象棋大师时代,人工智能的确是这样工作。这种算法优点是稳赢不输,而缺点是计算量将成指数增长,国际象棋的8X8棋盘中勉强可以使用这种方法,并通过一定逻辑去除一些冗余计算,从而到达和人类“对弈”的感觉。说实话,这种愚笨的算法并不能称得上智能两字,是因为使用穷举的方法,人工智能找到的是唯一解,而棋类运动,尤其是围棋,却有无数种的解法,沿这条路走下去,就算终有一天,随着计算机硬件水平和算法的优化提高,人工智能勉强可以在人类所能容许的时间里完成计算,战胜人类,那也不配称之为智能。

是什么让人工智能只能采用这种蠢办法呢?因为它相比人类,缺少对模糊逻辑的认知和界定。我们对于一个事物,不是只有是和非两种评价,而是会根据自己的经验来做出“还不错”“有点差”“虽然目前看来不太行但还有机会”等等判断。比如在一盘棋局中,棋手可以根据经验判断出左边的棋形对自己有利,而右下角虽然自己略微处于劣势但是对方需要更多的时间才能明确自己的优势,右上角局势非常不明朗,在没有计算清楚之前不能轻易落子。接下来他的选择是巩固左边还是开辟新的战场,从而将对手的注意力从右下角扯开,以便于为自己争取更多的时间计算右下角的局势。这种“有利”“略微”“不明朗”等概念对于人工智能是完全不存在的,或者说,它需要经过大量的计算,将双方局势量化,比如在左边棋形,我和对手的得分是60:40,然后得出对我方“有利”。先算出了最后的结果,然后去得到一个模糊的结论,就好像我攻略了几千部爱情电影,却始终不知道如何才能突破你的“干嘛呵呵去洗澡”一样,透着一股理工男的悲哀。

专业棋手做出对棋形的模糊判断,是通过大量的打谱,对经典棋形和定式熟记于心,将经典棋局和当前棋局比较,再根据自己特有的逻辑来对那些不同于经典棋形的棋子进行计算,同样是孤军深入的棋子,有的让对手如鲠在喉,有的就是送人头。判断局势之后制订落子策略,是战术上乘胜追击反戈一击,还是在战略上声东击西故布疑阵,很多落子并非是最好的一招,也不一定是最强的一招,却可能是陷阱、伏笔或者是试探对手的一招。

事实上,我们已经可以看出,专业棋手在判断局势的时候,是基于形状来进行判断,然后对于个别棋子特别计算。那么,假如我们让人工智能也是通过对棋形的识别,来判断当前的局势呢?第一个问题,人工智能可以识别棋形吗?答案是可以,棋形千变万化,但仍然是一种图形,而分析一个19X19,381个像素点,每个像素点只有黑白两种色阶的图形,对于计算机而言太简单了,我们公司目前处理的图像都已经是几百万像素和255灰度值。第二个问题,人工智能如何建立棋形和局势的关系?谷歌团队给出的解决方法是基于神经网络的机器学习,通过对几千局人类对弈棋局进行分析,人工智能自己提取棋形特征,建立棋形和局势的权重关系。第三个问题,人工智能下棋不再是通过穷举了吗?这个问题目前从摘要和已有信息中还无法获知。摘要中提及谷歌团队是制订了一种全新的落子策略网络,我认为很可能也是基于棋形识别和判断系统,对棋盘每一个可以落子的位置进行最优选择,尽管仍然也是穷举方式,但比上文提到的方法,计算量已经大大减小了。

神经网络的机器学习的难点在于初始阶段学习算法的编写和阈值的设定,然而战胜樊麾证明这两项初始设定都没有搞错,于是接下来,AlphaGo所需要的就是尽可能多的接触高质量棋局,而谷歌团队则需要去改良机器学习的各项设定,让人工智能能够建立更准确的棋形模型与落子策略。人类终于把人工智能拉到和自己同一水平的逻辑思维,而拥有强大计算能力、无限学习时间和永不犯错的人工智能,恐怕可以用丰富的经验打败任何一位人类棋手,真正主宰围棋世界。


后文我会继续翻译整篇论文,并且尝试能不能去粗略复制AlphaGo的算法。在原文链接附加的nature刊登的整篇论文,供有兴趣的同学们阅读。


PS。题目的叹号是我加的。


阅读原文 微信原文