请选择 进入手机版 | 继续访问电脑版

涪江论坛,绵阳论坛网,绵阳论坛,绵阳热线,绵阳城市门户论坛

 找回密码
 立即注册

社区广播台

查看: 128|回复: 0

alphago 50盘自战棋谱的简单解读

[复制链接]
发表于 2017-6-5 11:21:00 | 显示全部楼层 |阅读模式

乌镇 alphago与柯洁,及其他国手对弈结束后,deepmind官方表示要送给棋界一个礼物,也就是50盘 alphago自我对弈的棋谱。 目前,所知几乎所有职业棋手,都在认真研读和分析这些棋谱,而很多围棋业余爱好者也试图通过这些棋谱,去更好的理解围棋。

作为业余中的俗手,如果试图去理解和解读每一步棋的妙处,我自认为是没有资格的,只是粗略的根据棋谱的感受,做一些简单的总结,希望对爱好者更好的了解alphago和围棋,有所帮助。

1、目前贴目规则白棋有利。

alphago 棋力目前已经胜于人类,其自我对弈是一个很有价值的参考,50盘自我对弈里,白棋的胜率超过了75%,我们可以认为大贴目是存在问题的。黑先的优势没有现在的贴目那么大。

2、在alphago眼里,外势没有人类感觉的那么重要。

我们知道alphago比较喜欢点33,而一般职业棋手认为开局不久点33是亏的,因为对手的棋可以轻松拿到厚势。 但从alphago而言,至少认为这样做双方是均势的。

典型如第21局棋谱,一上来就形成了白棋捞实地而黑棋占大场的格局,从传统人类的观点来说,开局白棋有太多子下在二三线,肯定是亏透了。但我们知道alphago自战棋谱,在中盘之前,系统肯定是认为双方均势的。也就是alphago绝不会认为那一串二三线的子是亏的。

可以这么理解为,alphago比人类更知道如何破解厚势,更会在对手厚势的情况下找到侵消和打入的机会。

3、关于子效,需要有新的认识。

以日本传统棋道而言,特别强调优美的棋形,所谓优美的棋形,其实说白了就是棋子以有效率的方式呈列在棋盘上。如果一盘棋中,有太多的愚型(所谓愚型,其实是典型没有效率的棋子分布),可能会被认为对弈者水平有限,或下出的招法存在问题。

但alphago 自我对战的第二盘,不但白棋被提了超过50个子(即便是业余棋手对局里,被提50个子也可以认为是惨绝人寰的事情了),而且中间出现了一大坨的愚型,3×5的白子密密麻麻的堆在一起,这是职业棋手对弈中从未出现过的,让人恍惚觉得这是黑白棋,而不是围棋,然而,最终结果,白棋居然赢了。认真的说,如果把alphago的名字去掉,不讲出处,只把结局的图发给一个围棋高手(假设没经历过alphago洗礼过),一定认为这盘棋是两个纯业余的棋手下出来的。

围棋毕竟是两个人下出来的,之所以出现这样的情况,只能说是因为双方彼此的克制太强了。以前有所谓争棋无名局一说,往往竞争激烈的棋局,彼此遏制的厉害,棋形和招法都很难潇洒如意。 唐韦星九段的棋风有个外号,叫做泥泞流,就是下起来对手也难受,自己也难受。我觉得alphago的自我对弈可能就很符合这个风格,双方总是下到让对手很难受的地方,任谁都无法走出效率高的手段,只能在泥泞中挣扎,一个愚型,又一个愚型。

4、alphago没有战略构思。

人类下围棋的时候,往往有一个整体构思,比如要围中腹,比如先捞后洗,比如通过缠绕攻击获利;当然,由于对手的招法,构思不一定会彻底实现,中间也可能会调整或者转向,但人类往往基于某个构思进行布局,进行攻击,进行子力的分布。

但alphago,在对局谱里,看不到这样的整体作战计划和构思,丧心病狂的脱先,疯狂的转换,你无法预测他的计划,他的目的,甚至,你可以认为,他根本没有所谓的计划和目的。

知乎上,知名大V 曾加说了一个观点,我非常的赞同,alphago的每一步,都是基于当前局面下,它认为最佳的下法。是的,逻辑就是这么简单。

虽然所谓最佳下法也是通过大量的计算和后续步骤的推演进行的,但当对手落子后,计算会根据新的局面重新进行,鉴于对手落子的选点和不同,其下一步的最佳下法可能是延续之前的步骤,也可能是断然脱先寻找其他机会,之前的落子,既然是当时最佳下法,肯定对后续的步骤会有一定的正向影响,但鉴于人类的水平,往往很难快速理解这里的因果关联。

在乌镇,古力九段与alphago 对 连笑九段与alphago,下了一盘联棋。(所谓联棋,就是一边两人或多人,每人各走一步)。通常,国内联棋比赛,古力,连笑,作为顶尖职业棋手,往往都是联棋中的主导者,主导棋局的方向跟核心战斗,棋局胜负关键往往看另一个合作伙伴的贯彻和执行程度。 但在与alphago合作的联棋对决里,整个过程就变得完全不可控了。 因为alphago并不会试图去理会和迎合他们的意图,只是按照他们理解的最优点落子;而古力,连笑,也很难理解alphago的意图和目标,结果整盘棋就变得很不可理喻,所谓配合更是无从谈起。

如果让业余高手,或职业棋手,学会理解抛弃整体构思,仅仅从当前局面寻求最优解,不知道是否会提升他们的棋力。曾加大V另一个观点我也很赞成,当人类棋手陷入自己的构思和规划的时候,往往存在沉没成本的考虑,在对手下出制约招法的时候,无法快速应变,改变策略,而导致后续落子效率的下降。

5、alphago 不遵循定式,棋理

这事其实从源头说,我们下围棋为什么有定式,有棋理。

围棋博大精深,主要是因为每一步棋,后续都变化无穷;而人类的计算力是非常有限的。

其实我们想想人类是怎么下棋的,之前我们说alphago的策略是搜索树,会有选择的剪枝,减少搜索广度。人类的思维方式也类似,每一步棋,厉害的棋手,都会脑补后续可能的多个变化图,但由于人类的计算力非常有限,所以,需要极大的剪枝,才能保证计算深度。一个职业棋手,针对一个局面,可能会考虑几十个变化图,每个变化图十几手棋到几十手棋(所谓一本道的情况),我觉得这已经很了不起了。我脑补能力极弱,我下网棋往往要通过对弈工具的变化图的功能来摆,针对一手棋,大部分是凭感觉应对,少数关键点,摆出四五个变化图就已经很难得了。

那么我们知道,alphago一手棋,可以摆几万个,几十万个变化图。

所以,人类学习研究围棋的历史,总结了一些棋理,一些定式,可以让棋手在面对典型局面的时候,基于棋理和定式,快速剪枝,快速缩小搜索范围,实现最低成本的深度搜索。而这套人脑剪枝策略,在几千年的历史演进下,已经证明是很有效的了,所以诸如zen等其他围棋程序,固然拥有远大于人脑的计算力,但由于缺乏有效的剪枝策略,依然无法战胜人类顶级棋手。

那么一些名局中,之所以有一些所谓的妙手,鬼手,往往是因为这些手段,恰好处于普通棋手的搜索范围之外,属于被普通棋手大脑剪枝的部分,而又具有极佳的实战效果。

以前,罗洗河的名局,消除三劫循环大胜对手的那盘棋,好像是俞斌教练就点评过,说罗洗河的思考广度超过其他棋手,所谓思考广度,也就是搜索广度,一些常人剪枝的手段,他会去考虑一下,这里可能就存在更好的招法和手段。

回过头来说,alphago其实也有剪枝的规则,因为它不可能遍历所有落子选择,也就是说,通过大规模的深度学习,其实它也总结了自己所遵循的“棋理”,但由于它的计算能力太强大,所以其搜索广度远大于人类所定义的棋理,定式,也就会出现很多我们棋理所无法理解的招法,以及针对人类定式很多不可思议的改动。

那么,我们知道很多年轻棋手,在大量网棋的训练下,有很多新的招法,新的手段,往往也让人眼前一亮,但说实话,这里存在很多招法,是因为大家都不熟悉,把局面带入对局双方均未知的境地,硬拼计算量,很可能这些招法并非最佳下法,但对手计算广度和深度不足,应对失当,吃下大亏。也就是所谓骗招,甚至施展的棋手都未必知道最佳应对是什么。而alphago的招法,从目前来说,骗招的可能性很小,就算有,很可能也是人类计算能力很难应对的。

6、alphago也会打勺。

是的,从棋谱上还是能看到alphago打勺(所谓打勺,就是明确的坏棋,失误的棋),你没看错,就算我的棋力,都能看出是打勺。

但其实都是不足以影响胜负的勺子,alphago是不是有足以影响胜负的勺子?去年对李世石的时候是有的,但今年,好像目前连职业棋手都没有能力发现或者证明。

那么一种勺子,是之前提到的,稳如狗的退让策略,比如本来赢两目半的棋,下了一步自损一目的棋,反正总也赢了。别指望它会损到让你有机会翻盘。

还有一种勺子比较触目惊心,是狗急跳墙的勺子,第22局棋非常典型,下到308手的时候,白棋小败的局面难以动摇,正常收的话差不多输一目半吧,(如果我说错了请高手指正),黑309是个简单的先手一目的官子,连我都知道要粘啊,结果白310去抢了一个后手两目的官子,然后黑311直接断掉白棋,这时候正解是白棋自补一手,加上断开后有一目棋要粘,算下来是损失了两目官子,得不偿失。但白在走了一步绝先之后,312又去抢了一个后手两目官子,于是黑313一出,白大龙的尾巴肯定保不住了。

这棋业余棋手都能看得很清楚,alphago不可能看不出来,但情况就是,正常收败局已定。于是狗急跳墙去逆收官子,将胜负寄希望于对手不去追究,但对手也是狗,怎么可能不追究。

不过这种失误,因为没有影响到全局胜负,不能说是alphago的水平问题。只能说,它们面对败局的时候,在某些情况下,可能不如人类棋手更大度。(不知道具体认输策略是怎么制定的)

7、alphago毕竟不是围棋上帝,但确实相当接近了。

我们注意到,alphago的自战对局,大部分对局的胜负差都很小,很多盘半目胜负,就算如上第22局这种所谓中盘胜,但其实是很小的差距情况下,狗急跳墙走出勺子变成大败的。

当然,必须承认,很多半目胜负也是因为稳如狗退让出来的。但和与人类对弈相比,alphago自战对弈,从中盘到终局时候的黑白的差距通常要小很多,退让的招法出现的也明显比和人类对弈要少。

我的理解是,如果存在围棋上帝左右互搏,那么结局应该基本上一致,比如白棋一目半胜或半目胜,也就是所有对弈的招法极限已经测试出来了。

而人类顶级职业棋手对弈,在当前贴目情况下,统计上似乎 黑白胜率差不多在45%和55%。 我的理解是这样的,棋手水平越低,这种贴目带来的影响越小。棋手水平越高,贴目带来的影响越大。所以看比例可以看出,比起顶级职业棋手,贴目对alphago的影响更显著的多。相对于围棋上帝而言,alphago比人类接近的不是一点半点。

那么扯了半天alphago,最近有个问题开始在思考。

作为创业者,作为企业家,我们常说,要有长远规划,要有整体的战略设计,但是,我们试图理解一下,如果每次选择,都只去考虑当前局面下的最优方案,会怎样?当然,当前局面的最优方案,也是要有后续的搜索深度和广度的考虑在内,但,这个考虑,并非是战略性的,也不是明确目的的。而是兼容了多种战略,多种目的,多种可能性,选择当前最恰当的,这样发展下去,会怎样?

从alphago的棋谱,我觉得,至少,这个话题,可以讨论一下了。

最后,期待deepmind公开最新的研究成果,我们知道腾讯的绝艺,是基于去年deepmind发表的论文,短短一年时间,成功的成为世界上第二强的围棋AI程序,并在日本围棋电竞赛夺冠,在腾讯围棋大杀四方,线上等级分遥遥领先于所有人类顶尖棋手;但同时我们也知道绝艺并非alphago那么无敌,经常还会输给人类棋手,而且一些关键问题尚未得到解决。这个围棋程序的水平基本上和去年战胜李世石的alphago版本相当,面对顶尖棋手胜多负少,但依然存在一些不完美的地方。

所以,我相信一点,如果deepmind把最新成果公开出来,以腾讯的实力,是可以快速跟进到这个水平的,这样也可以减少alphago退出江湖的遗憾了。


最近看到不少借势alphago的文章,其实蹭热点我觉得还好,但有那种阴谋论,说alphago和柯洁联手上演骗局,欺骗国人,以及各种阴谋论云云。

这种脑残文,不值得反驳,更难听的话,我就不说了。

本文写的很乖,应该不会违规了。

来源:曹政 caoz的梦呓

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表