在過去,強大的人工智慧得依靠人類事前輸入大量資料,幫助它學習、訓練技能,Alpha Go成為圍棋大師前也不例外。前不久,DeepMind公司在《自然》(Nature)科學期刊上發表一篇學術論文〈不需要人類知識就稱霸圍棋〉(Mastering the game of Go without human knowledge),展示了強化版的程式AlphaGo Zero,證明在全球最困難的棋藝競技中,人工智慧可以在沒有任何人類知識的基礎上,純粹靠自我學習成為制霸王者。
5、40 天後,AlphaGo Zero 對戰 Master 達到近 90%勝率,成為有史以來 AlphaGo 棋力最強的版本。
6、雖然 AlphaGo Zero 沒有公開下過棋,在論文中附上了 AlphaGo Zero 的 80 局棋 ,供大家研究。從圍棋技術的角度來說,AlphaGo Zero 自學所發現的圍棋觀念,例如打劫、征子、棋形、開局先下在角部,開局定式等等,絕大部分與人類的圍棋觀念是一致的,這也間接呼應了人類幾千年以來圍棋研究的價值。
7、AlphaGo Zero 的棋風特別好戰,並且也喜歡直接點33。從論文內容來說,這主要是一篇強化學習的論文,關鍵技術在於強化學習訓練 pipeline 的效能極大化。作者: jackyoy 時間: 2017-11-12 02:02 PM