大貨車行車紀錄器【Mobile01推薦】4G即時影像行車紀錄～讓您隨時觀看行車實況～ @ 愛讓誰眼眶泛紅

現場｜David Silver原文演講：揭秘新版AlphaGo算法和訓練細節

文4鏡頭行車記錄器章由三川，宗仁，曉帆聯合編輯。

雷鋒網AI科技評論按：烏鎮圍棋峰會第二天，在《AlphaGo研發介紹，AlphaGo意味著什麼》主題演講上，Demis Hassabis＋David Silver針對昨天與柯潔鏖戰的AlphaGo研發做瞭公開介紹，其中AlphaGo主程序員David Silver在演講中講到AlphaGo研發的關鍵介紹，雷鋒網AI科技評論根據現場原話整理出下文。

演講摘要：有瞭這樣強大的策略網絡和價值網絡，AlphaGo探索棋步的基本的搜索樹規模就得以大幅度縮減。前一個版本AlphaGo Lee還是通過“隻考慮人類可能走的位置”和“預判50回合”來限制搜索規模，如今AlphaGo Master已經考慮的是全局最有價值的位置，並且預測更少的回合數目還能達到更高的準確率。這樣一來，蒙特卡洛樹更窄更淺，回合中考慮的走子位置更少、預判回合數更少，預判依靠更強大的網絡，隻用4個TPU、AlphaGo Lee十分之一的計算能力就達到瞭更高的棋力。

AlphaGo Master的硬件，算法和訓練細節先從外界一直在關心的AlphaGo硬件問題說起，具體來說，AlphaGo Lee使用瞭谷歌雲上的50個左右TPU。依靠這樣的計算能力，我們可以做50層深的搜索，就是說落子前對棋盤上每一個可能的位置可以做50步預判。每秒它可以搜索10,000（ten thousand，1萬）個位置。聽起來挺多的，但是其實20年前的深藍可以每秒搜索100,000,000（a hundred million，1億）個位置。所以其實AlphaGo思考的時候比深藍聰明多瞭，它用策略網絡和價值網絡，大大減少瞭需要搜索的路徑數量。

說說新版本的AlphaGo吧，我們把它稱作AlphaGo Master。這是目前最強的AlphaGo，也正是此次大會中比賽的AlphaGo。AlphaGo Master使用的算法要比以前高效得多大車專用行車紀錄器推薦，以至於隻需要AlphaGo Lee版本十分之一的計算量。以及，訓練AlphaGo Master也要高效得多。

AlphaGo Master運行在單臺（single machine）電腦上（會後采訪中，AI科技評論在內的媒體跟Silver親自確認，是運行在單臺電腦上，但包含4個TPU），但是比擁有更多TPU的AlphaGo Lee、AlphaGo Fan都要厲害。

AlphaGo Master為何如此厲害呢？背後的原因是因為我們用瞭最好的數據來訓練它。我們能獲取到的最好的數據不是來自於人類，而是來自於AlphaGo自己。我們讓AlphaGo做自己的老師。我們利用AlphaGo強大的搜索能力，自己生成數據，用生成的數據讓下一代的AlphaGo學習。自己教自己。

用這樣的方法，我們訓練出的價值網絡和策略網絡就比以前的AlphaGo都要厲害。下面我來仔細介紹一下算法中的細節。

首先，我們讓AlphaGo跟自己對弈。這是基於強化學習的，我們已經不再拿人類的棋局給它學習瞭。AlphaGo自己訓練自己，自己從自己身上學習。通過強化學習的形式，它學到如何提高。

在棋局的每一回合，AlphaGo 運行火力全開（full power）的搜索以生成對落子的建議，即計劃。當它選擇這一步落子、實施、並到一個新回合時，會再一次運行搜索，仍然是基於策略網絡和價值網絡、火力全開的搜索，來生成下一步落子的計劃，如此循環，直到一局棋結束。它會無數次重復這一過程，來產生海量訓練數據。隨後，我們用這些數據來訓練新的神經網絡。

首先，當 AlphaGo 和它自己下棋時，用這些訓練數據來訓練一個新策略網絡。事實上，在 AlphaGo 運行搜索、選擇一個落子的方案之前，這些是我們能獲取的最高質量的數據。

下一步，讓策略網絡隻用它自己、不用任何搜索，來看它是否能產生同樣的落子的方案。這裡的思路是：讓策略網絡隻靠它自己，試圖計算出和整個 AlphaGo 的火力全開搜索結果一樣的落子方案。這樣一來，這樣的策略網絡就比之前版本的 AlphaGo 要厲害得多。

我們還用類似的方式訓練價值網絡。它用最好的策略數據來訓練，而這些數據，是出於完全版本的 AlphaGo 自己和自己下棋時的贏傢數據。你可以想象，AlphaGo 自己和自己下瞭非常多盤棋。其中最有代表性的棋局被選取出來提取贏傢數據。因此，這些贏傢數據是棋局早期回合步法的非常高質量的評估。

比如說，在某局棋中，我們想知道在第 10 回合的局勢，怎麼辦？我們從頭重新運行一遍這局棋，發現最後黑方贏瞭，據此就可以做出合理推測：黑方在第 10 回合占優勢。

所以你需要高質量訓練數據來訓練價值網絡。然後用價值網絡來預測這些 AlphaGo 自己和自己下棋的棋局中，哪一方是贏傢。這些數據中，棋局的每一回合，我們都讓價值網絡來預測最後的贏傢。

最後，我們重復這一過程許多遍，最終得到全新的策略和價值網絡。比起舊版本，它們要強大得多。然後再把新版本的策略、價值網絡整合到 AlphaGo 裡面，得到新版本的、比之前更強大的 AlphaGo。這導致樹搜索中更好的決策、更高質量的結果和數據，再循環得到新的、更強大的策略、價值網絡，再次導致更強大的 AlphaGo，如此不斷提升。

最後，AlphaGo的表現如何呢？以圍棋等級分來看，以前ZEN、CrazyStone軟件達到約2000分，樊麾版AlphaGo達到近3000分，李世石版AlphaGo上漲3子，達到3500分以上，AlphaGo Master又漲3子，達到4500分以上。

主題演講過後，Demis Hassabis＋David Silver接受瞭雷鋒網AI科技評論在內的多傢媒體采訪，對一些大傢比較感興趣的地方，這裡一並附上：

1. 新版的AlphaGo已經不需要向人類導師取經瞭？

對，它已經不需要依賴外界的導師瞭，現在我們希望它往通用人工智能的AGI的方向發展。

小貨車行車記錄器安裝

2. 目前DeepMind在圍棋上取得的成就是否有應用到其他方向的拓展上？DeepMind又在向其他方向拓展上有什麼成果？

關於具體應用，我們還在應用的早期探索階段，包括剛剛演講中提到的新藥研制等應用領域隻是它中間某一個技術的行業使用。

3. 剛演講中，您提到AlphaGo在下棋過程中已經開始擁有類似人類的“直覺”，這是否可以說其正在邁向強AI階段？意味著擁有自主意識？

我想應該這麼說，在某一個具體的領域不斷強化訓練，隻能說它在這個確定領域中實現瞭這種直覺或者自主意識，和人類直接產生的自主意識有區別。正因為這樣，它有機會應用在不僅僅圍棋領域，而是包括其它領域。

4. 您昨天提到的它的計算量相當於去年人機大戰的十分之一計算量，能不能說地再清楚一些？

對，昨天我們說到，它用的是TPU，十個處理單位，隻占到十分之一的計算量，這裡強調一下，十分之一既指電力的消耗隻占到之前的十分之一，也指運行調用的資源隻占到之前的十分之一。

5. 請問您提到Al貨車行車記錄器安裝phaGo Lee使用瞭四鏡頭行車紀錄器比較谷歌雲上的50個左右TPU，這次它的計算力少瞭十倍的計算量，到底是用瞭多少個TPU？

是用瞭一個單機（Single Machine），這個物理服務器上面有4個TPU。

6. AlphaGo昨天比賽的後半局，按理應該是時間比前面用的更少，打你們為什麼一直保持勻速的落子速度，這背後的算法做瞭什麼樣的設置？

我們每一步的計算是持續，穩定的，所以制定瞭對等時間求穩策略，來達到最大限度使用時間的目的，所以我們認為勻速是最好的。

7. 為什麼AlphaGo在喬裝成Master60連勝的時候已經打敗過柯潔，為什麼還要舉辦這次公開比賽？

來自David Silver先生，AlphaGo首席研究員的聲明：

新版本的AlphaGo, 已經過幾百萬次的自我訓練，並在檢測舊版本弱點方面表現出色。也因此，新版本的AlphaGo可以讓舊的版本三個子。但當AlphaGo與從未對弈過的人類棋手對局時，這樣的優勢就不復存在瞭，尤其是柯潔這樣的圍棋大師，他可能幫助我們發現Alphago未曾展露的新弱點。這樣的衡量標準是無法比較的。對於本周的第二輪和第三輪對局，我們拭目以待。

The new version of AlphaGo has trained against itself millions of times, and has learned to become very good at exploiting the weaknesses in previous versions. That s why it s about three stones stronger in head-to-head games against its older self. But that doesn t mean anything when it comes up against a human player with whom AlphaGo has never trained - particularly a great master like Ke Jie, who can uncover new weaknesses we don t know about. The scales just aren t comparable. We are excited for the second and third games this week! - David Silver, lead researcher for AlphaGo

雷鋒網(公眾號：雷鋒網)AI科技平路獨傢報道，未經許可，拒絕轉載。

雷鋒網原創文章，未經授權禁止轉載。詳情見轉載須知。

tu5zqdrmbn

愛讓誰眼眶泛紅

tu5zqdrmbn 發表在痞客邦留言(0) 人氣()

E-mail轉寄

愛讓誰眼眶泛紅

愛讓誰眼眶泛紅

大貨車行車紀錄器【Mobile01推薦】4G即時影像行車紀錄～讓您隨時觀看行車實況～

歷史上的今天

留言列表

站方公告

活動快報

【全民...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

愛讓誰眼眶泛紅

愛讓誰眼眶泛紅

大貨車行車紀錄器 【Mobile01推薦】4G即時影像行車紀錄～讓您隨時觀看行車實況～

歷史上的今天

留言列表

站方公告

活動快報

【全民...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

大貨車行車紀錄器【Mobile01推薦】4G即時影像行車紀錄～讓您隨時觀看行車實況～