DeepMind 一心扑在深度强化学习上-提供新闻线索
点击关闭

智能人工-DeepMind 一心扑在深度强化学习上-提供新闻线索

  • 时间:

研究生招生信息网

Alphabet 旗下的 Deepmind,一個在人工智能領域或許稱得上是世界領先的公司,去年虧損 5.72 億美元;在過去的三年中持續虧損,金額超過 10 億美元。

深度強化學習還需要大量的數據。比如,AlphaGo 在訓練過程中參加了數百萬次圍棋遊戲,這遠遠超過了一個人想要成為世界級棋手所需要的數量;而且實現這個目標需要巨大規模的計算資源,價格也不菲——據估計,訓練 AlphaGo 的成本為 3500 萬美元。

這涉及到三個核心問題:DeepMind 是否在科學上走上正軌?從 Alphabet 的角度來看,這種規模的投資是否合理?這種損失將會從整體上影響人工智能嗎?

其實不然。眾所周知,搞研究是最為燒錢的;因此,Deepmind 每年都投入大量的資金,金額甚至比之前任何相關項目的金額都要大。 話雖如此,但 DeepMind 虧損的上升幅度仍值得考慮:2016 年為 1.54 億美元,2017 年為 3.41 億美元,2018 年為 5.72 億美元。

在某種程度上,深度強化學習是一種渦輪增壓式的記憶,使用它的系統能夠實現一些人們覺得不可思議的目標,但它們本身對自己在做的事情只有膚淺的理解。因此,當前的系統缺乏靈活性,也無法在環境發生變化時進行調整。

這意味這什麼?人工智能是否正在走向崩潰?

不僅僅是 DeepMind,許多有望實現的進步還沒有真正實現。雖然 Mark Zuckerberg 在 2018 年 4 月向國會做出的承諾,即人工智能將很快解決假新聞問題已經得到了緩和;但承諾的成本從來都不高,對人工智能的熱情程度是由最終效果決定的,而不是承諾。

最終,深度強化學習可能被證明像晶體管一樣,成為一項徹底改變世界的發明。

商業方面收效甚微由於現實生活中像 Deepmind 這樣一心專註遊戲上的 AI 項目不多,因此,Deepmind 也尚未開展任何關於深度強化學習的大規模商業應用。包括 2014 年收購時支付的 6.5 億美元,目前 Alphabet 已對 Deepmind 投資約 20 億美元;相比之下,Deepmind 去年的營收約為 1.25 億美元。

深度強化學習的局限性關於第一個問題,人們有理由持懷疑態度。DeepMind 一心撲在深度強化學習上,該技術將主要用於識別模式的深度學習與基於獎勵信號的強化學習相結合。

對過度承諾的擔憂最後,DeepMind 在經濟方面的表現將如何從總體上影響人工智能,這個問題很難回答。如果炒作超過了實際效果,它可能導致「AI 寒冬」的到來,甚至連支持者都不願意投資。如果虧損繼續以每年約兩倍的速度增長,連 Alphabet 也可能被迫放棄 Deepmind,投資者也會重新調整對人工智能的熱情。

另外,適用於圍棋的 AI 技術,可能不適用於解決其他具有挑戰性的問題,比如癌症和清潔能源。當然,這可能只是時間問題——DeepMind 至少從 2013 年開始就致力於深度強化學習,而且科學進步很少能在一夜之間就轉化為商業產品。DeepMind 可能最終會找到一種方法,通過深度強化學習來產生更深入、更穩定的結果。

問題就在於,該技術對環境的依賴非常大:在玩 Breakout 時,就連將遊戲中的球拍向上移動幾個像素這樣微小的變化,都會導致遊戲性能急劇下降。DeepMind 在星際爭霸遊戲里的勝利也有着同樣的局限——使用特定地圖和特定「種族」角色時,其結果優於人類;使用不同地圖和不同角色結果較差。如果要更換角色,則要從頭開始重新訓練系統。

不過,這些都是出於經濟學的考慮。正如 Rebooting AI (重啟人工智能)這本書中所說,真正的問題在於信任。目前,深度強化學習只能在受到嚴格控制、很少出現意外的環境中進行;將其運行在幾千年裡都沒有出現變化的環境里或許可行,但在現實生活中,人們可能不會想依賴它。

就目前的形式而言,對人工智能進行炒作遠比構建人工智能要容易。雖然在廣告和語音識別等有限領域已經取得了巨大的進步,但它無疑還有很長的路要走。

2013 年,DeepMind 在一篇激動人心的論文中將這項技術命名為「深度強化學習」,該論文展示了如何訓練一個神經網絡系統來玩各種 Atari 遊戲,比如 Breakout 和 Space Invaders;不得不承認,有時候它們比人類玩得都要好。 這篇論文是一篇工程傑作,大概也是促使 Alphabet 在 2014 年 1 月收購 DeepMind 的主要原因之一。隨後,該技術進一步發展,推動了 DeepMind 在圍棋和遊戲 StarCraft(星際爭霸)中取得勝利。

雖然 Deepmind 目前的戰略不如人們所希望的那麼豐富,但它仍是深度強化學習領域的佼佼者;而且,DeepMind 管理嚴密,資金充足,擁有數百名博士,在遊戲和圍棋方面又大獲成功,正在吸引越來越多的人才。如果人工智能領域的風向發生了變化,DeepMind 轉向另一個方向,它仍然能走在前列。

與此同時,從 Alphabet 方面來說,對 Deepmind 的投資並不是一個大賭注;它還在人工智能領域押下了目前正在快速增長的 Google Brain。對於年收入 1000 億美元、從搜索到廣告推薦等核心業務都依賴人工智能的 Alphabet 來說,進行幾筆重大投資並不瘋狂。

今日关键词:郑爽拍卖衣服