今日中午,我和朋友去了一間日本餐廳。看着餐牌上琳琅滿目的菜色,我一邊想吃吉列豬排定食,一邊又想吃三文魚刺身飯。過了一段時間後,我依然無法做出決定,心知我的選擇困難症又開始發作了。經過一番糾結,我最終選擇了三文魚刺身飯。午飯後,我和朋友各自回家。當我準備離開時,又開始糾結:是走路回家好,還是搭巴士?要不要在回家途中買點小吃當下午茶?我又陷入了選擇的困境中,心想:如果有機器能替我做出最佳選擇就好了。
說到這裏,讓我想起了兩款著名的人工智能系統DeepBlue 和AlphaGo。DeepBlue 是IBM開發的超級計算機,專門用於國際象棋對弈,並在一九九七年擊敗了國際象棋世界冠軍。AlphaGo則是由DeepMind 開發的人工智能程序,專門用於圍棋對弈,並於二零一六年擊敗了圍棋世界冠軍。它們的核心技術之一,正是強化學習。
強化學習有四個主要要素,分別是環境即AI當前所處的世界或場景;動作即AI針對目前環境採取的行為;獎勵即AI執行動作後,環境給出的反饋,獎勵可以是正數(鼓勵)或負數(懲罰);以及下一個環境即AI執行動作後,環境發生的變化。以DeepBlue和AlphaGo為例,它們會根據當前的棋局,計算出棋子應該下在哪一個位置才能獲得最大的優勢。對它們來說,棋局就是它們身處的環境,下棋的位置就是動作,棋子放下後形成的新棋局就是下一個環境,而新棋局對勝率的影響就是獎勵。通過不斷嘗試和學習,它們懂得如何下棋才能最大化獎勵,從而贏得比賽。
我們一生中也在不斷做出各種大大小小的選擇。大的選擇可能關乎人生未來,小的選擇可能只是用右手還是左手去撿起掉在地上的鉛筆。有人甚至說,人類純粹就是一部「決策機器」(decision making machine)。因此,一個人的成功與失敗,或許就取決於他是否是一部優秀的決策機器罷了。◇