2025年10月29日 星期三

機器人如何學習?(我們與機器人的光明未來)

羅斯是全球第一流的機器人專家和夢想家,透過專業作家莫恩的筆,生動介紹了當今最有前瞻性的尖端科技。如今,一場劃時代的機器人革命正在進行,羅斯也提出了對策,要讓機器人的力量用於為人服務,為每個人打造更美好、更令人興奮的未來。本篇只介紹「機器人如何學習?」。

假設我們希望機器人學會「火是危險的,水是安全的」,我們可以建立一種電腦模擬環境,讓機器人自行在虛擬空間中學習區分二者。每當機器人接近火源時,系統就會給它扣分;當它接近水源時,系統則會加分。假設我們的目標是累積最高分,那麼程式便會逐漸學會避開火源,並向水靠近。

這種試錯法,又稱為強化學習,能應用於許多機器人的任務和技能, 例如讓機器人自學如何拿取不同物品(成功拿起就加分,掉落則扣分)。機器人學家無需監督這項實驗,而是由機器人獨自運作,自行嘗試用各種方式拿取不同物品,並記錄有效和無效的方法。

如果有三百台機器人全部都專注於學習如何拿取物品,並互相分享他們的知識和經驗,不到兩週的時間,它們便能集體自行學會拿取一百萬種不同的物品。相反的,若我們想自己訓練這些機器人,用教學或編程的方式,讓他們學習拿取一種物品,那麼學會一百萬件物品,大約得花上一千年的時間。

在現實世界中教導機器人學習,確實有諸多益處,即便機器人能夠獨立學習,仍然進展相對緩慢。但透過模擬學習則能大幅加速進程。首先,基本的自然律和物理定律被編寫進虛擬環境中,試圖教一台機器獵豹在不同地形上行走和奔跑。

最初,虛擬獵豹的腿以千奇百怪且意想不到的方式移動,經過數千次的嘗試和無數次笨拙的錯誤起步和跌倒後,虛擬獵豹學會了如何協調動作,並在前進時保持平衡。最終,這隻虛擬獵豹自己學會了奔跑。

為了縮短模擬時間,可讓數千隻虛擬獵豹的實例同時進行訓練。此外,這些實例彼此交流,互相覺習,並分享彼此的成功與失敗經驗。當程式完成模擬訓練後,便可將調整的模型,移植到實際的機器人大腦中,並在現實世界進行測試。

強化學習開創了無限的可能性,儘管強化學習證實十分成功,但必需經過多次迭代,因此運算成本極為高昂,無論是從運行學習程式所需的算力或相關電力、或實際所需的資金來看,都是如此。

此外,強化學習的結果也較難以預測。在模擬訓練中,你是讓系統自行學習,並未告訴機器人如何完成你希望它執行的任務,所以難以確知機器人出現某些行為的原因。因此,我們也難以保證系統總是能順利運作,或預測它在意外情況下的反應。同樣的,如果出現錯誤,也很難解釋問題的根本原因。

有一種補救之道的方法稱為模仿學習,以自駕車為例,我們可以派更多駕駛人開更多的自駕車。每一次的行駛都可以在模擬環境中進行調整,創造所謂的極端案例,例如因駕駛人過於衝動而引發事故。從一次平平無奇、安全的行駛,變為一場難以捉摸、混亂的駕駛過程,隨意創造出各種困難情境和駕駛情況,我們便能訓練自駕車在遇到類似困境時,適時做出反應。

目前機器學習技術是使用人工神經元做為運算單元來建構。人工神經元被組織成網路架構,定義了神經元之間的組態或連接方式,並形成人工神經網路。在學習過程中,人工神經網路使用數據來辨別模式,然後模式會被編碼成模型參數。隨後,模型可從另一些不熟悉的數據裡,辨識出熟悉的模式,以此來對那些未曾見過的新數據做出決策。

假設我們希望深度神經網路辨識物體,並且數據來源是照片影像。每一層處理都會尋找並識別不同的影像特徵。例如,在第一層處理中,系統可能會對數個二乘二的像素方塊進行比較,從中辨識出細小的特徵。這些細微的模式經過評估後,會被輸出並做為第二層處理的輸入資訊,繼續尋找複雜的像素模式,這些模式通常會應對於影像中的角落或邊緣特徵。

這是如何涉及學習的呢?隨著深度神經網路逐層處理,並將處理對象逐漸擴展至更大範圍的物體,系統開始將各個識別到的特徵彙總,並理解這些特徵之間如何互相關聯,而組合成更高層次的物體特徵。

最終,深度神經網路評估所有這些細小且聚焦的模式,根據這些模式做出有根據的推測,來判斷物體的身分。例如系統可能會得出結論:圖片中的物體有92%的機率是狗,或以91%的可信度辨識它為杯子。

一旦系統經過數十萬張標記影像的訓練,深度神經網路便能辨識出人類未標記的影像中的物體。原因是深度神經網路已建立了自己的模型,能夠辨別新影像中與先前標籤資料相同的模式。換句話說,它學會了如何識別狗或杯子等物體。

結語

我會分享這篇文章,主要是要讓讀者瞭解,目前科學家似乎已經找到有效率的方式來訓練「機器人如何學習」。所以輝達(NVIDIA)執行長黃仁勳才會說,未來機器人將成為全球最大消費電子與工業設備的市場。


有關書籍的介紹,請參考:作者、出版社、內容簡介

更多的理財書目,請參考:汪汪書架的書–理財書籍