CI 概論

Microdata AI understands people most.

— 不再跟隨AlphaGo的腳步,以「創造資訊」的方式開啟AI的全新紀元 —

二十年前,人工智慧「深藍」打敗雄踞西洋棋世界冠軍十二年之久的卡斯帕羅夫(Garri Kasparov),掀起一道旋風。

電腦第一次被證明可以在頂尖的複雜棋類賽事中擊敗人腦,從此這項漫長的馬拉松挑戰賽展開,一直到二十年後的2017年,AlphaGo徹底擊敗了圍棋的世界冠軍柯潔,才讓這場賽事劃下休止符。

然而接下來,才是一切的開端。

這二十年來,人工智慧的研發,基本上往一個大方向走。那就是跟人腦競爭、擊敗人腦,最終取代人腦。AlphaGo在圍棋上完美地做到了這一點,但跟著開發AlphaGo的DeepMind馬上宣布,AlphaGo將從圍棋界退役,轉向其他的領域,不再只是想著擊敗人類,而是希望運用AlphaGo的運算原理,在不同的層面開發嶄新應用,希望能幫助人類解決更多人腦無法處理的問題。

不過DeepMind很快就踢到了鐵板,2017年七月,英國資訊委員會辦公室(ICO)指出,DeepMind和英國國家衛生服務(NHS)一項涉及160萬筆用戶健康資訊的合作案,並未獲得病患的充分同意,因此違反資料保護法。

之所以會有這樣的爭議,除了AlphaGo希望「勝過人腦」的理念太過於鮮明,引發人類對於AI的深層恐懼感之外,最重要的一個潛在原因,其實是因為AlphaGo獲得資訊以進行深度學習的方式。

AlphaGo,是所謂SI (Search Information – 搜尋資訊) 型的AI,它所獲得資訊的最根本方式,是「搜尋或整理現有已經存在的資訊。」在蒐集到極大量的資訊後,再進行大數據比對及深度學習,讓自己越來越聰明。然而SI型的AI最容易與道德或法律相衝突之處,就在於它所蒐集的資訊來源,究竟是否有侵犯到人類的個人隱私。

即使是這次跟NHS的合作,看似合法地拿到了這些已經存在的資訊,最終還是因為資訊的使用方向未完全告知病患,而踏上了法律的紅線。事實上,隨著SI型的AI越來越強大,人類所受到的「隱私權被侵犯」的威脅,也會越來越明顯。不只是AlphaGo,目前全世界絕大多數的AI,都是以SI為主體,人類很快將會發現,自己的所有資料在這些強大的AI搜尋之下,再也不存在任何隱私。

另外SI型的AI,如果是單純搜尋資訊,而非有一個專有的資料庫供其整理,那很容易遇到另外一種困境。那就是當全世界的AI都在搜尋這些資訊,又該如何脫穎而出,成為真正有價值的AI技術?因此近幾年一個新的概念開始逐漸火熱,那就是AI的「縱深化」。今年初一篇文章指出,2017年CES最強的主題,是人工智慧的「縱深化」,讓AI垂直整合到使用者端,而非只是使用雲端的超強主機運算。

與這個概念相關的AI新創也如雨後春筍般出現,他們結合了IOT物聯網的概念,讓AI在個人裝置或硬體上運作,記錄使用者資訊,再運用大數據整理,提供廠商改善或開發新商品的方向。而這種資訊獲得方式,便是所謂的RI (Record Information – 記錄資訊),跟SI不同之處,在於它所記錄的資訊是它獨有的,若是沒有在硬體上安裝這樣的AI,就無法將使用者的相關資訊紀錄並拿來運用。

然而RI型的AI,在資料的獲得上畢竟還是有其侷限性,因為若只是「記錄」使用者資料,那應用上也大多是用來改善硬體功能或決定硬體開發方向,無法像SI型的AI,可以運用在幾乎所有層面上。

既然這兩型AI各有其優缺點,我們就在這裡簡單整理表述一下:

<SI 型態>

優點:可蒐集之資料內容龐大、來源眾多,可經由深度學習後,開發幾乎所有方 向的應用AI。

缺點:資料來源都是「現有已經存在」的資料,容易牽涉到侵犯隱私權等問題,且收集到的資料常與其他AI重複。

<RI 型態>

優點:由裝置上記錄到的資料為自己專屬,可以跟其他AI區隔。且記錄的資料並非現有存在資料,較不容易侵犯隱私。

缺點:資料內容過於侷限貧乏,多半僅能用於該項硬體之效能改善或功能開發,無法廣泛運用於其他層面。

在整理過這兩種型態的AI後,我們心裡必然會出現一個問題:將來有沒有可能會出現另外一種類型的AI,同時可以擁有兩者的優點,卻又沒有兩者的缺點呢?

這個問題可能還沒有最正確的答案,但也已經有了一個解答的選擇,我在今年初所提出的一個概念:CI型的AI,便是在資訊獲得的層面上,綜合了SI及RI的優點,又避免了兩者缺點的AI型態。

所謂的CI,就是Create Information – 創造資訊。它資訊的取得方式與SI、RI型的AI完全不同,是讓AI「主動與人類互動」,來創造出它所需要的資訊。這些資訊原本是不存在的,因此跟SI有根本性的差別。但RI也是記錄新的資訊,是原本不存在於網路的,那CI跟RI又有甚麼不一樣呢?

我們可以簡單地設想一下。今天我們在一個運動手錶上面安裝RI型的AI,它開始記錄使用者的心跳、血壓、步數、使用頻率等資料,AI將多名使用者的資料進行比對,提供給手錶的開發商,讓他們有更清楚的資料去了解並改善這款手錶,例如說他們可以知道使用者最喜歡在慢跑後觀看步數,激烈運動後測量心跳等等。

這是RI的運用方法,那如果把RI拿掉呢?使用者的心跳就不跳了嗎?答案當然是否定的,所以RI型的AI是在「記錄資訊」,把本來就會發生的事情或狀況記錄下來,再進行分析。

而CI是完全不同的概念,它會主動跟使用者互動,並依據它所需要的資料來決定互動的內容或方式,從而得到該名使用者的資訊。如果CI不存在,沒有跟使用者互動的情況下,這些資訊就不會誕生。因此CI型的AI是在「創造資訊」,把原本不存在的資訊創造出來。

我們若將CI型的AI用在商業行銷上,可以進一步延伸出一個概念,CKI ( Create Key Information ) – 創造關鍵資訊。假設一個電商需要從國外進口一項國人從來沒有見過的商品,因為這個特別企劃,便衍伸出一個新的行銷關鍵資訊需求,那就是他的所有客戶,對於全新事物的「嚐鮮度」有多高。

因為這個電商之前販售的都是國內商品,因此這個關鍵資訊對他來說是完全陌生的,也不可能無中生有地跑出來。這個時候他就可以運用CI型的AI來跟他的會員群互動,並且指定要求獲得這項關鍵資訊。

這樣做其實具備了相當特別的意義,一直以來所謂的「數據行銷」,都是在蒐集或整理消費者行為後,分析做出的判斷。但CI型的AI將徹底扭轉這樣的做法,它可以用與眾不同的方式,更精準地獲得它所需要的資訊。

從這個觀點來看,CI型的AI所創造出的資訊是獨一無二的,不僅沒有任何其它的AI可以獲得,更可以依據其需要,創造許多具備「特定性質」的資訊。這些資訊經由大數據分析運算後,其所能運用到的產業及層面之廣,以及可以開發的應用變化之多,將會遠遠超過RI型的AI,甚至是SI型的AI。

CI型的AI同時具備了SI及RI的優點,獲得的資訊應用範圍極廣,獨特性又極高。另外也避免了兩者的缺點,不需要挖掘別人過去的隱私,也不會被侷限在指定的硬體上。然而CI畢竟還是有它的缺點,最大的問題就在於資料的蒐集速度,遠遠不如SI,而資料蒐集的困難度,也高於RI。

因此就如同佩德羅•多明戈斯(Pedro Domingos) 在大演算一書中所提到的:唯有完美整合「機器學習」五大學派的演算法,才能創造出「終極演算法」。我們也必須讓AI同時具備SI、RI、CI三種類型能力,創造出最終的MI (Mix Information) – 混合資訊型態,才是AI資訊收集的最完美型態。

或許將來有一天,當我們能夠以MI型的AI使用「終極演算法」進行運算,就能讓AI突破現有制限,達成所有AI開發者夢寐以求的目標。那就是讓AI跟人類一樣具備「想像力」、「好奇心」、以及「跨領域類比推理」的思考整合能力,進入AI開發的最終境界。

 

作者:俞永康 Ray Yu  (AI新創公司AISA執行長,核心演算法工程師)

2017.7.30