CI 概論 - AISA

— 不再跟隨AlphaGo的腳步，以「創造資訊」的方式開啟AI的全新紀元 —

二十年前，人工智慧「深藍」打敗雄踞西洋棋世界冠軍十二年之久的卡斯帕羅夫(Garri Kasparov)，掀起一道旋風。

電腦第一次被證明可以在頂尖的複雜棋類賽事中擊敗人腦，從此這項漫長的馬拉松挑戰賽展開，一直到二十年後的2017年，AlphaGo徹底擊敗了圍棋的世界冠軍柯潔，才讓這場賽事劃下休止符。

然而接下來，才是一切的開端。

這二十年來，人工智慧的研發，基本上往一個大方向走。那就是跟人腦競爭、擊敗人腦，最終取代人腦。AlphaGo在圍棋上完美地做到了這一點，但跟著開發AlphaGo的DeepMind馬上宣布，AlphaGo將從圍棋界退役，轉向其他的領域，不再只是想著擊敗人類，而是希望運用AlphaGo的運算原理，在不同的層面開發嶄新應用，希望能幫助人類解決更多人腦無法處理的問題。

不過DeepMind很快就踢到了鐵板，2017年七月，英國資訊委員會辦公室(ICO)指出，DeepMind和英國國家衛生服務(NHS)一項涉及160萬筆用戶健康資訊的合作案，並未獲得病患的充分同意，因此違反資料保護法。

之所以會有這樣的爭議，除了AlphaGo希望「勝過人腦」的理念太過於鮮明，引發人類對於AI的深層恐懼感之外，最重要的一個潛在原因，其實是因為AlphaGo獲得資訊以進行深度學習的方式。

AlphaGo，是所謂SI (Search Information – 搜尋資訊) 型的AI，它所獲得資訊的最根本方式，是「搜尋或整理現有已經存在的資訊。」在蒐集到極大量的資訊後，再進行大數據比對及深度學習，讓自己越來越聰明。然而SI型的AI最容易與道德或法律相衝突之處，就在於它所蒐集的資訊來源，究竟是否有侵犯到人類的個人隱私。

即使是這次跟NHS的合作，看似合法地拿到了這些已經存在的資訊，最終還是因為資訊的使用方向未完全告知病患，而踏上了法律的紅線。事實上，隨著SI型的AI越來越強大，人類所受到的「隱私權被侵犯」的威脅，也會越來越明顯。不只是AlphaGo，目前全世界絕大多數的AI，都是以SI為主體，人類很快將會發現，自己的所有資料在這些強大的AI搜尋之下，再也不存在任何隱私。

另外SI型的AI，如果是單純搜尋資訊，而非有一個專有的資料庫供其整理，那很容易遇到另外一種困境。那就是當全世界的AI都在搜尋這些資訊，又該如何脫穎而出，成為真正有價值的AI技術？因此近幾年一個新的概念開始逐漸火熱，那就是AI的「縱深化」。今年初一篇文章指出，2017年CES最強的主題，是人工智慧的「縱深化」，讓AI垂直整合到使用者端，而非只是使用雲端的超強主機運算。

與這個概念相關的AI新創也如雨後春筍般出現，他們結合了IOT物聯網的概念，讓AI在個人裝置或硬體上運作，記錄使用者資訊，再運用大數據整理，提供廠商改善或開發新商品的方向。而這種資訊獲得方式，便是所謂的RI (Record Information – 記錄資訊)，跟SI不同之處，在於它所記錄的資訊是它獨有的，若是沒有在硬體上安裝這樣的AI，就無法將使用者的相關資訊紀錄並拿來運用。

然而RI型的AI，在資料的獲得上畢竟還是有其侷限性，因為若只是「記錄」使用者資料，那應用上也大多是用來改善硬體功能或決定硬體開發方向，無法像SI型的AI，可以運用在幾乎所有層面上。

既然這兩型AI各有其優缺點，我們就在這裡簡單整理表述一下：

優點：可蒐集之資料內容龐大、來源眾多，可經由深度學習後，開發幾乎所有方向的應用AI。

缺點：資料來源都是「現有已經存在」的資料，容易牽涉到侵犯隱私權等問題，且收集到的資料常與其他AI重複。

優點：由裝置上記錄到的資料為自己專屬，可以跟其他AI區隔。且記錄的資料並非現有存在資料，較不容易侵犯隱私。

缺點：資料內容過於侷限貧乏，多半僅能用於該項硬體之效能改善或功能開發，無法廣泛運用於其他層面。

在整理過這兩種型態的AI後，我們心裡必然會出現一個問題：將來有沒有可能會出現另外一種類型的AI，同時可以擁有兩者的優點，卻又沒有兩者的缺點呢？

這個問題可能還沒有最正確的答案，但也已經有了一個解答的選擇，我在今年初所提出的一個概念：CI型的AI，便是在資訊獲得的層面上，綜合了SI及RI的優點，又避免了兩者缺點的AI型態。

所謂的CI，就是Create Information – 創造資訊。它資訊的取得方式與SI、RI型的AI完全不同，是讓AI「主動與人類互動」，來創造出它所需要的資訊。這些資訊原本是不存在的，因此跟SI有根本性的差別。但RI也是記錄新的資訊，是原本不存在於網路的，那CI跟RI又有甚麼不一樣呢？

我們可以簡單地設想一下。今天我們在一個運動手錶上面安裝RI型的AI，它開始記錄使用者的心跳、血壓、步數、使用頻率等資料，AI將多名使用者的資料進行比對，提供給手錶的開發商，讓他們有更清楚的資料去了解並改善這款手錶，例如說他們可以知道使用者最喜歡在慢跑後觀看步數，激烈運動後測量心跳等等。

這是RI的運用方法，那如果把RI拿掉呢？使用者的心跳就不跳了嗎？答案當然是否定的，所以RI型的AI是在「記錄資訊」，把本來就會發生的事情或狀況記錄下來，再進行分析。

而CI是完全不同的概念，它會主動跟使用者互動，並依據它所需要的資料來決定互動的內容或方式，從而得到該名使用者的資訊。如果CI不存在，沒有跟使用者互動的情況下，這些資訊就不會誕生。因此CI型的AI是在「創造資訊」，把原本不存在的資訊創造出來。

我們若將CI型的AI用在商業行銷上，可以進一步延伸出一個概念，CKI ( Create Key Information ) – 創造關鍵資訊。假設一個電商需要從國外進口一項國人從來沒有見過的商品，因為這個特別企劃，便衍伸出一個新的行銷關鍵資訊需求，那就是他的所有客戶，對於全新事物的「嚐鮮度」有多高。

因為這個電商之前販售的都是國內商品，因此這個關鍵資訊對他來說是完全陌生的，也不可能無中生有地跑出來。這個時候他就可以運用CI型的AI來跟他的會員群互動，並且指定要求獲得這項關鍵資訊。

這樣做其實具備了相當特別的意義，一直以來所謂的「數據行銷」，都是在蒐集或整理消費者行為後，分析做出的判斷。但CI型的AI將徹底扭轉這樣的做法，它可以用與眾不同的方式，更精準地獲得它所需要的資訊。

從這個觀點來看，CI型的AI所創造出的資訊是獨一無二的，不僅沒有任何其它的AI可以獲得，更可以依據其需要，創造許多具備「特定性質」的資訊。這些資訊經由大數據分析運算後，其所能運用到的產業及層面之廣，以及可以開發的應用變化之多，將會遠遠超過RI型的AI，甚至是SI型的AI。

CI型的AI同時具備了SI及RI的優點，獲得的資訊應用範圍極廣，獨特性又極高。另外也避免了兩者的缺點，不需要挖掘別人過去的隱私，也不會被侷限在指定的硬體上。然而CI畢竟還是有它的缺點，最大的問題就在於資料的蒐集速度，遠遠不如SI，而資料蒐集的困難度，也高於RI。

因此就如同佩德羅•多明戈斯(Pedro Domingos) 在大演算一書中所提到的：唯有完美整合「機器學習」五大學派的演算法，才能創造出「終極演算法」。我們也必須讓AI同時具備SI、RI、CI三種類型能力，創造出最終的MI (Mix Information) – 混合資訊型態，才是AI資訊收集的最完美型態。

或許將來有一天，當我們能夠以MI型的AI使用「終極演算法」進行運算，就能讓AI突破現有制限，達成所有AI開發者夢寐以求的目標。那就是讓AI跟人類一樣具備「想像力」、「好奇心」、以及「跨領域類比推理」的思考整合能力，進入AI開發的最終境界。

作者：俞永康 Ray Yu (AI新創公司AISA執行長，核心演算法工程師)

2017.7.30