close


  

 

打開演算法黑箱(讀書心得
Hello World: How to Be Human in the Age of the Machine


數學和數據的聯手。

「演算法」一詞在網路界流行了很多年,但直到讀完這本書,我才終於對這個模糊的概念有了具體的認知。本書不僅講述了演算法的內涵與應用,亦透過社會案例和現實情境,由點至面地帶領讀者思考演算法優勢與侷限。論述深入淺出,相當具有啟發性。

本書開頭,在開始細說演算法前,作者非常貼心地以簡單易懂的定義,協助讀者建立初步的背景知識。

  演算法(名詞):一種按步驟解決問題或達成某種目的之程序,尤其是藉由電腦。《打開演算法黑箱》

換句話說,演算法必定具有某種目標和前提。它具體的操作是將蒐集來的資料轉換成編碼,並用數學方法在電腦上進行運算,以便獲得想要的結果。

而演算法依操作的模型不同,又可分為兩類:規則型演算法是由人編寫每一步驟的指令,按部就班執行達成目標;機器學習演算法(俗稱AI)則是藉著正確/錯誤的反饋,讓電腦自行練習直到完成目標。前者雖然容易理解但繁瑣呆板,而後者彈性較大卻很難搞懂內在的程序邏輯(例如電腦是依什麼線索判讀圖片上的狗)。

除此之外,書裡作者亦羅列了設計演算法最常見的四種目的,分別是「排序」(挑選最佳或優先順位,例如最快路徑或最佳棋步)、「分類」(整理特徵分門別類,例如商品廣告)、「關聯」(標記人物事件關係,例如推薦好友)、「過濾」(離析資料突顯焦點,例如語音辨識)。

事實上,現今多數的演算法幾乎具備了上述一種以上的綜合性功能,彷彿不論是什麼難題,似乎都可以利用科學又客觀的強大演算法得到完美的答案。然而,過度依賴演算法的結果,是否會在不知不覺中反客為主,讓演算法變成另一種形式的威權?這正本書試圖探討的議題。

作者以七個章節──分別是「資料」、「司法」、「醫療」、「車輛」、「犯罪」、「藝術」──列舉演算法現實中各層面的應用,並輔以實際的案例說明,讓讀者不僅可以掌握知識,亦可以透過不同角度的思考利用演算法的益處與缺失,進而得到較為全面完整的觀點。

資料
作者指出現今臉書登錄(虛擬世界)和賣場會員(現實世界)皆可利用蒐集來的用戶資訊,進行分類和關聯的演算,然後再根據演算出的偏好和傾向來投放廣告和推銷商品。諷刺的是,雖然現代人強調個人隱私,卻很少考慮在申請或註冊時填寫的個資是否會遭到資料仲介的濫用。

  我們假想我擁有一家奢華旅遊的公司,取一個富於想像力的名字,就叫弗萊公司吧。多年來,我一直要人們上我的網站登錄資料,如今有了一份他們郵件位址的清單。如果我想發掘更多和我的用戶有關的內容──像是他對哪一種度假方式有興趣──可以把我的用戶郵件清單寄給資料仲介,他們會在他們的系統中查詢這些名字,然後把相關資料附記在我的清單上回給我,就像在試算表上多加一欄之類。現在,當你造訪我的弗萊公司網站,我就可以看到你對熱帶島嶼的特別偏好,於是奉上一則出走夏威夷的廣告給你。
  這是選項一。選項二,我們假想弗萊公司在它的網站有一些額外空間,可以賣給其他廣告商。我又去找資料仲介,把我擁有的用戶資訊給他們,仲介便去找其他想上廣告的公司。故事繼續,我們假想有一家賣防曬乳的公司很有興趣。為了讓他們相信弗萊公司擁有防曬乳賣家想鎖定的受眾,仲介可能會把他們推斷的弗萊用戶某些特徵秀給這些賣家看……或是防曬乳賣家可能會交出一份他們自己用戶的電子郵件位址清單,仲介可以查出兩群受眾之間到底有多少交集。如果防曬乳賣家同意,廣告就會出現在弗萊公司的網站上──而仲介和我都會拿到錢。
  到目前為止,這些做法並未超出行銷人員向來用於鎖定顧客的技術太多。但到了選項三,……這次,弗萊公司要找一些新客戶。我們想鎖定六十五歲以上,喜歡熱帶島嶼且有大筆可支配所得的男女,期望他們會想參加我們其中一趟新推出的加勒比海奢華航程。我去找資料仲介,他會翻遍他們的資料庫,幫我找出一份符合我描述的人名清單。
  好,我們就假想你在那份清單上吧。仲介絕不會把你的名字交給弗萊公司,但他們會查出你還固定上哪些網站,仲介可能也和你最喜歡的網站之一有合作關係。或許是社群媒體網站,或許是新的網站,諸如此類。只要你不疑有他地登入你最喜歡的網站,仲介便會接到通知,提醒他們你來了。仲介真的是分秒不差,在你的電腦上放一支小小的旗標做為回應──所謂的cookie。這個cookie的作用就像對網路各處其他各種各類的網站發出訊號,說你是應當收到弗萊公司加勒比海郵輪之旅廣告的某人。無論你想不想收到,無論你去到網路的何處,這些廣告都會跟著你。《打開演算法黑箱》

顯而易見地,用戶主動提供的個資已成為一種商品,亦是資料仲介用來謀利的工具。而這類無需任何成本的賺錢法除了讓用戶成為廣告轟炸的受害者外,針對用戶的現況描述也容易演變為歧視與標籤(例如常買酒的人被視為是個酒鬼,吃無糖點心的人或許患有糖尿病)

免費科技的背後,往往要付出意想不到的代價。

本章最後,作者以著名的劍橋分析事件為例,說明資料仲介如何透過社群平台研究用戶人格特質,並運用負面訊息或煽動性貼文,達到影響選民情緒的政治目的。而中國的公民評比(社會信用體系)則是藉著蒐集每一筆的個人資訊,將每個人線上和線下的行為整合評分,給予懲戒或獎勵來強化國家監控。

司法
公平公正一直是司法制度追求的終極目標,但實際執行起來卻並非易事。除了不同法官在面對相同案件可能有著相異的見解之外,作者亦以一份針對英美法官的調查研究結果為例,指出了多數法官在自己做出的裁判上也幾乎無法維持一致性。

  ……多數法官沒能在二度看到相同案件時做出相同裁決。令人吃驚的是,有些法官在維持自己的答案前後一致這方面,做得並沒有比隨機裁定交保要好。
  其他還有很多研究已經得出相同結論:只要法官有自己評估案件的自由,便會有大量的不一致狀況。容許法官有自由裁量的空間,意味著容許這個系統含有運氣的成分。《打開演算法黑箱》

要避免人為的不確定,最好的方法或許就是取消法官的自由裁量權,讓每個罪行都以相同的方式懲罰。然而,這樣的做法雖然保證了精準,卻失之公平,無法符合人們的期待。於是乎,在個別化正義與確保一致性之間取得平衡,便成了建構演算法時所不可避免的挑戰。

另一方面,為了最佳地評估罪犯的釋放風險,一種利用隨機森林(Random Forest)技巧的演算法也應運而生。根據作者的介紹,隨機森林是由眾多的決策樹所構成,每一個決策樹分別處理不同的情況。它的運作方式類似流程分支圖,先是建立模式,然後依照特點順著相關的分支走。

  ……這些決策樹可能不會全體一致,而且各自做的預測或許還是不太行,但只要取所有答覆的平均值,你就能大幅改善你的預測精準度。
  這有點像是《超級大富翁》節目裡的觀眾。擠滿一屋子的陌生人想出來的答案,往往比你所知道最聰明的人還要正確(「問問觀眾」這個求救法有百分之九十一的成功率,相較之下,「打電話給朋友」只有百分之六十五)。《打開演算法黑箱》

遺憾的是,即便是再強大演算法,也很難完全預測人類的行為模式。該如何評估罪犯的再犯率是個棘手問題。書裡作者提出偽陰性(無法判定出某人具有高機率)和偽陽性(錯把某人判成定成高機率)的兩難,一旦演算法成為被告裁定交保、假釋或量刑的唯一依據,可能導致更嚴重的後果。此外,既有犯罪者的種族性別,亦可能讓演算法失之偏頗。

  我來解釋一下,想像你在街上把人攔下,用演算法預測每個人接下來是否會犯下殺人罪。好,因為極大多數的謀殺罪是男性所犯下(事實上就全世界而論,百分之九十六的謀殺犯是男性),如果一個搜尋謀殺犯的演算法所做的預測要準確,被它鑑定為高風險的男人必然會比女人多。
  ……除非各族群被告在犯罪者之中所占分比都相同,否則數學上不可能設計出一種測試法的預測,能放諸四海而有平等的準確率,而且對各族群被告的偽陽性和偽陰性出錯率也相同。《打開演算法黑箱》

本章最後,作者以人類思考的弱點探討法官裁量為何很難公正無偏見,其原因包括直覺陷阱(解決問題時傾向依循直覺而非重新思考)、錨定效應(從相對數字來評估刑期和賠償金)、韋伯定律(可感知的最小變化與初始刺激成正比──二十年刑和二十年三個月刑的差別不夠大,但一個月刑到三個月刑的差別很大)。

醫療
素有「不治之症」之稱的癌症早已成為影響人類健康生活的頭號大敵。在本章開頭,作者從癌細胞的診斷帶出當下「樣本數量龐大但病理學家不足」的醫療困境,藉此進一步說明演算法在醫界的應用。

  一直到晚近,設計一種能進行影像辨視的演算法──別說癌細胞,不管辨識出什麼都行──都還被認為是出了名難搞的挑戰。重要的不是圖片解讀對人類而言有多容易,而是就我們到底是如何做到這一點所做的解釋,已經證明這是一項困難到無法想像的任務。
  要了解何以如此,請想像你正在撰寫指令要告訴電腦某張照片裡沒有狗。你可以從明顯的部分開始:是不是有四條腿、是不是有下垂耳朵、是不是有毛皮,諸如此類。但狗正坐著的那些照片怎麼辦呢?或是那些沒辦法看到每一條腿的照片呢?尖耳朵的狗怎麼辦呢?或是豎立的耳朵?或是沒有正對鏡頭的狗?毛皮和絨毛地毯看起來有什麼差別?綿羊毛呢?草皮呢?
  當然,你可以用額外的指令來處理這一切,把每一種可能形態的狗耳朵、狗毛皮或坐姿,從頭到尾說一遍,但你的演算法很快就會變得如此龐大,以致於甚至在你開始區別狗和其他四腿毛皮生物之前,便完全無法運作。你需要另尋他法。竅門在於擺脫規則型典範,採用一種稱為「類神經網絡」(neural network)的東西。《打開演算法黑箱》

對一個普通人來說,判斷照片裡的事物簡單得彷彿是不證自明的本能;然而透過如何將這套做法安裝在電腦上,讓人了解到其實我們亦非生而知之,而是需要經過不斷試錯及學習改善。

事實上,「類神經網絡」就是另一種不同於「隨機森林」的「機器學習演算法」。操作者無法確切得知演算法是利用什麼方式得出結論,但隨著大量的「從錯誤中學習」,演算法便能如人類一般,快速降低判斷出錯的失誤率。

  演算法不像我們知道決策是如何做成,其運作方式也許聽起來像是巫術,但或許和我們自我學習的方式沒那麼不同。思考一下這組對比。近來,有研究小組訓練演算法分辨狼和哈士奇寵物犬的照片。結果,他們顯示了演算法由於其調轉撥盤的方式,是如何完全不以與狗有關的任何事物來當線索。演算法的答案是依據照片的背景有沒有雪。有雪:狼。沒雪:哈士奇。
  他們的論文發表後不久,我和劍橋大學數學教授法蘭克.凱利聊湊,他告訴我關於他和孫子的一段對話。當他正帶著四歲大的孩子走路去托兒所時,路邊有一隻哈士奇。他的孫子觀察說這隻狗「看起來像」狼。法蘭克問他怎麼知道那不是狼,他回答說:「因為牠用皮帶綁著。」《打開演算法黑箱》

相較於電腦神秘莫測的演算,人類的腦迴路其實也不遑多讓。

作者隨後提到,人類在利用演算法判斷事物──尤其是癌細胞──的時候,會希望它兼具高靈敏度(能抓出所有長腫瘤的異常部位)和高特異度(不要將正常部位標示為有腫瘤),也就是,不要出現偽陰性(有事說沒事)和偽陽性(沒事說有事)的結果。

可惜的是,演算法終究要靈敏度和特異度之間做出選擇,無法兩全其美。與此同時,作者也觀察到人類在靈敏度上容易錯漏(沒發現癌細胞),但在特異度上通常有較佳表現(不會把非癌細胞當作是癌細胞);而演算法則與之相反。

此外,作者以阿茲海默症與語言能力低落之間的關聯為例,闡述演算法或許有朝一日能預測疾病的發生,讓人有及早治療的機會。不過這或許需要蒐集海量的數據──從每個人的病歷資料和基因樣本──且很可能面臨維護個人隱私和增進公共利益的兩難。另一方面,程式設計師們致力打造的全能診斷器「華生」也因疾病種類過多,仍在蹣跚學爬。

本章最後,作者以「若演算法真的可以完美診斷出所有疾病」的假設,指出了個體自我或全體人類之間無法避免的矛盾──什麼才是醫療的終極目標?演算法應該考量全體人類而減少抗生素的使用,或是讓個體自我盡快痊癒而施打抗生素?

車輛
自駕車研究的興起在於它被認為可以避免人為疏失、降低車禍發生率,進而打造更安全的行車環境。然而,在這個看似酷炫又充滿科技感的發明背後,作者將帶領讀者了解演算法如何達到(或者為何達不到)自動駕駛的目標。

一台自駕車的誕生,它的演算法至少必須克服「環境辨識」、「移動定位」、「行車干擾」三道難關。

本書前面幾個章節曾經提及,為了讓演算法順利辨認事物,需要投入大量圖像資料,並從中試錯學習。而在自駕車的應用上,「環境辨識」所需的事物資料不僅龐大繁瑣,同時還因涉及前後左右的行駛,加疊「移動定位」而變得更加困難複雜。

  你可以告訴這輛車:「只在看起來像柏油的東西上開」。但這在沙漠中沒多大助益,那兒的道路是塵土路。你可以說:「在影像中最平滑的東西上開」──但不幸的是,最平滑的東西幾乎一直是天空或玻璃帷幕建築。你可能會以相當抽象的用詞,來思考該如何描述道路的形狀:「尋找有兩條約略筆直邊線之物。這兩條線在影像底部大幅隔開,在頂部相向漸近。」這似乎滿有道理,除了一棵樹在照片上看起來不巧也是如此之外。一般並不認為鼓勵車子開上樹是明智之舉。
  問題在於攝影機不能給你比例或距離感。……
  即使你運用一個以上的攝影機,並聰明地組合影像以建立周遭世界的3D圖像,還是有另一個源自過度倚賴神經網路的潛在問題,……就像之前在〈醫療〉一章中,那些類神經網路依據照片中的雪來分類哈士奇,ALVINN的類神經網路運用草地當作該往哪裡開的關鍵指標。一旦沒了草地,機器就不知道該怎麼辦。
  和攝影機不一樣,雷射可以測量距離。運用一種稱為光達(也譯作光學雷達)的系統,交通工具從雷射槍中射出光子,計算自障礙物反彈回來要花多久時間,最後針對該障礙物距離多遠得出一個不錯的估計值。不全都是好消息:光達對於紋理或顏色幫不上忙,對道路標誌的判讀無藥可救,而且長距離的表現不是很好。另一方面,雷達──概念相同,只不過是用無線電波──在各種天候狀況下都表現良好,可以偵測遠處障礙物,甚至穿透某些材質,但在提供障礙物形狀或結構的任何細節方面,完全不能指望。
  這些資料來源──攝影機、光達、雷達──沒有一個單憑自己就足以理解交通工具周遭正發生什麼事。成功打造無人駕駛車的妙招,在於綜合這些資料來源。如果它們對於實際所見為何有一致結論,任務會相對簡單,但如果沒有,就困難許多。《打開演算法黑箱》

當演算法無法靠唯一依據,而必須採一種以上的手段(包括GPS也時常不精確)才能做出應對時,借助貝氏定理的決策方式或許是個不錯的解方。

所謂的貝氏定理,是提供一套系統性的方法,依據證據來更新你對某一假說的相信程度。也就是,雖然你無法用方程式百分百精準地找出唯一解,但可以依據掌握的資訊做出最佳判斷。

  貝氏的思考方式真正發揮用處,是在你試圖考量一個以上的假設時──例如試圖依據各種症狀診斷病人有什麼問題,或是依據各種感測器讀數找出無人駕駛車所在位置。理論上,任何疾病、地圖上任何一個點,都可以代表背後的真相。你需要做的,就是權衡證據以判定哪一個種最有可能是正確的。
  ……以貝氏觀念為基礎的演算法,協助解決了車子必須回答的其他問題:「我周遭有什麼?」和「我應該做什麼?」《打開演算法黑箱》

即便利用貝氏定理能妥善處理「環境辨識」和「移動定位」的問題,但這不過是初步讓「車子可以自動行駛」,距離真正「和其他車輛一起上路」還有很大的差距。事實上,在交通混亂的路口,往往著有各式各樣的「行車干擾」不容忽視。

現實裡的「行車干擾」千奇百怪,包括但不限於車輛逆行、超車追逐、會車失速、行人穿越、救護讓道等等。突如其來的情況往往需要駕駛人靈活且迅速的反應能力,甚至偶爾必須做出違反交通規則的舉動,這也使得完全的自動駕駛幾乎成為不可能的任務。

除此之外,由於自駕車的演算法必定將行人的安全列為優先,因此不難想像闖越馬路的行人將藉著這層保護橫行無忌。有關安全優先順位的矛盾不止如此──「你的無人駕駛車應該去撞行人來救你的命嗎?」──作者犀利的提問想必讓所有自駕車的研發者都感到頭痛。

事實上,現今自駕車上路的消息雖然時有所聞,但那些車並不能真正地開往任何地方,而是被限制在某個事先圈定好的區域內行駛。

  這和全自駕不完全相同。底下是斯蒂爾格對必要妥協的看法:「看起來像自駕系統的東西,其實是在限制這個世界,好讓這些系統看起來像自駕。」《打開演算法黑箱》

本章最後,作者認為即便全自駕的理想很難實現,但藉著演算法的駕駛輔助,或許還是能為交通安全多提供一層保障──前提是人類必須在科技的便利下依舊保有自身技能。書中以法國空難為例,闡述機師因過份依賴自動系統,以致失去手動應變危機的能力。

  這就是豐田汽車研究機構所進行的研究背後的理念。他們在車子內部建立兩種模式。有「司機」模式──像奧迪的塞車駕駛系統──可以在塞車嚴重時接手;還有「守護神」模式,人類駕駛期間在幕後運作,並扮演安全網的角色,如果有駕駛人沒看到的任何狀況突然發生,降低發生事故的風險。《打開演算法黑箱》

犯罪
當犯罪事實發生,除了採集現場的證據和調閱相關的紀錄外,是否可能透過某種模型找出嫌犯身分,又或者是嫌犯的犯罪規律?為了回答這個問題,作者以一起性侵案為引,展開了犯罪發生地與嫌犯居住地之間的關聯性探討,也就是地緣剖繪。

  ……就和我們其他人一樣,罪犯往往會依附他們熟悉的地區。他們在當地做案。這意味著即使是最嚴重的犯罪,很可能還是在接近犯罪人居住地的附近實行。而隨著你越來越遠離犯罪現場,找到犯罪人住所的機會也緩步滑落,這是一種犯罪學家稱之為「距離衰減」(distance decay)的效應。
  另一方面,連續犯不太可能以住得非常靠近的人做為加害目標,以避免在自家門口引起警方不必要的注意,或是被鄰居認出來。結果就形成所謂的以犯罪人住所為圓心的「緩衝區」(buffer zone),他們在這個區域內犯罪的機率會非常低。
  這兩個關鍵模式──距離衰減與緩衝區──隱藏在最重大犯罪的地理模式之中,是羅斯莫演算法的核心所在。從標示在地圖上的犯罪現場開始,羅斯莫知道自己可以用數學方法平衡這兩個因素,並描繪出犯罪人可能住所的圖像。
  若只犯下一樁罪行,這幅圖像並非特別有幫助。沒有足夠的後續資訊,所謂的地緣剖繪演算法(geoprofiling algorithm)告訴你的,不會比老生常談的常識多到哪裡去。但當更多的犯罪資料加進來,這幅圖像開始鮮明起來,在一幅慢慢變清晰的城市地圖上,突顯出你最有可能逮到犯人的區域。
  連續犯好比是一支正在旋轉的草坪灑水器,就像你很難預測下一滴水會落在何處,你也無法預見你的罪犯下一次會在哪裡犯案。但一旦水已經灑了一陣子,落下許多水滴,相對容易從水滴模式觀察出草坪灑水器可能位於何處。《打開演算法黑箱》

如果是看過韓劇《信號》的讀者,想必對這種「以地追人」的搜查方式並不陌生。然而,這類在刑偵劇裡常見的地緣剖繪不僅可以用於連續犯案的追蹤,同時亦能找出潛藏在城市中的「犯罪熱點」。透過蒐集城市各個角落的犯罪數據,警政系統更能針對高犯罪率的區域採取有效措施。

至於演算法是否能在預測犯罪上發揮作用?作者認為,由於入室竊盜有具體的發生地址,往往可以反映犯人針對某類區域的犯案偏好。作者更進一步說明促成某些住宅成為目標的兩項要件:一是標示(flag),它與物件自帶的特色有關。例如該住宅介於熱鬧到常有觀光客出沒卻又不致於吸引左鄰右舍的注目。二是助長(boost),它與物件周遭的情況有關。例如該宅曾經遭竊,或者是該宅的鄰居曾經遭竊。

可惜的是,無論是運用地緣剖繪,又或是將標示與助長的因素納入考量,據以得出的犯罪熱點仍可能面臨反饋迴路(feedback loop)的陷阱──意即某區因為被偵測為高犯罪區域,所以派出較多刑警前往巡邏,然後因為警力多找到較多犯罪事實,於是又得到該區犯罪率高的數據,如此往復。

本章最後,作者以「臉部辨識」這個充滿爭議的演算法作結,強調審慎監管演算法的重要。由於犯罪指控對個人的影響甚深,而完美的演算法並不存在,因此不管是「熱點名單」、「熱點區域」都存在著誤判和歧視的風險。如何在個人隱私與群眾安全之間取得平衡,仍然是個棘手的難題。

藝術
如果「好作品」和「受歡迎」有標準,那麼一個默默無名的藝術家是否可依靠演算得出必定成功的方程式?在本章裡,作者用音樂和電影為例,探討演算法在創作者與大眾市場間帶來的影響。

從音樂實驗室的平行世界研究裡,讀者能清楚看見一首歌是如何從無名之輩衝上排行榜。在這個過程裡,搶先據榜的歌曲佔有優勢,高曝光帶動高下載的結果反映了成功不僅關乎實力,或許更關乎運氣。

  有一個理由可以解釋這些結果。這是心理學家稱之為社會認同(social proof)的一種現象。每當得到的資訊不足以讓我們做出決定時,我們習於複製身邊那些人的行為。……說到挑選音樂,我們喜歡聽的歌不一定和其他人相同,但熱門度是一種確保自己不會失望的快速方法。「人們面對的選擇太多,」沙加尼克當時告訴「生活科學」網站:「因為你沒辦法全部都聽,最省事的做法自然是聽其他人正在聽的。」
  在所有形式的娛樂活動中,我們都把熱門度當成品質的代表物在用。……
  我們運用越多平台來看有哪些東西熱門──暢銷書排行榜、亞馬遜排名、爛蕃茄評分、Spotify排行榜──社會認同所造成的影響就會越大。《打開演算法黑箱》

有趣的是,當研究者故意將排名墊底的歌曲反轉成榜首時,整體的下載量便立刻減少。同時,聽眾也會因為「假榜首」,而對網站上的其他音樂失去興趣。這意味熱門與品質不一定能畫上等號。

而在電影方面,業界和投資者一直以來都有著預測票房的野心。科學家企圖透過電影資料庫蒐集資訊,雖然有不少發現(例如新鮮感會激發觀眾興趣但太陌生則不行),不過這些研究對製片廠的幫助有限,亦無法提供百分百成功的模式。

  所以說,熱門度的預測很複雜。要從我們大家都喜歡,拆解出我們為什麼喜歡,並非易事。這給創意領域的演算法提出一個滿大的問題。因為若無法運用熱門度告訴自己什麼是「好的」,那麼你又如何能對品質進行測量呢?《打開演算法黑箱》

難以將藝術品質量化是演算法遭遇的困境。書中同時也提及一個相當知名的例子:沒人認出在地鐵演奏小提琴的人就是頂尖音樂家約夏貝爾。這個例子說明了,即便是「好」的音樂,大眾也不見得聽得出來。除此之外,大眾對「好」的定義也隨著時間不斷轉變,從古典樂到流行樂,不論從欣賞品味或是美學價值,幾乎無法找出一個能適用所有地域和所有時代的標準。

  但演算法需要某種東西才能進行。所以,一旦你剔除了熱門度和內在品質,剩下來唯一能夠量化的東西是:與以往曾出現事物之相似性的度量標準。《打開演算法黑箱》

如今不少耳熟能詳的推薦引擎──例如Netflix 和Spotify──就是以相似性為演算核心。這類的演算法會蒐集用戶的偏好習慣,分析出一系列的關鍵字;甚至還可以透過標記找到喜好類似的其他用戶,然後將其他用戶喜歡的歌曲影片反向推薦給原始用戶。

  Spotify 或Netflix 從來沒打算提供完美的歌曲或影片,他們對完美沒什麼興趣。Spotify Discover 並未承諾找出地球上那唯一一組、注定與你的品味和心情完全無瑕契合的樂團。推薦演算法只提供好到保證不會令你失望的歌曲和影片,提供你一種無害的方式來消磨時間。偶爾會提出你絕對喜歡的東西,但這有像那種意義下的冷讀法(cold reading)。你只需要偶爾來一顆好,感受一下發現新音樂的幸運,這些引擎不需要永遠都對。《打開演算法黑箱》

本章最後,作者以「演算法仿擬出的音樂究竟能否稱為藝術」,展開了創作本質的討論。實驗者柯普透過將巴哈所有的曲目轉譯到資料庫,從而製作出幾可亂真的巴哈風格曲子。

  說不定那就是巴哈本人所作。不管怎麼樣,這是柯普的看法。「這些和弦全都是巴哈創作的。這就像用起司刨刀把帕馬森起司刨成絲,然後設法再把它兜攏回來。事實證明這依然是帕馬森起司。」《打開演算法黑箱》

當這本書出版的時候,或許還沒有「生成式AI」一詞。然而,在今日的世界中,無論是擬人的聊天內容,還是仿真的語音回應,都已經證明了生成式AI強大的能力和潛力。這也讓傳統哲學上,認為「藝術是人類心靈的反映」,具有不可替代性的說法備受挑戰。

演算法並非盡善盡美,但它方便快速且威力驚人,在協助人類解決問題的同時,亦在不知不覺間影響人類的生活,無怪乎作者擔憂演算法可能會從「使用的工具」變成「權力的化身」。

整體來說,本書的論述脈絡清晰,洞見精闢;行文結合實例,淺顯易懂;內容分類解析,面面俱到。在演算法的定位上,作者認為人類不該過度賦權,而該將之視為輔助,以避免在運用科技力量時反遭科技所掌控。

#漢娜.弗萊(Hannah Fry)

 

arrow
arrow
    全站熱搜

    房間裡的唐吉訶德 發表在 痞客邦 留言(0) 人氣()