朋友被高科技公司裁員後,自己開了間公司。當了一陣子老闆後,朋友又把公司收掉。我好奇這是怎麼回事。
一開始,他的公司幫人永久保存資料──說是資料墳場並不為過,因為最早上門的顧客,確實都是想找個地方存放身後資料。
朋友一開始覺得這是個穩定的行當:儲存設備的單位成本越來越低,一次收個五十年、一百年的費用,或是一年扣一次款的長期契約,跟靈骨塔無異。沒想到開了幾年,就遇到各種麻煩。小到後人不願意繼續付錢,大到家族爭產需要拿亡者的資料上法庭,也有晚節不保被財經甚至情治單位找上門要證據的,總之煩不勝煩。
後來朋友發現,客戶家人要的,往往不是永久保存後人不會想要的資料,而是撈一些有意義的東西出來。
「有意義的東西?」
「對,例如企業大家長的後人,想要找到企業創始第一個客戶寫的電子郵件…」
「聽起來是個搜尋問題。」
「搜尋問題還簡單,我就叫公司的專人跟客戶後人聯繫,把所有能撈的資料都倒進我們的資料倉庫裡,然後給客戶例如三個月的時間找他們要找的資料,之後永久刪除留在我們這的檔案。」
「他們都不會想留資料啊?」
「不會。你有讀過 Bruce Schneier 的部落格嗎?資料這種東西就像廢棄物,堆久了只有麻煩。這些大客戶都很了解,沒有人想久放。」
朋友生意轉型後做出口碑,但客源有限。會想要找家族企業元祖文件的,畢竟是少數有心人。更多時候,後人們都只想要朋友公司「做點什麼」。
「做點什麼?」
「你還記得我們小時候殯葬業者都怎麼幫阿公阿嬤做告別式 DVD 的嗎,你把相簿丟給業者,他們告別式當天放個選輯,然後家族親友一人發一張回去。」
「你的意思是說你做的生意跟那差不多…」
「大數據時代的禮儀事業。」
「你總不會人工幫客戶選照片吧。」
「這就是問題所在了,你無法想像現代人累積多少照片跟錄影,然後資料來源五花八門。自從歐盟個人雲端數據法通過後,雲端事業銀行化,以前只要跟兩三家大廠撈資料的美好時代也不再……」
「但你還是沒講到你怎麼處理那些影像資料。」
「當然不是人工處理啊。丟給 AI。」
「這我可以想像。但我以為 AI 在行的是做搜尋。再說,你又是去哪裡弄來資源訓練那些搜尋模型的…」
「這不只是搜尋問題。至於模型訓練嘛,這樣說好了,我的合夥人跟他的博士班一直都保持良好關係。」
「我知道你的合夥人。不要跟我說你們都還在用他學校的機器跑你們的資料……」
「這,我只能說,學術單位沒有大公司的 DevOps 文化,沒有人在監控機器離峰時間負載的。」
「那這樣我明白了。所以你這是門低成本生意。我不是說你撈資料還 on-prem 在自家廠房放資料(因為你們根據合約沒辦法放雲端對吧)就不花錢,但這像是個可以吃好幾年的生意啊。」
「我本來也這麼以為,結果我接到了一個奇怪的案子。」
「多奇怪?」
「一位家族企業主的秘書跟我們聯絡上,要我們在客戶走之前就先把資料準備好,他們要找一段影片。」
「找一段影片?」
「對。他們秘書說這件事情困擾他們好一陣子。企業主的小兒子跟爸爸分家,這位爸爸癌症末期,一心希望小兒子回來接手事業。」
「這不是什麼稀奇的事。那跟影片的關係是?」
「這位爸爸一直希望說服小兒子,他真的愛他。小兒子曾說,他和父親失和,因為父親錯過他人生最重要的一場音樂會演出。企業主說他有出席,而且有錄影為證,只是他無法久待,聽完小兒子演出就又搭私人飛機去跟經濟部長出席重要的會議。」
「那這應該不是難事吧,時間這麼肯定,能有多難找…」
「這就是問題了。企業主那時候也是媒體鉅子,而且有專人隨從拍攝,簡直國家元首等級待遇。問題是,那些照片跟錄影從來沒人整理過,雖然全部數位化,但是數量之大。而且你也知道的,搜尋有所謂 precision/recall 這種事……」
「你的意思是說總有盲點。」
「尤其如果你的索引還是 AI 幫你建的。」
「那怎麼辦?」
「我那時承受很大壓力,而且那是一筆大錢。企業主的秘書轉述,企業主時間不多,秘書跟企業主回報進度,企業主信誓旦旦說有一部 6 分鐘 44 秒的影片,有拍到他出席音樂會,還跟校長握手,還有一段 pan 出席觀眾。但我們怎麼搜尋就是搜不到。」
「不能雇多一點人手看?」
「影像資料都有簽嚴格保密協議。」
「那…?」
「我的合夥人跟我提議。既然搜尋不到,那就生一段。」
「生?」
「你知道的,我合夥人實驗室做影像合成很有名的。」
「不要跟我說你們叫 AI 生一段影片給客戶。」
「我當時是真的沒辦法。但我的合夥人說,影像合成也要有所本的。尤其如果客戶講得這麼細,還跟校長握了手,還有 pan 出席觀眾,那沒有根據的話,不可能生出像樣的影片…」
「所以你真的生了一段七分鐘的影片出來。」
「與其說『生』,或許更該說是『模仿』,而且是基於真實存在、只是我們找不到的片段。然後,並不是七分鐘的影片,而是 6 分 44 秒。客戶的秘書堅持客戶的記憶是這樣。那時客戶已經病危,秘書派人在我們公司駐點。影像合成很花時間,我們跑了一個大約 36 小時的 job。我跟合夥人看過一次,覺得影像品質大約跟那個時代攝影機接近,裡面每個人物也都看起來沒有合成痕跡,就這樣交了卷……」
「所以你決定洗手不幹了。」
「我們把影片交給秘書沒多久,客戶的小兒子來見了最後一面,還在醫院外宣布他願意接手父親事業。後來你也知道的,小兒子還動用自己資金幫父親事業輸血。」
「客戶總有付你錢吧?」
「有。我們根據合約銷毀了所有給我們的資料,然後捐了筆錢給合夥人的博士班學校。也許因為有捐錢,他們學校從沒有人過問那 36 小時是怎麼回事…」
「我蠻好奇這位少東會不會哪天找人 audit 父親的資料。」
「我找過我們律師,迂迴地問了這問題。律師說,到頭來,我們一切照合約行事。再說,對方家族應該已經銷毀了原始資料。就算是他們留了一份所有影像資料的備份吧,以那樣的數量,我並不認為他們有能力全部 audit 完。你也不可能靠搜尋得到什麼證據。你聽過這句話的: absence of evidence is not evidence of absence。」
「我知道,在你這個案子,找不到,並不代表不存在,除非你一格一格全數看過。」
「我只能說我希望我有幫到這位客戶…… 他秘書跟我說,客戶看過我們交的影片,說那跟他記得的一樣,彷彿是昨天拍的…… 他小兒子來見他,隔一天他就安詳地走了。」
「我想,你有幫到他。」
「如果不是因為你問起這件事,我都不知道現在講起來,還是覺得心情複雜。我能找誰說這事呢?」
「我這不就聽你說了嗎。看來你要請我吃今天這一頓了。」
「哈哈,好。倒是,我一直好奇,為什麼有人會記得而且還堅持 6 分 44 秒這種事。」
「或許那影片真的對他這麼重要。」
「或許吧。」
我跟朋友餐敘完,開車回辦公室路上,經過那大學校園。我突然想到,那大學校園應該有朋友這位客戶捐過錢的大樓。
於是我在路邊的校園地圖旁停了下來。果不其然,這位企業主捐錢蓋過大樓,而且朋友合夥人博士班的實驗室,就在那棟大樓裡。
這有意思了。我回到辦公室後,打開公司的原始碼搜尋工具。我們跟朋友合夥人的實驗室買過東西。
已故企業主有個不尋常德文複姓,爾澤倫─馬勒 (Erzaehlen-Mahler),不知道跟那位作曲家有沒有關係。
我把企業主的姓丟進搜尋欄位,指名實驗室的程式碼,於是我找到這個搜尋結果:
「爾澤倫─馬勒 (Erzaehlen-Mahler; E-M) 模式。這個模式已經棄置 (deprecated)。取消浮水印、雜訊、扭曲,不限制採樣來源,60 FPS。限內部使用。模式不能由外部設定或提示語 (prompt) 啟用。」
然後我點進搜尋結果,在主程式下看到這一行:
if (request.length_sec != 404) return;
404 秒。
註解跟這行程式是實驗室的計畫主持人寫的。程式碼併入主線的時間,大概是他們實驗室新大樓動土前後的事。
我關掉瀏覽器分頁,對著空白的桌面發呆。
2022-11-12