超級久沒有寫文章,整個雜草叢生。聽到這個演講後覺得真的該好好來寫篇文章。但是因為最近真的還是滿忙的,順手寫寫文筆很差敬請見諒。後面有附上他在 arXiv 上的文章連結。
今天 Microsoft 的資深研究員 Elad Yom-Tov 來到 GU 演講。這個主題本身就很有趣,透過網站廣告要判斷一個人有沒有癌症其實很困難。 但這場演講下來,發現這是真的有可能達成的。
Query Log Analysis
對於大的搜尋引擎公司,他們可以利用自己的搜尋引擎 log 來做些有趣的分析,我們稱為 Query Log Analysis。 過去因為 AOL 曾經將資料公開給研究人員而發生過嚴重的個資事件,所有現在沒有公司敢公開他們的搜尋紀錄。 所以這種研究只剩下搜尋引擎公司自己有機會做了。
Elad 的團隊先利用 Bing 的搜尋紀錄來判斷用戶是否可能已經被診斷出癌症。這樣的做法其實不會太困難,因為已經被診斷出癌症的病患會開始使用一些相對明確的醫學用詞,或甚至會自己在搜尋欄上表達 I have XXX cancer。透過幾種簡單的判斷規則,我們可以慢慢拼湊出用戶目前的健康狀況。
透過這些資訊,我們可以分析這些用戶的背景資訊結構,年齡、性別、地區分佈等等。在搜尋過程中我們也可以提供更多專業資訊的協助,幫助他們在搜尋自己身體狀況時有更完整且更可信的資訊。
然而,這其實不是我們最關心的問題。已經被診斷出癌症的病患其實已經開始尋求專業的醫療服務了。而那些只是有症狀但還沒去找醫生的人呢?
Online Questionaire
在醫學上的診斷,有些疾病有些診斷的 SOP,像是小孩自閉症的診斷就有相對完整的問卷及判斷流程。雖然最後還是需要醫師的專業評估,但這些 SOP 可以幫助醫療人員快速篩檢一些可能的病患。而癌症其實也有些早期篩選的機制,這些常用於家庭醫生作為是否幫病患轉診到醫療中心的評估依據。
而 Elad 的團隊將英國的癌症篩檢 SOP 改寫為一般沒有受過醫療專業訓練的人也可以看得懂的文字 [1],進而做成問卷在網路上供人填寫。他們透過 Bing 及 Google 的搜尋引擎廣告投放服務來誘惑人們填寫這些問卷。在問卷結束時,系統也會依照 SOP 上所建議的處置方式告訴用戶他們是否應該尋求醫療服務的評估及幫助。
在參與這項實驗為數不多的人們中,他們利用這些問卷結果配上他們的搜尋紀錄做了一個 Classifier。基於搜尋紀錄的研究,我們已經可以相對精準的知道他們是否已經被診斷患有癌症。這些結果可以做為分類的目標,而我們可以利用問卷的內容來作為分類的 feature。這樣分類器的結果沒有非常好,AUC 僅有 0.64,但是 [email protected] (Precision@1%) 卻和很多醫學篩檢不相上下(原諒我忘記數字了…)。這代表在高精準度的設定下,誤判機率其實可以跟一些醫學檢驗匹敵。代表這樣的檢驗其實完全無用。
Hijack the Online Ads
最後,也是最有趣的研究。
這年頭的搜尋引擎廣告投放系統,其實除了依照業主所出的錢來做廣告投放的競價之外,其實業主也可以回報點擊過來的客戶最後是否有從點擊轉換到購買。而搜尋引擎也會利用 reinforcement learning 來優化最終廣告的效益。
而 Elad 的團隊也回報了透過問卷判斷為可能為癌症的病患給廣告投放系統,因此廣告投放系統就會透過他們所知道所有用戶的資料進行優化,為這個問卷帶來更多可能患有癌症的用戶。
等等,有沒有發現他們利用人家的廣告投放機制,成功證明了些什麼。他們證明了,透過用戶資料(可能很多是搜尋紀錄),可以成功的提高判斷一個用戶是否罹患癌症的成功率。
他們實驗發現,在開始投放廣告後大約 10 天,系統投放的 11% 用戶為癌症高風險群。這是一個非常了不起的數字,這剩下的 89% 用戶包含著填寫問卷後沒有癌症的人、自己認為自己沒有癌症的人、永遠都不會點廣告的人、還有那些使用 adblock 的人。
他們進一步分析全球投放的結果,發現使用這個問卷的人在和網路普及率有正相關 (滿合理的),和取得醫療服務困難程度也呈正相關。這樣的結果令人非常振奮,代表這樣的服務對於相對難以取得醫療服務的人們來說是個有意義的服務。可以幫助他們自己評估是否應該付出時間或金錢成本去尋求醫療服務。
So should we do it?
這是整個演講我最欣賞的部分。
在醫學倫理界中曾經討論過 [2]:
如果一個醫師在路上見到陌生人有著某些症狀,可能是患有某個疾病。
這個醫生是否有義務要告訴這個陌生人?
在醫學上,大概有兩大問題:可能誤診及隱私問題。
而當我們開始試著使用這樣的問卷還有廣告推薦系統來「診斷」病患時,我們是不是也面臨著類似的問題? 也許,人們在網路上的足跡被網路公司紀錄早已經習以為常。作為購物、文章推薦也許大家都覺得沒問題,但當這樣的演算法開始深入我們的隱私,開始進入醫療領域呢?你會想要讓你的搜尋引擎知道你得了癌症嗎?
Some of my thoughts
對於一個資工的演講來說,可以討論到這個部分我覺得非常難得。作為資工的學者,我們知道很多問題其實只是我們要不要做,要不要搜集資料罷了。但是我們真的該這麼做嗎?我們該怎麼做?怎麼做才不會不小心侵犯到用戶的隱私?
而 Elad 對於這個服務的想像並不是很扁平的賺錢、提升投放率、或是以「幫助」兩個字概括。他是真的細緻地去瞭解這樣的服務是服務到誰、誰受益、是不是真的需要這樣服務的人。
這樣具有人文素養的資工學者真的是我很敬佩也很嚮往的。
Reference
[1] Screening for cancer using a learning Internet advertising system https://arxiv.org/abs/1802.09352
[2] https://scienceblogs.com/purepedantry/2009/03/31/the-ethics-of-diagnosing-a-str