清華教授彭蘭:數據與算法時代的新風險

清華教授彭蘭:數據與算法時代的新風險 

  本文由公眾號全媒派(ID:quanmeipai)授權轉載,未經許可,請勿轉載。原文首發于《西北師大學報(社會科學版) 》2018年第5期。 

  數據與算法的應用,擴張了人的能力,但也帶來很多新問題與新風險。

  客觀性數據可能成為后真相的另一種推手,因為數據生產環節的偏差可能導致客觀性數據堆積成的假象,數據分析也可能成為客觀事物的干擾因素。個性化算法雖然帶來了個人信息服務水平的提升,但也可能在幾個方面將人們圍困:

  一是信息繭房的圍困;

  二是算法中的偏見或歧視對人們社會資源與位置的限制;

  三是算法在幸福的名義下對人們的無形操縱。

  數據時代個體面臨的另一個風險,是相關權利保護受到更多挑戰,特別是在隱私權和被遺忘權方面。要對抗這些風險,需要完善數據方面的基礎建設,包括數據素養的培養、數據的“基礎設施”建設、數據質量評估體系以及信息倫理規范的建立等。本期全媒派(ID:quanmeipai)帶來清華大學新聞與傳播學院彭蘭教授的新作,深度剖析數據時代的新風險。

 

  近年,我們似乎進入了一個數據的大躍進時代,技術不斷賦予我們新的想象力與探索能力,也打開了一些過去人的感官不能達及的新領域,基于數據的各類算法也開始在我們身邊流行。但是,在這種大躍進中,又埋伏著很多新風險。對數據與算法的風險的理性分析與判斷,可以幫助我們認識新技術可能帶來的新陷阱。

  ▍“客觀性”數據:“后真相”的另一種推手? 

  “后真相(Post-truth)”這個詞在近年進入中國研究者的視野,很大程度上緣于它被《牛津詞典》選為2016年度詞匯。在這個詞里的“post”表示的是“超越”,也就是“真相”不再那么重要。根據《牛津詞典》的解釋,后真相意味著,“客觀事實的陳述,往往不及訴諸情感和煽動信仰更容易影響民意”。

  盡管《牛津詞典》在解釋后真相一詞時強調的是情緒等對客觀事實的“超越”,但后真相成為一個顯性的問題,還與2016年一些民意調查機構對美國大選等結果預測的失靈有關。因此,正如哲學研究者藍江所指出的,后真相時代是因為原來支撐真相的兩大基礎都崩潰了,即作為普世性的理性原則(以及與之相伴隨的演繹推理邏輯,甚至連哈貝馬斯所提倡的協商和交往理性也一并被質疑),以及作為經驗性數據收集、統計、分析的客觀性結論。

  后真相現象提醒我們,數據與算法這些看上去客觀的手段與方法,并不一定能帶來更多真相,反而可能走向它的方面。

  為什么客觀性數據也可能帶來假象?

  數據往往被當作描述客觀事物、揭示真相的一種手段,但是,數據應用本身有一整套的規范,如果不遵循這些規范,或者在數據應用中出現了漏洞而未能察覺,未來我們或許會被更多由貌似客觀的數據堆積成的假象所包圍。從數據生產的角度看,每一個相關的步驟,都可能存在著導致假象的因素。

  1. 數據樣本偏差帶來的“以偏概全”

  盡管已經進入到“大數據”時代,而大數據的賣點之一是“全樣本”,但事實上,在現實中,獲得“全樣本”并不是一件容易的事。

  今天的數據,特別是互聯網數據,被少數平臺壟斷,出于利益保護等因素考慮,平臺通常并不愿意將數據完全公開。他人從這些平臺“扒”數據時,會受到技術能力和權限等限制,這可能一定程度上影響到數據的完整性。平臺本身,也可能因為各種原因,未必能保留全樣本數據,例如,在社交平臺,刪貼必然會導致相關內容的不完整。

  大數據分析也常常要依賴行業性數據,但在中國,由于歷史性的原因,很多行業本身就缺乏完整、系統的數據積累,能提供的,常常也是殘缺的數據。即使是傳統的小樣本分析,樣本的規模和代表性等方面的質量也越來越令人擔憂。

  盡管今天人文社會科學都在強調問卷調查等經驗性數據分析方法,今天的本科和研究生也受到了一定的方法訓練,但是,在實際操作中,充斥著不規范、不嚴謹的現象,特別是在抽樣方面。武漢大學學生會在農民工研究中問卷調查的造假事件,也許不是孤立的個案。客觀的障礙是,今天的公眾已經厭倦了各種問卷調查,對問卷調查的抵觸、不配合或游戲心態,都會影響到問卷調查的開展。

  因此,無論是全樣本數據,還是行業數據,或是傳統抽樣方法下的小數據等,都可能存在樣本不完整的問題,這也必然對數據分析結果的完整性、代表性產生影響。

  2. “臟數據”帶來的污染

  除了樣本的問題外,用各種方式獲取的數據,本身質量也可能存在問題。部分缺失的數據、重復的數據、失效的數據、造假的數據等,都被稱為“臟數據”。盡管數據處理前都會要求數據清洗,但這未必能完全消除臟數據帶來的污染。某些數據分析者也可能因為一些原因而無視臟數據的存在,甚至會制造一些臟數據、假數據。

  3. 數據分析模型偏差帶來的方向性錯誤

  完整、可用的數據只是數據分析的前提,要利用數據來準確描述或解釋客觀現象,還需要有科學、合理的分析模型。但是一些基于數據的實證分析,有可能建立的模型本身是有偏差的,有些數據應用者,甚至是為了得到自己希望的結果而在分析模型的設計中進行人為的“扭曲”,這些都必然導致結果的偏差。

  4. 數據挖掘能力有限帶來的“淺嘗輒止”

  數據量愈大、數據種類愈豐富、數據應用目標愈多元,也就意味著對數據挖掘能力的要求愈高,然而當各種力量都在快馬加鞭地涌入到數據應用領域,爭做各類數據產品時,卻未必都擁有相應的數據挖掘能力。特別是在媒體行業,以往數據應用傳統的缺乏、技術能力的不足,都會限制其數據挖掘能力,然而外界壓力卻又在迫使媒體力不從心地走向數據化,因此,數據應用多流于表層,其中的漏洞也越來越多。作為“擬態環境”的構建方式,媒體生產的過于簡單的、淺層的數據,也可能會誤導人們對現實社會的認識。

  5. 數據解讀的偏差

  數據解讀能力,是數據利用能力的另一個重要層面。而沒有良好的數據方面的訓練,對數據的解讀可能會出現主觀隨意、簡單化等種種問題,例如,將數據的相關關系過度解讀為因果關系,是實踐中常見的問題之一。數據解讀往往也是橫向或縱向比較中完成的,如果缺乏參照信息,或比較性數據出現了問題,解讀自然也容易產生偏差。

  數據描述與分析偏差,不僅會給我們對環境的認識帶來誤導,更大的風險是,它們可能帶來的決策偏差。在大數據或其他數據分析方法越來越多地用于公共決策和個人決策的指導時,這種風險將日益增加。

  這些數據的誤用、濫用,一方面是因為數據應用能力的不足,另一方面則是數據應用者的價值導向和利益驅動的問題。一些數據分析的出發點,本來就不是要獲得對真相的完整認知,而是為了制造符合自己需要的“真相”或結果。錯誤導向或利益驅動的數據濫用,成為“后真相”現象更大的背景。

 

  數據會成為客觀性的另一種干擾因素嗎?

  2016年美國總統大選,多家民調機構的預測結果的失敗,讓人們質疑數據的客觀性與準確性。而時隔兩年之后曝出的Facebook數據門事件,在某種意義上是對民調結果失靈的一個回應,從中或許可以探究當時民調結果失靈的部分原因,盡管我們并不能確定“牛津分析”對大選結果的干預究竟是否起了作用,或是起了多大作用。

  這一事件還有著更深層的寓意,它提醒我們面臨的一個新挑戰:一方面,數據分析的目標是追求客觀地描述事物;另一方面,數據分析也可能會成為對客觀事物或客觀進程的干預力量。而可以預見的是,未來兩者之間的博弈可能會更成常態。

  大數據的應用方向之一,就是對事物的發展趨勢做出判斷,從而盡早對風險進行預警,對危險進程進行干預。但實踐中,對現實進行干預的邊界應該在哪?對大選投票進行干預,是否屬于合理的大數據應用?2012年奧巴馬在美國大選中獲勝,一些研究者對其中的大數據應用津津樂道,而2016年特朗普在大選中勝出后,一些媒體開始對數據分析機構對選民態度的干預進行調查,Facebook數據門事件披露后,研究者似乎更多地對“牛津分析”的做法持批評態度。這或許與人們對特朗普的態度相關,但從另一個角度看,這也表明,大數據應用進入深層后,人們對它的影響及應用倫理的認識也在深入。

  “牛津分析”等機構之所以能用數據分析影響人們的態度與立場,甚至影響人們對客觀世界的認識,是因為他們可以通過數據分析判斷不同人群的心理定位,以此為前提來定向推送信息,對人們感知到的信息環境進行控制,用有偏向的信息來影響人們的態度。

  哲學學者劉擎指出:

  “后真相問題有其深刻的理論背景,最為相關的哲學淵源是一個多世紀前,尼采對事實真相客觀性的挑戰。尼采曾在《超善惡》的序言中寫道:‘視角(perspective)是所有生活的基本條件。’而在其遺稿‘札記(Nachlass)’中,他留下了著名斷言:‘沒有事實,只有闡釋。’這個被哲學界稱為‘視角主義(perspectivism)’的觀點是尼采哲學的核心思想之一,也為今天的后真相時代埋下了伏筆。”

  他還認為:

  “視角主義與后真相問題還具有一個重要的關聯線索,可稱之為‘視角制造事實’的思路。……如果所謂‘事實’就是滿足了‘恰當證據’的事務,而恰當證據的標準又是視角所創立的,那么‘沒有獨立于視角的真實世界’意味著,‘事實’在一定意義上是視角所制造的。”

  今天的某些大數據分析,在某種意義就是在分析甚至“制造”人們的“視角”,然后將符合視角的“事實”推送給他們,雖然推送的“事實”似乎是客觀的,但是,當它們被放置在人們的“視角”下時,就成為了影響主觀判斷和態度的重要手段。

  對于后真相問題的破解,劉擎認為,真相的“客觀性”依賴于“共同視角”,澳洲學者約翰·基恩也指出,最終關于真相的認同還是取決于人們的共識(agreement)和信任(trust)。這些看法似乎也是多數學者在“后真相”問題上的共識。

  因此,從解決“后真相”危機的角度看,今天我們更需要用數據分析來尋找人們的“共同視角”或“共識”。然而,在各種主體都在努力地尋求用數據分析和算法的力量來制造符合自己需要的信息環境和意見格局時,當數據和算法成為一種權力博弈的武器時,共識的發現與形成,必然困難重重。

  ▍算法下的個體:數據時代的“囚徒”? 

  從個體角度看,目前數據應用與他們最直接的關聯,是各種個性化算法。通過對與個體相關的數據的分析,來提供與之適配的內容或服務,在今天已經成為普遍現實。

  早在上個世紀90年代,美國學者尼葛洛龐帝就在他的《數字化生存》一書里預言了數字化時代個性化服務的可能,并將之命名為“我的日報”(The Daily Me)。 但由于技術的限制,直到近幾年,基于算法的個性化服務才變成現實,其中,算法推送新聞更成為一個關注焦點。對于個性化算法的討論也愈加多元。

  算法是否會將人們囚禁在信息繭房中?

  個性化信息服務的出現,是信息過載時代的一個必然結果,也是尊重與滿足個體的信息權利的一種新手段。但在這一應用走向深層時,對它的爭論也越發激烈。

  今天伴隨著個性化算法的一個常見話題是“信息繭房”。來自于美國學者桑斯坦的這個詞,形象地描述了過去傳播學研究中提出的“選擇性心理”及其結果,在他看來,信息繭房意味著人們只聽他們選擇和愉悅他們的東西。

  研究者對于“信息繭房”也存在一些爭議,有人將信息繭房視為算法的原罪之一,有人則認為信息繭房與算法無關。兩種判斷可能都有些極端。

  盡管人的選擇性心理從來就存在,傳統媒體時代它也會以各種形式存在,社會化媒體也在以社交圈的方式在強化人們的選擇,但目前的個性化推薦算法的確在一定程度上會以正反饋形式強化這種心理。桑斯坦提到信息繭房時,重點提到了尼葛洛龐帝所說的“我的日報”,這也意味著,他對“信息繭房”的擔憂,更多地是因為個性化信息服務的興起。

  既然是一直就有的一種心理現象,信息繭房是否不足慮?

  每個人都有自己的閱讀偏好,這自然是正常的現象,但如果每個人關注的只是自己興趣內的那一小片天地,他對這以外的世界,會越來越缺乏了解,這或許不會影響到他個人的生活,但是,在需要公共對話的時候,人們會缺乏共同的“視角”,而如前文所述,共同“視角”的缺乏,意味著人們對一些事實的判斷會出現差異,共識難以形成。同時,信息環境的封閉與狹隘,也可能會進一步固化人們的某些觀點與立場。

  桑斯坦認為,如果公司建立了信息繭房,就不可能興隆,因為其自己的決定不會受到內部的充分的挑戰。如果政治組織的成員——或國家領導人——生活在繭房里,他們就不可能考慮周全,因為他們自己的先入之見將逐漸根深蒂固。……對于私人和公共機構而言,繭房可以變成可怕的夢魘。盡管桑斯坦提出信息繭房是在協商民主的語境下,但是,信息繭房的影響未必只局限于這一領域。

  從人的社會歸屬需要角度看,公共交流與公共議程也是必要的。公共議程是連結社會不同階層、不同群體的紐帶。從議程設置理論發展出來的議程融合(Agenda Melding)理論,也從深層說明了公共議程對于社會整合的意義,麥庫姆斯和唐納德·肖認為,媒體設置的議程之所以能作用于公眾,是因為它們具有聚集社會群體的功能,而這是源于人們都有一種對于“群體的歸屬感”的需要。

  唐納德·肖還曾提出過“水平媒體”(Horizontal Media)和“垂直媒體”(Vertical Media)這兩個概念,他認為水平媒體是某些小眾的媒體,而垂直媒體是大眾化的媒體。在唐納德·肖看來,水平媒體與垂直媒體的交織,可以創造一個穩定的“紙草社會”(Papyrus Society)。這從另外一個角度說明了保持個性化信息滿足與公共整合之間平衡的意義。

  以往的研究都指出,大眾媒體的基本功能之一是社會整合,這種整合是以公共信息的覆蓋為前提的。今天的大眾傳播機制在發生變化,基于人際網絡和算法的內容分發,正在成為大眾傳播的新基礎,但是,傳播的社會整合功能不應該因此而消失,能將各種人群整合起來的公共信息和公共議程仍需要到達最廣泛的人群。對個性化算法可能帶來的“信息繭房”問題,我們的確應該有所警覺。但另一方面,我們也需要意識到,如果運用得當,算法也可能成為刺破信息繭房的一種武器。

  從面向個人的算法角度看,要盡可能減少信息繭房效應,就要在算法設計時深入理解與考慮用戶行為與需求中那些搖擺著的矛盾,例如:

  “凝固”與“流動”——用戶在某個時段閱讀偏好會有穩定性,但時間推移,興趣也可能會發生轉移,及時預測用戶需求的遷移或擴展,這是提高算法精準度的一個重要方向,也是突破繭房的一種思路。

  “套路”與“奇遇”——在迎合個體的閱讀“套路”的同時,算法也需要提供一些慣性之外的信息,給個體帶來更多“奇遇”,讓個體看到更廣闊的世界。

  “悅耳”與“刺耳”——算法總希望順應用戶的心理,為他們提供“悅耳”的聲音,但某些時候,它也需要提供一些刺耳的聲音,讓用戶了解真實世界的多面性。

  除了以算法來完成面向個體的內容推薦,算法也可以用于公共性內容的匹配,也就是通過算法洞察公眾的共同心理,使具有公共價值的內容到達更廣的人群,也同樣可能幫助個體掙脫繭房的束縛。

 

  算法是否會將人們囚禁在偏見與固有的社會結構中?

  算法的另一種風險,是對社會偏見的繼承,以及這些偏見可能帶來的文化或社會禁錮。

  2016 年,上海交通大學的研究者發表的論文《基于面部圖像的自動犯罪概率推斷》引起了爭議。2017年,斯坦福大學一個研究團隊發表了標題為《通過面部圖像分析深度神經網絡比人類更精準判斷性取向》(Deep neural networks are more accurate than humans at detecting sexual orientation from facial images)的論文,稱對男同性戀識別的準確率高達 81%,對女性的性取向判別的準確率為 74%,這一研究同樣帶來了巨大爭論。

  這些算法之所以引發爭議,不僅是算法的準確度的問題,更是因為它讓人們感受到一種危險的傾向,即這些算法用于不當的目的時,會對某些人群或個體形成歧視與傷害。

  這些極端個案中的歧視或許還容易識別,另外一些偏見卻未必是人們自知的,但算法會在不知不覺中將它們繼承。有研究者指出:

  “數據,在本質上,是人類觀察世界的表征形式。不論是過去的小數據,還是現在的大數據,研究數據,在某種程度上,其實在本質上都是在研究人本身……人類文化是存在偏見的,作為與人類社會同構的大數據,也必然包含著根深蒂固的偏見。而大數據算法僅僅是把這種歧視文化歸納出來而已。”

  算法不僅在歸納與“同構”現有文化中的偏見、歧視,還可能用某種方式將它們放大,這一點,一些大數據的開發者體會更深,如國內大數據應用領域的代表性學者周濤所言,“讓我們不安的是,這種因為系統設計人員帶來的初始偏見,有可能隨著數據的積累和算法的運轉慢慢強化放大。”

  除了偏見、歧視外,算法還可能會在一定程度上固化社會原有的結構,限制個體或資源在結構框架之外的流動。

  今天算法已經開始被用于一些組織機構、企業和個體的決策,這種決策常常建立在對某些對象的數據分析與評估基礎上。當算法可以精準地評估每一個對象,計算出與該對象相關的行動的代價與報償,一個可能的結果是,有些對象將因為算法評估的不合格,而失去獲得新資源的機會,例如獲得投資、貸款、工作機會等。對于決策者,這似乎可以讓他們減少自身的風險,但對于被評估、被決策的對象來說,這或許是不公平的。

  對于個體,這意味著,數據和算法的偏見,有可能會把他們進一步困在原有的社會結構里。以往的年代靠人們的努力還時有奇跡出現,而今天在數據的監測和算法的評估下,人們的身份、地位和行為都被數據與算法打下烙印,這使得他們只能被圈定在與自己條件相吻合的社會位置和職業角色里。底層向上流動的機會愈加減少,而那些具有優良條件的個體,則會不斷獲得新的機會與資源。因此,算法或許會在某些方面導致社會資源分配的“馬太效應”被進一步放大。

  當然,就像“信息繭房”方面的討論一樣,未來的算法也應該致力于糾正而不是強化社會偏見。但這必須靠有效的制度而非數據開發者或使用者的自覺。

  算法是否會使人們陷入“幸福地被操縱”?

  或許,個性化算法還會帶來另一個深層風險,那就是在個性化服務的“伺奉”下,個體逐漸失去自己的自主判斷與選擇能力,越來越多地被算法或機器控制。

  從人的本性來說,懶惰是天然的,想以最小的成本或付出獲得最大的報償,也是人之常情,個性化服務在這方面迎合了人性,但是,它也可能正在以方便、幸福的名義,漸漸地使人們對它產生依賴,并在不知不覺中被其麻痹,被其囚禁。

  尼爾·波茲曼在《娛樂至死》一書前言中提到了《1984》和《美麗新世界》暗喻的兩種警告。

  “奧威爾警告人們將會受到外來壓迫的奴役,而赫胥尼則認為,人們失去自由、成功和歷史并不是老大哥之過,在他看來,人們會漸漸愛上壓迫,崇拜那些使他們喪失思考能力的工業技術”。

  波茲曼警告的兩種方向,正好指向福柯的研究中重點關注的兩種技術:權力技術與自我技術。

  福柯認為,權力技術決定個體的行為,并使他們屈從于某種特定的目的或支配權,也就是使主體客體化;自我技術則使個體能夠通過自己的力量或者他人的幫助,進行一系列對自身身體及靈魂、思想、行為、存在方式的操控,以此達成自我的轉變,以求獲得某種“幸福、純潔、智慧、完美或不朽的狀態”。

  早期的福柯將研究重心放在權力技術及其規訓方面,而后期他開始更多地關注古希臘時期自我技術的應用。研究者指出,福柯眼中古希臘的自我技術的應用,是一種自由的踐行,人們對自己的欲望的控制是自主的,在這種自我控制中,人們獲得了自由:對欲望和快感的自由,自我沒有成為欲望和快感的奴隸,相反成為了它們的主人。

  但是,在擁有了種類繁多、力量強大的自我技術的今天,自我技術似乎并沒有推動人實現對自我的靈魂、思想、行為、存在方式的操控,也未必幫助人們獲得了“自我控制的自由”,反而在某種意義上,與權力技術糾結在一起,共同實現了對個體的規訓。算法看上去是為個體提供人性化服務的,但是它其實是對個體進行控制的另一種手段,在它背后,“老大哥”那只時時盯著人們的眼睛在忽明忽暗的閃現。波茲曼警告的兩種力量正在“合體”,一直看著“你”的“老大哥”,也可能正是將“你”帶向“幸福沉迷”的工業技術。

  斯拉沃熱·齊澤克在Facebook數據門后發文指出,近年一些大數據的研究,是想幫助積極心理學家找到一種方法,把我們向他們所理解的“真正的幸福”方向“輕推”一把,包括快速恢復的能力和樂觀情緒。……不僅是我們被控制和操縱,而且是“幸福”的人們隱秘而虛偽地要求以“為他們好”的名義被操縱。真相和幸福不能共存。真相是疼痛的;它帶來不穩定;它破壞了我們日常生活的平穩流動。選擇在我們自己手里:我們想要被幸福地操縱,還是讓自己暴露在真正的創造力的風險中?

  或許多數人今天并沒有意識到將被幸福地操縱這樣一種風險,或許有些人即使意識到這種風險仍然不能自拔。這是否是算法時代一個更大的“圈套”?人類是否有可能從這樣一個圈套中逃離?也許答案還需要我們在未來去尋找。

 

  ▍個體權利的讓渡:數據時代的必然代價? 

  數據時代對普通個體的另一個深層影響,是個體的全面數據化。

  目前,當我們說到用戶數據的時候,都是指“人”的數據,而未來媒介環境下,用戶這個主體不再只簡單對應著人的狀態與活動。與人相關的各種智能物體,以及與人相關的環境,都成為描述與理解用戶的重要變量。因此,用戶的數據將更為多元,通過更多渠道生成、保存,這也意味著用戶數據中暗藏的風險更大,數據權利的保護面臨更大的挑戰。

  隱私權與被遺忘權,是數據時代背景下備受關注的兩類個體權利。雖然實踐發展推動了人們對這兩種權利的意義的認識,但另一方面,用戶在這些權利方面卻又感覺越來越無力,權利的讓渡似乎成為一種沒有選擇的選擇。

  以隱私換便利?

  屬于自己的數據,保存權卻不在用戶,用戶本身也無法限制其使用范圍,這是數字時代對隱私權的一個巨大挑戰,棱鏡門事件、Facebook數據門事件,更是引發了這方面集中的討論。

  2018年3月,百度董事長兼CEO李彥宏在中國發展高層論壇上提到,中國人對隱私問題的態度更開放,也相對來說沒那么敏感。如果他們可以用隱私換取便利、安全或者效率。在很多情況下,他們就愿意這么做。當然我們也要遵循一些原則,如果這個數據能讓用戶受益,他們又愿意給我們用,我們就會去使用它的。我想這就是我們能做什么和不能做什么的基本標準。

  雖然李彥宏在這段話里也提到了互聯網公司應該遵循相應原則,但媒體和公眾更多地關注的是他的“隱私換便利”這一說法,一時間,李彥宏成為眾矢之的。

  今天的公眾未必都沒有隱私保護意識,也不是所有人都愿意拿隱私換便利,但是,對普通公眾來說,一個大的問題是,他們并不知道自己的隱私會如何被侵犯,被侵犯到何種程度。他們與那些掌握并利用甚至可能出賣他們的隱私數據的公司之間,天然是不平等的。在缺乏對自己數據的知情能力的情況下,隱私保護也就無從談起。

  雖然在某些時候,以隱私換便利是用戶的一種不得已的選擇,但用戶應該有權利知道,出讓的是哪些隱私數據,能獲取哪些便利,以便他們做出權衡。但今天的網絡服務提供者多數并沒有提供充分的解釋,即使有一些隱私條款,也往往語焉不詳或者暗藏陷阱。

  Facebook數據門帶來的另一個思考是用戶數據使用權限的邊界。即使用戶同意向某個服務商提供個人信息,但服務商是否有權向第三方透露?而第三方是否又可以再次將數據轉手?網絡中的數據都是相互關聯的,獲取未經授權的關聯數據是否合法?或許在理論上做出限定是容易的,但在現實中的操作,又并非那么簡單。

  除了要對服務商的用戶數據使用權限做出限定,另一個事關用戶隱私權的問題是,今天的用戶是否應該擁有一種隱身能力,使自己的數據不被他人獲取或存儲,從而在根本上保護自己?雖然表面上用戶的一些設置可能會有助于他們的隱身,但事實上,獲取某類數據的方法往往不止一種。例如,即使人們出于安全考慮而關閉了手機GPS定位功能,網絡服務商仍有其他辦法對其進行定位。今天一些個案中我們甚至可以看到,一些服務商在用戶不知情的情況下通過電腦或手機上的攝像頭、麥克風等暗中獲取他們的信息,隱身變得更為困難。

  在個體被隨時隨地“數字化”映射的情況下,隱身,也是保護隱私的一個重要方面。雖然在法律上要獨立形成一種“隱身權”或許并不現實(它更有可能是隱私權中的一部分),但至少在技術層面,需要給予用戶更多的“隱身”可能。在物聯網將廣泛應用的未來,隱身許可將變得更為重要。

 

  “遺忘”變成例外?

  曾經因《大數據時代》一書而在中國獲得廣泛關注的學者維克托·邁爾-舍恩伯格,在另一本關于大數據時代的著作《刪除:大數據時代的取舍之道》里,提出了一個不可回避的問題:今天這個時代,遺忘變成例外,記憶成為常態,人類住進了數字化的圓形監獄。

  舍恩伯格不僅指出了“數字化監視”這一種現實,也指出了因數據保留的永恒而使監視成為永恒的可能。也正是對這一問題的擔憂,催生了被遺忘權的提出。被遺忘權概念在官方的首次提出是在歐盟2012年出臺的《一般數據保護條例》中,條例稱:信息主體有權要求信息控制者刪除與其個人相關的資料信息。該權利被稱為被遺忘及擦除權(The right to be forgotten and to erasure)。

  在中國,2011年1月工信部頒發的《信息安全技術公共及商用服務信息系統個人信息保護指南》中指出,當個人信息主體有正當理由要求刪除其個人信息時,個人信息處理者應及時對相關個人信息進行刪除。2016 年 11 月,全國人大常委會通過并經國家主席令頒布了《網絡安全法》,正式確認了個人對其網上個人信息的“刪除權”:“個人發現網絡運營者違反法律、行政法規的規定或者雙方的約定收集、使用其個人信息的,有權要求網絡運營者刪除其個人信息。”

  不管是將被遺忘權作為一種獨立的個人權利提出,還是將它列入擦除(或刪除)權中,這些新概念的出現,都是對數字時代個人信息的存留風險做出的法律回應。

  對被遺忘權的討論,常常會涉及它與言論自由、國家安全的關系。對此,在司法實踐中對被遺忘權主要有兩種態度:

  第一種認為,當言論從私人領域進入到公共領域,個體可以以保護隱私權為名,用“被遺忘權”刪除自己的言論,從而保護個體的言論自由;

  第二種認為,言論一旦進入公共領域,就與私人領域無關,即便個體要使用“被遺忘權”保護自己,也與隱私權毫無關系,因此,堅持“被遺忘權”不利于保護言論自由。

  歐盟更傾向于前者,而美國更傾向后者。有研究者認為,歐洲國家與美國對待隱私的差異,體現了西方關于隱私的兩種文化,即尊嚴與自由,前者的主要危險被歐洲國家認為在于大眾傳媒;后者的最大威脅被美國認為來自政府。

  傳播學者吳飛等指出,一方面我們要保護私人領地的神圣性,要防止有人假公濟私,但同樣也必須保護公共領域的開放性,要防止有人假私損公。但這種平衡的拿捏并非易事。

  而從法律層面看,被遺忘權的具體執行也存在很多難題,如被遺忘權的效力(包括內容效力、范圍效力等)、被遺忘權的權利主體范圍(這一權力對公共人物、罪犯與恐怖分子是否適用)、被遺忘權的義務主體范圍等。歐盟經過不斷地進行理論研究和實踐修正,于2016年4月又公布了新的被遺忘權規則。但不同于此前在規則中的獨立地位,此次的被遺忘權被放在擦除權之后以括號的形式標注出。

  因此,也有研究者分析,這或許意味著被遺忘權將被“遺忘”。在中國的《網絡安全法》中出現的“刪除權”,也并不完全等同于被遺忘權,它更多地是“作為國家網絡信息安全中的一個組成部分而設立的,而整體制度設計的重點在于保障網絡信息傳播秩序的穩定”。

  從技術上看,網絡信息復制、擴散的方便,也意味著“刪除”未必是能“一鍵實現”的。

  另一個值得注意的事實是,被遺忘權或刪除權更多地是在學界和法律界被討論,大多數普通人并不知道它的存在。在今天,數據上的“遺忘”還是例外。

  即使有被遺忘權或刪除權,個體也會面臨比以往更多的風險,雖然謹言慎行或許是人們自認為的減少風險的辦法,但在算法通過若干點贊就可以判斷用戶的性格的情況下,在未來各種傳感器可以隨時隨地捕捉人的數據的情況下,記憶仍會是常態。

  ▍數據時代對抗風險所需的 “基本建設” 

  盡管數據與算法應用的價值不可否定,但我們需要對數據和算法應用的失誤或失范有足夠的警惕,也需要增強對抗風險的能力。在中國,觀念、基礎條件、規范等方面的障礙,都意味著數據應用特別是大數據應用的推進需要時間。功利、草率的思維和行為都是對數據應用的損害而非推動。在數據技術的大躍進過程中,我們也需要回歸原點,完成一些基本建設。

  數據素養的培養

  19世紀后,美國的數據文化沿著“共和政治”和“經濟發展”兩條線共同發展,以培養有智識的公民為目標,大力普及數學教育,把數據意識成功推向整個社會,這樣的數據素養基礎或許是美國在大數據應用方面走在世界前列的原因之一。

  反觀中國,盡管“中國人的數學好”是國外對中國人的刻版印象之一,中國的中、小學數學教育似乎也是很嚴格的,但數學教育不等于數據教育,數據素養運比進行數學運算的能力要復雜得多。事實上,中國公眾的數據素養存在著普遍不足。

  研究者金兼斌指出,所謂數據素養(data literacy),是指人們有效且正當地發現、評估和使用信息和數據的一種意識和能力。通常,數據素養概念包含數據意識、數據獲取能力、分析和理解數據的能力、運用數據進行決策的能力以及對數據作用的批評和反思精神。這一界定,揭示了數據素養所涵蓋的多個層面。他的觀點也代表了很多研究者的觀點。

  作為數據應用影響最突出的行業之一,今天的傳媒業需要將數據素養作為媒體人的核心素養之一。盡管媒體的數據應用在豐富,媒體的生產流程變革也帶來了更多的數據資源,在一些媒體的“中央廚房”中也提供了各種維度的數據,但是,如果沒有嚴格的訓練,媒體人或許難以將來自各方面的數據轉化為有價值的、可靠的新聞,甚至可能會不斷地生產出數據垃圾。

  數據素養也應成為公民基本素養之一。全民數據素養的提高,不僅有助于公眾自身對數據判斷能力的提高,也會帶來“水漲船高”的效應,有助于對數據分析機構(包括媒體)的數據分析水平進行監督,反過來推進數據應用水平的整體提升。

  除了對數據的辨識與應用能力外,今天這個時代的數據素養,還應意味著批判性應用能力的深化。數據的風險意識、倫理意識,對算法的反思與使用中必要的節制,個人的數據保護意識、隱私意識等,或許都應是數據素養所涵蓋的。

  數據資源“基礎設施”建設

  美國之所以在數據應用方面走在世界前列,還因為在長期實踐和積累中,政府機構在數據質量、開放性和數據使用規范都打下了良好的基礎。進入大數據時代,美國政府進一步推進了數據資源的“基礎設施”建設。前美國總統奧巴馬在2009年上任伊始就簽署了《透明與開放的政府備忘錄》(Memorandum on Transparency and Open Government),號召政府致力于“建立一個透明的、公眾參與的、協作的制度體系”,并且對“透明”、“公眾參與”、“協作”三原則進行了解釋。2009年 5 月,作為美國開放政府建設重要行動之一的Data. gov網站上線, 各政府機構均被要求積極向網站提供數據,公民可以自由檢索并獲取聯邦政府數據。2009年12月8日,《開放政府指令》(The Open Government Directive)發布,要求主要政府機構必須提供三個高價值的數據集。

  而在中國,數據的基礎設施建設卻仍處于起步階段,雖然也有一些政府機構網站可以提供某些方面的數據,但總體來看,數據的完整性、時效性和可靠性都不盡如人意,多數行業性數據也難以滿足大規模、持續的數據應用需要。而目前由一些服務商壟斷的用戶數據,也很難轉化成公共性的資源。缺乏可靠的、開放性的、公益性的數據庫資源,是今天進行數據分析和應用的重要障礙之一,特別是對于媒體和研究者來說。

  公共數據庫和其他數據資源的建設,應是未來若干年需要重點解決的問題,這也是決定未來中國的數據應用水平的基礎之一。

  數據質量評估體系的建立

  在大量的機構在進行著數據分析甚至以此為營利模式時,如何對數據質量進行評估,變得越來越重要。

  由于利益的原因,要數據分析機構來評估自身,顯然不可行。而數據的使用者或公眾,也很難有相應的評估能力。更為可行的,應該是具有相應資質、獨立的第三方機構來進行評估。

  第三方機構對數據質量的評估,也需要遵循嚴格、科學的評估框架,否則這些第三方機構也可能因利益因素而淪為數據生產者的同盟者,或淪為擺設。

 

  進入大數據時代后,原來有著良好的數據應用傳統的歐洲和美國都開始制定大數據的質量標準。圖1是歐洲經濟委員會(UNECE)建議的大數據質量框架。它將大數據質量框架分為三個階段:數據投入(Input)、數據處理過程(Throughput)、數據產出(Output),對數據應用的每一個環節都制定了相應的標準與規范。此外,歐盟統計局也設計了官方統計使用的大數據的認證程序,美國普查局和公眾輿論研究協會也有自己對非傳統數據的質量評估標準或評估框架。

  但是,在國內的大數據熱潮下,我們似乎沒有看到相關管理機構質量標準的跟進,在各種數據應用(包括大數據應用)的成果推出時,也沒有看到相應的評估。而一些決策,包括人們常說的輿情研判,卻常常建立在這些沒有質量監測的數據分析結果上。

  另一方面,即使有相應的評估標準,在執行中,也存在種種復雜性。例如,美國在2000年通過了《數據質量法》,要求“各部門都必須建立相應的數據審查復核機制,盡最大可能保證聯邦政府所發布信息及統計數據的‘質量、客觀性、實用性以及完整性’”,但是由于沒有清晰界定誰對數據的質量擁有最終的解釋和裁定權,因此,在實施后也遭遇重重問題。一個典型問題是,公共利益代表的缺位。該法案生效時,OIRA(美國行政管理預算局下設的信息和管制辦公室)主任格雷厄姆曾認為,無論公司、還是消費者和環境保護的公益組織,全社會都可以來質疑政府發布的數據是否準確,各種不同的利益,都將得到保護。”但有研究者指出,后來的現實狀況是,《數據質量法》僅僅成了商業組織反對管制標準的利器,面對相應問題,商業組織可以迅速組織起來進行游說,而利益受到了侵害的大眾,卻無法組織起來與公司抗衡。

  在數據評估實施中,如何兼顧和平衡多方利益,如何建立完善的評估機制,仍將有諸多挑戰。但至少,評估體系應該成為數據時代制度建設的一部分。

  信息倫理規范的約束

  今天,數據或算法越來越成為一種權力的體現——無論是數據獲取或數據分析,還是算法設計及應用。數據與算法權力的過分壟斷、數據與算法權力的濫用與利益裹脅等問題,都愈發嚴重,相應的倫理規范的制定與執行,變得更為重要。

  20 世紀70 年代中期,美國倫理學家曼納(Walter Maner)率先提出并使用“計算機倫理學”這個術語。1986 年,美國管理信息科學專家梅森提出了信息隱私權 ( Privacy) 、信息準確性 ( Accuracy) 、信息產權 ( Property) 和信息存取權 ( Accessibility) 4 個信息倫理議題。拉里·賈德(Larry R.Judd)在1995年提出了信息時代提高倫理與道德的三個準則:適當地承擔責任;預料消極影響;以約翰·羅爾斯的正義原則為指導試圖追求公平。

  在國內,針對近年來發展中的問題,也有學者提出,為了披露與削減數據和算法權力的誤用和濫用,應對數據和算法施以“倫理審計”。其基本策略是,從智能認知與算法決策的結果和影響中的不公正入手,反向核查其機制與過程有無故意或不自覺的曲解或誤導,揭示其中存在的不準確、不包容和不公正,并促使其修正和改進。

  2017年1月,在美國加利福尼亞州阿西洛馬舉行的Beneficial AI會議上,特斯拉CEO埃隆·馬斯克、DeepMind創始人戴米斯·哈薩比斯以及近千名人工智能和機器人領域的專家,聯合簽署了阿西洛馬人工智能原則。該原則指出,科學家認為人工智能應符合一般的“人的價值”之類的尊嚴、權利、自由和文化等多樣性。這意味著人工智能不應侵犯任何人的隱私、自由或安全。人工智能研究的目標,應該是創造有益(于人類)而不是不受(人類)控制的智能。該原則倡導的倫理和價值原則包括:安全性、故障的透明性、審判的透明性、責任、與人類價值觀保持一致、保護隱私、尊重自由、分享利益、共同繁榮、人類控制、非顛覆以及禁止人工智能裝備競賽等。

  這些來自不同方面的信息倫理規范倡議,要得以真正實施,還需要跨越很多障礙,但是,倫理的引導,是數據時代的一個必然選擇,某種意義上,數據倫理比以往的其他技術倫理還要重要。

  20多年前,尼葛洛龐帝在《數字化生存》一書的前言中寫道:“計算不再只是和計算機有關,它決定我們的生存”。今天即使是普通人都深刻地理解了這句話。這樣一個時代,數據、算法成為決定我們生存方式的重要因素。識別、抵抗這其中的種種風險,也應該成為我們生活的一部分,成為媒體和各種數據應用機構的基本責任。

  原標題為:《清華教授彭蘭:假象、算法囚徒與權利讓渡——數據與算法時代的新風險》

  參考文獻:

  [1]《技術的擔憂——路透發布<2017年度媒體預測報告>》,

  http://dy.163.com/v2/article/detail/CAM0RA7H05118VJ5.html

  [2]藍江.《后真相時代意味著客觀性的終結嗎》[J].探索與爭鳴,2017,(4)。

  [3]《農民工調查問卷學生填?武大“問卷造假”事件梳理》,

  http://new.qq.com/omn/20180319/20180319G1ERCC.html

  [4]劉擎.《共享視角的瓦解與后真相政治的困境》[J]. 探索與爭鳴,2017,(4)

  [5] “后真相”在給民主制造麻煩?——專訪約翰·基恩,

  http://mp.weixin.qq.com/s/kAgZuBARezctZ7z6IGaC1A

  [6] [美] 尼葛洛龐帝. 數字化生存 [M]. 192頁,胡泳,范海燕譯. 海口:海南出版社, 1997

  [7] [美]凱斯·R·桑斯坦.信息烏托邦[M]. 8頁,畢競悅譯. 北京: 法律出版社,2008

  [8] Donald L. Shaw, Maxwell McCombs, David H. Weaverand Bradley J. Hamm:Individuals, Groups, and Agenda Melding: a Theory of SocialDissonance,Journal of Public Opinion Research, Volume 11,1999

  [9]唐納德·肖2004年在中國人民大學新聞學院的講座。

  [10]《AI算法通過照片識別同性戀準確率超過人類,斯坦福大學研究惹爭議》,

  http://tech.ifeng.com/a/20170908/44676783_0.shtml

  [11]張玉宏,秦志光, 肖樂. 大數據算法的歧視本質[J].自然辯證法研究,2017,(5)

  [12]周濤. 數據的偏見[J]. 金融博覽, 2017,(5)

  [13] [美] 尼爾·波茲曼. 娛樂至死[M]. 前言,章艷譯. 南寧:廣西師范大學出版社,2004

  [14] [法] 福柯.自我技術. [M],53-54頁,汪民安編. 北京:北京大學出版社,2015

  [15]齊澤克評“臉書泄密門”:我們要幸福地被操控嗎?,

  http://mp.weixin.qq.com/s/4XqYOVKoWCBOjEn8_VYj7A

  [16]李彥宏:中國用戶愿用隱私換效率,、

  http://tech.ifeng.com/a/20180326/44919938_0.shtml

  [17] [英]維克托·邁爾-舍恩伯格. 刪除:大數據時代的取舍之道[M], 5-18頁,袁杰譯. 杭州:浙江人民出版社,2013

  [18]吳飛,傅正科. 大數據與“被遺忘權”[J]. 浙江大學學報(人文社會科學版),2015,(2)

  [19]鄭志峰. 網絡社會的被遺忘權研究[J]. 法商研究,2015,(6)

  [20]萬方. 終將被遺忘的權利——我國引入被遺忘權的思考[J].法學評論,2016,(6)

  [21]周沖. 個人信息保護:中國與歐盟刪除權異同論[J].新聞記者,2017,(8)

  [22]涂子沛. 數據之巔[M]. 34頁,北京:中信出版社,2014

  [23]金兼斌. 財經記者與數據素養[J]. 新聞與寫作,2013,(10)

  [24]冉從敬,劉潔,陳一. Web2.0環境下美國開放政府計劃實踐進展評述[J]. 情報資料工作,2013,(6)

  [25]余芳東. 非傳統數據質量評估的國際經驗及借鑒[J]. 統計研究, 2017,(12)

  [26]楊晶晶、谷立紅、田紅. 信息倫理研究綜述[J]. 電子政務,2011(7)

  [27]段偉文. 人工智能時代的價值審度與倫理調適[J]. 中國人民大學學報,2017(6)

  [28]阿西洛馬人工智能原則——馬斯克、戴米斯·哈薩比斯等確認的23個原則,將使AI更安全和道德[J]. 智能機器人,2017(1)


大星彩票22选五走势图