close

 

@標題=科學的假象:揭露造假、偏見、疏忽與炒作的真相 【楊聰財專欄】

楊聰財精神科專科醫師履歷表小檔案

-美國杜蘭大學公共衛生醫學博士

-哈佛大學公共衛生學院博士後研究進修

-新北市家庭暴力暨性侵害防治委員會委員

-行政院院部公共衛生/精神醫學/心理健康/成癮障礙 專家顧問

-楊聰才身心診所暨心理衛生中心 院長

-專業社會心理學教授

-臨床教授

楊聰財精神科專科醫師履歷表小檔案

-美國杜蘭大學公共衛生醫學博士

-哈佛大學公共衛生學院博士後研究進修

-新北市家庭暴力暨性侵害防治委員會委員

-行政院院

-敦安基金會執行長

http://www.yang1963.com.tw/  【楊聰財醫生心理衛教中心】  

https://www.facebook.com/profile.php?id=100003256924385

https://panel.pixnet.cc/#/articles/list?per_page=40

https://www.tiktok.com/@yentai081263

https://www.tiktok.com/@yang1963tw

https://www.tiktok.com/search?q=%E6%A5%8A%E8%81%B0%E8%B2%A1%E9%86%AB%E5%AD%B8%E5%8D%9A%E5%A3%AB&t=170893457178

 

@文章大綱

 

1.  科學的理想與現實差距

2.  造假:科學界的暗黑一面

 

3.  偏見如何影響研究的公正性

4.  疏忽與錯誤:科學中的無心之過

 

5.  炒作:誇大的研究成果與媒體的雙刃劍

6.  學術壓力與不當激勵的惡性循環

 

7.  案例分析:一場震撼學術界的造假風波

8.  如何修復科學信譽:重建科學文化

 

9.  辨識與應對可疑研究的技巧

10. 展望未來:科學重拾信任的路徑

________________________________________

 

#科學的理想與現實差距

 

科學一直以來被視為探索真理的燈塔,然而隨著學術生態日趨商業化,理想與現實的差距也愈發明顯。本書《科學的假象》揭示了科學領域中存在的四大問題:造假、偏見、疏忽和炒作。這些問題不僅削弱了科學研究的可信度,也深深影響了公眾對科學的信任。

________________________________________

 

#造假:科學界的暗黑一面

 

造假是科學中的致命傷,對個別研究的傷害可能是不可逆的,而對整體學術領域的信譽更是毀滅性的。從康乃爾大學教授聲稱大學生具有心靈預知能力,到荷蘭蒂爾堡大學心理學家的數據全盤造假,這些轟動案例揭示了學術造假的廣泛性和嚴重性。

________________________________________

 

#偏見如何影響研究的公正性

 

學術界的偏見問題不容忽視。從選擇性報告數據到誤用統計學工具(如 P 值操縱),偏見讓研究結果偏離真實。例如,在心理學和精神醫學領域,高達 91.5% 的論文報告正向結果,這種異常的「成功率」反映了發表偏差的嚴重性。

________________________________________

 

#疏忽與錯誤:科學中的無心之過

 

科學中的疏忽和錯誤有時難以避免,但當疏忽成為常態時,後果不堪設想。例如,研究數據的輸入錯誤和程式碼錯誤可能完全顛倒研究結論。調查發現,近一半的科學論文存在數值錯誤,其中 15% 嚴重到足以推翻結果。

________________________________________

 

#炒作:誇大的研究成果與媒體的雙刃劍

 

研究炒作的根源不僅在於媒體,學術機構和科學家本身也常參與其中。例如,某些醫學研究被過度簡化成「神奇療效」的標題,不僅誤導了公眾,也可能影響政策制定。

________________________________________

 

#學術壓力與不當激勵的惡性循環

 

「發表或滅亡」的學術文化驅使許多科學家採取極端手段。掠奪性期刊和低品質的學術會議為這種文化提供了溫床,不僅浪費資源,也扭曲了學術研究的初衷。

________________________________________

 

#案例分析:一場震撼學術界的造假風波

 

=案例:台灣大學醫學院論文造假案

•  事件背景:2016 年,台灣大學教授被揭發數篇癌症研究論文造假,涉及多位教授及相關單位。

•  具體情節:造假手法包括偽造實驗數據和篡改圖像,甚至使用「影像複製」等低劣手段。

•  後續處理:教育部扣減研究經費,涉案教授被撤職,事件引發社會對學術倫理的廣泛討論。

•  影響:此案重創台灣學術界的國際信譽,也讓人深刻反思學術審查制度的漏洞。

________________________________________

 

#如何修復科學信譽:重建科學文化

 

本書提出多項建議,旨在改善科學的可信度:

1.  透明化數據:研究數據應公開,讓他人能夠檢驗和複製。

2.  鼓勵重複研究:提升重複實驗的地位,讓其成為科學進步的基石。

3.  改善審查制度:提高審稿標準,減少出版偏差。

________________________________________

 

#辨識與應對可疑研究的技巧

1.  查閱數據透明度:確認研究是否公開原始數據。

2.  檢查研究方法:了解實驗設計是否嚴謹。

3.  注意利益衝突:查看作者是否與利益相關者有密切聯繫。

________________________________________

 

#展望未來:科學重拾信任的路徑

 

科學雖然千瘡百孔,但它仍是我們認識世界的重要工具。未來的科學應更加重視倫理與透明,通過結合科技進步和制度改革,讓科學重新成為真理的代名詞。

 

#結語

 

《科學的假象》是一部警世之作,揭示了當代科學的種種問題,但同時也為解決這些問題提供了明確的方向。讓我們從案例中學習,為科學的誠信與進步共同努力。

 

@重要參考資料

文/史都華.利奇(Stuart Ritchie)

科學證實大學生其實擁有超能力!?

西元二一一年一月三十一日那一天,全世界忽然發現了大學生其實擁有超能力。

那天有一篇剛發表的科學論文,登上了各大報的頭條:經由一系列由實驗室所設計的實驗,在測試了超過一千名對象之後,終於找到人類具有心靈預知能力的證據也就是能夠透過特別的感官去預知未來的能力。

這研究可不是來自什麼名不見經傳的瘋子科學家,該篇論文的作者拜姆是一名頂尖的心理學教授,任職於隸屬常春藤聯盟的康乃爾大學。而該篇論文也不是發表在什麼沒沒無名的小期刊上,它可是發表在一本受人景仰、通過同儕審查的主流心理學期刊上面。看起來,這個過去被認為是完全不可能的現象,這次終於獲得科學界認證了。

這篇論文發表的時候,我還是一名博士班學生,正在愛丁堡大學攻讀心理學。我非常詳細地閱讀了拜姆的論文,他的實驗步驟是這樣的:他讓一群大學生盯著一個電腦螢幕,在這螢幕上會出現兩塊簾幕的圖案。

拜姆告訴學生,這兩塊簾幕圖案的其中之一後面藏有一張圖畫,學生必須從中選出他們認為藏有圖畫的簾幕。受試學生並沒有任何線索,他們只能憑空猜想。等他們猜完之後,簾幕會打開,這時候學生就知道自己猜對還是猜錯。這個實驗重複了三十六次,當整個實驗結束後,結果相當驚人。如果藏在簾幕後面的測試圖畫,是某些中性而無聊的圖案時,那麼實驗的結果就完全隨機:學生們猜對的機率是百分之四十九.八,基本上就是一半一半。不過真正奇妙的結果則是下面這一個:如果藏在簾幕後的圖案是一張色情圖片,那學生們選中這塊簾幕的機率,會略高於隨機值,準確地來說是百分之五十三.一。

這個數值剛好超過「具有統計意義」的閾值。在研究論文中,拜姆認為有某種無意識的、演化出來的、心靈上對性的渴望,稍稍影響了學生,讓他們在圖片還未顯現之前,選擇了色情圖片。

拜姆的其他實驗則沒有那麼直觀,但結果一樣讓人困惑。在其中一個實驗裡,他選了四十個毫無關聯的字彙,在電腦螢幕上顯現出來,一次一個。接著他在無預警的情況下測驗學生的記憶力,讓他們盡量打出所有他們剛剛看過的字。與此同時電腦也會從那四十個字中再隨機選出二十個字,顯示給學生看,這個實驗就結束了。

根據拜姆的紀錄,在記憶測驗的過程中,學生傾向打出他們即將看到的那二十個字,但是他們當然不可能事先知道電腦會選出哪些字,除非他們可以有超自然直覺的幫忙。拜姆認為這有點像是一個學生為了準備考試而唸書,然後去參加考試,考完之後再複習一遍;結果這個試後複習的成果,不知怎麼地居然可以回到過去,讓第一次考試的成績變得更好。

一般來說,除非所有的物理定律都瞬間失效,不然時間應該是只會往一個方向流動才對,萬物的「因」應該出現在它的「果」之前而非之後。但是自從拜姆的論文發表以後,這些奇奇怪怪的結果,現在也成為科學文獻的一部分了。

一件重要的事情是,拜姆的實驗設計極其簡單,所需要的只是一台桌上型電腦而已。如果拜姆是對的,那麼任何科學家都可以根據他的實驗步驟重複實驗,得到可以證明超自然現象的證據,即使是一名毫無資源的博士班學生也做得到。我就是那個沒有資源的博班學生,因此我就這樣做了。

我聯絡了另外兩位同樣對實驗結果感到懷疑的心理學家,一位是赫特福德大學的威斯曼,另一位是倫敦大學金史密斯學院的法蘭屈。

我們一致決定在三人的大學裡,各重複一次拜姆的字串實驗。我們開始招募志願者,向他們解釋實驗內容,並看著他們在聽完之後露出一臉困惑的表情。經過數個禮拜的時光,我們終於有了實驗結果。而這些實驗結果嘛……一點意義也沒有。我們的大學生完全沒有什麼超自然能力。他們並沒有記得比較多那些測驗過後才列出的字串。或許,物理學定律暫時還是可信的。

我們很快地把實驗結果寫成論文,寄給當初發表拜姆論文的那份期刊:《人格與社會心理學期刊》,而也幾乎馬上就吃了閉門羹。期刊編輯在幾天以內就決定拒絕我們的投稿,並向我們解釋,該期刊有一條一貫的政策,就是從不發表重複前人實驗的論文,不管新的論文是否能做出跟前人一樣的結果。

我們當然對這樣的結果感到十分氣憤。這份期刊才發表了一篇結論極為大膽的論文,假設該論文結論為真,那麼其大膽的程度所引起的,絕對不只是心理學家的興趣,而會是整個科學界的革命。

該實驗的結果已經深入大眾領域,在公眾媒體上面大量曝光,知名程度甚至讓拜姆本人都上了深夜脫口秀節目「柯爾伯特報告」,並讓主持人說出了那句讓人印象深刻的「誘人的時光旅行」。而現在期刊編輯竟然完全不考慮刊登另一篇重複該實驗並且質疑原本結論的複製型論文。

與此同時,還有另外一件正在悄悄開展的事件,也讓人警覺到今日的科學研究在實踐上可能出了某些問題。《科學》期刊一向被公認為是最權威的科學性期刊之一(僅次於《自然》期刊),它曾經刊登過荷蘭蒂爾堡大學的社會心理學家史泰佩爾的一篇論文。該篇論文的標題為〈面對混亂〉,內容描述了數個在實驗室以及在街頭所執行的實驗,作者發現當人身處於髒亂或混雜的環境時,比較容易形成偏見,同時也比較容易認同種族刻板印象。

這篇論文,加上史泰佩爾其他數十篇論文的結果,登上了世界各地的報紙頭條。《自然》期刊的一篇新聞這樣寫道:〈混亂會促成偏見〉,《雪梨晨鋒報》也報導:〈哪裡有垃圾,哪裡就有種族歧視〉。這些實驗結果,代表了某種典型的社會心理學實驗,其發現老嫗能解,並且如史泰佩爾本人所寫道,「明顯可應用於政策層面」:在上面的例子裡,應該要「及早找出環境中的混亂之處並立即介入」。

但是這裡的問題是,上述這一切結果沒有一項是真的。史泰佩爾的一些同事注意到,他的實驗結果有點太過完美了,於是開始感到懷疑。不只如此,資深的學術工作者通常相當忙碌,多半依賴學生去從事搜集資料這類苦力工作,但是史泰佩爾似乎都親力親為:他親自外出收集所有實驗數據。二一一年九月,當他的同事把這些問題反映給大學行政單位後,史泰佩爾被暫停教授職位,許多調查隨即展開。

史泰佩爾在隨後寫的一份自傳中懺悔並承認,他的實驗數據並非搜集而來,而是坐在研究室或是晚上在廚房飯桌上,根據他想像中的實驗結果,一筆一筆把他所需的數據鍵入試算表中,所有一切都是無中生有。

「我做了很可怕的事,甚至可稱為很噁心的事,」他這樣寫道:「我捏造研究數據,虛構一堆從沒做過的研究。我自己寫論文,而且我非常清楚自己在做什麼……我沒有什麼感覺,不覺得噁心,不覺得可恥,也不覺得後悔。」他的科學詐騙成果複雜得讓人驚訝。「我發明了一整個學派,在其中我得以從事研究、與其他老師討論實驗、參與講學、共同教授社會研究課程,我感謝那些參與研究而有貢獻的人士,並且還親手送上謝禮。」

史泰佩爾提到,他會印出那些假裝是要給受試者填寫的空白表格,秀給同事與學生看,宣稱他要趕著去做研究……然後在沒有人看到的時候,把這些表格丟進資源回收桶。他最後無法繼續進行下去。學校的調查結果很清楚,史泰佩爾在停職不久後就被解聘了。在此之後,他有超過五十八篇論文,因為資料作假而被撤稿,這刷新了科學界的紀錄。

像拜姆跟史泰佩爾這種例子,受人景仰的教授發表看似不可能的(比如說拜姆)或是完全造假的(比如說史泰佩爾)的實驗結果,不僅引起心理學界的大地震,更撼動了整個科學界。聲譽卓著的科學期刊怎麼會允許它們被發表?還有多少已發表的論文其實是有問題的?事實上,這兩個案例其實是非常好的例子,說明了我們當前的科學研究方式,其實有著更大的問題。

在這兩個例子中,最大的問題其實是複製。一項科學發現要能值得被認真看待,它必定不能只是某次隨機發生的僥倖,不能只是因為機器故障,不能是因為科學家作弊或偽造。它必定要是真正發生過的現象。而如果它真的發生過,那基本上讓我來做,應該也能大致發現跟你一樣的結果才對。就許多方面來說,這正是科學的基礎,也是科學跟許多其他用來認識世界的知識體系不同處。如果一個現象無法被複製,那你就很難宣稱你做的東西屬於科學。

如果如此,那麼值得令人擔憂的,就不是拜姆的實驗是否可信,或是史泰佩爾的結果只是他空想的產物,畢竟我們永遠避不開錯誤與虛假(同時很遺憾的,也避不開騙子)。真正值得擔憂的問題,是科學界如何處理這兩個例子。我們企圖複製拜姆的實驗,但是卻被原本發表過他論文的期刊無禮地拒絕了;而在史泰佩爾的例子裡,甚至沒有人嘗試去複製他的發現。換句話說,我們的科學界正在告訴大家,他們會相信任何誇張的論述,而不會先檢查這些結果的可信度有多少。但是若是沒有先檢查過這些結果的可複製性有多高,那我們要如何知道這只是巧合或是虛構的呢?

或許,拜姆在他那惡名昭彰的研究數年後,在某一次專訪中所說的話,最能道盡許多科學家對於「複製實驗」這件事情的看法。「我完全贊成用嚴格的標準,」他這樣說道,「但是我沒有耐心等待……如果你去看我過去所有的實驗,它們都只是一種修辭手段而已。我搜集數據是為了呈現我的論點。我把這些數據當作說服別人的論點,而我從不擔心『這些結果能不能被複製?』」

但是擔心實驗結果能不能被複製,並非一個可有可無的選項,它是科學的基本精神,應該要清楚地彰顯在論文發表與同儕審查系統中,而這套系統,正是對抗假發現、錯誤實驗與可疑數據的防波堤。但如同我會在本書後面解釋的,這套系統現在損壞得很嚴重。許多科學家所發現的知識即使很重要,但若是被認為不夠有趣到值得發表的程度,往往會受到修改或被束之高閣,這造成實驗記錄被曲解,連帶破壞了我們的醫學、技術、教育系統甚或是政府的政策。

我們投入了大量資源從事科學研究,原本冀望能夠從中獲得有用的回報,結果卻完全浪費在生產了一堆毫無價值的資訊上。原本可以完全避免的錯誤及疏忽,現在卻常態性地穿過「同儕審查」這道馬奇諾防線(二次世界大戰時,法國部署在德法邊境的防禦工事,號稱絕不會被突破的防線)。許多書本、媒體、報導甚或是我們腦袋裡,如今充斥著各種「事實」,但這些「事實」要麼不是錯的,不然就是被誇大,或是純粹誤導。其所造成的結果不堪設想,特別是如果影響的是醫療科學等領域,那麼在最壞的情況下甚至可能造成死亡。

其他的書籍所描述的常常是科學家對抗一系列假科學提倡者的故事,比如創造論者、順勢療法、地平說擁護者、占星術師之類的學說與團體;這些人誤解科學甚至妄用科學,有些是無心使然,有些則是故意為之,但不管哪一種都一樣地不負責任。但是本書不一樣。

本書所要揭發的,是科學自身的嚴重腐敗:這種腐敗影響到的,正是與我們實踐研究與發表論文有關的科學文化。科學這個學門本應有著最嚴格的懷疑主義、最精確的理性以及最扎實的實證主義,如今卻充滿一堆不適格的妄想、謊言與自我欺騙,其程度讓人眼花撩亂。在這樣的腐敗過程中,科學最重要的目標,也就是帶領我們接近真理,正被慢慢地破壞。

本文摘自貓頭鷹出版社出版之《科學的假象:造假、偏見、疏忽與炒作,如何阻礙我們追尋事實》

加入 琅琅悅讀 Google News 按下追蹤,精選好文不漏接!

 

 

陷入「p值陷阱」的科學研究?《科學的假象》

有一個古老的哲學問題是這樣問的:「為什麼是有而不是無?」我們也可以對科學研究問一樣的問題:「為什麼科學研究總能發現一些東西,而不是無功而返?」如果你曾經閱讀過報章雜誌上的科學版,大概就不難理解為何大眾的觀念就是,科學家的預測總能被成功驗證、實驗結果永遠支持他們提出的假設;而做不出什麼有趣結果的研究,反而罕見如鳳毛麟角。這很合理,畢竟新聞報紙所報導的內容就是必須要「新」,而不是要把「所有發生過的事情都記下來」。但是科學期刊則不同,科學期刊就是應該記下所有發生過的科學事件,不過它現在卻有著跟新聞一樣的偏見,傾向記載新奇而有趣的故事。今天我們打開科學期刊,只會看到一篇接著一篇正面的結果(科學家的預測成功了,或是找到了什麼新東西),但是卻幾乎看不到什麼無效的結果(研究人員空手而回)。等一下我們就要來談談「正面的」結果跟「無效的」結果,在技術上以及統計學上面的意義為何。現在你只需要知道,科學家所追尋的實驗結果,通常是前者;而後者則總是讓研究人員大失所望。
 
有人曾經研究過當今科學文獻到底有多麼正面:二年統合科學家法奈里在一份研究中,調查了橫跨各學門領域總共兩千五百份論文,計算有多少篇論文對於裡面所提出的首要假設,獲得了正面的結果。他發現不同領域的論文,有著不同程度的正向結果。但是即使是比例最低的領域,也就是太空科學,也有高達百分之七十.二的論文報告了正面的結果;而你大概已經猜到了比例最高的學門就是心理學/精神醫學,有百分之九十一.五的論文都報告了正面結果。不消說,要解釋心理學論文裡面這麼驚人的成功率,以及心理學這麼低迷的可信度,是件相當棘手的事情。
 
你可能會覺得有點奇怪,為什麼科學研究不應該有高度的成功率呢?畢竟,科學家對於自己的專業領域有著豐厚的知識,而他們的假設也都是根據經驗提出而非瞎猜的不是嗎?不過除非科學家都是超能力者,否則要看到法奈里報告中那樣高比例的正面結果,幾乎是不可能的事。有些很聰明的想法,但是卻無法在實驗中被證實,結果是死路一條,這些實驗結果都跑哪裡去了呢?那些試誤實驗中的「誤」,都跑哪裡去了呢?那些僅僅因為運氣不好,結果就算是假設正確,但是仍只得到假陰性結果的研究,又都跑哪裡去了呢?換句話來說,當今科學文獻中的正面結果,不只是高,而是高得離譜。
 
關於這件事,其實有一個很簡單但是卻很糟糕的解釋:科學家是根據他們的結果而決定要不要發表實驗成果。在一個理想的世界裡,科學的研究方法才應該是最重要的事:在一次設計良好的研究中,如果眾人皆同意測試該假設的方法十分合理恰當,那麼該研究結果就應當被發表。這才是默頓規範中「無私利性」的真義,根據這條規範,科學家不應在乎個別的實驗結果(科學家若有「自己所偏愛的理論」這套想法,那就跟這條規範產生了正面衝突),只應該在乎他們的研究是否夠嚴謹。
 
但是事實上,真實世界的運作方式卻與之相去甚遠。寄往各期刊的論文草稿裡面所記載的,幾乎都是支持個別理論的研究結果,而那些讓人氣餒的「失敗」之作(這就是一般對於無效結果的看法),則被悄悄地丟到垃圾桶中,然後科學家再繼續做下一個實驗。而這也不只有研究人員這樣做,期刊編輯與審稿人也是根據論文中的發現有多新鮮有趣,來決定是否要接受與發表這篇論文,而研究者在發現這些結果的方式有多嚴謹,則不必然是考量之一。這種做法自然會回饋到科學家身上,於是讓整件事情產生了惡性的循環:既然無效的結果幾乎沒有被發表的機會,那又何必費心將這樣的論文拿去投稿呢?
 
這是所謂的發表偏差,或者一個比較過時的用法稱之為「檔案櫃問題」,因為以前的人認為科學家會把那些無效的結果藏在檔案櫃裡,不給人知道。這有點像是「歷史是由勝利者所書寫」的概念,不過是套用在科學文獻的發表上;或者也可以想像成「如果你沒有什麼正面的結果可以發表,那就別發表吧。」這樣的意思。
 
在理解實務上如何出現發表偏差之前,我們要先詳細解釋一下科學家怎樣決定哪些結果是「正面的」,哪些結果又是「無效的」;也就是說,他們怎麼分析跟解讀資料。在上一章中我們在討論假資料集的時候曾經講過:數字往往充滿雜訊。每一次測量或每一次採樣,必定伴隨著隨機出現的變異。這些變異不只讓人難以偽造數據,它們也讓科學家難以從中找出真正有意義的訊號。這些數據雜訊三不五時就會跑出一些離群值或是例外值,讓原本可能沒有意義的數據,看起來像有某種模式似的,結果誤導實驗方向。比如說,雜訊可能讓你覺得在服用新的止痛劑的那群病人,看起來跟服用安慰劑的那群病人之間有些不一樣,但其實這差異完全是隨機造成的。又或者在兩種測量之間看起來似乎有某些關聯性,但其實這只是碰巧出現在你這次測量中;如果你再重複一次實驗的話,很可能就看不到了。又或者你可能覺得在粒子加速器中看到了某個高能訊號,但其實只是隨機的波動造成的而已。我們該怎麼區別自己真正有興趣的效應,跟變幻無常的隨機誤差呢?大部分的科學家都會回答:去計算p值。
 
這個p值是哪裡冒出來的?p值其實是「機率值(probability value)」的英文縮寫。它的意思是什麼呢?舉例來說,如果我們今天想要檢驗一個假設:蘇格蘭男人比蘇格蘭女人要高。當然事實上我們知道這個假設是真的,因為一般來說全世界男人的平均身高都比女人高。但是同時我們也知道,並不是每個男生都比女生高,畢竟大家也很容易可以舉出反例。現在我們先假裝不知道蘇格蘭男生跟女生的身高是不是真的有差異好了。儘管蘇格蘭只有五百五十萬人,我們還是不可能真的去測量每一個人的身高,因此在這次的研究中,我們將會隨機選取一些樣本,並且將數量控制在能處理的範圍內。假設我們沒有太多經費,只能找十個男人跟十個女人參與測量,雜訊就會在這種時候出現。因為每個人的身高差異其實滿大的,因此很可能因為運氣不好,或者用我們之前學過的專業術語來說,出現了抽樣誤差,我們選到了一群特別高的女生跟一群特別矮的男生。除此之外,因為我們無法完全避免測量誤差,所以也不可能把每個人的身高量得完全準確(還記得在上一章說過,有時會出現被測的對象可能剛好縮了一下,量尺可能滑了一點點之類的問題)。
 
現在假設我們測量的這群女生,平均身高比男生矮了十公分。那我們怎麼知道,這十公分所反映的,是整個族群真正的差異(也就是說我們量到了真正的結果),還是只是雜訊(也就是說這只是碰巧出現的數字)而已呢?我們必須透過正式的統計方法,來比較這兩群人的身高。統計學上有許多方法 可以用,像是Z檢定、t檢定、卡方檢定或是概度比檢定等等,要用哪一種方法,端視你手上的資料性質而定,再加上一些其他的考量。不過今日要做統計,基本上只需要把這些數據輸入電腦,用軟體去計算就好。當電腦運算完畢,在輸出的資料中,除了許多很有用的數字以外,也會包含相關的p值。
 
雖然p值是科學上最常用到的統計數字之一,但是它卻有個極容易被誤解的定義。最近有一份調查,在抽樣檢查了許多心理學導論教科書後發現,總共有高達百分之八十九的教科書把p值的定義解釋錯了,在這裡我會盡量避免重蹈它們的覆轍。這個p值其實是說,假設你所感興趣的效應其實並沒有出現,但是測量結果卻顯示有,甚或是測出更大的效應,這樣的機率有多大。記住,這個p值並不是說你的結果有多大機率是真的(不管它的意義為何),也不是說你得到結果有多重要。p值只是在回答一個問題:「如果在真實世界中,你的假設不是真的,那你所得到的結果有多大的機率其實是雜訊?或是雜訊有多大的機率給你一個看起來很強烈的效應?」
 
現在回到我們剛才舉的身高例子,假設我們得到的p值是三。這個意思是說,如果在真實世界中,蘇格蘭的男生跟女生之間的身高並沒有不同,那如果我們重複剛剛的採樣步驟無限次,將只有百分之三的機率會得到男女身高差了十公分,甚或是十公分以上的結果。而如果我們根據這百分之三的例子,就逕自宣稱蘇格蘭男生的平均身高比女生高,這就是錯的。不過反過來這也就是說,如果蘇格蘭男生跟女生的身高沒有差異,那麼要測到像我們那組樣本的身高差異(或者測到更大的差異),其機率將會非常的小(雖然也不是不可能)。
 
因此在大部分的例子裡,p值愈小愈好。不過p值要小到多少,我們才有信心說我們的結果並非來自雜訊呢?或者換個角度來說,我們可以容忍假陽性的機率到多高的程度呢(所謂假陽性,也就是在沒有差異的情況下,我們卻判斷它有差異)?為了幫科學家做決定,一九二年代的統計學先驅費雪認為,應該訂一個閾值,當p值超過這個閾值的時候,所得到的結果應該被當成是無效的(因為它看起來實在太像是什麼事情都沒有發生時會得到的結果了); 而當小於這個閾值的時候,應該被認為「在統計上具有顯著性」。
 
就是這句話造成了極大的誤解。聽在許多現代人的耳中,「顯著性」這個詞好像是在說,某件事的效應或效果十分明顯或是強烈。但是一如我們剛才所解釋過的,不管這個p值有多小,它都不是這個意思。一個講的是這個效果的規模(在我們的例子裡,效果指的是蘇格蘭男生比女生高了多少,而它的規模是十公分);而另一個講的,則是即使原來的假設不成立,但是卻看到這種規模的效果,這樣的機率有多大,這兩者是完全不同的事。舉例來說,有的時候即使一個藥物對某個疾病的療效十分微弱,但是我們仍然可以肯定地說,這個效果並非假陽性也就是雖然微小,但是在統計上卻有顯著性,這是完全有可能的事。回到費雪寫下這些東西的年代,當時大家對「顯著性」這個詞的理解跟今日略有不同:在當時顯著性的意思暗示著實驗結果 表明了數據中有些東西不太一樣;但它的意思可不是說,不管發生了什麼都值得大書特書。
 
不管怎樣,費雪原本建議這個「統計上的顯著性」閾值應該設在五,也就是說在每次的檢驗中,假陽性的機率如果超過百分之五,那就不應該被接受(記住,這也就是說在我們的身高調查中,因為p值是三,因此是一個統計上有顯著性的實驗結果)。一九二六年,費雪在一篇極具影響力的論文中寫道:「只有當一個設計良好的實驗,很少達不到如此的顯著性時,我們才能說這個科學事實已經透過實驗驗證了。」
 
不過這個五完全是人為武斷決定的數字。它有點像那個知名的蘇格蘭天氣網站tapsaff.co.uk,這網站會查看全英國的天氣狀況,然後逕行宣布任何一個氣溫超過攝氏十七度(大概是華氏六十三度)的地區作為「打赤膊」地區,因為該地的氣溫已經夠溫暖,紳士們可以合法地光著上身在戶外漫步。十七度雖然是個合理的溫度,但卻也是個武斷的數字:有些人可能要等氣溫到了二十度才願意露出身體,也有些意志堅強的人覺得十五度就可以。準此邏輯,費雪後來也說道,不同的研究人員或許會想根據自己所研究的主題,去訂定不同的顯著性標準。比如說,歐洲核子研究組織的物理學家,在二一二年發現了希格斯玻色子之後所提到那個有名的「五個標準差的證據」,其實只是用一種花俏的說法,來描述他們在研究這個極為關鍵的實驗結果時,採用了一個極度嚴格的p值:「五個標準差」相當於把p值的閾值訂在大約○○○○○○三。既然科學家都已經在大型強子對撞機上面花了大把的資源,他們當然不願意像瞎子摸象一樣,受到數據中的雜訊誤導,因此他們設了一個非常高的標準,來檢驗證據是否合格。
 
不過希格斯玻色子的實驗畢竟是個例外,在其他的地方,五這個閾值因為合適、因為傳統以及因為科學家怠惰等種種原因,仍然是至今最被廣泛使用的標準。科學家會在他們的統計圖表上熱切地搜尋任何低於五的p值,以便可以宣稱自己的實驗結果具 有統計上的顯著性。大家都很輕易地忘了這數字的武斷性。

書 名|科學的假象:造假、偏見、疏忽與炒作,如何阻礙我們追尋事實
作 者|史都華
利奇(Stuart Ritchie
譯 者|梅苃芢
出版社|貓頭鷹
出版日期|202311
 
知識是如何產出,又是如何出錯的?
科學是我們認識世界的方法,但不論是國際社會或是台灣學界,不論是自然科學又或者社會科學,論文造假的新聞滿天飛。
倫敦大學國王學院講師史都華.利奇在本書中盤點現今科學的重大問題:造假、偏見、無知與過度期待。
作者指出,現今的學術資助語研究審查系統不但無法改善,反而讓學術環境更加惡化。這些問題影響了醫藥、物理、營養、遺傳學與經濟學界,也深深地撼動了世界對科學的信任。
作者在本書中為科學方法辯護,反對導致科學家違規的壓力和不當激勵因素。本書最後也提供了如何看穿可疑研究,以及對抗學術壓力與扭曲誘因的方法,並指出了可能使科學重新具有可信性的改革方向。

 

 

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 楊聰財精神社會 的頭像
    楊聰財精神社會

    聰財 楊的部落格

    楊聰財精神社會 發表在 痞客邦 留言(0) 人氣()