為什么已發(fā)表的研究結果大多是錯的?
2017-03-30 by:CAE仿真在線 來源:互聯(lián)網
科學的可重復性危機
科學的可重復性危機已經成為舉世矚目的熱點議題。
自2005年斯坦福大學教授 John Ioannidis 在 PLOS Medicine 雜志上發(fā)表論文《為什么已發(fā)表的研究結果大多是錯的》(Why Most Published Findings Are False)以來,越來越多錯誤、誤導性或不可重復的科研成果紛紛被曝出。
兩大制藥公司各就具有“里程碑”意義的癌癥生物學論文進行取樣,分別只證實了6%、11%的研究結果。還有一項類似的驗證實驗,結果也不盡如人意:在重新驗證藥效時,70種用于治療老鼠肌萎縮(ALS)的潛在藥物靶點全部呈陰性。
在心理學領域,研究人員們試圖重復100項同行評議過的研究,僅有39項重復成功……盡管大多數(shù)重復實驗集中于生物醫(yī)學、健康以及心理學領域,但近期的一份由多領域1500位科學家進行的調查顯示,科研結果可重復性低的問題是廣泛存在的。
起于科學界流言的“可重復性危機”,已搖身一變?yōu)榕e世矚目的熱點議題。幾乎所諸多主流報紙、TED 主題演講、電視節(jié)目都曾熱議這一問題。
對于這一問題的解讀分為兩種:
-
科學就是這樣。科學本身具有不確定性,矛盾屢見不鮮。問題是我們沒有擺正自己對科學的期許。解決方法就是把還沒蓋棺定論的科研成果和已經確定的科研成果區(qū)分開來。
-
科學并非如此。矛盾的研究意味著有瑕疵的科學。相應的解決方法則是改變科學研究的操作方式。
可重復性的證據表明兩者皆對:科學固有不確定性,且其方法有待改進。
如果科學的方法是“科學”的,為什么相同的實驗會產生不同的結果呢?
為了便于理解,我們可以設想一個測試重力理論的簡單實驗。幾個世紀中,亞里士多德的理論盛行:物體下落的速度與其重量成比例。如果你同時扔一個石頭和羽毛,重點兒的石頭比輕點兒的羽毛下降的快。這證明了亞里士多德的理論嗎?
現(xiàn)在我們來想象一下,亞里士多德理論的質疑者伽利略同時扔下炮彈和步槍彈。這是對于一個相同理論的不同驗證方法。盡管各自的重量是大有不同的,兩個球仍同時落地。這個演示有效地證明了亞里士多德的理論是錯誤的(盡管沒有任何證據顯示伽利略本人做過)。
故事的意義不是亞里士多德徹底地錯了。他的觀察仍然是對的,一片羽毛總是比石頭下落的慢(在地球上)。僅僅是他的結論錯了。
這個思想實驗說明了科學家得出的結論如何超出了實際證據——這一過程就是所謂的歸納法。歸納是科學進程里的本質部分,沒有兩個實驗可以完全相同,這顯而易見的事實可以解釋為什么許多科學理論會失敗。
在17世紀,羅伯特·波義耳(Robert Boyle)的氣泵是研究真空屬性的一個關鍵設備。另一位科學家克里斯蒂安·惠更斯(Christiaan Huygens)打造了他的空氣泵(當時世界上僅有的幾個空氣泵之一),并發(fā)現(xiàn)一個現(xiàn)象:在空氣泵中,水懸浮于玻璃罐內。
他稱之為水的“異常懸浮”。但是波義耳無法在他的氣泵里重復效果,遂拒絕了惠更斯主張。爭議持續(xù)幾個月后,惠更斯前往英格蘭用波義耳的氣泵重復出了水懸浮的效果,于是水的異常懸浮現(xiàn)象被接受。它為何出現(xiàn)、意味著什么仍然是謎,但是實驗重復成功了。
最近,加州大學伯克利分校的乳腺癌研究員 Mina Bissell 和哈佛大學的合作者 Kornelia Polyak 發(fā)生了類似的爭議。這兩個實驗室利用熒光激活細胞分選(FACS)人類乳腺癌細胞,發(fā)現(xiàn)無法重復彼此的實驗。
最終他們通過共同進行實驗解決了這一問題。他們發(fā)現(xiàn),結果取決于振蕩細胞的方式——“大力攪拌”或者“較輕微地搖晃”。排除方法上的差異后,兩個實驗室獲得了一致的流式細胞儀數(shù)據,從而得以繼續(xù)深入研究。
亞里士多德與伽利略、波義耳與惠更斯以及 Bissell 與 Polyak 的爭議,都源于實驗中的不一致之處。如果所有實驗條件都相同,實驗的現(xiàn)象就會很穩(wěn)定。實驗結果不一樣,就說明有些條件是有差別的,問題就在于,你能不能發(fā)現(xiàn)差別在哪里。
然而也并非所有的科學研究都會如此。
1978年,陶氏化學研究者 Richard Kociba 進行了關于癌癥和二噁英關系的研究。在這項研究中,科學家對老鼠喂食二噁英兩年,隨后對其肺部切片,以檢測腫瘤的生長。
在1978年研究中,服用化學物質的50只老鼠中有20只長了肺部腫瘤。1980年,環(huán)境保護局重新分析了相同的肺部切片。這一次,他們發(fā)現(xiàn)有29只老鼠患了腫瘤。
隨后在1990年,造紙行業(yè)委托另一個分析報告發(fā)現(xiàn)只有9只老鼠患腫瘤。3個不同的結果均來自相同的切片。(1990年的分析由七位病理學家組成的團隊完成,當團隊無法對腫瘤判斷達成一致時,采取少數(shù)服從多數(shù)原則。)
Kociba 的切片告訴我們:變化、不確定性和判斷可以使給定的一個觀察實驗指向不同的結果。
同樣的事情也發(fā)生在統(tǒng)計分析中。
2015年,Brian Nosek 和開放科學中心做了一項研究,研究問題是足球裁判給深膚色球員的紅牌是否比淺膚色的球員多。Nosek 和他的同事們將相同的數(shù)據分別給了29支分析師團隊,咨詢他們的意見(分析師們都知道他們的結果會與他人的對比)。
就像 Kociba 的肝臟切片一樣,完全相同的足球數(shù)據產生了不同的結果。有幾個團隊報道淺膚色和深膚色之間沒有差別,也有人指出深膚色球員被判紅牌的幾率比淺膚色球員高近3倍,而其他人則認為這個增長值約有20%~40%。
這些研究中的科學問題,本質上與亞里士多德的重力研究、波義的真空問題、Bissell 的熒光激活細胞分選完全不一樣。
當談論到二噁英、肝癌或者膚色深淺和紅牌數(shù)量時,關鍵的可變因素難以測量,結果難以預測。一些未注射二噁英的老鼠也會長腫瘤;深膚色并不代表一定得到紅牌,淺膚色也不會總得到赦免。
最終人們證明二噁英與癌癥有關;在足球裁判案例中,膚色確實影響了拿紅牌的概率。對這兩個案例而言,怎樣產生影響、影響到什么程度仍然很難確定,但不一致并不總是意味著研究毫無意義。
結果不一致,不一定意味著哪里出錯了,或者哪里需要調整。相反,實驗常會受到研究體系或測量方法的干擾。當重復含有大量干擾的研究時,說它們“不可重復”可能不太恰當。如果你匯總多個相同的研究(這一過程稱為薈萃分析),最終結論將趨于事實的真相。
在某些情況下,不可重復性確實反映了不確定性。但另一些情況下,它也意味著疏忽、欺騙和不當行為。
頂級醫(yī)學雜志《柳葉刀》的主編 Richard Horton,在2015年寫道:“大部分的科學文獻,也許一半,都可能是不真實的。由于研究樣本較小、效果甚微、無效的探索性分析、明顯的利益沖突,再加上癡迷追求若有若無的‘重大發(fā)現(xiàn)’,科學已轉向黑暗?!?span>而值得注意的是,Horton 的聲明雖然僅指向醫(yī)學文獻,但也對科學真理的晴雨表——同行評議提出了質疑。
同行評議期刊已經成為科學可信度的守門人。但隨著從科學期刊撤稿的數(shù)量增多,這頭銜也搖搖欲墜。自2001年到2009年,撤稿數(shù)增加了十倍,2012年的一項分析發(fā)現(xiàn):生物醫(yī)學數(shù)據庫(PubMed)上三分之二的撤稿緣于學術不端。
這些問題在醫(yī)學學科尤其嚴重。例如,人們發(fā)現(xiàn)一乳腺癌細胞系實際上是皮膚癌細胞系,導致超過1000個研究被判無效。另一起案例中,專業(yè)數(shù)據統(tǒng)計包的軟件缺陷可能導致數(shù)以萬計的功能磁共振成像研究失效。
當安進生物科技公司(Amgen)證實了53個“里程碑”癌癥實驗中僅有6個能夠重復,第一作者格倫貝格利指出,“不可重復的研究有一些共性,包括關鍵試劑的不當使用、缺乏陰性和陽性對照、不當統(tǒng)計和未重復試驗。如果研究人員重復了實驗,數(shù)據往往已經過重重‘選擇’,維護他們想要的結果?!?strong>在這種情況下,首要問題不是重復性,而是實驗設計是否得當。
有些研究對實驗方法和數(shù)據分析的介紹不全面,這是個同行評議完全可以修正的缺陷。有些科學家沒有透露如何分析數(shù)據,從而說明他們的結果統(tǒng)計顯著——即使它們并不顯著。
例如,一個社會心理學家團隊曾證明一個離譜的假設:聽兒歌可以使人減齡。他們公開的研究技術(俗稱“p-hacking”)“證明”,聽兒歌后人確實變年輕了。不僅如此,研究者還用這些技術處理了電腦隨機生成的數(shù)據,發(fā)現(xiàn)有高達61%的概率得到標準的統(tǒng)計顯著結果(p<0.05,統(tǒng)計學上的傾向)。
故意的 p-hacking 行為構成欺詐,但在研究過程中,當科學家必須做出會影響科研結果的決定時,不當行為與無心之差的界限就變得非常模糊。
在足球裁判的研究中,進行足球數(shù)據分析的29組團隊,20組發(fā)現(xiàn)結果是“統(tǒng)計顯著”而九組沒有?,F(xiàn)在想象一下,一個研究人員做了所有29組分析,只能選擇一個報告。如果你想發(fā)表成果,你會選擇哪一個?這樣的選擇,也許是已發(fā)表論點不可重復或被證偽的最大原因。
重復性危機和可能的解決方式起源于上世紀七十年代。
1976年,海盜1號宇宙飛船在火星上干尼亞地區(qū)(Cydonia region)拍攝的照片看起來就像一個人的臉。數(shù)天后,NASA 發(fā)布了這張“臉”的照片,立刻引起了媒體界的轟動,當時甚至有人出書聲稱,火星上有著類人生物的文明,還建了金字塔。
/海盜1號拍攝的火星上的“人臉”/
當然,NASA 的科學家視其作為一種光學錯覺不予考慮。隨后從不同角度拍攝的高分辨率照片上看,“人臉”看上去完全不像一張臉。
如今,一些科學家仍在欣賞自己數(shù)據里的火星臉圖。在預算緊張、就業(yè)市場競爭激烈的情況下,他們選擇將存疑的結果寫進簡歷,但也僅此而已。當有人用改進的技術或者不同的角度回顧,正如之后干尼亞的圖像,大多數(shù)原有的結論已站不住腳。
但不論結果如何,重復的驗證都會給我們更多的信心,相信科學終將揭示真相——無論它真的是一張臉,還是只是一塊石頭。
編后語:
有些情況下,無論結果最終被證明是否正確,求知的過程從某種程度上來說也是一種進步!
來源:PBS
相關標簽搜索:為什么已發(fā)表的研究結果大多是錯的? Ansys有限元培訓 Ansys workbench培訓 ansys視頻教程 ansys workbench教程 ansys APDL經典教程 ansys資料下載 ansys技術咨詢 ansys基礎知識 ansys代做 Fluent、CFX流體分析 HFSS電磁分析 Abaqus培訓