20101001

嚇人的數字

假如某種癌症有一個準確度高達百分之九十九的檢測方法,你接受了檢測,結果呈陽性反應,那麼你患上這種癌症的機會率是多少?(所謂準確度高達百分之九十九,是指百分之九十九的檢測結果會是正確的,即是一百個患上此病的人中,有九十九個檢測結果會呈陽性反應,一個呈陰性反應;一百個沒有患上此病的人中,有九十九個會呈陰性反應,一個呈陽性反應。)

很多人會認為這問題的答案清楚不過:既然檢測方法的準確度是百分之九十九,你患上此病的機會率自然就是百分之九十九了。正確答案是「不知道」。如果你認為「百分之九十九」才對,你大概是混淆了以下兩個問題:

1)患上此病的人中,有多少會呈陽性反應?
2)呈陽性反應的人中,有多少是患上此病?

1)的答案是「百分之九十九」,那是指檢測的準確度;你要回答的問題其實是(2),另有一個計算方法。

要知道你患上這種癌症的機會率,除了看檢測方法的準確度,還要有另一項資料:你所屬的那類人中,患上此病的機會率是多少?假設中國人之中有百分之一患上此病,而你是中國人(並且不屬於任何與患上此病的機會率有關的群組),那麼,即使檢測方法的準確度是百分之九十九,即使你的檢測結果呈陽性反應,你患上此病的機會率亦只是百分之五十而已(假設的百分之一中國人患病率已是很高,否則你患病機會更低)。

數,是這樣計的:假設有一萬個中國人接受這檢測,你是其中一個。中國人之中有百分之一患上此病,所以,這一萬人中,有一百人患上此病,其餘九千九百人則沒有(實際情況當然不會這麼準確)。檢測方法的準確度是百分之九十九,因此,那一百個患上此病的人中,有九十九人呈陽性反應,一人呈陰性反應;那九千九百個沒有患上此病的人中,有九千八百零一人呈陰性反應,九十九人呈陽性反應。這一萬人中呈陽性反應的,共有一百九十八人,但只有一半患上那癌症。你呈現的陽性反應,只顯示你有百分之五十機會患病。

假如你接受愛滋病檢測呈陽性反應,鎮靜點,情況可能沒有你想像的糟。

25 則留言:

  1. 第一次留言
    請教一下

    是否一定以種族來分類?
    可以用生活習慣 (如:有冇吸煙等)來分類嗎?
    謝謝

    回覆刪除
  2. 那麼,如果我有癌,那麼,如果我有陽性反應;那麼檢測有99%準。

    這夠可佈了。

    回覆刪除
  3. 嘩!Professor Wong,你今次呢個邏輯題目真係好複雜…不過我自問數學邏輯好差,所以你計哥堆數我唔係明晒;但成個邏輯推論同理論部份,我係完全get到的…

    回覆刪除
  4. sun,

    //是否一定以種族來分類?可以用生活習慣 (如:有冇吸煙等)來分類嗎?//

    - 當然可以,只要該類會有個得病的機會率便成。

    回覆刪除
  5. Yan,

    //那麼,如果我有癌,那麼,如果我有陽性反應;那麼檢測有99%準。//

    - 不太明白你的意思。

    回覆刪除
  6. Anthony,

    //但成個邏輯推論同理論部份,我係完全get到的…//

    - 這才是重要部份。

    回覆刪除
  7. (王仔其實係唔係想講Bayes Theorem?)

    咁啱前晚去個朋友度坐。晚飯後,佢同我講早排信咗耶穌,夏天時仲受埋浸。我問佢好地地做乜撹到咁田地,佢話生活上受咗好大刺激。再問,原來佢之前檢查愛滋時呈陽性。復檢結果出來前那段日子令佢痛不欲生,「終日有如行屍走肉」,想起以前聽過嘅福音,就大徹大悟信鬼咗……

    如果當時醒起這些內容,我就會攞嚟窒下佢幾句。

    回覆刪除
  8. CYC,

    我講的是base rate fallacy(又叫base rate neglect),是一個很多人犯的fallacy。

    上帝何苦用此極端手段去令你朋友信耶穌呢!

    回覆刪除
  9. >上帝何苦用此極端手段去令你朋友信耶穌呢!

    可能我沒有這樣經驗/不是當事人,我不覺得這很極端。

    回覆刪除
  10. 分享一點閱讀心得,不知 Wong Sir 有沒有 come across 過這本書?

    Gerd Gigerenzer. Calculated Risks: How to Know When Numbers Deceive You. Simon & Schuster, 2002.

    http://www.amazon.com/Calculated-Risks-Know-Numbers-Deceive/dp/0743205561

    Gigerenzer 這部書是寫給 layman 看的,連我這個數學白痴都看得懂,化深為淺但又能將問題的複雜性原汁原味保留下來,看後才發覺,學問原來是可以這樣做的 :-0

    回覆刪除
  11. CW,

    不知有此書,謝介紹,會找來看看。

    回覆刪除
  12. 正在看的書有提到這個例子, 書名叫the social atoms

    回覆刪除
  13. 也不知有此書,謝介紹。

    回覆刪除
  14. /我講的是base rate fallacy(又叫base rate neglect),是一個很多人犯的fallacy。/

    Gigerenzer 認為 base rate fallacy 這類問題不全是詮釋者數學水平的問題(就算專家、醫生自己也經常搞錯),也是如何 present 統計學(特別是風險數據)的問題。換言之, base rate fallacy 其實不完全是數學頭腦的事,也關乎我們陳述有關數據的方法,我覺得這種看法非常有啟發性。這裡是 Gigerenzer 的另一篇相關文章:

    http://www.psychologicalscience.org/journals/pspi/pspi_8_2_article.pdf

    Gigerenzer 提出了一些簡單步驟讓普通人可以看穿這些數字背後的意義,當發覺原來不一定要深入瞭解什麼 Bayer's theorem (當然這其實很重要)也可以拆解這些 fallacies ,真有點鬆毛鬆翼的感覺....

    回覆刪除
  15. CW,

    Gigerenzer的見解很有趣,我已訂購了他兩本書準備看(包括你推薦的那本)。

    回覆刪除
  16. Wong,

    //- 不太明白你的意思。

    如果我有癌,那麼,用你那方法,驗100次有99會準,有一次唔準。

    現在我有陽性反應。

    夠可怕了。

    ------
    另,如果世界上除了我之外所有人死哂,而我有陽性反應,咁咪我有99%機會有癌?

    ------
    咁係咪到時(除我所有人死哂時)我驗100次,就可以100%肯定自己有冇癌?[當然不是,但為什麼?]為什麼你可以肯定驗10000人會有100人會驗錯?

    另,究竟機率是一個怎樣的概念?有時愈諗愈唔明。

    回覆刪除
  17. Wong,

    我上面所以問你是不是想談Bayes' Theorem,是因為你在文中似乎是在談到兩個不同的conditional probability關係。而避免base rate fallacy,Bayes' Theorem又是一法寶。

    Yan,

    我都覺得第一段括號的說明有些問題。據我的理解,比如講某個醫療檢查方法的精確性,不是在講它實際上的frequency,而是講一個根據這個方法/儀器的物理機制而得出來的評估值。

    回覆刪除
  18. CW,

    那篇Gigerenzer文章很有閱讀的價值,謝謝!

    回覆刪除
  19. Yan,

    //如果我有癌,那麼,用你那方法,驗100次有99會準,有一次唔準。現在我有陽性反應。夠可怕了。//

    - 你仍然是犯了base rate fallacy。假設你先天有這種癌症的免疫力,所以你得此病的機會率是0%,可是,因為檢測方法不是100%準確,你仍有機會有陽性反應。現在你有陽性反應,你說的「如果我有癌,那麼,用你那方法,驗100次有99會準,有一次唔準。現在我有陽性反應。」仍然為真,但你卻不能推論出你得病的機會率不是0%。

    //如果世界上除了我之外所有人死哂,而我有陽性反應,咁咪我有99%機會有癌?//

    - 當然不是。Cf.假如「每個人都有1%機會死於心臟病」為真,你是否會據此而推論「如果世界上除了我之外所有人死哂,咁咪我有99%機會死於心臟病」?

    //咁係咪到時(除我所有人死哂時)我驗100次,就可以100%肯定自己有冇癌?[當然不是,但為什麼?]為什麼你可以肯定驗10000人會有100人會驗錯?//

    - 你驗一百次當然可以肯定自己是否有癌(無論是否所有人死哂)。

    //究竟機率是一個怎樣的概念?有時愈諗愈唔明。//

    - 是呀,所以便要多想多看書。

    回覆刪除
  20. CYC,

    //我上面所以問你是不是想談Bayes' Theorem,是因為你在文中似乎是在談到兩個不同的conditional probability關係。而避免base rate fallacy,Bayes' Theorem又是一法寶。//

    - Base rate fallacy當然和Bayes' theorem有關,但我只是想談那個fallacy。

    //比如講某個醫療檢查方法的精確性,不是在講它實際上的frequency,而是講一個根據這個方法/儀器的物理機制而得出來的評估值。//

    - 我不是講實際上的frequency,如果「實際上」是指真正檢測時被記錄的frequency。留意「會是正確的」那個「會」字。

    回覆刪除
  21. Yan,

    //如果我有癌,那麼,用你那方法,驗100次有99會準,有一次唔準。//
    //究竟機率是一個怎樣的概念?有時愈諗愈唔明。//

    如果你真的關心這些生死數字問題,建議你看一下這本書:

    http://www.ucpress.edu/book.php?isbn=9780520252226

    回覆刪除
  22. Yan,

    //如果我有癌,那麼,用你那方法,驗100次有99會準,有一次唔準。現在我有陽性反應。夠可怕了。//

    - 剛想到另一個解釋方法。你這一次的陽性反應,是以下兩個情況的其中一個:
    (1) 你有癌病,這一次的陽性反應是那99次準確檢視的其中一次。
    (2) 你沒有癌病,這一次的陽性反應正是那一次的不準確檢視。

    你更有機會是(1)還是更有機會是(2),便要看你屬於的群組的患癌機會的高低。如果你屬於有免疫能力那一群組(我上一留言的例子),你的情況便一定是(2)。

    回覆刪除
  23. CW, CYC, Wong,

    對此,我真的應該看多些書。謝。

    回覆刪除
  24. To Yan,

    你可以看看統計學內 Type I error 和 Type II error 的定義. 應該可以明白多一些

    回覆刪除
  25. Oh,

    最近看應用到Bayes' theorem的論文,王仔條數係o岩o既:

    P(C|T)
    = P(T|C)P(C)/P(T)
    = 99% x 1% / 1% x 99% + 99% * 1%
    = 0.99 x 0.01 / 0.01 x 0.99 + 0.99 * 0.01
    = 0.5

    回覆刪除