那些反直觉的统计学悖论上
2024/8/7 来源:本站原创 浏览次数:次那些反直觉的统计学悖论(上)作者:读裁者黄远辉,专注人文历史,质量标准,知识产权推荐书单:小岛宽之《统计学关我什么事》,纳西姆·尼古拉斯·塔勒布《随机漫步的傻瓜》,佩尔西·戴康尼斯、布赖恩·斯科姆斯《10堂极简概率课》,马恺文《大概率思维》,萨尔斯伯格《女士品茶》,喻颖正《人生算法》,汉斯·罗斯林、欧拉·罗斯林、安娜·罗斯林·罗朗德《事实》,朱迪亚·珀尔、达纳·麦肯《为什么:关于因果关系的新科学》。弗洛伦斯·南丁格尔(护理事业创始人和现代护理教育奠基人,英国护士和统计学家)说:“若想了解上帝在想什么,我们就必须学统计学,因为统计学在测量他的旨意。”可见,统计学对于这个世界的重要现实意义。著名的数据专家涂子沛先生(著有《大数据》《数据之巅》《数文明》《数商》等)认为,“大数据”之“大”,更多的意义在于:人类可以“分析和使用”的数据在大量增加,通过这些数据的交换、整合和分析,人类可以发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。涂子沛先生在《数据之巅》提到,对一个国家来说,统计什么、不统计什么,其实是个政治问题。……要统计一件东西,必须要有清晰的边界。……首先要清楚地定义什么是“1”。大数据、区块链、人工智能、云计算、量子计算……随着信息时代的加速发展,数据将像传统的“人、财、物”一样,成为重要的生产资料和创新资源,数据开放的程度,将决定一个国家发展的动力、一个社会创新的活力。一、贝叶斯统计贝叶斯是英国数学家,年出生于伦敦,做过神父,年成为英国皇家学会会员。贝叶斯在数学方面主要研究概率论,他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了卓越的贡献。我们先从著名的三门问题开始,三门问题源于美国一个现场游戏的电视节目。游戏是这样的,你前面有ABC三扇门,其中一扇门后面停着一辆轿车,你可以在这三扇门中任选一扇打开。如果打开门,后面有轿车,那轿车就归你所有。三个选一个,中奖概率是1/3,这个大家都可以理解。但是,这个游戏有一个环节:在你做出选择之后,主持人会从剩下的两扇门中选一扇打开,而且主持人打开的这扇门背后一定没有汽车。现在问你,是坚持开始的选择,还是换一扇门打开?我们直接说答案:一定要换。如果不换,你中奖的概率还是1/3;如果换了,中奖的概率就变成了2/3。为什么?这就涉及到贝叶斯统计公式。朱迪亚·珀尔、达纳·麦肯在《为什么:关于因果关系的新科学》一书中举过一个例子,我们拿来分析一下。一位40岁的女性去做乳腺癌的检查,检查结果是阳性。请问,这位女性真的得了乳腺癌的概率有多大?这位女性得了乳腺癌用BC(英文BreastCancer的缩写)表示,测试结果为阳性用T表示,乳腺癌导致阳性,现在要计算P(BC
T)的值。根据贝叶斯统计公式,我们还需要知道P(BC),P(T)和P(T
BC)的值。P(BC)是指同年龄段女性得乳腺癌的概率,医学统计表明是1/;P(T
BC)是指如果这位女性真得了乳腺癌,其检测结果为阳性的概率,这个主要由检测仪器的灵敏度决定,检测仪器准确性不是很高,大概是73%;P(T)是指随便找一个人,检测出阳性的可能性有多大。P(T)我们没有直接的数据,要分解为这个人得乳腺癌(BC)和没有得乳腺癌(非BC)两种情况,其中P(非BC)=1-P(BC)=/。得乳腺癌且检测结果为阳性的概率是73%,没有得乳腺癌的人也可能被误诊成阳性,已知这个误诊率是P(T
非BC)=12%。由此,我们得出:P(T)=P(T
BC)×P(BC)+P(T
非BC)×P(非BC)=12.1%以上数据代入贝叶斯统计公式,最终得出的结果是:P(BC
T)=P(T
BC)*P(BC)/P(T)=0.%。这说明,即使这位女性乳腺癌检测结果为阳性,她真的得了乳腺癌概率也不到1%。(图片来自《为什么:关于因果关系的新科学》)为了让大家更好理解这个结果,朱迪亚·珀尔、达纳·麦肯在《为什么:关于因果关系的新科学》一书还举了具体的例子:假设有名40岁的女性,其中只有4人真的得了乳腺癌,准备检测结果为阳性的有3人。但是,被检测仪器误诊为阳性的却有人。因此,在所有阳性诊断中,只有不到1%的人真有乳腺癌。需要注意的是,如果这位女性本身携带容易得乳腺癌的基因(比如好莱坞女星安吉丽娜·朱莉),那么P(BC)就不是1/,而是1/20。经计算,P(BC
T)=1/3,真的得乳腺癌的概率大幅度飙升,像朱莉这种情况,切除整个乳腺是比较稳妥的做法。贝叶斯统计的优势在于“在数据少的情况下也可以进行推测”,贝叶斯统计学的统计过程和人脑的决策过程是很相似的。年,珀尔本人把贝叶斯方法引入了人工智能领域,发明了“贝叶斯网络”,语音识别、垃圾邮件过滤、油井钻探、FDA批准新药、游戏公司给出的游戏水平打分……等等,都在使用贝叶斯统计方法,这是一种从结果倒推原因的算法,因此也可以称之为“逆概率”。从原因推结果是很容易的,但是从结果倒退原因,其实是很难的。如果大家对前面介绍的内容还不是很理解,可以参阅推荐书单中的《统计学关我什么事》一书,该书抛开让人难以理解的“贝叶斯公式”,用“面积图”做直观形象的解读。只要会做四则运算,就能快速入门,进而在一个个生活场景中,领会贝叶斯统计学的精髓。著名的儿童心理学家皮亚杰认为,小孩子的思维是非理性的、不合逻辑的。过去10年的理论和实证研究显示,小孩子在学习的过程中,会用到概率模型和贝叶斯推理。孩子们的贝叶斯推理,依赖于从周围获取的大量新信息,他们善于在观察中学习,如果我们能够给孩子们提供多样的信息,他们的样本库概率分布就越合理。所以,我们要多给孩子接触不同类型的信息,给他们提供开放性更强的玩具,比如积木、画纸;带他们多出去看看这个世界,让他们理解这个世界上存在着不同的人和不同的文化等。这样做,一方面是为了激发孩子们的探索欲望,另一方面也是帮助孩子们把更多的信息纳入到他们的知识库,帮助他们做出更准确的判断,不断提升解决问题的能力。记住,孩子是最容易察言观色的。二、幸存者偏差与伯克森悖论年,美国哥伦比亚大学统计学沃德教授应军方要求,利用其在统计方面的专业知识来提供关于飞机应该如何加强防护才能降低被炮火击落的几率的建议。沃德教授针对联军的轰炸机遭受攻击后的数据,进行研究后发现:机翼是最容易被击中的位置,引擎则是最少被击中的位置。沃德教授的结论是,“我们应该强化引擎的防护”,军方指挥官却认为“应该加强机翼的防护,因为这是最容易被击中的位置”。(图片来自百度搜索)沃德教授坚持认为,统计的样本,只涵盖平安返回的轰炸机;被多次击中机翼的轰炸机,似乎还是能够安全返航;并非是引擎不易被击中,而是因为引擎被击中的飞机早已无法返航。军方最终采用了教授的建议,后来证实该决策是正确的,看不见的弹痕才是最致命的,这就是幸存者偏差。“幸存者偏差”又叫“墓地理论”,我们通常只