从数理统计角度看杨继绳饿死人公式的荒谬性
众所周知,杨继绳在《墓碑》中提出了一个饿死人公式计算,用以计算全国及各地区的所谓“饿死人人数”。孙经先先生用不同时期、不同地区的人口实际数据对这个公式进行验证。荒谬绝伦的验证结果有力地证明了杨继绳公式是完全错误的。
本文用数理统计理论对杨继绳公式进行了分析研究,指出了公式本身存在的重大错误和局限性。
一、杨继绳公式本身就蕴藏着一个致命的矛盾,在逻辑上不能自洽。
杨继绳的饿死人公式是这样的:
某年非正常(饿死)人数=该年年均人口数×(该年死亡率-正常死亡率)
上述公式可简化为饿死死亡率的形式
某年饿死死亡率=该年死亡率-正常死亡率
这里“正常死亡率”的准确含义应为:“没有饿死人的正常年份”的死亡率,这应该不会有什么异议的。
但是即便是“没有饿死人的正常年份”,他们的死亡率也是不一样的,以哪个为准呢?
杨继绳的解决办法是,以“没有饿死人的正常年份”死亡率的平均数作为正常死亡率。这样,杨继绳饿死人公式就变成:
某年饿死死亡率=该年死亡率-“没有饿死人的正常年份”死亡率的平均数
现在,我们来考察一下“平均数”与正常年份死亡率的关系。如果按大小排列,“平均数”应该处于全部正常年份死亡率的中间位置,也就是说,大致有一半正常年份死亡率比平均数大。我们从这些年份中任意选一个正常年份,并用杨继绳饿死人公式计算一下该年份的饿死死亡率,结果:
该年饿死死亡率=该年死亡率-“没有饿死人的正常年份”死亡率的平均数>0
该年饿死死亡率大于0,意味着该年份存在饿死人现象!
问题来了,本来一个没有饿死人的正常年份,用杨继绳饿死人公式一算,反倒变成存在饿死人的非正常年份了。
由于上面的论证并没有依赖任何一个具体数据,所以,不管正常年份如何选取,死亡率如何不同,都不会影响这个结论。所以这个矛盾是杨继绳饿死人公式本身固有的,不可能得到解决。这个矛盾的存在就宣判了杨继绳饿死人公式的死刑。
下表是根据杨继绳计算时提供的数据计算的结果
| 正常年份
|
1955
|
1956
|
1957
|
1963
|
1965
|
1966
|
平均死亡率
|
| 死亡率
|
12.28
|
11.4
|
10.8
|
10.04
|
9.5
|
8.83
|
10.47
|
| 平均死亡率
|
10.47
|
10.47
|
10.47
|
|
|
|
|
| 饿死死亡率
|
1.81
|
0.93
|
0.33
|
|
|
|
|
从上表可以看出,原来杨继绳选定的正常年份1955、1956、1957这三年,经过杨继绳公式一算,都变成了存在饿死人的非正常年份了。
再随便取1970年到1975年间的死亡率进行计算
| 正常年份
|
1970
|
1971
|
1972
|
1973
|
1974
|
1975
|
平均死亡率
|
| 死亡率
|
7.6
|
7.32
|
7.61
|
7.04
|
7.34
|
7.32
|
7.37
|
| 平均死亡率
|
7.37
|
|
7.37
|
|
|
|
|
| 饿死死亡率
|
0.23
|
|
0.24
|
|
|
|
|
结果仍然有1970和1972年变成了存在饿死人的非正常年份。
二、 “正常死亡率”应是一个波动范围而不仅仅是一个数值
客观地说,杨继绳公式; 某年饿死死亡率=该年死亡率-正常死亡率,在一般人看来是很有道理的,这也是它能迷惑一些人的原因。要真正找到杨继绳公式的致命错误,要正确分析死亡率问题,数理统计理论是必不可少的工具,只用“简单的四则运算”是无济于事的。
用数理统计的观点看,正常死亡率是在非常众多的不同因素共同作用下产生的一个随机变量,正常死亡率作为随机变量在不同的条件下由于偶然因素影响,其可能取各种不同的值,具有不确定性和随机性,但这些取值落在某个范围的概率是一定的,它的分布遵从正态分布。(在后面第四节 ,以1953年到1964年数据为例,用柯尔莫哥洛夫检验法进行了正态拟合检验,证明了这些数据确实符合正态分布)
正态分布是一种概率分布。正态分布具有两个参数μ和σ^2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ^2是此随机变量的方差,所以正态分布记作N(μ,σ^2)。服从正态分布的随机变量的概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。
理想的正态分布如下图:(来源于网上下载)图中,横坐标为死亡率,纵坐标为概率密度,蓝色的面积表示概率。
基于上图所示与说明,可知死亡率作为一种服从正态分布的随机变量,其数值在
μ-3σ到μ+3σ范围内随机发生,其概率如上图。这就证明了所谓“正常死亡率”,是一个在一定范围内随机波动的随机变量而不仅仅是一个固定的数值。
明白了上述道理,就不难弄清杨继绳公式的错误所在了。正因为正常死亡率是一个在一定范围内围绕平均数随机波动的随机变量,所以,即使是“正常的”死亡率,其数值也不会恰恰等于平均数,它与平均数的差是随机波动所造成的,是完全“正常”的而不是异常的。按杨继绳公式计算出来的“死亡率”数值既可能是“正常”波动和“异常”波动的组合,也可能是完全“正常”的随机波动。杨继绳公式不区分这个“死亡率”数值是正常的随机波动所致还是异常波动所致,必然会产生那些荒谬的结果。
三、认定“异常数据”不能凭主观判断,而要依靠“剔除异常数据”的数理统计法则
那么,如何判别哪个数据是正常的,哪个数据是异常的呢?从杨继绳的文章可以看出,他在选取“正常死亡率”时,并没有什么确切的依据。例如,他仅因为1964年死亡率有些高,就轻易舍弃了这个数据。更严重的是不加论证地把1958年到1962年的5个年份全部定为非正常年份。这就违背了数理统计的“剔除异常数据”法则。
数理统计理论提供了很多“剔除异常数据”法则,其中最简单的就是3σ法则。只要数据位置超出3σ以外,就可以认定为异常数据而剔除。否则就不能轻易舍弃,而要用更精确的法则进一步研判。
我们以两次人口普查期间(1953~1964)死亡率为例,以数理统计的方法找到其中的异常数据。
(1953~1964)死亡率
| 年度
|
死亡率
|
年度
|
死亡率
|
| 1953
|
14
|
1959
|
14.59
|
| 1954
|
13.18
|
1960
|
25.43
|
| 1955
|
12.28
|
1961
|
14.24
|
| 1956
|
11.4
|
1962
|
10.02
|
| 1957
|
10.8
|
1963
|
10.04
|
| 1958
|
11.98
|
1964
|
11.5
|
可以算出:μ=13.29 σ=3.95 则μ+3σ=13.29+3×3.95=25.14
1960年死亡率25.43>25.14 故1960年死亡率25.14为异常数据。
剔除1960年数值以后,重新计算:μ=12.18 σ=1.56 则μ+3σ=12.18+3×1.56=16.85
数据中偏离最大的是1959年的14,59<16.85,不能确认是异常数据。转入下一步进行进一步检验。先用格拉布斯法则。
格拉布斯统计量T=
=1.54 设置信度1-α=0.95 自由度n=11 查格拉布斯系数表,
得G(0.05,11)=2.23 由于T=1.54<2.23= G(0.05,11),故仍不能确认14.59是异常数据
再用t-检验法则,去掉14.59后重新计算参数。μ=11.94 σ=1.42
统计量T=
=1.96 设置信度1-α=0.95 自由度v=11-2=9 查t分布表
t(0.05,9)=2.26 由于T=1.96<t(0.05,9)=2.26,故14.59不是异常数据。
结果:异常数据只有一个,即1960年的死亡率25.43,其余11个数据均为正常数据。
四、死亡率分布为正态分布的拟合检验
虽然我们根据影响人口死亡率的众多因素分析后认为死亡率分布属于正态分布,但毕竟是主观判断,缺乏更严谨的证明。现在我们就用用数理统计的柯尔莫哥洛夫检验法对1953-1964年份(缺1960年)的死亡率数据进行正态拟合检验。
柯尔莫哥洛夫正态拟合检验表
| n
|
x
|
经验分布X
|
正态分布Y
|
Xk-Yk
|
X(k+1)-Yk
|
| 1
|
10.02
|
|
0.0838
|
-0.0838
|
0.007109091
|
| 2
|
10.04
|
0.090909
|
0.0853
|
0.005609
|
0.096518182
|
| 3
|
10.8
|
0.181818
|
0.1894
|
-0.00758
|
0.083327273
|
| 4
|
11.4
|
0.272727
|
0.3085
|
-0.03577
|
0.055136364
|
| 5
|
11.5
|
0.363636
|
0.33
|
0.033636
|
0.124545455
|
| 6
|
11.98
|
0.454545
|
0.4483
|
0.006245
|
0.097154545
|
| 7
|
12.28
|
0.545455
|
0.5239
|
0.021555
|
0.112463636
|
| 8
|
13.18
|
0.636364
|
0.7389
|
-0.10254
|
-0.01162727
|
| 9
|
14
|
0.727273
|
0.879
|
-0.15173
|
-0.06081818
|
| 10
|
14.24
|
0.818182
|
0.9066
|
-0.08842
|
0.002490909
|
| 11
|
14.59
|
0.909091
|
0.9382
|
-0.02911
|
-0.9382
|
从表中查到经验分布与正态分布之差绝对值的最大数值为0.124545455≈0.13,对于n=11 1-α=0.95 查柯尔莫哥洛夫分布函数表,得0.42.
由于0.13<0.42 故上述死亡率数据符合正态分布。
五、异常死亡率也是一个波动范围而不是一个固定的数
由于正常死亡率是一个在一定范围波动的随机变量,根据数理统计理论,某年实际死亡率减正常死亡率也应是一个在一定范围波动的随机变量。
1960年异常死亡率=25.43—正常死亡率(作为随机变量)
1960年异常死亡率概率分布计算结果如下表
| 异常死亡率
|
概率
|
说明
|
| 16.33
|
0.0228
|
异常死亡率大于16.33的概率
|
| 15.41
|
0.0838
|
异常死亡率大于15.41的概率
|
| 15.39
|
0.0853
|
异常死亡率大于15.39的概率
|
| 14.78
|
0.1645
|
异常死亡率大于14.78的概率
|
| 14.63
|
0.1894
|
异常死亡率大于14.63的概率
|
| 14.03
|
0.3085
|
异常死亡率大于14.03的概率
|
| 13.93
|
0.33
|
异常死亡率大于13.93的概率
|
| 13.45
|
0.4483
|
异常死亡率大于13.45的概率
|
| 13.25
|
0.5
|
异常死亡率大于13.25的概率
|
| 13.15
|
0.5239
|
异常死亡率大于13.15的概率
|
| 12.25
|
0.7389
|
异常死亡率大于12.25的概率
|
| 11.43
|
0.879
|
异常死亡率大于11.43的概率
|
| 11.19
|
0.9066
|
异常死亡率大于11.19的概率
|
| 10.84
|
0.9382
|
异常死亡率大于10.84的概率
|
| 10.5
|
0.95
|
异常死亡率大于10.5的概率
|
| 10.13
|
0.9772
|
异常死亡率大于10.13的概率
|
根据上表的数据,可以很容易地描绘出1960年异常死亡率的波动情况,即1960年异常死亡率概率分布图。
图中横坐标表示异常死亡率,纵坐标表示大于某死亡率事件发生的概率
如,对于死亡率14.03,查得对应概率为0.3085,即60年死亡率大于14.03的概率为0.3085。
再如,按杨继绳自己的计算,1960年饿死死亡率为14.78。查的对应概率为0.1645,即60年异常死亡率大于14.78的概率为0.1645。
六、死亡率估算的可靠性和精确度问题
依据人口统计数据进行死亡率估算,必然有一个可靠性和精确度问题,而杨继绳完全忽略了这个问题。从数理统计角度看,一个计算结果,如果可靠性非常低,或者结果可能取值的范围过大,都是没有意义的。
在数理统计中,可靠性又叫显著性水平或置信度,通常设为0.95。也就是说,对结果的正确性有95%的把握。
现在我们来看看,杨继绳自己计算的结果,可靠性有多大。上面已经说过,按杨继绳自己的计算,1960年异常死亡率大于14.78的概率为0.1645。对结果的正确性只有16%的把握,连两成把握都没有,远远小于95%的通常要求。也可以说:“1960年异常死亡率大于14.78”是一个小概率事件。所以,杨继绳的结论是非常不靠谱的。
那么,在置信度为95%的前提下,异常死亡率概率又会如何变化呢?从图中可以查到:与概率95%对应的异常死亡率是10.5。即1960年死亡率大于10.5的概率高达95%。也可以说:“1960年异常死亡率大于10.5”是一个大概率事件。
现在,虽然可靠性高了,但精确度却太低了。凡是大于死亡率大于10.5的都有可能出现,这么大的范围也使计算结果失去了意义。
七、杨继绳饿死人公式是一个错误的公式
综上所述,杨继绳死亡率公式存在下列错误:
1 把作为随机变量的正常死亡率错误地当做一个固定的常量。
2 没有按数理统计的原则判断异常数据。
3把作为随机变量的异常死亡率错误地当做一个固定的常量。
4 杨继绳公式的可靠性和精确度问题不能同时符合要求,无法兼容。
因此,杨继绳在《墓碑》中以此公式计算的全国死亡人数和部分地区死亡人数都是不符合事实的。
「 支持!」
您的打赏将用于网站日常运行与维护。
帮助我们办好网站,宣传红色文化!
欢迎扫描下方二维码,订阅网刊微信公众号
