我们先来看一个案例:
场景:公司要举办射击比赛,我们部门有三位优秀的射击手,分别是小王、小张和小李,主管要求每人先试射5次,成绩如下:
小王:3 5 6 7 9
小张:4 5 6 7 8
小李:3 6 6 6 9
问:如果只选一位去参加,应该选谁去?
为了确定哪位射击手应该去参加比赛,我们可以考虑他们的成绩表现。通常情况下我们会计算每位射击手的平均成绩,并选择平均成绩最高的射击手。
让我们计算每位射击手的平均成绩:
小王的平均成绩:(3 + 5 + 6 + 7 + 9) / 5 = 30 / 5 = 6
小张的平均成绩:(4 + 5 + 6 + 7 + 8) / 5 = 30 / 5 = 6
小李的平均成绩:(3 + 6 + 6 + 6 + 9) / 5 = 30 / 5 = 6
问题来了,平均成绩一样?看数据我们感觉这仨人之间稳定性是有差异的,这该怎么选?
我们先用绝对值来计算一下每个人的平均偏差,看看谁更稳定:
小王:平均偏差(绝对值) = [(|3-6|) + (|5-6|) + (|6-6|) + (|7-6|) + (|9-6|)] / 5 = (3 + 1 + 0 + 1 + 3) / 5 = 8 / 5 = 1.6
小张:平均偏差(绝对值) = [(|4-6|) + (|5-6|) + (|6-6|) + (|7-6|) + (|8-6|)] / 5 = (2 + 1 + 0 + 1 + 2) / 5 = 6 / 5 = 1.2
小李:平均偏差(绝对值) = [(|3-6|) + (|6-6|) + (|6-6|) + (|6-6|) + (|9-6|)] / 5 = (3 + 0 + 0 + 0 + 3) / 5 = 6 / 5 = 1.2
哟,不错哦,看起来小王的稳定性相较小张小李要差一点?小张和小李的平均偏差相等,那应该随便选哪位都可以,等等,要不咱们再来看看偏差平方?
小王:平均偏差(平方) = [(3-6)^2 + (5-6)^2 + (6-6)^2 + (7-6)^2 + (9-6)^2] / 5 = (9 + 1 + 0 + 1 + 9) / 5 = 20 / 5 = 4
小张:平均偏差(平方) = [(4-6)^2 + (5-6)^2 + (6-6)^2 + (7-6)^2 + (8-6)^2] / 5 = (4 + 1 + 0 + 1 + 4) / 5 = 10 / 5 = 2
小李:平均偏差(平方) = [(3-6)^2 + (6-6)^2 + (6-6)^2 + (6-6)^2 + (9-6)^2] / 5 = (9 + 0 + 0 + 0 + 9) / 5 = 18 / 5 = 3.6
结果来了,这样来看还是选小张比较合适,均值相等,波动相对其他两人比较小。
结合以上案例,统计学家使用平方而非绝对值的原因涉及到数学性质和实际统计分析的需要。这与标准差的定义和统计推断方法有关。一些原因如下:
1、处理正负差异:平方操作将差异的正负号都变为正号,有助于消除差异值的方向信息。如果使用绝对值,正负差异将被视为相同,但实际上它们可能在分析中具有不同的含义。例如,在金融领域,正数的差异通常表示盈利,而负数的差异表示亏损,这种信息丢失可能会影响分析的准确性。
2、方差的性质: 方差(标准差的平方)是用来度量数据点与均值之间的平均差异的统计指标。方差具有数学性质,它可以用于进行统计推断,如方差分析和回归分析等。使用平方的好处之一是它使方差成为可微分的,这对于许多统计方法和计算是重要的。
3、强调大差异: 平方操作可以强调较大的差异,这对于分析和决策是有意义的。如果使用绝对值,小差异和大差异被一样对待,而平方操作使得大差异对标准差的贡献更大,从而更好地反映了数据的变异性。
4、数学便捷性:平方的使用使数学运算更加便捷。标准差的计算通常假定数据是正态分布(统计学中最常见的分布之一)。平方的使用与正态分布的假设相符,差值的平方在数学上更容易处理。尤其在计算标准差的导数或偏导数时。使得在统计模型中的推断和最小二乘法等方法更容易实现。
以上便是统计学家在计算标准差时选择平方方式计算的一些缘由,欢迎大家讨论!