3 簡単な統計処理
3.1 データのバラツキ
5、5、5、5、5(グループa)と3、4、5、6、7(グループb)と1、3、5、7、9(グループc)は、算術平均がいずれも5であり、また中央値(メジアン)も同様に5である。算術平均やメジアンを代表値としている限り、この3つのグループは差がないことになる。しかし、バラツキを考えると明らかに違いがある。グループaは、全て5のため全くバラツキがない。グループbは、5が中心にあり3から7までばらついている。グループcは、1から9までの広範囲に渡ってバラツキが見られる。グループbのバラツキは、グループcのバラツキよりも小さい。
次に、1、1、4、7、7(グループd)と1、4、4、4、7(グループe)だと、どちらのバラツキが大きいことになるのだろうか。グループdは、中心の4から3も離れた所に4つの値がある。グループeは、中心に3つの値があって、そこから3離れたところに値が2つある。
バラツキの大きさを定義する方法で最も有名なのが、レンジと標準偏差である。レンジはグループの最大値から最小値を引くことにより求めることができる。グループdは、7-1=6で、グループeは7-1=6となる。レンジだけでバラツキを定義すれば、グループdとグループeは同じことになるが、グループ内の最大値と最小値だけを問題にするため、他の値が疎かになっている。そこでもう一つのバラツキに関する定義、標準偏差について見てみよう。