1 簡単な統計処理
1.1 データのバラツキ
グループa(5、5、5、5、5)とグループb(3、4、5、6、7)とグループc(1、3、5、7、9)は、算術平均がいずれも5であり、また中央値(メジアン)も同様に5である。算術平均やメジアンを代表値としている限り、この3つのグループは差がないことになる。しかし、バラツキを考えると明らかに違いがある。グループaは、全てが5のため全くバラツキがない。グループbは、5が中心にあり3から7までばらついている。グループcは、1から9までの広範囲に渡ってバラツキが見られる。グループbのバラツキは、グループcのバラツキよりも小さい。
次に、グループd(1、1、4、7、7)とグループe(1、4、4、4、7)だと、どちらのバラツキが大きいことになるのだろうか。グループdは、中心の4から3も離れた所に4つの値がある。グループeは、中心に3つの値があって、そこから3離れたところに値が2つある。
バラツキの大きさを定義する方法で最も有名なのが、レンジと標準偏差である。レンジはグループの最大値から最小値を引くことにより求めることができる。グループdは、7-1=6で、グループeも7-1=6となる。レンジだけでバラツキを定義すれば、グループdとグループeは同じことになるが、グループ内の最大値と最小値だけを問題にするため、他の値が疎かになっている。そこでもう一つのバラツキに関する定義、標準偏差について見てみよう。
花村嘉英(2018)「川端康成の『雪国』のバラツキについて」より