森鴎外の「佐橋甚五郎」のデータベース化とバラツキによる分析3


3 簡単な統計処理

3.1 データのバラツキ

 5、5、5、5、5(グループa)と3、4、5、6、7(グループb)と1、3、5、7、9(グループc)は、算術平均がいずれも5であり、また中央値(メジアン)も同様に5である。算術平均やメジアンを代表値としている限り、この3つのグループは差がないことになる。しかし、バラツキを考えると明らかに違いがある。グループaは、全て5のため全くバラツキがない。グループbは、5が中心にあり3から7までばらついている。グループcは、1から9までの広範囲に渡ってバラツキが見られる。グループbのバラツキは、グループcのバラツキよりも小さい。 
 次に、1、1、4、7、7(グループd)と1、4、4、4、7(グループe)だと、どちらのバラツキが大きいことになるのだろうか。グループdは、中心の4から3も離れた所に4つの値がある。グループeは、中心に3つの値があって、そこから3離れたところに値が2つある。
 バラツキの大きさを定義する方法で最も有名なのが、レンジと標準偏差である。レンジはグループの最大値から最小値を引くことにより求めることができる。グループdは、7-1=6で、グループeは7-1=6となる。レンジだけでバラツキを定義すれば、グループdとグループeは同じことになるが、グループ内の最大値と最小値だけを問題にするため、他の値が疎かになっている。そこでもう一つのバラツキに関する定義、標準偏差について見てみよう。

日本語教育のためのプログラム


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です