• QC and statictics for beginners

分散と標準偏差

早速ですが、統計基礎シリーズを始めていきたいと思います。第一弾は、分散と標準偏差です。まずはイメージをつけることから・・・と思うので、少々割愛する部分はありますので、そこはご了承ください。

分散

分散・・・平均値からのばらつきを表す

下の式のようにあらわされます。

各データの値

平均

ではなぜこのような式なのでしょうか?

ばらつきを表すときに、どのような指標を使えばいいか、少し検討してみましょう。

まず、ばらつきとして、各データの分布がどうなっているかと考えると、

まず思いつくのが、「平均」と「各データ」の差をとることで、ある一定の指標とできるのではないか?と考えられるかと思います。

この平均と各データの差のことを偏差といいます。

数直線上で表すと、下記のようになりますね。

じゃあこの偏差を全部足せばいいんじゃないの?とも思われますが、

それだと、平均値の性質上、総和はゼロになってしまいますね・・・・

そこで、思い出してほしいのが、二乗の性質です。

性質というほどでもありませんが、正×正 または 負×負しかないので、

全部の偏差の二乗は正の数になることが分かります。

よって、この偏差の二乗の和を取り、データの数nで割ることによって、

平均的なばらつきの度合いを表すことができます。それが分散です。

標準偏差

上記のように分散を求めるわけですが、よく考えると、実世界ではデータには単位がついていることもおおいですね。長さや重さ、圧力など、連続値で表されるものを想定しますと、それぞれ、mや Kg, Paなど、単位がありますよね。それを踏まえると、分散は平均化しているものの、二乗をしているので、単位が二乗された状態になっています。これだと、元の単位と比較をすることができません。

そこで、平方根を取ります。√ ですね

平方根をとることで、単位を元に戻すことができます。

↑が標準偏差です。

統計においては、標準偏差はめちゃくちゃ使うので、必ず覚えておきましょう。

今回は、データ数nで割っていますが、これは、母集団が既知である場合の仮定です。

実用上は、母集団が既知の問題はないと思いますので、母集団から抜き取った標本(サンプル)から、分布を推定することになります。nではなくn-1割るなど細かいところはありますが、ここでは簡単のために、上記のような説明をしています。

では、今回は分散と標準偏差について説明しました!

次回は、正規分布と標準偏差について説明していきたいと思います!

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA