【超基礎から】共分散の求め方をイチから簡単に解説するぞ!

今回の記事では高校数学Ⅰでデータの分析を学習している方に向けて

「共分散とは何か?」

について簡単に解説していきます。

 

共分散とはなにか、求め方は?

2つの変量について考えるとき

この2つのデータにはどんな関係性があるんだろう?

というのを考えます。

 

例えば次のようなデータです。

AくんBくんCさんDくんEさん
数学5点3点8点4点1点
英語4点2点9点8点3点

データの関係性については、散布図と呼ばれる図を描いてみると見た目で分かりやすくなります。

散布図とは次のような図のことで、グラフの座標をとるようにデータを置いていきます。

 

こうやって散布図を作ったとき

データの配置が右上がりの直線のように、一方が増加すると他方も増加する場合

2つの変量には正の相関があるといいます。

 

データの配置が右下がりの直線のように、一方が増加すると他方も減少する場合

2つの変量には負の相関があるといいます。

 

上の2つのどちらでもない場合、つまりデータが散らばっていて特徴が見られないとき

2つの変量には相関がないといいます。

 

 

以上のように、散布図を書くことでデータの特徴(相関)を調べることができるのですが…

データの数が多くなると散布図を作るのが大変ですね(^^;)

散布図を書くことなくデータの相関を調べることはできないものか。

ということで活用されるのが共分散(きょうぶんさん)というものです。

共分散とは、変量\(x\)の偏差と変量\(y\)の偏差をかけたものの平均です。

共分散の求め方

$$s_{xy}=\frac{1}{n}\{(x_1-\overline{x})(y_1-\overline{y})+\cdots +(x_n-\overline{x})(y_n-\overline{y})\}$$

共分散が正 ⇒ 正の相関がある

共分散が負 ⇒ 負の相関がある

 

んー、これだけをお伝えすると難しく感じちゃいますのでもう少しかみ砕いて説明しますね。

\(x,y\)の平均を中心に考えた場合

\((x-\overline{x})(y-\overline{y})\)がになるときには右上、左下のどちらかに配置されることが分かります。

\((x-\overline{x})(y-\overline{y})\)がになるときには右下、左上のどちらかに配置されることが分かります。

 

つまり

\((x-\overline{x})(y-\overline{y})\)を調べたときに+になるものが多ければ、右上がりの直線のような形になる。つまり、正の相関がある。

\((x-\overline{x})(y-\overline{y})\)を調べたときに-になるものが多ければ、右下がりの直線のような形になる。つまり、負の相関がある。

ということが分かるのです。

 

そこで、\((x-\overline{x})(y-\overline{y})\)の平均をとることでデータ全体の傾向をつかもうということです。

そして、\((x-\overline{x})(y-\overline{y})\)の平均の値のことを共分散といいます。

 

次の章では、共分散を値をイチから求めてみましょう。

共分散の求め方をイチから

次のデータの共分散を求めなさい。

ABCDE
数学896210
英語22556

数学の変量を\(x\)、英語の変量を\(y\)として話を進めます。

まずは数学、英語の平均をそれぞれ求めましょう。

$$\begin{eqnarray}\overline{x}=\frac{8+9+6+2+10}{5}=7 \end{eqnarray}$$

$$\begin{eqnarray}\overline{y}=\frac{2+2+5+5+6}{5}=4 \end{eqnarray}$$

 

平均が求まったらそれぞれの偏差を求め、\(x,y\)の偏差をかけたものを求めます。

慣れるまでは次のような表を作ると良いですよ。

数学\(x\)英語\(y\)\(① x-\overline{x}\)\(② y-\overline{y}\)\(①\times②\)
A821-2-2
B922-2-4
C65-11-1
D25-51-5
E106326
3530\(\color{red}{-6}\)

 

それぞれの偏差をかけたものの和(赤字になっている数)が求まったら、それを個数で割れば共分散の完成となります。

$$\frac{-6}{5}=-1.2\cdots(解)$$

つまり、今回のデータには負の相関があるということが分かりますね。

まとめ!

共分散の求め方

$$s_xy=\frac{1}{n}\{(x_1-\overline{x})(y_1-\overline{y})+\cdots +(x_n-\overline{x})(y_n-\overline{y})\}$$

※数式が切れている場合、横にスライドできます。

共分散が正 ⇒ 正の相関がある

共分散が負 ⇒ 負の相関がある

 

共分散とは、2つのデータにどういった相関があるのかを判断するためにそれぞれの偏差をかけて考えたものでした。

共分散が求めれるようになったら、次は相関係数について考えてみましょう!

 

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です