# 偏相関係数

## 疑似相関(疑似無相関)

> 2つの変数$x$と$y$を散布図にプロットした結果、直線的な関係があり、相関係数$r_{xy}$の絶対値が大きかったとしても、即座に$x$と$y$のあいだに何らかの強い関連があると判断することはできない。

> 例えば、$x$と$y$には本来何の関係もないのに、その背後に第3の変数$z$が存在しており、$z$と$x$および$z$と$y$のあいだにそれぞれ強い相関関係があって、その結果、$x$と$y$のあいだに見かけ上の強い相関関係が生じている場合がある。
> <img src="./imgs/偏相関係数/疑似相関.png" width=60%>

このように、本来、$x$と$y$のあいだに相関関係は存在しないにもかかわらず、別の変数$z$が変化するため、それにともなって$x$と$y$も変化し、その結果、$x$と$y$のあいだに相関関係があるように見えるとき、この相関関係を**<span style="color:blue">疑似相関</span>**とか**<span style="color:blue">見せかけの相関</span>**と呼ぶ。

勿論、上記の逆のことも有り得る。つまり、$x$と$y$の間に相関関係が存在するにも関わらず、相関関係がないように見える**<span style="color:blue">疑似無相関</span>**も起こり得る。

## 偏相関係数の計算方法
疑似相関がある場合に、実質的な$x$と$y$の相関関係の大きさを評価する方法を示す。

この実質的な相関係数のことを**<span style="color:blue">偏相関係数</span>**と呼び、$r_{xy \cdot z}$と表す。$r_{xy \cdot z}$の値は次式を用いて計算すればよい。

$$
r_{ xy\cdot z }=\frac { r_{ xy }-r_{ xz }r_{ yz } }{ \sqrt { \left( 1-{ r_{ xz } }^{ 2 } \right) \left( 1-{ r_{ yz } }^{ 2 } \right)  }  } 
$$

### 偏相関係数の導出
$x$を目的変数、$z$を説明変数と考えて単回帰分析を行うと、予測式は次のようになる。

$$
\hat { x } _{ i }= { \hat {\beta} }_{0} + {\hat {\beta}}_{1} z_{i}
$$
$\overline {x} = { \hat {\beta} }_{0} + {\hat {\beta}}_{1} \overline {z}_{i}$より、
$$
\hat { x } _{ i }=\overline { x } +{ \hat { \beta  }  }_{ 1 }\left( { z }_{ i }-\overline { z }  \right) 
$$
となる。また、この上式の回帰係数は、下式で置き換えられる。
$$
{ \hat { \beta  }  }_{ 1 }=\frac { n\sum { { x }_{ i }{ z }_{ i } } -\sum { { x }_{ i } } \sum { { z }_{ i } }  }{ n\sum { { z }_{ i }^{ 2 } } -{ \left( \sum { { z }_{ i } }  \right)  }^{ 2 } } =\frac { n\sum { { x }_{ i }{ z }_{ i } } -n\overline { x } n\overline { z }  }{ n\sum { { z }_{ i }^{ 2 } } -{ n }^{ 2 }{ \overline { z }  }^{ 2 } } =\frac { { n }^{ 2 }\left( \cfrac { 1 }{ n } \sum { { x }_{ i }{ z }_{ i } } -\overline { x } \overline { z }  \right)  }{ { n }^{ 2 }\left( \cfrac { 1 }{ n } \sum { { z }_{ i }^{ 2 } } -{ \overline { z }  }^{ 2 } \right)  } 
$$
$\frac {1}{n} \sum {\left( x_{i} - \overline {x} \right)\left( z_{i} - \overline {z} \right)} = \cfrac { 1 }{ n } \sum { { x }_{ i }{ z }_{ i } } -\overline { x } \overline { z } $より、
$$
{ \hat { \beta  }  }_{ 1 }=\frac { \cfrac { 1 }{ n } \sum { \left( { x }_{ i }-\overline { x }  \right) \left( { z }_{ i }-\overline { z }  \right)  }  }{ \cfrac { 1 }{ n } \sum { { \left( { z }_{ i }-\overline { z }  \right)  }^{ 2 } }  } =\frac { { S }_{ xz } }{ { S }_{ z }^{ 2 } } 
$$
となる。よって、以下のように書き表すことができる。
$$
\hat { x } _{ i }=\overline { x } +\frac { { S }_{ xz } }{ { S }_{ z }^{ 2 } } \left( { z }_{ i }-\overline { z }  \right) 
$$
同様に、$y$を目的変数、$z$を説明変数と考えて単回帰分析を行うと、予測式は次のようになる。
$$
\hat { y } _{ i }=\overline { y } +\frac { { S }_{ yz } }{ { S }_{ z }^{ 2 } } \left( { z }_{ i }-\overline { z }  \right) 
$$

上式の単回帰式における残差を考えると
$$
{ e }_{ xi }={ x }_{ i }-{ \widehat { x }  }_{ i }\\ =({ x }_{ i }-\overline { x } )-\cfrac { { S }_{ xz } }{ { S }_{ z }^{ 2 } } ({ z }_{ i }-\overline { z } )
$$
$$
{ e }_{ yi }={ y }_{ i }-{ \widehat { y }  }_{ i }\\ =({ y }_{ i }-\overline { y } )-\cfrac { { S }_{ yz } }{ { S }_{ z }^{ 2 } } ({ z }_{ i }-\overline { z } )
$$
となる。ここで、$e_{xi}$は$z$の影響を取り除いた$x$の変動部分を表し、$e_{yi}$は$z$の影響を取り除いた$y$の変動部分を表す。そこで、$e_{xi}$と$e_{yi}$の相関係数を求めれば、それが実質的な$x$と$y$との相関関係を表すものとなる。

## 参考文献

 - https://blog.amedama.jp/entry/2017/06/20/215816
 - https://bellcurve.jp/statistics/course/9593.html

In [1]:
import math


def partial_corrcoef(x, y, z):
    """
    第三の変数 x の影響を除いた y と z の相関係数 (偏相関係数) を求める関数
    
    x : pd.Series
    y : pd.Series
    z : pd.Series
    """
    correlation_matrix = np.corrcoef((x, y, z))
    r_xy = correlation_matrix[0, 1]
    r_xz = correlation_matrix[0, 2]
    r_yz = correlation_matrix[1, 2]
    r_yz_x = (r_yz - r_xy * r_xz) / (math.sqrt(1 - r_xy ** 2) * math.sqrt(1 - r_xz ** 2))  # noqa
    return r_yz_x