<a href="https://colab.research.google.com/github/takatakamanbou/Data/blob/main/Data2024_ex08notebookB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data2024 ex08notebookB

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/Data-logo08.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?Data/2024



## 準備


以下，コードセルを上から順に実行していってね．

In [None]:
# 準備あれこれ
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn
seaborn.set()

In [None]:
# データを読み込む  ゴリゴリくん
dfGori = pd.read_csv('https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/ex08gorigori.csv', header=0)
dfGori

In [None]:
# データを読み込む  数学物理情報
dfMPI = pd.read_csv('https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/ex06mpi.csv', header=0)
dfMPI

In [None]:
# データを読み込む  日本の総人口
dfPopulation = pd.read_csv('https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/ex09population.csv', header=0)
dfPopulation

----
## 回帰分析入門(3)  その2
----

----
### 回帰分析の性質

#### 復習



2次元のデータを対象として最小二乗法を用いて直線を当てはめる回帰分析は，次のようなものでした．

> 2つの変数 $x$ と $y$ の間に
> $$ y = ax + b $$
> という関係が成り立つと仮定する．
> これらの変数の値 $N$ 組から成るデータ $(x_n, y_n)$ （$n = 1, 2, \dots , N$） が与えられたときに，このデータからこの式の係数 $a, b$ の推定値 $\widehat{a}, \widehat{b}$ を求めたい．つまり，これらのデータによく当てはまる直線の式を求めたい．
> その当てはまりの良さの規準として，データに対する残差平方和（二乗誤差）
> $$
E(\widehat{a}, \widehat{b}) = \sum_{n=1}^{N}(y_n - \widehat{y}_n)^2 = \sum_{n=1}^{N}(y_n - (\widehat{a}x_n + \widehat{b}))^2
$$
> を選ぶ．この残差平方和を最小にする $\widehat{a}, \widehat{b}$ は，
>
> $$
\widehat{a} = \frac{s_{xy}}{s_x^2}\qquad \widehat{b} = \bar{y} - \widehat{a}\bar{x}
$$
>
> で与えられる．
> ただし， $\bar{x}, \bar{y}$ は $x, y$ の平均，$s_{x}^2$ は $x$ の分散，$s_{xy}$ は $x$ と $y$ の共分散，つまり，
>
> $$
\begin{aligned}
\bar{x} &= \frac{1}{N}\sum_{n=1}^N x_n\\
\bar{y} &= \frac{1}{N}\sum_{n=1}^N y_n\\
s_{x}^2 &= \frac{1}{N}\sum_{n=1}^{N}(x_n - \bar{x})^2\\
s_{xy} &= \frac{1}{N}\sum_{n=1}^{N}(x_n - \bar{x})(y_n - \bar{y})\\
\end{aligned}
$$
>
>である．

#### 回帰直線は平均を通る

実習課題において，「予測値を計算する式 $\widehat{y} = \widehat{a}x + \widehat{b}$ に $x = \bar{x}$ を代入すると，$\widehat{y} = \bar{y}$ となるようだ」ということを観察しました．
これが厳密に成り立つことは，次のように簡単に示せます．

> $ \widehat{a}\bar{x} + \widehat{b}$ に $\widehat{b} = \bar{y} - \widehat{a}\bar{x}$ を代入すると， $\widehat{a}\bar{x} + \bar{y} - \widehat{a}\bar{x} = \bar{y}$ となる．

したがって，回帰分析で求めた直線は，点 $(\bar{x}, \bar{y})$ を必ず通ります．

#### 外れ値の影響

データ中に存在する，他と比べて極端に大きかったり小さかったりする値のことを，**外れ値** といいます．
外れ値は，値の入力ミス（0の数間違えたとか，ピリオド抜けたとか，単位を間違えたとか），計測機器の誤作動，そもそも値が得られなかった（ので適当な値を入れておいた），等々，様々な理由で生じます．

外れ値の存在は，データ分析の様々な場面で結果に影響を与えます．
特に，最小二乗法を用いる回帰分析の結果は外れ値の影響を受けやすいので，注意が必要です．

実習課題で観察したことを再現して確認しましょう．

`x1`, `x2` の値を適当に変えて次のセルを実行し直してみよう．
それぞれの元の値は $(5.56, 8)$ です．
また，`isAutoScale` にチェックをつけると，グラフの描画範囲が自動で設定されるようになります（外れ値も表示できるようになる）．

In [None]:
x1 = 5.56 #@param {type:"number"}
y1 =  8#@param  {type:"number"}
isAutoScale = True #@param {type:"boolean"}

# データ
X = dfGori['気温'].to_numpy()
Y = dfGori['アイス売上数'].to_numpy()
xmin, xmax = -5, 40
ymin, ymax = 0, 130

# 最初のデータの値を変えてしまう
X[0] = x1
Y[0] = y1

# 最小二乗法による直線のあてはめ
a, b = np.polyfit(X, Y, 1)
eq = f'y = {a:.2f}x + {b:.2f}'

# グラフを描く
Xr = np.array([xmin, xmax])
Yest = a * Xr + b
fig, ax = plt.subplots(1, facecolor='white', figsize=(9, 6))
ax.scatter(X, Y)
ax.plot(Xr, Yest, color='red', label=eq)
if not isAutoScale:
    ax.set_xlim(xmin, xmax)
    ax.set_ylim(ymin, ymax)
plt.legend()
plt.show()

----
### 回帰分析の注意点



ここでは，1920年（大正9年）から2000年（平成12年）までの日本の総人口の推計データの一部を使って回帰分析してみます．

このデータは，以下から入手可能です
- e-Stat（政府統計の総合窓口） https://www.e-stat.go.jp/
- 上記サイト中のデータのある場所への直リンク https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00200524&tstat=000000090001&cycle=0&tclass1=000000090004&tclass2=000000090005
- 上記からは Excel のファイルしか手に入りません．そこから余計なものを除いた CSV ファイルがこちらにあります: https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/ex09population.csv

1920年から1969年までの50年分の散布図はこんなんです．
横軸は年，縦軸は百万人単位の人口です． 縦軸の値が $100$ だと$1$億人．

In [None]:
# データ
X = dfPopulation['年'].to_numpy()
Y = dfPopulation['総人口'].to_numpy() / 1000 # 千人単位 => 百万人単位
X = X[:50] # 1920年から50年分
Y = Y[:50]

xmin, xmax = 1920, 1970
ymin, ymax = 0, 120

# グラフを描く
Xr = np.array([xmin, xmax])
fig, ax = plt.subplots(1, facecolor='white', figsize=(9, 6))
ax.scatter(X, Y)
ax.set_xlim(xmin, xmax)
ax.set_ylim(ymin, ymax)
plt.show()


いい感じに直線で表わせそうに見えますね（1945年頃に下がっているのは，太平洋戦争（第二次世界大戦）のせい）．
年を説明変数，人口（百万人単位）を被説明変数として，回帰分析してみましょう．

In [None]:
# データ
X = dfPopulation['年'].to_numpy()
Y = dfPopulation['総人口'].to_numpy() / 1000  # 千人単位 => 百万人単位
X = X[:50] # 1920年から50年分
Y = Y[:50]
y2020 = 125858 / 1000 # 2020年6月の総人口
xmin, xmax = 1915, 2025
ymin, ymax = 0, 155

# 最小二乗法による直線のあてはめ
a, b = np.polyfit(X, Y, 1)

# グラフを描く
Xr = np.array([xmin, xmax])
Yest = a * Xr + b
fig, ax = plt.subplots(1, facecolor='white', figsize=(9, 6))
ax.scatter(X, Y)
ax.plot(Xr, Yest, color='red')
ax.plot(2020, y2020, marker='X', markersize=12, color='orange')
ax.set_xlim(xmin, xmax)
ax.set_ylim(ymin, ymax)
plt.show()
print(f'傾き: {a:.2f}  切片: {b:.2f}')

# 2020年の予測値
y2020est = a * 2020 + b
print(f'この式から予測される2020年の総人口は {y2020est:.1f} 百万人 = {y2020est/100:.2f} 億人')

回帰分析で得られた直線の式に $x = 2020$ を代入して2020年の人口の予測値を算出してみると，1億5千万人を超えた値が得られました．しかし，実際の人口は，2020年6月時点で約1億2600万人です（オレンジ色のX印）．

この残差（ずれ）の原因としては，1969年までのデータしか用いず最近のデータを用いなかったことが大きいのかもしれません．
データは2000年までありますので，全部で散布図を描いてみると...

In [None]:
# データ
X = dfPopulation['年'].to_numpy()
Y = dfPopulation['総人口'].to_numpy() / 1000 # 千人単位 => 百万人単位
xmin, xmax = 1915, 2025
ymin, ymax = 0, 155

# グラフを描く
Xr = np.array([xmin, xmax])
fig, ax = plt.subplots(1, facecolor='white', figsize=(9, 6))
ax.scatter(X, Y)
#ax.plot(2020, y2020, marker='X', markersize=12, color='orange')
ax.set_xlim(xmin, xmax)
ax.set_ylim(ymin, ymax)
plt.show()

明らかに1980年頃から傾き（人口の増加率）が小さくなっており，全体を直線で表すのには無理があることがわかりますね．
2000年までのデータを用いて直線を当てはめても，それほど予測結果は改善されません（下図）．

In [None]:
# データ
X = dfPopulation['年'].to_numpy()
Y = dfPopulation['総人口'].to_numpy() / 1000  # 千人単位 => 百万人単位
y2020 = 125858 / 1000 # 2020年6月の総人口
xmin, xmax = 1915, 2025
ymin, ymax = 0, 155

# 最小二乗法による直線のあてはめ
a, b = np.polyfit(X, Y, 1) # 1920年から2000年までで最小二乗法

# グラフを描く
Xr = np.array([xmin, xmax])
Yest = a * Xr + b
fig, ax = plt.subplots(1, facecolor='white', figsize=(9, 6))
ax.scatter(X, Y)
ax.plot(Xr, Yest, color='red')
ax.plot(2020, y2020, marker='X', markersize=12, color='orange')
ax.set_xlim(xmin, xmax)
ax.set_ylim(ymin, ymax)
plt.show()

# 2020年の予測値
print(f'傾き: {a:.2f}  切片: {b:.2f}')
y2020est = a * 2020 + b
print(f'この式から予測される2020年の総人口は {y2020est:.1f} 百万人 = {y2020est/100:.2f} 億人')


上記は，1920年から2000年までのデータを用いて回帰分析を行った結果です．

In [None]:
# データ
X = dfPopulation['年'].to_numpy()
Y = dfPopulation['総人口'].to_numpy() / 1000  # 千人単位 => 百万人単位
y2020 = 125858 / 1000 # 2020年6月の総人口
xmin, xmax = 1975, 2025
ymin, ymax = 80, 155

# 最小二乗法による直線のあてはめ
a, b = np.polyfit(X[60:], Y[60:], 1) # 1970年から2000年までで最小二乗法

# グラフを描く
Xr = np.array([xmin, xmax])
Yest = a * Xr + b
fig, ax = plt.subplots(1, facecolor='white', figsize=(9, 6))
ax.scatter(X[60:], Y[60:])
ax.plot(Xr, Yest, color='green')
ax.plot(2020, y2020, marker='X', markersize=12, color='orange')
ax.set_xlim(xmin, xmax)
ax.set_ylim(ymin, ymax)
plt.show()

# 2020年の予測値
print(f'傾き: {a:.2f}  切片: {b:.2f}')
y2020est = a * 2020 + b
print(f'この式から予測される2020年の総人口は {y2020est:.1f} 百万 = {y2020est/100:.2f} 億人')


一方，こちらの緑の直線は，1980年から2000年までのデータのみを用いて回帰分析を行った場合です．2020年の予測値のずれは多少小さくなりますが，そもそも1980年から2000年の範囲に限っても，直線への当てはまりがあまりよくないようです（当てはまりの良さを客観的に測る方法については，また後で）．
これは，近年の日本の人口の変化がもはや直線ではうまく表せないので，直線を当てはめる回帰分析は適切ではない，ということを意味しています．
実際，日本の人口は2008年をピークに減少をはじめており，今後も減少傾向が続き，山なりに下がった曲線を描くことが予測されています．

cf. [Wikipedia 日本の人口統計](https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E3%81%AE%E4%BA%BA%E5%8F%A3%E7%B5%B1%E8%A8%88)

以上の観察からも分かるように，回帰分析を行う際には，与えられたデータの範囲から外れたところの値を予測する（これを **外挿する** と言います）ことは，避けた方がよいとされています．データの範囲内ではうまく直線が当てはまっていたとしても，範囲の外ではうまく当てはまらないことがあるからです．

また，2つの変数の間の関係がそもそも直線の式にうまく当てはまらないような場合にも注意が必要です．そのような場合には，直線ではなく，放物線や3次関数などの多項式，指数関数や対数関数を当てはめることもあります（後ほど少しだけ紹介する...かも）．

次に説明する注意点は，「得られた回帰直線を用いて，説明変数 $x$ から被説明変数 $y$ の値を予測するのはよいが，逆に，$y$ から $x$ の値を予測してはいけない」というものです．

$$
y = ax+ b
$$

を $x$ について解けば，

$$
x = \frac{1}{a}y - \frac{b}{a}
$$

という式が得られます．これに適当な $y$ の値を代入して，$x$ の予測値を求めたくなりますが，それは避けるべき，ということです．

そのことを実際の例で考えるために，実習課題でも扱った，数学物理情報のデータを取り上げます．

1. 「数学」を説明変数，「情報」を被説明変数とする場合
1. 「情報」を説明変数，「数学」を被説明変数とする場合

両方の回帰分析の結果を式とグラフで表してみると，こんなんなります．

In [None]:
# データ
Xmath = dfMPI['数学'].to_numpy()
Xinfo = dfMPI['情報'].to_numpy()
xmin, xmax = 0, 100
ymin, ymax = 0, 100

# 最小二乗法による直線のあてはめ
a1, b1 = np.polyfit(Xmath, Xinfo, 1)
a2, b2 = np.polyfit(Xinfo, Xmath, 1)

# グラフを描く
fig, ax = plt.subplots(1, 2, facecolor='white', figsize=(12, 6))
Xr = np.array([xmin, xmax])
Yest = a1 * Xr + b1
ax[0].scatter(Xmath, Xinfo)
ax[0].plot(Xr, Yest, color='red')
ax[0].set_xlim(xmin, xmax)
ax[0].set_ylim(ymin, ymax)
ax[0].set_xlabel('Math')
ax[0].set_ylabel('Information')
Yest = a2 * Xr + b2
ax[1].scatter(Xinfo, Xmath)
ax[1].plot(Xr, Yest, color='green')
ax[1].set_xlim(xmin, xmax)
ax[1].set_ylim(ymin, ymax)
ax[1].set_xlabel('Information')
ax[1].set_ylabel('Math')
plt.show()

print(f'（情報） = {a1:.2f} * （数学）+{b1:.2f}')
print(f'(数学) =  {a2:.2f} * （情報）+{b2:.2f}')

式もグラフも異なる形ですが，単に横軸縦軸が入れ替わってるからそう見えるだけかも？
そう考えて，右のグラフの軸を入れ替えて左のものに重ねて描いてみると，こうなります．

In [None]:
# グラフを描く
fig, ax = plt.subplots(1, facecolor='white', figsize=(6, 6))
Xr = np.array([xmin, xmax])
Yest = a1 * Xr + b1
ax.scatter(Xmath, Xinfo)
ax.plot(Xr, Yest, color='red')
Yest = a2 * Xr + b2
ax.plot(Yest, Xr, color='green')
ax.set_xlim(xmin, xmax)
ax.set_ylim(ymin, ymax)
ax.set_xlabel('Math')
ax.set_ylabel('Information')
plt.show()

print(f'数学 vs 情報: 傾き: {a1:.2f}  切片: {b1:.2f}')
print(f'情報 vs 数学: 傾き: {a2:.2f}  切片: {b2:.2f}')

どちらを説明変数／被説明変数にとるかによって，回帰分析で得られる直線が全く異なっていることが分かりますね．

これは，回帰分析という手法が，「被説明変数を説明変数を使った式で表して，その残差を最小にする」というものであるためです．

<img src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/ex10-linestXY.png">

「数学」が説明変数で「情報」が被説明変数の場合は，左図の赤い矢印で表された残差（「数学」を使った式で「情報」を表したときの残差）を最小にするものとして赤い直線が得られています．
逆の場合，「情報」が説明変数で「数学」が被説明変数の場合は，右図の緑の矢印で表された残差（「情報」を使った式で「数学」を表したときの残差）を最小にするものとして緑の直線が得られています．

どちらの変数でどちらの変数を説明しようとしているかによってどんな残差を最小化するかも異なるので，得られる式も，$x$と$y$を入れ替えても同じにはなりません．
「何を何で説明したいのか」をよく考えて説明変数と被説明変数を選択しないといけません．

### まとめ

回帰分析を実行する際に注意すべきことをまとめておきます．

- 2つの変数の間の関係が直線ではうまく表せないような場合もある．そのような場合には，直線ではなく，多項式，指数関数や対数関数などの非線形な関数を当てはめる方がよいことがある
- 回帰分析の結果は外れ値の影響を受けやすいので，結果を解釈する際に気をつけないといけない
- 与えられたデータの範囲内では直線がうまく当てはまっていたとしても，範囲から外れたところでは当てはまりが悪いこともあるので，外挿は避けるべき
- 得られた回帰直線を逆に用いて，被説明変数から説明変数の値を予測することは避けるべき