# 教師あり学習(回帰)

## 線形回帰とは?

回帰分析とは、予測したいデータに対し、すでにわかっているデータの関係性を元に推定するアプローチ</br>

### サンプル1
例えば毎分一定量の水が溜まるタンクがある</br>
2分後には8L、4分後には16L溜まる</br>
5分後にはどれくらいタンクに水量が溜まっているか</br>

V=4t (V:水の量(L)、t:時間(分))

- 予測したい数値：5分後に溜まっている水量
- すでに分かっているデータ：2分後には8L、4分後には16L溜まる

回帰ではすでに分かっているデータの関係性(V = 4 tV=4t)を元に、予測したいデータ（5分後に溜まっている水量）を推定

### サンプル2

このアンケートでは、利用客が「満足度」・「食べ物のおいしさ」・「接客の良さ」の3つを10点満点で評価する</br>
店長は、「満足度」の点数を良くするために、「食べ物のおいしさ」と「接客の良さ」のどちらの改善に力を入れたら良いか悩んでいる。</br>

- 多くの客が「食べ物のおいしさ」の点数を高くつけた場合、「接客の良さ」の点数にかかわらず「満足度」の点数を高くつけた
- 同様に「食べ物のおいしさ」の点数を低くつけた場合には「満足度」の点数を低くつけた

T=0.7P1+0.3P2</br>
このモデルのP_1P1 、P_2P2の係数を見ると、「食べ物のおいしさ」の点数P_1P1の方が、「満足度」の点数に与える影響は大きいとわかる<br>

「満足度」を上げるために「接客の良さ」よりも「食べ物のおいしさ」の改善に力を入れるべきという判断が可能

線形式(O^2,O^4など累乗の形がない）で予測する回帰を線形回帰と呼ぶ

## scikit-learnを使って線形回帰

In [9]:
# scikit-learnのLinearRegressionというモデルをインポートします。詳細は1.2で説明します
from sklearn.linear_model import LinearRegression
from sklearn.metrics import accuracy_score
# scikit-learnに標準で搭載されている、ボストン市の住宅価格のデータセットをインポートします
from sklearn.datasets import load_boston

# scikit-learnに搭載されているデータセットを学習用と予測結果照合用に分けるツールをインポートします
from sklearn.model_selection import train_test_split


# データの読み込みです
data = load_boston()

# データを教師用とテスト用に分けます
train_X, test_X, train_y, test_y = train_test_split(
    data.data, data.target, random_state=42)

# 学習器の構築です
model = LinearRegression()

# 以下にコードを追加して、教師データを用いて学習器に学習
model.fit(train_X, train_y)
# 以下にコードを追加して、テスト用データを用いて学習結果をpred_yに格納
pred_y = model.predict(test_X)

# 予測結果を出力
print(pred_y)
# print("正解率: %.2f}"%accuracy_score(test_y, pred_y))

[28.83885359 36.00783288 15.08324755 25.23090886 18.87864064 23.21398327
 17.5931124  14.30508093 23.05438985 20.62008346 24.78514683 18.66833668
 -6.9788951  21.83575737 19.20898992 26.2868054  20.54379176  5.65713224
 40.42358065 17.64146116 27.32258958 30.05056174 11.15013704 24.11530393
 17.89145648 15.79348591 22.94743453 14.2586068  22.26731194 19.24709013
 22.26897546 25.24344002 25.69165643 17.98759507 16.70286649 17.11631225
 31.19643534 20.17835831 23.71828436 24.79196868 13.94575895 32.00389982
 42.53869791 17.44523722 27.15354457 17.07482215 13.89272021 26.06440323
 20.36888769 29.97813037 21.35346608 34.32287916 15.88498671 26.17757739
 39.50970314 22.84123308 18.95049088 32.68913818 25.02057949 12.90539147
 22.76052302 30.53884316 31.60797905 15.92162168 20.50670563 16.50798147
 20.50202198 26.00723901 30.63860954 11.42877835 20.53765181 27.56249175
 10.85162601 15.96871769 23.87570192  5.66369672 21.47818991 41.2820034
 18.56559986  9.08857252 20.97848452 13.0630057  20.


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

## 決定係数R^2
決定係数R^2とは、予測データと実際の正解データが、どのくらい一致しているかを示す指標</br>
決定係数R^2の定義は、複数あるが、scikit-learnでの定義によると以下の式で表すことができる</br>

(決定係数 by scikit-learn)[https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html]

![](./images/coefficient_of_determination.png)


- 満足度：4点
- 食べ物のおいしさ：8点
- 接客の良さ：4点

エクササイズ 1.2.1では、次のような線形回帰モデルを考えました。

T=0.7P1+0.3P2</br>1

このモデルに、</br>
食べ物のおいしさ：8点、接客の良さ：4点の情報を入力</br>
P_1P1に8を、P_2P2に4を代入</br>
予測された総合評価TTは、6.8点</br>
予測値と正解データとの差が比較的大きいため、このようなアンケートが多く存在すれば、<b>決定係数の値は小さくなり</b>、予測の精度が悪いと判断できる</br>
逆に予測値と正解データとの差が小さいアンケートが多ければ、<b>決定係数の値は大きくなり</b>、作成したモデルが精度よく予測できていると判断できる</br>
note: 決定係数は0から1の範囲内の値を取る

## 線形単回帰
線形単回帰とは、1つの予測したいデータ(例：水の量)を1つのデータ(例：時間)から求める回帰分析</br>
主にデータの関係性を調べるときに用いられる

- y=ax+b
  - 最小二乗法が最も一般的
    - 実際のyyの値と推定するy(=ax+b)y(=ax+b)の値の差の二乗の総和が最小になるようにaaとbbを定める方法
    - 二乗することによって、正負の相違による誤差の相殺を防ぐ

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

# データ生成
X, y = make_regression(n_samples=100, n_features=1, n_targets=1, noise=5.0, random_state=42)
train_X, test_X, train_y, test_y = train_test_split(X, y, random_state=42)
# モデル学習
model = LinearRegression()
model.fit(train_X, train_y)
# test_X, test_yに対する決定係数を出力
print(model.score(test_X, test_y))


## 線形重回帰
線形重回帰とは、予測したいデータが1つ(例：レストランの満足度の点数)に対し、</br>
予測に用いるデータが複数個(例：食べ物のおいしさの点数と接客の良さの点数)ある回帰分析

![](./images/multiple_regression.png)

線形重回帰もscikit-learnのlinear_modelモジュール内にあるLinearRegressionというモデルを使って回帰分析が可能
すでにある学習データに対して1番誤差が少なくなるようにbeta_0,beta_1,beta_2...,epsilonβ が決定されて予測がされる

In [11]:
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

# データの生成
X, y = make_regression(n_samples=100, n_features=10, n_informative=3, n_targets=1, noise=5.0, random_state=42)
train_X, test_X, train_y, test_y = train_test_split(X, y, random_state=42)

model = LinearRegression()
model.fit(train_X, train_y)

# test_Xに対する推測結果を出力
# model.score(test_X, test_y)
print(model.predict(test_X))

[ 121.38490116    7.85980009 -124.58963175   41.00261279  -26.63686974
   86.54245026 -115.70042851  -86.83134041 -122.47457672 -219.98565432
  -94.60953715  -93.78798768   28.52602374  -84.49397404   -6.20979544
   21.37516735  -45.33206679  -22.65413603    3.67511216  -29.64743901
  -14.68097993   37.34464017    8.28887999   73.27989407  -31.83281179]


# モデルの汎化
## 汎化
過学習を防ぐために取られるアプローチが汎化</br>
汎化を意識したモデルを作ることで、学習に使ったデータに適合しすぎず、一般的なケースに対応できるようになる</br>

![](./images/generalization.png)</br>
過学習をすると学習データ(〇)に過度に適合するので未知のデータの予測がうまくいかない。</br>
そこで汎化を施し、未知のデータに適合するようパラメータを調整する。</br>

## 正則化
線形回帰では、 汎化手法として正則化が用いられる</br>
正則化とは、回帰分析を行うモデルに対し、</br>
モデルが推定したデータ同士の関係性の複雑さに対してペナルティを加え、</br>
モデルが推定するデータ同士の関係性を一般化しようとするアプローチ</br>

## L1正則化
- 「予測に影響を及ぼしにくいデータ」にかかる係数をゼロに近づける手法
- 主に余分な情報がたくさん存在するようなデータの回帰分析を行う際に用いる 
- 特徴量削減の手法として用いることもできる

## L2正則化
- 係数が大きくなりすぎないように制限する手法
- 過学習を抑えるために用いられる
- 学習の結果、得られる係数が大きくならないので汎化しやすいという特徴

## ラッソ回帰
L1正則化を行いながら線形回帰の適切なパラメータを設定する回帰モデル</br>

L1正則化では、データとして余分な情報がたくさん存在するようなデータの回帰分析を行う際に使用するため、</br>
データセットの数（行数）に比べて、パラメータの数（列数）が多い場合には、ラッソ回帰を利用するのが良い

In [13]:
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

# データを生成
X, y = make_regression(n_samples=100, n_features=100, n_informative=60, n_targets=1, random_state=42)
train_X, test_X, train_y, test_y = train_test_split(X, y, random_state=42)
# 線形回帰
linear = LinearRegression()
linear.fit(train_X, train_y)
# test_X, test_yに対する決定係数を出力
print("Linear regression:{}".format(linear.score(test_X, test_y)))
# ラッソ回帰
lasso = Lasso()
lasso.fit(train_X, train_y)
# test_X, test_yに対する決定係数を出力
print("Lasso regression:{}".format(lasso.score(test_X, test_y)))


Linear regression:0.8478209051074991
Lasso regression:0.967921092593941


## リッジ回帰
L2正則化を行いながら線形回帰の適切なパラメータを設定する回帰モデル</br>

リッジ回帰には、汎化しやすいという特徴がある</br>
scikit-learnのlinear_modelモジュール内にあるRidge()というモデルがリッジ回帰のモデル

In [15]:
from sklearn.linear_model import Ridge
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

# データを生成
X, y = make_regression(n_samples=100, n_features=50, n_informative=50, n_targets=1, noise=100.0, random_state=42)
train_X, test_X, train_y, test_y = train_test_split(X, y, random_state=42)

# 線形回帰
linear = LinearRegression()
linear.fit(train_X, train_y)
# test_X, test_yに対する決定係数を出力
print("Linear regression:{}".format(linear.score(test_X, test_y)))
# リッジ回帰
ridge = Ridge()
ridge.fit(train_X, train_y)
# test_X, test_yに対する決定係数を出力
print("Ridge regression:{}".format(ridge.score(test_X, test_y)))


Linear regression:0.7802322835148339
Ridge regression:0.7807547182116578


## 

## ElasticNet回帰
ラッソ回帰とリッジ回帰を組み合わせて正則化項を作るモデル

- Pros
  - ラッソ回帰で取り扱った余分な情報がたくさん存在するようなデータに対して情報を取捨選択してくれる点
  - リッジ回帰で取り扱った 汎化しやすい点

訓練データにラッソ回帰、リッジ回帰、ElasticNet回帰を適用して精度を検証し、最も精度が良い回帰モデルを採用

In [28]:
from sklearn.linear_model import ElasticNet
from sklearn.linear_model import Lasso
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

# データを生成
# X, y = make_regression(n_samples=100, n_features=50, n_informative=50, n_targets=1, noise=100.0, random_state=42)
# train_X, test_X, train_y, test_y = train_test_split(X, y, random_state=42)
X, y = make_regression(n_samples=100, n_features=100, n_informative=60, n_targets=1, random_state=42)
train_X, test_X, train_y, test_y = train_test_split(X, y, random_state=42)

# 線形回帰
linear = LinearRegression()
linear.fit(train_X, train_y)
# test_X, test_yに対する決定係数を出力
print("Linear regression:{}".format(linear.score(test_X, test_y)))
# ラッソ回帰
lasso = Lasso()
lasso.fit(train_X, train_y)
# test_X, test_yに対する決定係数を出力
print("Lasso regression:{}".format(lasso.score(test_X, test_y)))
# リッジ回帰
ridge = Ridge()
ridge.fit(train_X, train_y)
# test_X, test_yに対する決定係数を出力
print("Ridge regression:{}".format(ridge.score(test_X, test_y)))
# ElasticNet回帰
# l1_ratioを設定すると、L1正則化とL2正則化の割合を指定可能
# l1_ratio=0.3の場合、L1正則化が30％、L2正則化が70％効いている
elasticnet = ElasticNet(l1_ratio=0.3)
elasticnet.fit(train_X, train_y)
print("Ridge regression:{}".format(elasticnet.score(test_X, test_y)))

Linear regression:0.8478209051074991
Lasso regression:0.967921092593941
Ridge regression:0.8345609657678084
Ridge regression:0.6094881004267583
