# 教師あり学習(回帰)

## 線形回帰とは?

回帰分析とは、予測したいデータに対し、すでにわかっているデータの関係性を元に推定するアプローチ</br>

### サンプル
例えば毎分一定量の水が溜まるタンクがある</br>
2分後には8L、4分後には16L溜まる</br>
5分後にはどれくらいタンクに水量が溜まっているか</br>

V=4t (V:水の量(L)、t:時間(分))

- 予測したい数値：5分後に溜まっている水量
- すでに分かっているデータ：2分後には8L、4分後には16L溜まる

回帰ではすでに分かっているデータの関係性(V = 4 tV=4t)を元に、予測したいデータ（5分後に溜まっている水量）を推定

## scikit-learnを使って線形回帰

In [9]:
# scikit-learnのLinearRegressionというモデルをインポートします。詳細は1.2で説明します
from sklearn.linear_model import LinearRegression
from sklearn.metrics import accuracy_score
# scikit-learnに標準で搭載されている、ボストン市の住宅価格のデータセットをインポートします
from sklearn.datasets import load_boston

# scikit-learnに搭載されているデータセットを学習用と予測結果照合用に分けるツールをインポートします
from sklearn.model_selection import train_test_split


# データの読み込みです
data = load_boston()

# データを教師用とテスト用に分けます
train_X, test_X, train_y, test_y = train_test_split(
    data.data, data.target, random_state=42)

# 学習器の構築です
model = LinearRegression()

# 以下にコードを追加して、教師データを用いて学習器に学習
model.fit(train_X, train_y)
# 以下にコードを追加して、テスト用データを用いて学習結果をpred_yに格納
pred_y = model.predict(test_X)

# 予測結果を出力
print(pred_y)
# print("正解率: %.2f}"%accuracy_score(test_y, pred_y))

[28.83885359 36.00783288 15.08324755 25.23090886 18.87864064 23.21398327
 17.5931124  14.30508093 23.05438985 20.62008346 24.78514683 18.66833668
 -6.9788951  21.83575737 19.20898992 26.2868054  20.54379176  5.65713224
 40.42358065 17.64146116 27.32258958 30.05056174 11.15013704 24.11530393
 17.89145648 15.79348591 22.94743453 14.2586068  22.26731194 19.24709013
 22.26897546 25.24344002 25.69165643 17.98759507 16.70286649 17.11631225
 31.19643534 20.17835831 23.71828436 24.79196868 13.94575895 32.00389982
 42.53869791 17.44523722 27.15354457 17.07482215 13.89272021 26.06440323
 20.36888769 29.97813037 21.35346608 34.32287916 15.88498671 26.17757739
 39.50970314 22.84123308 18.95049088 32.68913818 25.02057949 12.90539147
 22.76052302 30.53884316 31.60797905 15.92162168 20.50670563 16.50798147
 20.50202198 26.00723901 30.63860954 11.42877835 20.53765181 27.56249175
 10.85162601 15.96871769 23.87570192  5.66369672 21.47818991 41.2820034
 18.56559986  9.08857252 20.97848452 13.0630057  20.


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h