# 単線形回帰

## ライブラリのインポート

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

from sklearn.linear_model import LinearRegression

## データの読み込み

In [None]:
# データの読み込み
data = pd.read_csv('1.01.Simple-linear-regression.csv')

# 中身の確認
data.head()

## 回帰の作成

### 従属変数と独立変数の宣言

In [None]:
# 独立変数の宣言
x = data['SAT']

# 従属変数の宣言
y = data['GPA']

In [None]:
# 形状の確認
x.shape

In [None]:
y.shape

In [None]:
# sklearnに入れるデータの形状は2D arrayでなければいけないので
# reshapeメソッドを使って形状を変えていきます。

# x_matrix = x.values.reshape(84,1)
x_matrix = x.values.reshape(-1,1)

# 形状の確認
x_matrix.shape

### 回帰


In [None]:
# クラスからオブジェクトを作成します
reg = LinearRegression()

In [None]:
# データを入れてモデルにフィットさせていきます
reg.fit(x_matrix,y)

### 決定係数

In [None]:
# scoreメソッドを使って決定係数を求めていきます
reg.score(x_matrix,y)

### 係数

In [None]:
# 係数を出力します
reg.coef_

### 切片

In [None]:
# 切片を出力します
reg.intercept_

### 予測

In [None]:
# predictメソッドを使って値を予測していきます
reg.predict([[1740]])

In [None]:
# データフレームを作成します
new_data = pd.DataFrame(data=[1740,1760],columns=['SAT'])
new_data

In [None]:
# 上記のデータに対する予測値を出力します
reg.predict(new_data)

In [None]:
# データフレームに結果を追加します
new_data['Predicted_GPA'] = reg.predict(new_data)
new_data

In [None]:
# データを散布図として表示します
plt.scatter(x,y)

# 変数を使った回帰式
yhat = reg.coef_*x_matrix + reg.intercept_

# 変数を使わない回帰式
#yhat = 0.0017*x + 0.275

# 回帰直線の表示
fig = plt.plot(x,yhat, lw=4, c='orange', label ='regression line')

# 軸に名前を付けます
plt.xlabel('SAT', fontsize = 20)
plt.ylabel('GPA', fontsize = 20)
plt.show()