# ダミー変数

## ライブラリのインポート

In [None]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

## データの読み込み

In [None]:
raw_data = pd.read_csv('1.03. Dummies.csv')

In [None]:
# 中身の確認
raw_data

## mapメソッド

In [None]:
# Mapメソッドを使って'No'を0に、そして'Yes'を1にしていきます
data = raw_data.copy()
data['Attendance'] = data['Attendance'].map({'Yes': 1, 'No': 0})

# 中身の確認
data

In [None]:
# 統計量の確認
data.describe()

## 回帰

In [None]:
# 従属変数の定義
y = data ['GPA']
# 独立変数の定義
x1 = data [['SAT','Attendance']]

In [None]:
x = sm.add_constant(x1)
# 最小二乗法を適用し、モデルにデータをフィットさせていきます
results = sm.OLS(y,x).fit()
# 結果のまとめの表示
results.summary()

## 散布図への回帰直線の記載

In [None]:
# SATとGPAの散布図を作成します
plt.scatter(data['SAT'],y)
# 出席が1と0の場合における回帰式を定義します
yhat_no = 0.6439 + 0.0014*data['SAT']
yhat_yes = 0.8665 + 0.0014*data['SAT']
# 回帰直線をひきます
fig = plt.plot(data['SAT'],yhat_no, lw=2, c='#006837')
fig = plt.plot(data['SAT'],yhat_yes, lw=2, c='#a50026')
# 軸に名前を付けます
plt.xlabel('SAT', fontsize = 20)
plt.ylabel('GPA', fontsize = 20)
plt.show()

## 散布図に回帰直線を引き、データに色を付けます

In [None]:
# 全ての観測データを含む散布図を作成します
# また、'Attendance' を色付けします
plt.scatter(data['SAT'],data['GPA'], c=data['Attendance'],cmap='RdYlGn_r')

# 二つの回帰式を（改めて）定義します
yhat_no = 0.6439 + 0.0014*data['SAT']
yhat_yes = 0.8665 + 0.0014*data['SAT']

# 二つの回帰直線ひきます
fig = plt.plot(data['SAT'],yhat_no, lw=2, c='#006837')
fig = plt.plot(data['SAT'],yhat_yes, lw=2, c='#a50026')
plt.xlabel('SAT', fontsize = 20)
plt.ylabel('GPA', fontsize = 20)
plt.show()

## 元の回帰直線を足します

In [None]:
# 全ての観測データを含む散布図を作成します
# また、'Attendance' を色付けします
plt.scatter(data['SAT'],data['GPA'], c=data['Attendance'],cmap='RdYlGn_r')

# 二つの回帰式を（改めて）定義します
yhat_no = 0.6439 + 0.0014*data['SAT']
yhat_yes = 0.8665 + 0.0014*data['SAT']
# 元の回帰直線
yhat = 0.0017*data['SAT'] + 0.275

# 二つの回帰直線をひきます
fig = plt.plot(data['SAT'],yhat_no, lw=2, c='#006837', label ='regression line1')
fig = plt.plot(data['SAT'],yhat_yes, lw=2, c='#a50026', label ='regression line2')
# 元の回帰直線をひきます
fig = plt.plot(data['SAT'],yhat, lw=3, c='#4C72B0', label ='regression line')

plt.xlabel('SAT', fontsize = 20)
plt.ylabel('GPA', fontsize = 20)
plt.show()

# 作成した回帰を元に予測をする方法

In [None]:
# 独立変数の中身の確認
x

In [None]:
# 新しいデータフレームを作成します
new_data = pd.DataFrame({'const': 1,'SAT': [1700, 1670], 'Attendance': [0, 1]})
# 順番が間違っている場合は、並べかえをしていきます
new_data = new_data[['const','SAT','Attendance']]
new_data

In [None]:
# インデックスの名前を変えます
new_data.rename(index={0: 'Bob',1:'Alice'})

In [None]:
# 予測をするためのメソッドであるpredictを使っていきます
predictions = results.predict(new_data)
# 結果
predictions

In [None]:
predictionsdf = pd.DataFrame({'Predictions':predictions})
joined = new_data.join(predictionsdf)
joined.rename(index={0: 'Bob',1:'Alice'})