# ダミー変数とカテゴリデータの扱い

## ライブラリのインポート

In [None]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
# 以下でデフォルトのseabornをオーバーライドすることができます
sns.set()

## データの読み込み

In [None]:
raw_data = pd.read_csv('1.03. Dummies.csv')

In [None]:
raw_data

## Mapの適用

In [None]:
# Noに関しては0を、Yesに関しては1を割り当てます
data = raw_data.copy()
data['Attendance'] = data['Attendance'].map({'Yes': 1, 'No': 0})

# 中身の確認
data

In [None]:
# 統計量の表示
data.describe()

## 回帰

In [None]:
# 従属変数の定義
y = data ['GPA']
# 独立変数の定義
x1 = data [['SAT','Attendance']]

In [None]:
# xに列を追加（値は1）
x = sm.add_constant(x1)
# モデルへのデータのあてはめ
results = sm.OLS(y,x).fit()
# 結果の表示
results.summary()

## 散布図の表示

In [None]:
# SATとGPAの散布図の表示
plt.scatter(data['SAT'],y)
# 二つの回帰式の定義
yhat_no = 0.6439 + 0.0014*data['SAT']
yhat_yes = 0.8665 + 0.0014*data['SAT']
# 二つの回帰直線の表示
fig = plt.plot(data['SAT'],yhat_no, lw=2, c='#006837')
fig = plt.plot(data['SAT'],yhat_yes, lw=2, c='#a50026')
# 軸に名前を付ける
plt.xlabel('SAT', fontsize = 20)
plt.ylabel('GPA', fontsize = 20)
plt.show()

## 回帰直線の表示とデータへの色付け

In [None]:
# Attendanceのデータに対して色付けを行う
plt.scatter(data['SAT'],data['GPA'], c=data['Attendance'],cmap='RdYlGn_r')

# 改めて、（念のため）二つの回帰式を定義する
yhat_no = 0.6439 + 0.0014*data['SAT']
yhat_yes = 0.8665 + 0.0014*data['SAT']

# 二つの回帰直線を表示する
fig = plt.plot(data['SAT'],yhat_no, lw=2, c='#006837')
fig = plt.plot(data['SAT'],yhat_yes, lw=2, c='#a50026')
plt.xlabel('SAT', fontsize = 20)
plt.ylabel('GPA', fontsize = 20)
plt.show()

## 元の回帰直線を引く

In [None]:
plt.scatter(data['SAT'],data['GPA'], c=data['Attendance'],cmap='RdYlGn_r')

yhat_no = 0.6439 + 0.0014*data['SAT']
yhat_yes = 0.8665 + 0.0014*data['SAT']

yhat = 0.0017*data['SAT'] + 0.275

fig = plt.plot(data['SAT'],yhat_no, lw=2, c='#006837', label ='regression line1')
fig = plt.plot(data['SAT'],yhat_yes, lw=2, c='#a50026', label ='regression line2')

fig = plt.plot(data['SAT'],yhat, lw=3, c='#4C72B0', label ='regression line')

plt.xlabel('SAT', fontsize = 20)
plt.ylabel('GPA', fontsize = 20)
plt.show()