# ロジスティック回帰

## ライブラリのインポート

In [None]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

## データの読み込み

In [None]:
raw_data = pd.read_csv('2.01. Admittance.csv')
raw_data

In [None]:
# Replace all No entries with 0, and all Yes entries with 1
data = raw_data.copy()
data['Admitted'] = data['Admitted'].map({'Yes': 1, 'No': 0})
data

## 変数

In [None]:
# Create the dependent and independent variables
y = data['Admitted']
x1 = data['SAT']

## データのプロット

### 散布図

In [1]:
# x1とyの散布図の作成
plt.scatter(x1,y, color='C0')
# 軸に名前を付けます
plt.xlabel('SAT', fontsize = 20)
plt.ylabel('Admitted', fontsize = 20)
plt.show()

NameError: name 'plt' is not defined

### 回帰直線のプロット

In [None]:
x = sm.add_constant(x1)
# 最小二乗法のモデルを作り、そこからオブジェクトを作成します
reg_lin = sm.OLS(y,x)
# 実際にモデル（演算の為に使われる数値の計算）を行います
results_lin = reg_lin.fit()

# 散布図の作成
plt.scatter(x1,y,color = 'C0')
# 回帰直線のプロット
y_hat = x1*results_lin.params[1]+results_lin.params[0]
plt.plot(x1,y_hat,lw=2.5,color='C8')
plt.xlabel('SAT', fontsize = 20)
plt.ylabel('Admitted', fontsize = 20)
plt.show()

### ロジスティック回帰の曲線の表示

In [None]:
reg_log = sm.Logit(y,x)
results_log = reg_log.fit()

def f(x,b0,b1):
    return np.array(np.exp(b0+x*b1) / (1 + np.exp(b0+x*b1)))

f_sorted = np.sort(f(x1,results_log.params[0],results_log.params[1]))
x_sorted = np.sort(np.array(x1))

plt.scatter(x1,y,color='C0')
plt.xlabel('SAT', fontsize = 20)
plt.ylabel('Admitted', fontsize = 20)
plt.plot(x_sorted,f_sorted,color='C8')
plt.show()

In [None]:
# ロジット回帰の作成
reg_log = sm.Logit(y,x)
# モデルへのあてはめ
results_log = reg_log.fit()

# ロジット関数の作成
def f(x,b0,b1):
    return np.array(np.exp(b0+x*b1) / (1 + np.exp(b0+x*b1)))

# 曲線を描くためにxとyをソートします
f_sorted = np.sort(f(x1,results_log.params[0],results_log.params[1]))
x_sorted = np.sort(np.array(x1))
plt.scatter(x1,y,color='C0')
plt.xlabel('SAT', fontsize = 20)
plt.ylabel('Admitted', fontsize = 20)
# 曲線を描きます
plt.plot(x_sorted,f_sorted,color='C8')
plt.show()