## ライブラリのインポート

In [None]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

from scipy import stats
stats.chisqprob = lambda chisq, df: stats.chi2.sf(chisq, df)

## データの読み込み

In [None]:
raw_data = pd.read_csv('2.02. Binary predictors.csv')
data = raw_data.copy()
data['Admitted'] = data['Admitted'].map({'Yes': 1, 'No': 0})
data['Gender'] = data['Gender'].map({'Female': 1, 'Male': 0})
data

## 従属変数と独立変数の宣言

In [None]:
y = data['Admitted']
x1 = data[['SAT','Gender']]

## 回帰

In [None]:
x = sm.add_constant(x1)
reg_log = sm.Logit(y,x)
results_log = reg_log.fit()
# Get the regression summary
results_log.summary()

In [None]:
np.exp(1.94)

## モデルのテストと正確性の評価

In [None]:
np.set_printoptions(formatter={'float': lambda x: "{0:0.2f}".format(x)})
results_log.predict()

In [None]:
np.array(data['Admitted'])

In [None]:
results_log.pred_table()

In [None]:
results_log.pred_table(test_data)

In [None]:
cm_df = pd.DataFrame(results_log.pred_table())
cm_df.columns = ['Predicted 0','Predicted 1']
cm_df = cm_df.rename(index={0: 'Actual 0',1:'Actual 1'})
cm_df

In [None]:
cm = np.array(cm_df)
accuracy_train = (cm[0,0]+cm[1,1])/cm.sum()
accuracy_train

## 正確性の計算

In [None]:
# テストデータセットの読み込み
test = pd.read_csv('2.03. Test dataset.csv')
test

In [None]:
# mapメソッドを使った置き換え
test['Admitted'] = test['Admitted'].map({'Yes': 1, 'No': 0})
test['Gender'] = test['Gender'].map({'Female': 1, 'Male': 0})
test

In [None]:
# 入力の確認
x

In [None]:
# ターゲットの取得
test_actual = test['Admitted']
# テストデータの比較
test_data = test.drop(['Admitted'],axis=1)
test_data = sm.add_constant(test_data)
test_data

In [None]:
def confusion_matrix(data,actual_values,model):
        
        #ロジットモデルを使った値の予測
        pred_values = model.predict(data)
        # 階級の規定
        bins=np.array([0,0.5,1])
        # ヒストグラムを作成し、値が0と0.5の間の場合は0に、
        # 0.5と1の間の場合は1にします
        cm = np.histogram2d(actual_values, pred_values, bins=bins)[0]
        # 正確性の計算
        accuracy = (cm[0,0]+cm[1,1])/cm.sum()
        # 混同行列と正確性
        return cm, accuracy

In [None]:
# テストデータにおける混同行列の作成
cm = confusion_matrix(test_data,test_actual,results_log)
cm

In [None]:
# 結果のフォーマットの変更
cm_df = pd.DataFrame(cm[0])
cm_df.columns = ['Predicted 0','Predicted 1']
cm_df = cm_df.rename(index={0: 'Actual 0',1:'Actual 1'})
cm_df

In [None]:
# 間違って分類した数の確認
print ('Missclassification rate: '+str((1+1)/19))