## ロジスティック回帰
- 実際のデータを使ってロジスティック回帰を行う

In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import log_loss, accuracy_score, confusion_matrix

### 1. データの読み込み

In [None]:
df_house = pd.read_csv("../1_data/kc_house_data.csv")[['yr_renovated', 'sqft_living', 'sqft_lot', 'sqft_above', 'yr_built', 'sqft_living15', 'sqft_lot15']]
df_house['yr_renovated'] = df_house['yr_renovated'] > 0 

# 先程と似た中古住宅のデータ
display(df_house.head())
df_house.describe()

### 2. [演習] Scikit-learnを用いてロジスティック回帰を実装してみましょう
- 学習後の重みw0, w1, ..., w6を表示してみましょう
- 実際に予測してみて，対数尤度・正答率を表示してみましょう
- 最後に正解と予測値のクロス集計の結果を表示してみましょう

In [None]:
y = df_house["yr_renovated"].values
X = df_house.drop('yr_renovated', axis=1).values
clf = SGDClassifier(loss='log', penalty='none', max_iter=10000, fit_intercept=True, random_state=1234)
clf.fit(X, y)

# 重みを取得して表示
w0 = clf.intercept_[0]
w1 = clf.coef_[0, 0]
w2 = clf.coef_[0, 1]
w3 = clf.coef_[0, 2]
w4 = clf.coef_[0, 3]
w5 = clf.coef_[0, 4]
w6 = clf.coef_[0, 5]
print('w0 = {:.3f}, w1 = {:.3f}, w2 = {:.3f}, w3 = {:.3f}, w4 = {:.3f}, w5 = {:.3f}, w6 = {:.3f}'.format(w0, w1, w2, w3, w4, w5, w6))

In [None]:
# ラベルを予測
y_est = clf.predict(X)

# 対数尤度を表示
print('対数尤度 = {:.3f}'.format(- log_loss(y, y_est)))

# 正答率を表示
print('正答率 = {:.3f}%'.format(100 * accuracy_score(y, y_est)))

In [None]:
# 予測値と正解のクロス集計
conf_mat = pd.DataFrame(confusion_matrix(y, y_est), 
                        index=['正解 = リノベーションなし', '正解 = リノベーション済み'], 
                        columns=['予測 = リノベーションなし', '予測 = リノベーション済み'])
conf_mat