<a href="https://colab.research.google.com/github/agt7/dev/blob/master/logstic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from google.colab import drive
drive.mount('/content/drive/')

In [None]:
import pandas as pd
import numpy as np
from sklearn import linear_model
import joblib

In [None]:
# CSVファイルのパス（学習用）
LOAD_CSV_PATH = "/content/drive/My Drive/ml/data/logistic/input.csv"

# CSVファイルのパス（検証用）
LOAD_TEST_PATH = "/content/drive/My Drive/ml/data/logistic/test.csv"

# CLFファイルのパス（学習済ファイル用）
SAVE_CLF_PATH = "/content/drive/My Drive/ml/data/logistic/train.clf"


In [None]:
# 学習用のデータを読み込み
data = pd.read_csv(LOAD_CSV_PATH, sep=",")

# 説明変数：x1, x2
X = data.loc[:, ['x1', 'x2']].values

# 目的変数：x3
y = data['x3'].values

# 学習（ロジスティック回帰）
clf = linear_model.LogisticRegression(random_state=0)
clf.fit(X, y)

# 学習結果を出力
joblib.dump(clf, SAVE_CLF_PATH)

In [None]:
# 学習済ファイルのロード
clf2 = joblib.load(SAVE_CLF_PATH)

# ロジスティック回帰の学習結果
a = clf2.coef_
b = clf2.intercept_  
print("回帰係数:", a) # 回帰係数: [[-0.02217148  0.31554403]]
print("切片:", b)     # 切片: [-1.06960241]
print("決定係数:", clf2.score(X, y)) # 決定係数: 0.818181818182

In [None]:
# テスト用データの読み込み
data = pd.read_csv(LOAD_TEST_PATH, sep=",")

# 学習結果の検証（テスト用データx1, x2を入力）
X_test = data.loc[:, ['x1', 'x2']].values
y_predict = clf.predict(X_test)

# 検証結果の表示
print("検証結果：", y_predict)

In [None]:
# https://qiita.com/0NE_shoT_/items/c42d8093e2fed9bf1b7a
# proba = リスク評価
probs = clf.predict_proba(X_test)
print("0である確率, 1である確率確率:\n", probs)
# 1である確率が「目的の確率」？
print("1である確率確率:\n", probs[:, 1])

In [None]:
# scala spack
# https://github.com/x1-/spark-example/blob/master/src/main/scala/com/inkenkun/x1/spark/examples/ml/HashingTrickLR.scala
# https://www.slideshare.net/x1ichi/spark-51164327

# python
# 交差検証(CrossValidator)
# https://qiita.com/tomov3/items/039d4271ed30490edf7b


In [None]:
# ROC曲線

from sklearn import metrics
import matplotlib.pyplot as plt
import numpy as np

# FPR, TPR(, しきい値) を算出
fpr, tpr, thresholds = metrics.roc_curve(y_predict, y_predict)

# ついでにAUCも
auc = metrics.auc(fpr, tpr)

# ROC曲線をプロット
plt.plot(fpr, tpr, label='ROC curve (area = %.2f)'%auc)
plt.legend()
plt.title('ROC curve')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.grid(True)
