# 4章 多クラス分類の評価指標

## 4.3 混合行列(Confusion Matrix)

In [None]:
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split

from sklearn.preprocessing import LabelEncoder
import seaborn as sns
import pandas
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix

from sklearn.model_selection import train_test_split

# 文字列や数値で表されたラベルを0~(ラベル種類数-1)に変換する関数
def label_encoding(df):
    object_type_column_list = [c for c in df.columns if df[c].dtypes=='object']
    for object_type_column in object_type_column_list:
        label_encoder = LabelEncoder()
        df[object_type_column] = label_encoder.fit_transform(df[object_type_column])
    return df

# 学習用データの読み込み
train_df = pandas.read_csv("../data/customer-segmentation/train.csv")

# 目的変数を抽出
y = train_df.pop('Segmentation').values
# 本当はあまり良くないがNanを全て-1で埋める
train_df = label_encoding(train_df).fillna(-1)
# 顧客のユニークなIDを含むとノイズになるのでカラムを削除する
train_df = train_df.drop("ID", axis=1)

# 学習データと検証用データに分ける
X_train, X_val, y_train, y_val = train_test_split(train_df, y, test_size=0.1, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 検証用データで予測
y_val_hat = clf.predict(X_val)

# 混同行列を作成
conf_matrix = confusion_matrix(y_val, y_val_hat)

# 分類に用いられるクラス名を定義する
labels = ["A", "B", "C", "D"]
df_cm = pandas.DataFrame(conf_matrix, index=labels, columns=labels)
# 混同行列をヒートマップで描画する
sns.heatmap(df_cm,  fmt="d", annot=True, cmap="binary", annot_kws={"fontsize": 20})
# グラフにタイトルをつける
plt.title('Confusion Matrix')
# x軸、y軸の名前をグラフに記載する
plt.xlabel("Predicted class")
plt.ylabel("True class")
# グラフを表示する
plt.show()

## 正解率 (Multi class accuracy)

In [None]:
from sklearn.datasets import make_classification

# ダミーデータを作る
X, y = make_classification(n_samples = 10000, random_state=42, n_classes=3, n_clusters_per_class=1, weights = [0.899, 0.1, 0.001])
X_train, X_test, y_train, y_val_dummy = train_test_split(
        X, y, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 分類に用いられるクラス名を定義する
labels = [0, 1, 2]
# 検証用データで予測
y_val_dummy_hat = clf.predict(X_test)
# 混同行列を作成
conf_matrix = confusion_matrix(y_val_dummy, y_val_dummy_hat, labels=labels)
# 混同行列をヒートマップで描画する
sns.heatmap(conf_matrix, fmt="d", annot=True, cmap="binary", annot_kws={"fontsize": 20})
# グラフにタイトルをつける
plt.title('Confusion Matrix')
# x軸、y軸の名前をグラフに記載する
plt.xlabel("Predicted class")
plt.ylabel("True class")
# グラフを表示する
plt.show()

In [None]:
from sklearn.metrics import accuracy_score

# 正解率による評価
print("不均衡データでの正解率:", round(accuracy_score(y_val_dummy, y_val_dummy_hat), 3))

In [None]:
from sklearn.metrics import accuracy_score

# 正解率による評価
print("customer-segmentationデータセットでの正解率:", round(accuracy_score(y_val, y_val_hat), 3))

## Micro precision

In [None]:
from sklearn.metrics import precision_score

# averageという引数に'micro'という文字列を渡すと
# Micro Precisionを計算する
print("不均衡データでのMicro Precision:", round(precision_score(y_val_dummy, y_val_dummy_hat, average='micro'), 3))

In [None]:
from sklearn.metrics import precision_score

# Micro precisionによる評価(正解率と同じ値になる)
print("customer-segmentationデータセットでのMicro Precision:", round(precision_score(y_val, y_val_hat, average="micro"), 3))

## Macro precision

In [None]:
from sklearn.datasets import make_classification
from sklearn.metrics import precision_score

# ダミーデータを作る
X, y = make_classification(n_samples = 10000, random_state=42, n_classes=3, n_clusters_per_class=1, weights = [0.899, 0.1, 0.001])
# 学習データと検証用データに分ける
X_train, X_test, y_train, y_val_dummy = train_test_split(
        X, y, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 分類に用いられるクラス名を定義する
labels = [0, 1, 2]
# 検証用データで予測
y_val_dummy_hat = clf.predict(X_test)

# averageという引数に'macro'という文字列を渡すと
# Macro Precisionを計算する
print("不均衡データでのMacro Precision:", round(precision_score(y_val_dummy, y_val_dummy_hat, average='macro'), 3))

# averageという引数に'micro'という文字列を渡すと
# Micro Precisionを計算する
print("不均衡データでのMicro Precision:", round(precision_score(y_val_dummy, y_val_dummy_hat, average='micro'), 3))

In [None]:
# 学習用データの読み込み
train_df = pandas.read_csv("../data/customer-segmentation/train.csv")

# 目的変数を抽出
y = train_df.pop('Segmentation').values
# 本当はあまり良くないがNanを全て-1で埋める
train_df = label_encoding(train_df).fillna(-1)
# 顧客のユニークなIDを含むとノイズになるのでカラムを削除する
train_df = train_df.drop("ID", axis=1)

# 学習データと検証用データに分ける
X_train, X_val, y_train, y_val = train_test_split(train_df, y, test_size=0.1, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 検証用データで予測
y_val_hat = clf.predict(X_val)

# averageという引数に'macro'という文字列を渡すと
# Macro precisionを計算する
print("customer-segmentationデータセットでのMacro Precision", round(precision_score(y_val, y_val_hat, average="macro"), 3))

## Weighted precision

In [None]:
# ダミーデータを作る
X, y = make_classification(n_samples = 10000, random_state=42, n_classes=3, n_clusters_per_class=1, weights = [0.899, 0.1, 0.001])
X_train, X_test, y_train, y_val_dummy = train_test_split(
        X, y, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 分類に用いられるクラス名を定義する
labels = [0, 1, 2]
# 検証用データで予測
y_val_dummy_hat = clf.predict(X_test)

# averageという引数に'weighted'という文字列を渡すと
# Weighted Precisionを計算する
print("不均衡データでのWeighted Precision:", round(precision_score(y_val_dummy, y_val_dummy_hat, average='weighted'), 3))

In [None]:
# 学習用データの読み込み
train_df = pandas.read_csv("../data/customer-segmentation/train.csv")

# 目的変数を抽出
y = train_df.pop('Segmentation').values
# 本当はあまり良くないがNanを全て-1で埋める
train_df = label_encoding(train_df).fillna(-1)
# 顧客のユニークなIDを含むとノイズになるのでカラムを削除する
train_df = train_df.drop("ID", axis=1)

# 学習データと検証用データに分ける
X_train, X_val, y_train, y_val = train_test_split(train_df, y, test_size=0.1, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 検証用データで予測
y_val_hat = clf.predict(X_val)

# averageという引数に'weighted'という文字列を渡すと
# Weighted precisionを計算する
print("customer-segmentationデータセットでのWeighted Precision:", round(precision_score(y_val, y_val_hat, average='weighted'), 3))

## Micro recall

In [None]:
from sklearn.datasets import make_classification
from sklearn.metrics import recall_score

# ダミーデータを作る
X, y = make_classification(n_samples = 10000, random_state=42, n_classes=3, n_clusters_per_class=1, weights = [0.899, 0.1, 0.001])
# 学習データと検証用データに分ける
X_train, X_test, y_train, y_val_dummy = train_test_split(
        X, y, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 分類に用いられるクラス名を定義する
labels = [0, 1, 2]
# 検証用データで予測
y_val_dummy_hat = clf.predict(X_test)

# averageという引数に'micro'という文字列を渡すと
# Micro Recallを計算する
print("不均衡データセットでのMicro Recall:", round(recall_score(y_val_dummy, y_val_dummy_hat, average='micro'), 3))

In [None]:
# 学習用データの読み込み
train_df = pandas.read_csv("../data/customer-segmentation/train.csv")

# 目的変数を抽出
y = train_df.pop('Segmentation').values
# 本当はあまり良くないがNanを全て-1で埋める
train_df = label_encoding(train_df).fillna(-1)
# 顧客のユニークなIDを含むとノイズになるのでカラムを削除する
train_df = train_df.drop("ID", axis=1)

# 学習データと検証用データに分ける
X_train, X_val, y_train, y_val = train_test_split(train_df, y, test_size=0.1, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 検証用データで予測
y_val_hat = clf.predict(X_val)

# averageという引数に'micro'という文字列を渡すと
# Micro recallを計算する
recall_score(y_val, y_val_hat, average='micro')
print("customer-segmentationデータセットでのMicro Recall:", round(recall_score(y_val, y_val_hat, average='micro'), 3))

## Macro recall

In [None]:
from sklearn.datasets import make_classification
from sklearn.metrics import recall_score

# ダミーデータを作る
X, y = make_classification(n_samples = 10000, random_state=42, n_classes=3, n_clusters_per_class=1, weights = [0.899, 0.1, 0.001])
# 学習データと検証用データに分ける
X_train, X_test, y_train, y_val_dummy = train_test_split(
        X, y, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 分類に用いられるクラス名を定義する
labels = [0, 1, 2]
# 検証用データで予測
y_val_dummy_hat = clf.predict(X_test)

# averageという引数に'macro'という文字列を渡すと
# Macro recallを計算する
print("不均衡データセットでのMacro Recall:", round(recall_score(y_val_dummy, y_val_dummy_hat, average='macro'), 3))

In [None]:
# 学習用データの読み込み
train_df = pandas.read_csv("../data/customer-segmentation/train.csv")

# 目的変数を抽出
y = train_df.pop('Segmentation').values
# 本当はあまり良くないがNanを全て-1で埋める
train_df = label_encoding(train_df).fillna(-1)
# 顧客のユニークなIDを含むとノイズになるのでカラムを削除する
train_df = train_df.drop("ID", axis=1)

# 学習データと検証用データに分ける
X_train, X_val, y_train, y_val = train_test_split(train_df, y, test_size=0.1, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 検証用データで予測
y_val_hat = clf.predict(X_val)

# averageという引数に'macro'という文字列を渡すと
# Macro recallを計算する
print("customer-segmentationデータセットでのMacro Recall:", round(recall_score(y_val, y_val_hat, average='macro'), 3))

In [None]:
# averageという引数にNoneを渡すとクラスごとの
# Recallを計算する
print(recall_score(y_val, y_val_hat, average=None))

## Weighted Recall

In [None]:
from sklearn.datasets import make_classification
from sklearn.metrics import recall_score

# ダミーデータを作る
X, y = make_classification(n_samples = 10000, random_state=42, n_classes=3, n_clusters_per_class=1, weights = [0.899, 0.1, 0.001])
# 学習データと検証用データに分ける
X_train, X_test, y_train, y_val_dummy = train_test_split(
        X, y, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 分類に用いられるクラス名を定義する
labels = [0, 1, 2]
# 検証用データで予測
y_val_dummy_hat = clf.predict(X_test)

# averageという引数に'weighted'という文字列を渡すと
# Weighted recallを計算する
print("不均衡データでのWeighted Recall:", round(recall_score(y_val_dummy, y_val_dummy_hat, average='weighted'), 3))

In [None]:
# 学習用データの読み込み
train_df = pandas.read_csv("../data/customer-segmentation/train.csv")

# 目的変数を抽出
y = train_df.pop('Segmentation').values
# 本当はあまり良くないがNanを全て-1で埋める
train_df = label_encoding(train_df).fillna(-1)
# 顧客のユニークなIDを含むとノイズになるのでカラムを削除する
train_df = train_df.drop("ID", axis=1)

# 学習データと検証用データに分ける
X_train, X_val, y_train, y_val = train_test_split(train_df, y, test_size=0.1, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 検証用データで予測
y_val_hat = clf.predict(X_val)

# averageという引数に'weighted'という文字列を渡すと
# Weighted recallを計算する
print("customer-segmentationデータセットでのWeighted Recall:", round(recall_score(y_val, y_val_hat, average='weighted'), 3))

## Micro F1スコア

In [None]:
from sklearn.datasets import make_classification
from sklearn.metrics import f1_score

# ダミーデータを作る
X, y = make_classification(n_samples = 10000, random_state=42, n_classes=3, n_clusters_per_class=1, weights = [0.899, 0.1, 0.001])
X_train, X_test, y_train, y_val_dummy = train_test_split(
        X, y, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 分類に用いられるクラス名を定義する
labels = [0, 1, 2]
# 検証用データで予測
y_val_dummy_hat = clf.predict(X_test)

# averageという引数に'micro'という文字列を渡すと
# Micro F1スコアを計算する
print("不均衡データでのMicro F1スコア:", round(f1_score(y_val_dummy, y_val_dummy_hat, average='micro'), 3))

In [None]:
# 学習用データの読み込み
train_df = pandas.read_csv("../data/customer-segmentation/train.csv")

# 目的変数を抽出
y = train_df.pop('Segmentation').values
# 本当はあまり良くないがNanを全て-1で埋める
train_df = label_encoding(train_df).fillna(-1)
# 顧客のユニークなIDを含むとノイズになるのでカラムを削除する
train_df = train_df.drop("ID", axis=1)

# 学習データと検証用データに分ける
X_train, X_val, y_train, y_val = train_test_split(train_df, y, test_size=0.1, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 検証用データで予測
y_val_hat = clf.predict(X_val)

# averageという引数に'micro'という文字列を渡すと
# Micro F1スコアを計算する
print("customer-segmentationデータセットでのMicro F1スコア:", round(f1_score(y_val, y_val_hat, average='micro'), 3))

## Macro F1スコア

In [None]:
from sklearn.datasets import make_classification
from sklearn.metrics import f1_score

# ダミーデータを作る
X, y = make_classification(n_samples = 10000, random_state=42, n_classes=3, n_clusters_per_class=1, weights = [0.899, 0.1, 0.001])
# 学習データと検証用データに分ける
X_train, X_test, y_train, y_val_dummy = train_test_split(
        X, y, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 分類に用いられるクラス名を定義する
labels = [0, 1, 2]
# 検証用データで予測
y_val_dummy_hat = clf.predict(X_test)

# averageという引数に'macro'という文字列を渡すと
# Macro F1スコアを計算する
print("不均衡データでのMacro F1スコア:", round(f1_score(y_val_dummy, y_val_dummy_hat, average='macro'), 3))

In [None]:
# 学習用データの読み込み
train_df = pandas.read_csv("../data/customer-segmentation/train.csv")

# 目的変数を抽出
y = train_df.pop('Segmentation').values
# 本当はあまり良くないがNanを全て-1で埋める
train_df = label_encoding(train_df).fillna(-1)
# 顧客のユニークなIDを含むとノイズになるのでカラムを削除する
train_df = train_df.drop("ID", axis=1)

# 学習データと検証用データに分ける
X_train, X_val, y_train, y_val = train_test_split(train_df, y, test_size=0.1, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 検証用データで予測
y_val_hat = clf.predict(X_val)

# averageという引数に'macro'という文字列を渡すと
# Macro F1スコアを計算する
print("customer-segmentationデータセットでのMacro F1スコア:", round(f1_score(y_val, y_val_hat, average='macro'), 3))

## Weighted F1スコア

In [None]:
from sklearn.metrics import f1_score

# ダミーデータを作る
X, y = make_classification(n_samples = 10000, random_state=42, n_classes=3, n_clusters_per_class=1, weights = [0.899, 0.1, 0.001])
# 学習データと検証用データに分ける
X_train, X_test, y_train, y_val_dummy = train_test_split(
        X, y, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 分類に用いられるクラス名を定義する
labels = [0, 1, 2]
# 検証用データで予測
y_val_dummy_hat = clf.predict(X_test)

# averageという引数に'weighted'という文字列を渡すと
# Weighted f1_scoreを計算する
print("不均衡データでのWeighted F1スコア:", round(f1_score(y_val_dummy, y_val_dummy_hat, average='weighted'), 3))

In [None]:
# 学習用データの読み込み
train_df = pandas.read_csv("../data/customer-segmentation/train.csv")

# 目的変数を抽出
y = train_df.pop('Segmentation').values
# 本当はあまり良くないがNanを全て-1で埋める
train_df = label_encoding(train_df).fillna(-1)
# 顧客のユニークなIDを含むとノイズになるのでカラムを削除する
train_df = train_df.drop("ID", axis=1)

# 学習データと検証用データに分ける
X_train, X_val, y_train, y_val = train_test_split(train_df, y, test_size=0.1, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 検証用データで予測
y_val_hat = clf.predict(X_val)

# averageという引数に'weighted'という文字列を渡すと
# Weighted f1_scoreを計算する
print("customer-segmentationデータセットでのWeighted F1スコア:", round(f1_score(y_val, y_val_hat, average='weighted'), 3))

## 評価指標を求める上で便利な関数

In [None]:
from sklearn.metrics import classification_report

# 学習用データの読み込み
train_df = pandas.read_csv("../data/customer-segmentation/train.csv")

# 目的変数を抽出
y = train_df.pop('Segmentation').values
# 本当はあまり良くないがNanを全て-1で埋める
train_df = label_encoding(train_df).fillna(-1)
# 顧客のユニークなIDを含むとノイズになるのでカラムを削除する
train_df = train_df.drop("ID", axis=1)

# 学習データと検証用データに分ける
X_train, X_val, y_train, y_val = train_test_split(train_df, y, test_size=0.1, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 検証用データで予測
y_val_hat = clf.predict(X_val)

# 分類結果の評価レポートを表示する
print(classification_report(y_val, y_val_hat))

## Micro ROC-AUC

In [None]:
import numpy as np
from sklearn.metrics import roc_curve, auc
from sklearn.preprocessing import label_binarize
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification

# ダミーデータを作る
X, y = make_classification(n_samples = 10000, random_state=42, n_classes=3, n_clusters_per_class=1, weights = [0.899, 0.1, 0.001])
# 学習データと検証用データに分ける
X_train, X_test, y_train, y_val_dummy = train_test_split(
        X, y, random_state=42)

# 学習モデルには確率値を出力しやすいロジスティック回帰を用いる
clf = LogisticRegression(random_state=0)
clf.fit(X_train, y_train)

# クラスごとに0,1のバイナリにして、roc_curveを求めるために
# OneHotEncodingを事前に行う
# OneHotEncodingがやっていることは以下の通り
# 入力: [0, 1, 2] -> 出力: [[1, 0, 0], [0, 1, 0], [0, 0, 1]]
y_val_dummy_hat = clf.predict_proba(X_test)
y_val_dummy_one_hot = label_binarize(y_val_dummy, classes=clf.classes_)

# 各クラスのroc_curveを算出する
fpr = dict()
tpr = dict()
roc_auc = dict()
# クラスごとのROC曲線の横軸(FPR)と縦軸(TPR)に加え、それらを用いてAUCを算出
for i in range(len(clf.classes_)):
    # クラスごとのROC曲線の横軸(FPR)と縦軸(TPR)の計算
    fpr[i], tpr[i], _ = roc_curve(y_val_dummy_one_hot[:, i], y_val_dummy_hat[:, i])
    # クラスごとのROC-AUCを算出
    roc_auc[i] = auc(fpr[i], tpr[i])

# ROC曲線の横軸(FPR)と縦軸(TPR)を算出(Micro)
fpr["micro"], tpr["micro"], _ = roc_curve(y_val_dummy_one_hot.ravel(), y_val_dummy_hat.ravel())
# Micro ROC-AUCを算出
roc_auc["micro"] = auc(fpr["micro"], tpr["micro"])

plt.figure()
# 辞書のキーごとにグラフを描画
for index, class_key in enumerate(fpr):
    # キーがmicroの時はグラフの凡例にclassをつけない
    if class_key == "micro":
        label = "{} ROC curve (area = {:.2})".format(class_key, roc_auc[class_key])
    else:
        label = "class {} ROC curve (area = {:.2})".format(clf.classes_[class_key], roc_auc[class_key])
    # ROC曲線を描画する
    plt.plot(fpr[class_key], tpr[class_key], label=label)

# AUCが0.5の時の直線を点線で描画
plt.plot([0, 1], [0, 1], 'k--')
# x軸の描画範囲を0~1にする
plt.xlim([0.0, 1.0])
# y軸の描画範囲を0~1にする
plt.ylim([0.0, 1.0])
# x軸とy軸に名前をつける
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
# 凡例をグラフの右下部分に表示する
plt.legend(loc="lower right")
# グラフを表示する
plt.show()

In [None]:
# 学習用データの読み込み
train_df = pandas.read_csv("../data/customer-segmentation/train.csv")

# 目的変数を抽出
y = train_df.pop('Segmentation').values
# 本当はあまり良くないがNanを全て-1で埋める
train_df = label_encoding(train_df).fillna(-1)
# 顧客のユニークなIDを含むとノイズになるのでカラムを削除する
train_df = train_df.drop("ID", axis=1)

# 学習データと検証用データに分ける
X_train, X_val, y_train, y_val = train_test_split(train_df, y, test_size=0.1, random_state=42)

# 学習モデルには確率値を出力しやすいロジスティック回帰を用いる
clf = LogisticRegression(random_state=0)
clf.fit(X_train, y_train)

# クラスごとに0,1のバイナリにして、roc_curveを求めるために
# OneHotEncodingを事前に行う
# OneHotEncodingがやっていることは以下の通り
# 入力: ["A", "B"] -> 出力: [[1, 0, 0, 0], [0, 1, 0, 0]]
y_val_proba_hat = clf.predict_proba(X_val)
y_val_one_hot = label_binarize(y_val, classes=clf.classes_)

# 各クラスのroc_curveを算出する
fpr = dict()
tpr = dict()
roc_auc = dict()
# クラスごとのROC曲線の横軸(FPR)と縦軸(TPR)に加え、それらを用いてAUCを算出
for i in range(len(clf.classes_)):
    # クラスごとのROC曲線の横軸(FPR)と縦軸(TPR)の計算
    fpr[i], tpr[i], _ = roc_curve(y_val_one_hot[:, i], y_val_proba_hat[:, i])
    # クラスごとのROC-AUCを算出
    roc_auc[i] = auc(fpr[i], tpr[i])

# Micro ROC-AUCを算出する
fpr["micro"], tpr["micro"], _ = roc_curve(y_val_one_hot.ravel(), y_val_proba_hat.ravel())
roc_auc["micro"] = auc(fpr["micro"], tpr["micro"])

plt.figure()
# 辞書のキーごとにグラフを描画
for index, class_key in enumerate(fpr):
    # キーがmicroのときはグラフの凡例にclassをつけない
    if class_key == "micro":
        label = "{} ROC curve (area = {:.2})".format(class_key, roc_auc[class_key])
    else:
        label = "class {} ROC curve (area = {:.2})".format(clf.classes_[class_key], roc_auc[class_key])
    # ROC曲線を描画する
    plt.plot(fpr[class_key], tpr[class_key], label=label)

# AUCが0.5のときの直線を点線で描画
plt.plot([0, 1], [0, 1], 'k--')
# x軸の描画範囲を0~1にする
plt.xlim([0.0, 1.0])
# y軸の描画範囲を0~1にする
plt.ylim([0.0, 1.0])
# x軸とy軸に名前をつける
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
# 凡例をグラフの右下部分に表示する
plt.legend(loc="lower right")
# グラフを表示する
plt.show()

## Macro ROC-AUC

In [None]:
import numpy as np
from sklearn.metrics import roc_curve, auc
from sklearn.preprocessing import label_binarize
from sklearn.linear_model import LogisticRegression

# ダミーデータ
X, y = make_classification(n_samples = 10000, random_state=42, n_classes=3, n_clusters_per_class=1, weights = [0.899, 0.1, 0.001])
X_train, X_test, y_train, y_val_dummy = train_test_split(
        X, y, random_state=42)

# 学習モデルには確率値を出力しやすいロジスティック回帰を用いる
clf = LogisticRegression(random_state=0)
clf.fit(X_train, y_train)

# クラスごとに0,1のバイナリにして、roc_curveを求めるために
# OneHotEncodingを事前に行う
# OneHotEncodingがやっていることは以下の通り
# 入力: ["A", "B"] -> 出力: [[1, 0, 0, 0], [0, 1, 0, 0]]
y_val_dummy_hat = clf.predict_proba(X_test)
y_val_dummy_one_hot = label_binarize(y_val_dummy, classes=clf.classes_)

# 各クラスのroc_curveを算出する
fpr = dict()
tpr = dict()
roc_auc = dict()
# クラスごとのROC曲線の横軸(FPR)と縦軸(TPR)に加え、それらを用いてAUCを算出
for i in range(len(clf.classes_)):
    # クラスごとのROC曲線の横軸(FPR)と縦軸(TPR)の計算
    fpr[i], tpr[i], _ = roc_curve(y_val_dummy_one_hot[:, i], y_val_dummy_hat[:, i])
    # クラスごとのROC-AUCを算出
    roc_auc[i] = auc(fpr[i], tpr[i])

# Micro ROC-AUCを算出する
fpr["micro"], tpr["micro"], _ = roc_curve(y_val_dummy_one_hot.ravel(), y_val_dummy_hat.ravel())
roc_auc["micro"] = auc(fpr["micro"], tpr["micro"])

n_classes = len(clf.classes_)
# 各クラスで存在する点のx座標を重複を除いて取得する
# 重複を削除している理由は各x座標での平均値を取る計算をする際に、
# 重複しているものがあった場合同じx座標で無駄に平均値を算出してしまうから
# 例えば、重複があるとこれで集まったx座標が[0.5, 0.5, 0.7]だったとき、
# 0.5の平均値を2度算出することになってしまう。
all_fpr = np.unique(np.concatenate([fpr[i] for i in range(n_classes)]))

# 平均tprを入れるarrayを定義
mean_tpr = np.zeros_like(all_fpr)
for i in range(n_classes):
    # 各クラスでall_fprに存在している線形補完して、
    # x座標と同じx座標の時のy座標を全て足し合わせる。
    mean_tpr += np.interp(all_fpr, fpr[i], tpr[i])

# クラス数で割ることでROC曲線の平均値を算出する
mean_tpr /= n_classes

# FPRにはy座標の算出に利用したx座標を入れる
fpr["macro"] = all_fpr
# TPRにROC曲線の平均値を入れる
tpr["macro"] = mean_tpr
# AUCを算出する
roc_auc["macro"] = auc(fpr["macro"], tpr["macro"])

plt.figure()
# Micro ROC曲線を描画
plt.plot(fpr["micro"], tpr["micro"],
         label='micro-average ROC curve (area = {0:0.2f})'
               ''.format(roc_auc["micro"]),
         linewidth=2)

# Macro ROC曲線を描画
plt.plot(fpr["macro"], tpr["macro"],
         label='macro-average ROC curve (area = {0:0.2f})'
               ''.format(roc_auc["macro"]),
         linewidth=2)

# 各クラスのROC曲線を描画
for i in range(n_classes):
    plt.plot(fpr[i], tpr[i], label='ROC curve of class {0} (area = {1:0.2f})'
                                   ''.format(clf.classes_[i], roc_auc[i]))

# AUCが0.5の時の直線を点線で描画
plt.plot([0, 1], [0, 1], 'k--')
# x軸の描画範囲を0~1にする
plt.xlim([0.0, 1.0])
# y軸の描画範囲を0~1にする
plt.ylim([0.0, 1.0])
# x軸とy軸に名前をつける
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
# 凡例をグラフの右下部分に表示する
plt.legend(loc="lower right")
# グラフを表示する
plt.show()

In [None]:
# 学習用データの読み込み
train_df = pandas.read_csv("../data/customer-segmentation/train.csv")

# 目的変数を抽出
y = train_df.pop('Segmentation').values
# 本当はあまり良くないがNanを全て-1で埋める
train_df = label_encoding(train_df).fillna(-1)
# 顧客のユニークなIDを含むとノイズになるのでカラムを削除する
train_df = train_df.drop("ID", axis=1)

# 学習データと検証用データに分ける
X_train, X_val, y_train, y_val = train_test_split(train_df, y, test_size=0.1, random_state=42)

# 学習モデルには確率値を出力しやすいロジスティック回帰を用いる
clf = LogisticRegression(random_state=0)
clf.fit(X_train, y_train)

# クラスごとに0,1のバイナリにして、roc_curveを求めるために
# OneHotEncodingを事前に行う
# OneHotEncodingがやっていることは以下の通り
# 入力: ["A", "B"] -> 出力: [[1, 0, 0, 0], [0, 1, 0, 0]]
y_val_proba_hat = clf.predict_proba(X_val)
y_val_one_hot = label_binarize(y_val, classes=clf.classes_)

# 各クラスのroc_curveを算出する
fpr = dict()
tpr = dict()
roc_auc = dict()
# クラスごとのROC曲線の横軸(FPR)と縦軸(TPR)に加え、それらを用いてAUCを算出
for i in range(len(clf.classes_)):
    # クラスごとのROC曲線の横軸(FPR)と縦軸(TPR)の計算
    fpr[i], tpr[i], _ = roc_curve(y_val_one_hot[:, i], y_val_proba_hat[:, i])
    # クラスごとのROC-AUCを算出
    roc_auc[i] = auc(fpr[i], tpr[i])

# Micro ROC-AUCを算出する
fpr["micro"], tpr["micro"], _ = roc_curve(y_val_one_hot.ravel(), y_val_proba_hat.ravel())
roc_auc["micro"] = auc(fpr["micro"], tpr["micro"])

n_classes = len(clf.classes_)
# 各クラスで存在する点のx座標を重複を除いて取得する
# 重複を削除している理由は各x座標での平均値を取る計算をする際に、
# 重複しているものがあった場合同じx座標で無駄に平均値を算出してしまうから
# 例えば、重複があるとこれで集まったx座標が[0.5, 0.5, 0.7]だったとき、
# 0.5の平均値を2度算出することになってしまう。
all_fpr = np.unique(np.concatenate([fpr[i] for i in range(n_classes)]))

# 平均tprを入れるarrayを定義
mean_tpr = np.zeros_like(all_fpr)
for i in range(n_classes):
    # 各クラスでall_fprに存在している線形補完して、
    # x座標と同じx座標の時のy座標を全て足し合わせる。
    mean_tpr += np.interp(all_fpr, fpr[i], tpr[i])

# クラス数で割ることでROC曲線の平均値を算出する
mean_tpr /= n_classes

# FPRにはy座標の算出に利用したx座標を入れる
fpr["macro"] = all_fpr
# TPRにROC曲線の平均値を入れる
tpr["macro"] = mean_tpr
# AUCを算出する
roc_auc["macro"] = auc(fpr["macro"], tpr["macro"])

plt.figure()
# Micro ROC曲線を描画
plt.plot(fpr["micro"], tpr["micro"],
         label='micro-average ROC curve (area = {0:0.2f})'
               ''.format(roc_auc["micro"]),
         linewidth=2)

# Macro ROC曲線を描画
plt.plot(fpr["macro"], tpr["macro"],
         label='macro-average ROC curve (area = {0:0.2f})'
               ''.format(roc_auc["macro"]),
         linewidth=2)

# 各クラスのROC曲線を描画
for i in range(n_classes):
    plt.plot(fpr[i], tpr[i], label='ROC curve of class {0} (area = {1:0.2f})'
                                   ''.format(clf.classes_[i], roc_auc[i]))

# AUCが0.5のときの直線を点線で描画
plt.plot([0, 1], [0, 1], 'k--')
# x軸の描画範囲を0~1にする
plt.xlim([0.0, 1.0])
# y軸の描画範囲を0~1にする
plt.ylim([0.0, 1.0])
# x軸とy軸に名前をつける
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
# 凡例をグラフの右下部分に表示する
plt.legend(loc="lower right")
# グラフを表示する
plt.show()

## customer-segmentation データセットで作成したモデルを評価する上で最適な評価指標

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score

# 学習用データの読み込み
train_df = pandas.read_csv("../data/customer-segmentation/train.csv")

# 目的変数を抽出
y = train_df.pop('Segmentation').values
# 本当はあまり良くないがNanを全て-1で埋める
train_df = label_encoding(train_df).fillna(-1)
# 顧客のユニークなIDを含むとノイズになるのでカラムを削除する
train_df = train_df.drop("ID", axis=1)

# 学習データと検証用データに分ける
X_train, X_val, y_train, y_val = train_test_split(train_df, y, test_size=0.1, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 検証用データで予測
y_val_hat = clf.predict(X_val)
print("precision: ", precision_score(y_val, y_val_hat, average=None))
print("recall: ", recall_score(y_val, y_val_hat, average=None))
print("f1: ", f1_score(y_val, y_val_hat, average=None))

## ビジネスインパクトの期待値を計算する

In [None]:
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split

from sklearn.preprocessing import LabelEncoder
import seaborn as sns
import pandas
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix

from sklearn.model_selection import train_test_split

# 文字列や数値で表されたラベルを0~(ラベル種類数-1)に変換する関数
def label_encoding(df):
    object_type_column_list = [c for c in df.columns if df[c].dtypes=='object']
    for object_type_column in object_type_column_list:
        label_encoder = LabelEncoder()
        df[object_type_column] = label_encoder.fit_transform(df[object_type_column])
    return df

# 学習用データの読み込み
train_df = pandas.read_csv("../data/customer-segmentation/train.csv")

# 目的変数を抽出
y = train_df.pop('Segmentation').values
# 本当はあまり良くないがNanを全て-1で埋める
train_df = label_encoding(train_df).fillna(-1)
# 顧客のユニークなIDを含むとノイズになるのでカラムを削除する
train_df = train_df.drop("ID", axis=1)

# 学習データと検証用データに分ける
X_train, X_val, y_train, y_val = train_test_split(train_df, y, test_size=0.1, random_state=42)

# モデルは決定木を利用する
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X_train, y_train)

# 検証用データで予測
y_val_hat = clf.predict(X_val)

# 混同行列を作成
conf_matrix = confusion_matrix(y_val, y_val_hat)

# 分類に用いられるクラス名を定義する
labels = ["A", "B", "C", "D"]
# コスト行列を設定
cost_matrix = np.array([[1000, 0, 0, 0], [0, 4000, 0, 0], [0, 0, 2000, 0], [0, 0, 0, 0]])
# 混同行列と対応するコスト行列の要素の積を求めて各要素ごとの利益を計算し、最後に要素ごとの合計を計算することで利益を計算する
benefit = (pandas.DataFrame(conf_matrix, index=labels, columns=labels).values * cost_matrix).sum()
print("ビジネスインパクトの期待値:", benefit, "円")

In [None]:
# コスト行列を設定
cost_matrix = np.array([[1000, 0, 0, 0], [0, 4000, 0, 0], [0, 0, 2000, 0], [0, 0, 0, 0]])
# 混同行列の各要素の人数の割合を求める
conf_matrix_rate = conf_matrix / conf_matrix.sum()
# 混同行列の各要素の人数の割合と対応するコスト行列の要素の積を求めて各要素ごとの利益を計算し、最後に要素ごとの合計を計算することで利益を計算する
benefit = (pandas.DataFrame(conf_matrix_rate, index=labels, columns=labels).values * cost_matrix).sum()
print("1人あたりのビジネスインパクトの期待値:", round(benefit, 2), "円")
print("10000人に紹介メールを送るときのビジネスインパクトの期待値:", round(benefit * 10000), "円")