<a href="https://colab.research.google.com/github/hirokimituya/book_create-profitable-AI-with-Python/blob/main/ch04_04_estimate.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 4.4 評価

In [1]:
# 日本語化ライブラリ導入
!pip install japanize-matplotlib | tail -n 1

Successfully installed japanize-matplotlib-1.1.3


In [2]:
# 共通事前処理

# 余分なワーニングを非表示にする
import warnings
warnings.filterwarnings('ignore')

# 必要ライブラリのimport
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# matplotlib日本語化対応
import japanize_matplotlib

# データフレーム表示用関数
from IPython.display import display

# 表示オプション調整
# numpyの浮動小数点の表示精度
np.set_printoptions(suppress=True, precision=4)
# pandasでの浮動小数点の表示精度
pd.options.display.float_format = '{:.4f}'.format
# データフレームですべての項目を表示
pd.set_option("display.max_columns",None)
# グラフのデフォルトフォント指定
plt.rcParams["font.size"] = 14
# 乱数の種
random_seed = 123

## 4.4.1 混同行列

In [3]:
from pickle import load
# データ読み込みからデータ分割まで

# ライブラリのimport
from sklearn.datasets import load_breast_cancer

# データのロード
cancer = load_breast_cancer()

# 入力データx
x = cancer.data

# 正解データy
# 良性: 0 悪性: 1に値を変換する
y = 1 - cancer.target

# 入力データを2次元に絞り込み
x2 = x[:, :2]

# (4)データ分割
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x2, y, train_size=0.7, test_size=0.3,
                                                    random_state=random_seed)

In [4]:
# アルゴリズム選択から評価まで

# アルゴリズム選択（ロジスティック回帰）
from sklearn.linear_model import LogisticRegression
algorithm = LogisticRegression(random_state=random_seed)

# 学習
algorithm.fit(x_train, y_train)

# 予測
y_pred = algorithm.predict(x_test)

# 評価
score = algorithm.score(x_test, y_test)

# 結果確認
print(f'score: {score:.4f}')

score: 0.8772


In [5]:
# 混同行列の計算

# 必要なライブラリの取り込み
from sklearn.metrics import confusion_matrix

# 混同行列の生成
# y_test: 検証データの正解データ
# y_pred: 検証データの予測結果
matrix = confusion_matrix(y_test, y_pred)

# 結果確認
print(matrix)

[[101   2]
 [ 19  49]]


In [6]:
# 混同行列表示用関数

def make_cm(matrix, columns):
    # matrix numpy配列

    # columns項目名リスト
    n = len(columns)

    # '正解データ'をn回繰り返すリスト生成
    act = ['正解データ'] * n
    pred = ['予測結果'] * n

    # データフレーム生成
    cm = pd.DataFrame(matrix, columns=[pred, columns], index=[act, columns])
    
    return cm

In [7]:
# make_cmを使った混同行列の表示
cm = make_cm(matrix, ['良性', '悪性'])
display(cm)

Unnamed: 0_level_0,Unnamed: 1_level_0,予測結果,予測結果
Unnamed: 0_level_1,Unnamed: 1_level_1,良性,悪性
正解データ,良性,101,2
正解データ,悪性,19,49


## 4.4.2 精度・適合率・再現率・F値