# Python機械学習クックブック

In [1]:
import numpy as np

from sklearn.linear_model import LogisticRegression

from sklearn import datasets
from sklearn.preprocessing import StandardScaler

## 2クラス分類機の訓練

In [2]:
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 特徴量を標準化
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

# ロジスティック回帰器を作成
logistic_regression = LogisticRegression(random_state=0)

# ロジスティック回帰器を訓練
model = logistic_regression.fit(features_standardized, target)

# 新しい観測値を作成
new_observation = [[.5, .5, .5, .5]]

# クラスを予測
print(model.predict(new_observation))

# 予測確率を表示
print(model.predict_proba(new_observation))

[1]
[[0.01982185 0.74491886 0.23525928]]


##

## 多クラス分類機の訓練

In [5]:
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 特徴量を標準化
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

# ロジスティック回帰器を作成(1対その他法)
logistic_regression = LogisticRegression(random_state=0, multi_class="ovr")

# ロジスティック回帰器を訓練
model = logistic_regression.fit(features_standardized, target)


## 正則化によるバリアンスの削減

In [8]:
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 特徴量を標準化
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

# ロジスティック回帰器を作成
logistic_regression = LogisticRegression(penalty="l2", C=10, random_state=0,n_jobs=-1)

# ロジスティック回帰器を訓練
model = logistic_regression.fit(features_standardized, target)

## 大規模データに対するクラス分類器の訓練

In [10]:
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 特徴量を標準化
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

# ロジスティック回帰器を作成
# sag:確率的平均勾配降下法
logistic_regression = LogisticRegression(random_state=0, solver="sag") 

# ロジスティック回帰器を訓練
model = logistic_regression.fit(features_standardized, target)

## クラスサイズが不均衡な場合の取り扱い

In [11]:
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 最初の40個の観測値を削除して、クラスを不均衡にする
features = features[40:,:]
target = target[40:]

# クラスを0と1にする
target = np.where((target == 0), 0, 1)

# 特徴量を標準化
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

# ロジスティック回帰器を作成
logistic_regression = LogisticRegression(random_state=0, class_weight="balanced")

# ロジスティック回帰器を訓練
logistic_regression.fit(features_standardized, target)