In [1]:
import pandas as pd
import numpy as np
from numpy.random import seed
from matplotlib import pyplot as plt
# ジュピターノートブック上でグラフを表示させるための処理
%matplotlib inline

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# ロジスティック回帰分類器

In [21]:
class LogisticRegressionMH(object):
    '''
    ロジスティック回帰分類器
    
    パラメータ
    =========
    eta : float
           学習率（0.0より大きく1.0以下の値）
    n_iter : int
            トレーニングデータのトレーニング回数
    
    属性
    =========
    w_ : 1次元配列
            適合後の重み
    errors_ : リスト
            各エポックでの誤分類数
    shuffle : bool （デフォルト : True）
            循環を回避するために各エポックでトレーニングデータをシャッフル
    random_state : int （デフォルト : None）
            シャッフルに使用するランダムステートを設定し、重みを初期化
            
    '''
    def __init__(self, eta=0.01, n_iter=10, shuffle=True, random_state=None):
        # 学習の初期化
        self.eta = eta
        
        # トレーニング回数の初期化
        self.n_iter = n_iter
        
        # 重みの初期化フラグはFalseに設定
        self.w_initialized = False
        
        # 各エポックでトレーニングデータをシャッフルするかどうかのフラグを初期化
        self.shuffle = shuffle
        
        # 引数random_stateが指定された場合は乱数種を設定
        if random_state:
            seed(random_state)
    
    def fit(self, X, y):
        '''
        トレーニングデータに適合させる
        
        パラメータ
        =========
        X : {配列のようなデータ構造}、shape = [n_samples, n_features]
                トレーニングデータ
        y : 配列のようなデータ構造、shape = [n_samples]
                目的変数
        
        戻り値
        =========
        self : object
        '''
        # 重みベクトルの生成
        self.w_ = np.zeros(1 + X.shape[1])
        
        # コストを格納するリストの生成
        self.cost_ = []
        
        # トレーニング回数分トレーニングデータを反復
        for i in range(self.n_iter):
            # i番目の時点での予測値(y_val)を取得
            y_val = self.activation(X)
            
            # 誤差を取得
            errors = (y - y_val)
            
            # 対数尤度の最大化
            ## wj := wj + ηΣi(yi - φ(zi))*xij (j = 1, ... , m)
            neg_grad = X.T.dot(errors) # Σ(yi - φ(zi))*xijに該当する部分
            self.w_[1:] += self.eta * neg_grad # インデックス1 ~ mの重み
            self.w_[0] += self.eta * errors.sum() # インデックス0の重みs
            
            # エポックごとのトレーニングサンプルをすべて分類するコスト
            ## 個々のトレーニングサンプルを評価した後に重みを更新するのではなく、トレーニングデータセット全体を用いて勾配を計算する
            self.cost_.append(self._logit_cost(y, y_val))
            
        return self
 
    def _logit_cost(self, y, y_val):
        '''
         コスト関数
         J(w) = Σ [ - yi*log(φ(zi)) - (1 - yi)*log(1 - φ(zi))
        '''
        logit = -y.dot(np.log(y_val) - (1 - y).dot(np.log(1 - y_val)))
        return logit
        
    def _sigmoid(self, z):
        '''
        シグモイド関数
        '''
        return 1.0 / (1.0 + np.exp(-z))

        
    def net_input(self, X):
        '''
        総入力を計算
        '''
        return np.dot(X, self.w_[1:]) + self.w_[0]
  

    def activation(self, X):
        '''
        線形活性化関数の出力を計算
        '''
        z = self.net_input(X)
        return self._sigmoid(z)
    
    def predict_proba(self, X):
        return self.activation(X)
        
    def predict(self, X):
        '''
        1ステップ後のクラスラベルを返す
        量子化器: 指定した条件を元に2値を返す。
        '''
        return np.where(self.activation(X) >= 0.5, 1, 0)

## Irisデータセットの取得と整形

In [14]:
# Irisデータセットをロード
iris = datasets.load_iris()

# 3, 4列目の特徴量を抽出
X = iris.data[:, [2, 3]]

# クラスラベルを取得
y = iris.target

# トレーニングデータとテストデータに分割
## 全体の30%をテストデータにする
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

# Irisデータセットを標準化
sc = StandardScaler()

# トレーニングデータの平均と標準偏差を計算
sc.fit(X_train)

# 平均と標準偏差を用いて標準化
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

## ロジスティック回帰分類器にデータを適用

In [22]:
lg_mh = LogisticRegressionMH(n_iter=15, eta=0.01, random_state=1)

In [23]:
lg_mh.fit(X_train_std, y_train)

<__main__.LogisticRegressionMH at 0x1a20b4fc10>

In [24]:
lg_mh.cost_

[457.477139169564,
 9507.622352823972,
 15992.29291106732,
 21755.666911591743,
 27215.73329233925,
 32522.56964303489,
 37745.15196335116,
 42919.04852374847,
 48063.76724524961,
 53190.428778023095,
 58305.55930850069,
 63413.089157755596,
 68515.4472430747,
 73614.17563893483,
 78710.28134295867]

In [18]:
from sklearn.linear_model import LogisticRegression

# ロジスティック回帰のインスタンスを生成
lr = LogisticRegression(random_state=1, multi_class='ovr')

# トレーニングデータをモデルに適合させる
lr.fit(X_train_std, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=1, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [19]:
lr.predict(X_test_std)

array([2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 2, 1,
       0, 0, 2, 0, 0, 1, 1, 0, 2, 1, 0, 2, 2, 1, 0, 2, 1, 1, 2, 0, 2, 0,
       0])

In [20]:
lg_mh.predict(X_test_std)

array([ 1,  1, -1,  1, -1,  1, -1,  1,  1,  1,  1,  1,  1,  1,  1, -1,  1,
        1, -1, -1,  1,  1, -1, -1,  1, -1, -1,  1,  1, -1,  1,  1, -1,  1,
        1,  1, -1,  1,  1,  1,  1, -1,  1, -1, -1])