# 正則化オプションの効果確認

scikit-learn のロジスティック回帰モジュールに正規化オプションを指定し、実行させる例を下記に掲載いたします。

使い方および効果としては、


- class_weight（インスタンス生成時引数）

  クラスごとに重み付けを与える
  （クラス＝質問文から選択された回答文と等価）

  <b>オーバーサンプリング気味のクラスに対し、ペナルティを重くし、該当クラスが誤選択されることを回避</b>させる効果があります。


- sample_weight（学習実行時引数）

  訓練データごとに重み付けを与える
  （訓練データ＝質問文１件と等価）

  <b>特異な特徴をもつ訓練データが、同一クラスに混在する場合、ペナルティを重くし、該当クラスが誤選択されることを回避</b>させる効果があります。


となるかと存じます。


こちらの例では、効果がわかりやすくなるように、あえて極端な例を設定して実行させています。

なにとぞ、ご容赦ください。

## (1) class_weight の効果確認

### テスト準備

長いので適宜読み飛ばしていただければ幸いです

In [1]:
from numpy import array
from scipy.sparse.csr import csr_matrix
tf_vector_array = array([
    [1, 0, 0, 0, 1], # １番目のクラス
    [1, 0, 0, 0, 1], #（特徴として、1番目の特徴語が必ず存在）
    [1, 0, 0, 2, 0], # オーバーサンプリングの例として、他のクラスの５倍のレコードを用意しています。
    [1, 1, 0, 0, 1],
    [1, 0, 0, 0, 1],
    [1, 0, 0, 1, 0],
    [1, 1, 1, 0, 1],
    [1, 0, 0, 0, 1],
    [1, 0, 1, 1, 0],
    [1, 0, 1, 1, 0],
    [1, 0, 0, 1, 0],
    [1, 1, 0, 0, 1],
    [1, 0, 0, 1, 1],
    [1, 0, 1, 0, 1],
    [1, 0, 0, 1, 0],

    [0, 1, 0, 1, 0], # ２番目のクラス
    [0, 1, 0, 1, 0], #（特徴として、1,3,5番目の特徴語が欠落）
    [0, 1, 0, 1, 0],

    [0, 0, 1, 1, 0], # ３番目のクラス
    [0, 0, 1, 1, 0], # （特徴として、1,2,5番目の特徴語が欠落）
    [0, 0, 1, 1, 0]
    ])
tf_vector = csr_matrix(tf_vector_array) # これは特徴語の出現回数リストです。
tf_vector

<21x5 sparse matrix of type '<class 'numpy.int64'>'
	with 50 stored elements in Compressed Sparse Row format>

In [2]:
class_vector_array = array([
    1, # １番目のクラス
    1,
    1,
    1,
    1,
    1,
    1,
    1,
    1,
    1,
    1,
    1,
    1,
    1,
    1,

    2, # ２番目のクラス
    2,
    2,

    3, # ３番目のクラス
    3,
    3
    ])
class_vector_array # これは質問文ごとのクラスリスト（分類ラベルリスト）です。

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 3, 3, 3])

### 質問文を作成

訓練データに近い内容にしておきます

In [3]:
tf_vector_array_test = array([
    [1.1, 0, 0, 0, 0], # これはクラス＝１想定
    [0, 0.9, 0, 0, 0], # これはクラス＝２想定（特徴として、1,3,5番目の特徴語が欠落）
    [0, 0, 1.1, 0, 0]  # これはクラス＝３想定（特徴として、1,2,5番目の特徴語が欠落）
    ])
tf_vector_test = csr_matrix(tf_vector_array_test) # これは特徴語の出現回数リストです。
tf_vector_test.toarray()

array([[ 1.1,  0. ,  0. ,  0. ,  0. ],
       [ 0. ,  0.9,  0. ,  0. ,  0. ],
       [ 0. ,  0. ,  1.1,  0. ,  0. ]])

### (1-a) class_weight の指定を省略した場合

#### インスタンスを生成→学習実行

まずは、オーバーサンプリング時の動きをみるため、クラスごとに重み付け定義を、引数として指定しないようにします。

LogisticRegression インスタンスを生成し、学習を実行します。

In [4]:
from sklearn.linear_model import LogisticRegression

logisticRegression_noweight = LogisticRegression(
                        class_weight=None, # <---重み付け定義を指定しない
                        max_iter=100,
                        solver='newton-cg',
                        )
logisticRegression_noweight.fit(tf_vector, class_vector_array)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='newton-cg', tol=0.0001,
          verbose=0, warm_start=False)

#### 予測結果

２番目、３番目の質問に対し、<b>オーバーサンプリングされた１番目のクラスが誤選択されてしまう</b>ことが確認できます。

In [5]:
Zp = logisticRegression_noweight.predict_proba(tf_vector_test)
Zp

array([[ 0.88487469,  0.06026079,  0.05486453],
       [ 0.44667468,  0.4222523 ,  0.13107302],
       [ 0.45818323,  0.10326291,  0.43855386]])

### (1-b) class_weight を指定した場合

クラスごとに重み付け定義を指定します。

In [6]:
class_weight = {# <---ご注意：class_weight は dictionary です
    1: 0.2, # <---他のクラスに対して、５分の１の重み付けがされています 
    2: 1.0,
    3: 1.0
    }
class_weight # これはクラスごとの重み付け定義リストです。

{1: 0.2, 2: 1.0, 3: 1.0}

#### インスタンスを生成→学習実行

class_weight を指定し、学習を実行します。

In [7]:
from sklearn.linear_model import LogisticRegression

logisticRegression = LogisticRegression(
                        penalty ='l2', # <---L2正則化が効くようにします
                        C       = 0.1, # <---正則化の効きを大きくします
                        class_weight=class_weight, # <---重み付け定義を指定
                        max_iter=100,
                        solver='newton-cg',
                        )
logisticRegression.fit(tf_vector, class_vector_array)

LogisticRegression(C=0.1, class_weight={1: 0.2, 2: 1.0, 3: 1.0}, dual=False,
          fit_intercept=True, intercept_scaling=1, max_iter=100,
          multi_class='ovr', n_jobs=1, penalty='l2', random_state=None,
          solver='newton-cg', tol=0.0001, verbose=0, warm_start=False)

#### 予測結果

２番目、３番目の質問に対し、こんどは<b>オーバーサンプリングされた１番目のクラスへの誤選択が回避される</b>ことが確認できます。

In [8]:
Zp = logisticRegression.predict_proba(tf_vector_test)
Zp

array([[ 0.38547003,  0.3078865 ,  0.30664348],
       [ 0.32771352,  0.36460199,  0.30768449],
       [ 0.3282186 ,  0.30238248,  0.36939892]])

## (2) sample_weight の効果確認

### テスト準備

長いので適宜読み飛ばしていただければ幸いです

In [9]:
from numpy import array
from scipy.sparse.csr import csr_matrix
tf_vector_array = array([
    [1, 0, 0, 1, 1], # １番目のクラス
    [1, 0, 0, 1, 1],
    [0, 1, 0, 4, 0], # 特異な特徴をもつ例。このデータだけ４番目の特徴が抜きん出ています。

    [0, 1, 0, 1, 0], # ２番目のクラス
    [0, 1, 0, 1, 0], #（特徴として、1,3,5番目の特徴語が欠落）
    [0, 1, 0, 1, 0],

    [0, 0, 1, 1, 0], # ３番目のクラス
    [0, 0, 1, 1, 0], # （特徴として、1,2,5番目の特徴語が欠落）
    [0, 0, 1, 1, 0]
    ])
tf_vector = csr_matrix(tf_vector_array) # これは特徴語の出現回数リストです。
tf_vector

<9x5 sparse matrix of type '<class 'numpy.int64'>'
	with 20 stored elements in Compressed Sparse Row format>

In [10]:
class_vector_array = array([
    1, # １番目のクラス
    1,
    1,

    2, # ２番目のクラス
    2,
    2,

    3, # ３番目のクラス
    3,
    3
    ])
class_vector_array # これは質問文ごとのクラスリスト（分類ラベルリスト）です。

array([1, 1, 1, 2, 2, 2, 3, 3, 3])

### 質問文を作成

訓練データに近い内容にしておきます

In [11]:
tf_vector_array_test = array([
    [1.3, 0,   0,   1.1, 1],  # これはクラス＝１想定
    [0,   1.2, 0,   4,   0],  # これはクラス＝２想定（ただし４番目の特徴がつよく、クラス１に誤選択される可能性あり）
    [0,   0,   1.1, 0,   0]   # これはクラス＝３想定
    ])
tf_vector_test = csr_matrix(tf_vector_array_test) # これは特徴語の出現回数リストです。
tf_vector_test.toarray()

array([[ 1.3,  0. ,  0. ,  1.1,  1. ],
       [ 0. ,  1.2,  0. ,  4. ,  0. ],
       [ 0. ,  0. ,  1.1,  0. ,  0. ]])

### (2-a) sample_weight の指定を省略した場合

#### インスタンスを生成→学習実行

まずは、際立って特徴が強い訓練データが混在した時の動きをみるため、重み付け定義を引数として指定しないようにします。

LogisticRegression インスタンスを生成し、学習を実行します。

In [12]:
from sklearn.linear_model import LogisticRegression

logisticRegression_noweight = LogisticRegression(
                        penalty ='l2', # <---L2正則化が効くようにします
                        C       = 0.1, # <---正則化の効きを大きくします
                        class_weight=None, # <---クラスごとの重み付け定義は指定しない
                        max_iter=100,
                        solver='newton-cg',
                        )
logisticRegression_noweight.fit(tf_vector, class_vector_array, sample_weight=None)

LogisticRegression(C=0.1, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='newton-cg', tol=0.0001,
          verbose=0, warm_start=False)

#### 予測結果

２番目の質問に対し、２番目のクラスではなく<b>１番目のクラスが誤選択されてしまう</b>ことが確認できます。

In [13]:
Zp = logisticRegression_noweight.predict_proba(tf_vector_test)
Zp

array([[ 0.3867104 ,  0.30419486,  0.30909475],
       [ 0.42434836,  0.31542201,  0.26022964],
       [ 0.26046137,  0.33293679,  0.40660184]])

### (2-b) sample_weight を指定した場合

訓練データごとに重み付け定義を指定します。

In [14]:
sample_weight = array([ # <---ご注意：sample_weight は array です
    1.0,
    1.0,
    0.3, # [0, 1, 0, 4, 0] という特徴を持った訓練データ（クラス＝１）の重み付けを下げます

    1.0,
    1.0,
    1.0,

    1.0,
    1.0,
    1.0
    ])
sample_weight # これは訓練データごとの重み付け定義リストです。

array([ 1. ,  1. ,  0.3,  1. ,  1. ,  1. ,  1. ,  1. ,  1. ])



#### インスタンスを生成→学習

sample_weight を指定し、学習を実行します。

In [15]:
from sklearn.linear_model import LogisticRegression

logisticRegression = LogisticRegression(
                        penalty ='l2', # <---L2正則化が効くようにします
                        C       = 0.1, # <---正則化の効きを大きくします
                        class_weight=None, # <---クラスごとの重み付け定義は指定しない
                        max_iter=100,
                        solver='newton-cg',
                        )
logisticRegression.fit(tf_vector, class_vector_array, sample_weight=sample_weight)

LogisticRegression(C=0.1, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='newton-cg', tol=0.0001,
          verbose=0, warm_start=False)

#### 予測の実行

２番目の質問文に対し、先ほどクラス＝１と回答されたところが、sample_weight 指定により<b>回答が回避されてしまう</b>ことが確認できます。

他の質問文は、概ね想定通りに分類されます。

In [16]:
Zp = logisticRegression.predict_proba(tf_vector_test)
Zp

array([[ 0.34057261,  0.32873334,  0.33069405],
       [ 0.29741429,  0.38663726,  0.31594845],
       [ 0.24232558,  0.3423744 ,  0.41530002]])