<h3>機械学習課題 8 : Logistic Regression ロジスティック回帰 Part 2 - Overall</h3><br/>

<h4>注意 : pythonコードを実行しながら読んでください!</h4><br/>

今回はロジスティック回帰(Logistic Regression)での目的関数(Cost Function)と最急降下法(Gradient Descent)を完成します。

まず、テストの為に、データを持ってきます。データの中身もちょっと調べてみましょう。今回使うデータは、2回のテスト成績$X1$、$X2$から、ある資格取得に成功したのか或いは失敗したのかの結果$Y$をそれぞれ$1$と$0$の値で表す内容になります。

今回の課題で利用予定のライブラリーを全部importしておきますので、ご確認ください。

In [None]:
#import required libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#read learning data X and Y
data = np.loadtxt('ex8data1.txt', delimiter=',')

df = pd.DataFrame(data,columns=['X1 : Exam 1 Score', 'X2 : Exam 2 Score', 'Y => 0 : Failed, 1 : Passed'])
df

<h4>このデータを学習させ、2回のテスト結果から資格取得可否が予測できるAI推論モデルを作ってみます。</h4>

適切な推論モデルの形を理解する為、データをグラフで表示してみましょう。もっと分かりやすくなるはずです。資格取得に成功した場合は赤色のマルで、失敗した場合は青色のバツで表示します。

In [None]:
negative = data[:,2] == 0
positive = data[:,2] == 1

plt.scatter(data[positive][:,0],data[positive][:,1], marker = 'o', c = 'r')
plt.scatter(data[negative][:,0],data[negative][:,1], marker = 'x', c = 'b')

xx = np.arange(30,100)
yy = -1 * xx + 130
plt.plot(xx, yy, c = 'g')

plt.xlabel("X1 : Exam 1 Score")
plt.ylabel("X2 : Exam 2 Score")

<h4>一つ注目してもらいたいのは、真ん中の緑色の線です。</h4>

一応適当に描いてみた線ですが、この線を基準に右と左（或いは上と下）でほとんどのデータが分離されています。この線のように、全体データを二つ以上の違うグループに分離する役割をする線を決定境界 (decision boundary)と呼びましょう。実際には仮定関数を構成している$h(X) = \theta_0 + \theta_1 * X_1 + \theta_2 * X_2 + ... + \theta_n * X_n$自体が決定境界になります。

上に緑色の線は適当に描いた物ですから、完全ではないです。まだ赤いマルが線の下にあったり、青色のバツが線の上にあったりします。これからもっと適切な決定限界を作ってみましょう。

<h4>ここでロジスティック回帰(Logistic Regression)を使った機械学習は適切な決定境界 (decision boundary)を見つけるのと同じ意味です。</h4>

まず、ロジスティック回帰(Logistic Regression)での目的関数(Cost Function)を定義してみましょう。ここでは、回帰分析(Linear Regression)とは違って、学習データの$Y$は$0$或いは$1$にしかならないです。前回学んだシグモイド関数(Sigmoid Function)を考えると

$$g(X) = \hat{Y} = \frac{1}{1 + e^{-h(X)}}$$

1. $Y$が$1$の場合は、$\hat{Y}$も$1$に近づくのが良いので、（近づくというのはコストがミニマムに近づくこと）以下のように表すことが可能です。($\hat{Y}$が$1$になるか、$1$より小さい為、logを計算すると$0$かマイナスになる為、$log$にマイナスを付けています。)

$$Cost = -log{(\hat{Y})} = -log{(g(X))}$$

2. $Y$が$0$の場合は、$\hat{Y}$も$0$に近づくのが良いので、（近づくというのはコストがミニマムに近づくこと）以下のように表すことが可能です。（上と同じ理由で$log$にマイナスを付けています。）

$$Cost = -log{(1 - \hat{Y})} = -log{(1 - g(X))}$$

1と2を合わせると$m$個の学習データに対して、目的関数(Cost Function)は以下のように表すことができます。

$$J = - \frac{1}{m}\sum_{i=1}^m(Y^{i}log{(g(X^{i}))} + (1 - Y^{i})log{(1 - g(X^{i}))})$$

この式でシグマの中には、$Y^{i}$が$1$の場合、$log{(g(X^{i}))}$のみ、$Y^{i}$が$0$の場合、$log{(1 - g(X^{i}))}$のみ残ります。$log$のインプットは1に近づくとゼロに近づきますので、この式で$J$の値をミニマムに近づくようにすれば良いです。

<br/>

次は、最急降下法 (Gradient Descent)です。回帰分析(Linear Regression)の時とほぼ同じです。

$$New \theta_j = Current \theta_j - \alpha * \frac{\Delta}{\Delta \theta_j} J = Current \theta_j - \alpha * \frac{1}{m} * \sum_{i=1}^m(g(X^i) - Y^i)X_j^i$$

<h3>ここで課題です。ロジスティック回帰(Logistic Regression)を用いた機械学習プログラムを作成してみましょう。</h3>

シグモイド関数（Sigmoid Function）、目的関数(Cost Function)、最急降下法 (Gradient Descent)を全部実装してください。必要なライブラリは最初にimportしておきましたので、使ってください。<br/>

<h4>コード作成後、実行すると、自動採点を行います。$Correct$が表示されると成功です。</h4>

<h4>注意：</h4>

- 以下の部分にコードを書いてください。

#------- Coding Start -------
#------- Coding End -------

- 6回目の課題で練習した通り、行列演算を前提とします。（6回目の結果を参考にしても問題ありません。ほぼ同じパターンです。）
- シグモイド関数（Sigmoid Function）は前回の課題で作成したコードを使ってください。
- numpyのexp、dot、log関数を利用してください。
<br/>
https://docs.scipy.org/doc/numpy/reference/generated/numpy.exp.html <br/>
https://docs.scipy.org/doc/numpy/reference/generated/numpy.dot.html <br/>
https://docs.scipy.org/doc/numpy/reference/generated/numpy.log.html

In [None]:
# Change data form for matrix calculation
X = np.c_[np.ones((data.shape[0],1)),data[:,0:2]]
Y = np.c_[data[:,2]]

# Sigmoid Function
def sigmoid(z):
    y = z # initialize value to avoid error
       
    #------- Coding Start -------

    #------- Coding End -------
    
    return np.asarray(y,dtype=np.float64)

# Cost Function
def costFunction(theta, X, Y):
    J = 0
    m = Y.size
        
    g = sigmoid(X.dot(theta))
      
    # ------- Coding Start -------

    # ------- Coding End -------
         
    if np.isnan(J) :
        return (np.inf)
    return (J)

# Gradient Descent Function
def gradientDescent(theta, X, Y, alpha = 0.002, iteration = 500000):
    m = Y.size
    J_history = np.zeros(iteration)
    Tm = theta
    
    for i in np.arange(iteration):
        
        g = sigmoid(X.dot(Tm))
          
        # ------- Coding Start -------

        # ------- Coding End -------
        J_history[i] = costFunction(Tm, X, Y)
        
        # print Gradient Descent's progress
        progress = (i+1) / iteration * 100
        if (progress >= 10) and ((progress % 10) == 0) :
            print("Gradient Descent Progress : %3d%%"%progress)
    
    return Tm, J_history

theta = np.zeros((X.shape[1],1))
theta, J_history = gradientDescent(theta, X, Y)

print("theta :",theta.flatten())

#-----------------------------------------------------------
# Evaluation
#-----------------------------------------------------------
def evaluateGD(value, min, max):
    print("J = ", value, " => Correct") if value > min and value < max else print("J = ", value, " => Wrong")
    
print("Cost J Test : ")
evaluateGD(J_history[-1], 0, 0.2214856)

plt.plot(J_history)

結果はいかがですか。少し時間がかかっていたのが気になります。時間がかかるので学習の進捗が表示できるようにしておきました。

<h4>このくらいの学習処理でこんなに時間がかかるなんて、あり得ない状況ですね。</h4>

解決案について、次回の課題で考えてみましょう。今回の課題では、皆さんが作ったコードをもとに出てきた結果を可視化してみて終わりにします。上に描いたグラフよりは良くなっていることが確認できると思いますが、まだ間違って分類されている物が残っているあるようですね。推論モデルの正答率の確認機能についても次回の課題で実装してみます。

In [None]:
negative = data[:,2] == 0
positive = data[:,2] == 1

plt.scatter(data[positive][:,0],data[positive][:,1], marker = 'o', c = 'r')
plt.scatter(data[negative][:,0],data[negative][:,1], marker = 'x', c = 'b')

xx = np.arange(30,100)
#yy = -1 * xx + 130
yy = -1 * (1 * theta[0] + xx * theta[1]) / theta[2] # newly added to visualize the generated theta 
plt.plot(xx, yy, c = 'g')

plt.xlabel("X1 : Exam 1 Score")
plt.ylabel("X2 : Exam 2 Score")

お疲れ様でした。