#Logistic Regresion
Ta định nghĩa với mọi $t \in R$ thì hàm sigmoid được định nghĩa như sau:
$$f(t)=\frac{1}{1+\epsilon^{-t}}$$
$x_i \in R^{n \times 1}$ là một sample thứ $i$ trong tập dữ liệu,  $y_i \in R^{1 \times 1}$ là class của sample thứ $i$, $W \in R^{n \times 1}$ là trọng số mà ta cần tìm, ta có:

$$\hat{y_i}=f(x_i^TW)$$

Ta định nghĩa hàm Loss như sau:

$$Loss=\frac{1}{N}\sum^N-Ylog[f(X^TW)]-(1-Y)log[1-f(X^TW)]$$

Với $X \in R^{n \times 1}$, $Y \in R^{n \times 1}$, $W \in R^{n \times 1}$.

Đặt $Z=f(X^TW)$, ta có
$$\nabla_W Loss = -\frac{1}{N} \sum^N(\frac{Y}{Z}-\frac{1-Y}{1-Z})\frac{\partial Z}{\partial W}$$

Mà: $\frac{\partial Z}{\partial W}=Z(1-Z)X$ nên:

$$\nabla_W Loss = -\frac{1}{N} \sum^N(Y-Z)X$$

suy ra: 
$$W:=W-lr\frac{1}{N} \sum^N(Z-Y)X$$





#Softmax Regression
Ta hàm softmax như sau:
$$a_i=\frac{e^{X^Tw_i}}{\sum_{j=1}^Ce^{X^Tw_i}}$$

Với $w_i$ chính là trọng số cho hàm softmax của class thứ $i$. Nghĩa là với class thứ $i$ ta tương ứng có $a_i$ là hàm dự đoán xác xuất để sample $x_i$ rơi vào class này. $W=[w_1,w_2,...,w_C]$ là ma trận trọng số cần tìm, $W \in R^{n \times C}$, Với C là số Classes có trong dữ liệu

Ngoài ta ta phải đổi y từ dạng scaler sang vector theo onehot encoding, tức là:
$$y=[y_1,y_2,...,y_C]$$ 
với $\sum_{i=1}^Cy_i=1$


Ta định nghĩa hàm Loss như sau:

$$Loss=\frac{1}{N} \sum^N(-\sum_{i=1}^C y_i log(\frac{e^{x^Tw_i}}{\sum_j^Ce^{x^Tw_j}})) $$

$$Loss=\frac{1}{N} \sum^N(-\sum_{i=1}^C (y_ix^Tw_i-y_ilog(\sum_j^Ce^{x^Tw_j}))) $$

$$Loss=\frac{1}{N} \sum^N(-\sum_{i=1}^C (y_ix^Tw_i) +log(\sum_j^Ce^{x^Tw_j})) $$

Gradient:
$$\nabla_W Loss = [\frac{\partial Loss}{\partial w_1}, \frac{\partial Loss}{\partial w_2},...,\frac{\partial Loss}{\partial w_C}]$$

Với $\frac{\partial Loss}{\partial w_i}=\frac{1}{N} \sum^N(-y_i+\frac{e^{x^Tw_i}}{\sum_j^Ce^{x^Tw_j}})x$

Từ đây ta có công thức cập nhật:

$$W:= W- lr\nabla_W Loss $$

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

- Data này là dùng các features như tuổi, giới tính, lượng cholesterol để dự đoán bệnh nhân có bị mắc bệnh tim mạch hay không.

- target gồm 2 label 1 và 0 tương ứng là mắc bệnh hay không mắc bệnh.

#Bài tập

1. Hãy xây dựng mô hình logistic regression bằng tất cả các features trong file heart, so sánh với thư viện sklearn.
2. Hãy xây dựng mô hình softmax regression trên bộ Iris (nên Normalize data), so sánh với thư viện sklearn.

# Bài 1

In [2]:
data = pd.read_csv("heart.csv")
data

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,57,0,0,140,241,0,1,123,1,0.2,1,0,3,0
299,45,1,3,110,264,0,1,132,0,1.2,1,0,3,0
300,68,1,0,144,193,1,1,141,0,3.4,1,2,3,0
301,57,1,0,130,131,0,1,115,1,1.2,1,1,3,0


In [3]:
X_train, X_test, y_train, y_test = train_test_split(data.loc[:,"thal"].values, data.loc[:,"target"].values, test_size=0.33, random_state=42)

min = np.min(X_train, axis=0)
max = np.max(X_train, axis=0)
X_train = (X_train-min) / (max -min)

X_test = (X_test-min) / (max-min)


In [4]:
#Vì chỉ lấy có 1 biến nên phải reshape X_train và X_test
X_train=X_train.reshape([-1,1])
X_test=X_test.reshape([-1,1])

y_train=y_train.reshape([-1,1])
y_test=y_test.reshape([-1,1])
#Thêm 1 cột những số 1 vào X_train
X_train_bar=np.concatenate([np.ones([X_train.shape[0], 1]), X_train], axis=1)

In [5]:
#Hàm sigmoid
def sigmoid(W,X):
  """
  W là trọng số
  X là sample(s)
  """

  return 1/(1+np.exp((-np.matmul(X,W))))


In [6]:
def logictisRegression(X_train, y_train, learning_rate, epoch):
    #W_init=np.random.rand(14,1)
    #W_init=np.array([[ 2.23789173],
    #       [-0.96136103]]) #Đây là khởi tạo
    
    X_train_bar=np.concatenate([np.ones([X_train.shape[0],1]),X_train],axis=1)

    W_init=np.zeros([X_train_bar.shape[1],1])
    """W_init=np.array([[ 0.38652764],
           [-1.0147613 ]]) #lưu ý đây là W_init gần với W cần tìm để chạy cho nhanh
           """
    list_W=[W_init]
    list_error=[10]
    for i in range(epoch):
        W = list_W[-1]
        prediction = sigmoid(W,X_train_bar) # Dự đoán

        error = -np.mean((y_train*np.log(prediction)+(1-y_train)*np.log(1-prediction)),axis=0) #Tính error

        gradient = np.mean((prediction-y_train)*X_train_bar,axis=0) #Tính Gradient
        gradient = gradient.reshape(-1,1)

        W = W - learning_rate * gradient #cập nhật W

        list_W.append(W)
        list_error.append(error)
        if i % 1000 == 0:
            print(list_error[-1])
    return W

In [7]:
#test
X_test_bar = np.concatenate([np.ones([X_test.shape[0], 1]), X_test], axis=1)
a = sigmoid(logictisRegression(X_train, y_train, learning_rate=0.001, epoch = 50000), X_test_bar)
np.mean(np.where(a > 0.5, 1, 0) == y_test)

[0.69314718]
[0.69215586]
[0.69121735]
[0.69030843]
[0.68941869]
[0.68854343]
[0.68768048]
[0.6868288]
[0.68598785]
[0.68515733]
[0.68433703]
[0.68352678]
[0.68272643]
[0.68193587]
[0.68115496]
[0.68038358]
[0.67962161]
[0.67886892]
[0.6781254]
[0.67739094]
[0.67666541]
[0.6759487]
[0.6752407]
[0.6745413]
[0.67385039]
[0.67316786]
[0.6724936]
[0.6718275]
[0.67116947]
[0.67051939]
[0.66987716]
[0.66924269]
[0.66861586]
[0.66799659]
[0.66738478]
[0.66678032]
[0.66618313]
[0.66559312]
[0.66501017]
[0.66443422]
[0.66386516]
[0.6633029]
[0.66274736]
[0.66219846]
[0.6616561]
[0.6611202]
[0.66059068]
[0.66006745]
[0.65955044]
[0.65903956]


0.75

In [8]:
#Kiểm tra lại
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(random_state=0).fit(X_train, y_train)
clf.score(X_test,y_test)

  return f(**kwargs)


0.75

# Bài 2

In [9]:
from sklearn import datasets

# import some data to play with
iris = datasets.load_iris()
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(
  X, y, test_size=0.33, random_state=42)
#Normalize
max = np.max(X_train, axis=0)
min = np.min(X_train, axis=0)
X_train = (X_train - min) / (max -min)
X_test = (X_test - min) / (max - min)

In [10]:
def softmax(X_train, y_train, learning_rate, epoch):
    #X_train bar
    X_train_bar=np.concatenate([np.ones([X_train.shape[0],1]),X_train], axis=1)
    #y_train onehot
    y_train_onehot = np.zeros((y_train.size, y_train.max() + 1), dtype=int)
    y_train_onehot[np.arange(y_train.size), y_train.reshape(-1)] = 1
    W_init = np.zeros([X_train_bar.shape[1],1])
    list_W = [W_init]
    list_error = [0]
    for i in range(epoch):
        expi = np.exp(np.matmul(X_train_bar,list_W[-1])) #300 3
        expsum = np.sum(expi,axis=1)   #300, 
        soft1 = expi / expsum.reshape(-1,1)  #300 1
        a = (-y_train_onehot + soft1)    #300,1
        W_temp = np.zeros([X_train_bar.shape[1], y_train_onehot.shape[1]])
        #W_temp
        for i in range(y_train_onehot.shape[1]):
            temp = i+1
            W_temp[:,i:temp] = np.mean(a[:,i:temp] * X_train_bar, axis=0).reshape(-1,1)
        #cal error
        W = list_W[-1] - learning_rate * W_temp
    for i in range(y_train_onehot.shape[1]):
        error = np.exp(np.matmul(X_train_bar, W))/np.sum(np.exp(np.matmul(X_train_bar, W)), axis=1).reshape(-1,1)
        error = -y_train_onehot * np.log(error)
        error = np.sum(np.mean(error, axis=0))
    list_W.append(W)
    list_error.append(error)
    if epoch % 10000==0:
        print(list_error[-1])
    return list_W[-1]

In [25]:
#X_train bar
X_train_bar=np.concatenate([np.ones([X_train.shape[0],1]),X_train], axis=1)
#y_train onehot
y_train_onehot = np.zeros((y_train.size, y_train.max() + 1), dtype=int)
y_train_onehot[np.arange(y_train.size), y_train.reshape(-1)] = 1
#X_test_bar
X_test_bar = np.concatenate([np.ones([X_test.shape[0],1]), X_test], axis=1)
#y_test onehot
y_test_onehot = np.zeros((y_test.size, y_test.max() + 1), dtype=int)
y_test_onehot[np.arange(y_test.size), y_test.reshape(-1)] = 1

In [12]:
expi = np.exp(np.matmul(X_test_bar, softmax(X_train, y_train, learning_rate = 0.005, epoch = 200000)))
expsum = np.sum(expi, axis=1)  
soft1 = expi / expsum.reshape(-1,1)
soft1

1.098198230715856


array([[0.33298605, 0.33339964, 0.33361431],
       [0.33324569, 0.33332617, 0.33342814],
       [0.33271433, 0.33345166, 0.33383402],
       [0.3329735 , 0.33339858, 0.33362792],
       [0.33293276, 0.33340733, 0.33365991],
       [0.33324519, 0.33333542, 0.33341939],
       [0.33304753, 0.33338461, 0.33356786],
       [0.33284001, 0.33341523, 0.33374476],
       [0.3329432 , 0.33341967, 0.33363712],
       [0.33302955, 0.33339294, 0.33357751],
       [0.33288871, 0.33340587, 0.33370542],
       [0.33329125, 0.33333824, 0.33337051],
       [0.33327132, 0.33332824, 0.33340044],
       [0.33328583, 0.33333693, 0.33337725],
       [0.33327998, 0.33332091, 0.33339912],
       [0.33295509, 0.33339221, 0.3336527 ],
       [0.33283415, 0.33342139, 0.33374446],
       [0.33304143, 0.33339612, 0.33356245],
       [0.33300224, 0.33339692, 0.33360084],
       [0.33284068, 0.33342458, 0.33373474],
       [0.33328388, 0.33333541, 0.33338071],
       [0.33292708, 0.33340455, 0.33366837],
       [0.

In [13]:
#Kết quả
np.mean(y_test.reshape(-1) == np.argmax(expi / expsum.reshape(-1,1), axis=1))

0.32

In [28]:
#dùng sklearn
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(random_state=0).fit(X_train, y_train)
clf.score(X_test, y_test)

0.9