## Khoa Học Tự Nhiên
## Nhập Môn Máy Học - Lab3
### Nguyễn Quốc Bảo - 18110053

# Logistic Regresion
Ta định nghĩa với mọi $t \in R$ thì hàm sigmoid được định nghĩa như sau:
$$f(t)=\frac{1}{1+\epsilon^{-t}}$$
$x_i \in R^{n \times 1}$ là một sample thứ $i$ trong tập dữ liệu,  $y_i \in R^{1 \times 1}$ là class của sample thứ $i$, $W \in R^{n \times 1}$ là trọng số mà ta cần tìm, ta có:

$$\hat{y_i}=f(x_i^TW)$$

Ta định nghĩa hàm Loss như sau:

$$Loss=\frac{1}{N}\sum^N-Ylog[f(X^TW)]-(1-Y)log[1-f(X^TW)]$$

Với $X \in R^{n \times 1}$, $Y \in R^{n \times 1}$, $W \in R^{n \times 1}$.

Đặt $Z=f(X^TW)$, ta có
$$\nabla_W Loss = -\frac{1}{N} \sum^N(\frac{Y}{Z}-\frac{1-Y}{1-Z})\frac{\partial Z}{\partial W}$$

Mà: $\frac{\partial Z}{\partial W}=Z(1-Z)X$ nên:

$$\nabla_W Loss = -\frac{1}{N} \sum^N(Y-Z)X$$

suy ra: 
$$W:=W-lr\frac{1}{N} \sum^N(Z-Y)X$$





# Softmax Regression
Ta hàm softmax như sau:
$$a_i=\frac{e^{X^Tw_i}}{\sum_{j=1}^Ce^{X^Tw_i}}$$

Với $w_i$ chính là trọng số cho hàm softmax của class thứ $i$. Nghĩa là với class thứ $i$ ta tương ứng có $a_i$ là hàm dự đoán xác xuất để sample $x_i$ rơi vào class này. $W=[w_1,w_2,...,w_C]$ là ma trận trọng số cần tìm, $W \in R^{n \times C}$, Với C là số Classes có trong dữ liệu

Ngoài ta ta phải đổi y từ dạng scaler sang vector theo onehot encoding, tức là:
$$y=[y_1,y_2,...,y_C]$$ 
với $\sum_{i=1}^Cy_i=1$


Ta định nghĩa hàm Loss như sau:

$$Loss=\frac{1}{N} \sum^N(-\sum_{i=1}^C y_i log(\frac{e^{x^Tw_i}}{\sum_j^Ce^{x^Tw_j}})) $$

$$Loss=\frac{1}{N} \sum^N(-\sum_{i=1}^C (y_ix^Tw_i-y_ilog(\sum_j^Ce^{x^Tw_j}))) $$

$$Loss=\frac{1}{N} \sum^N(-\sum_{i=1}^C (y_ix^Tw_i) +log(\sum_j^Ce^{x^Tw_j})) $$

Gradient:
$$\nabla_W Loss = [\frac{\partial Loss}{\partial w_1}, \frac{\partial Loss}{\partial w_2},...,\frac{\partial Loss}{\partial w_C}]$$

Với $\frac{\partial Loss}{\partial w_i}=\frac{1}{N} \sum^N(-y_i+\frac{e^{x^Tw_i}}{\sum_j^Ce^{x^Tw_j}})x$

Từ đây ta có công thức cập nhật:

$$W:= W- lr\nabla_W Loss $$

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

# Bài tập

1. Hãy xây dựng mô hình logistic regression bằng tất cả các features trong file heart, so sánh với thư viện sklearn.
2. Hãy xây dựng mô hình softmax regression trên bộ Iris (nên Normalize data), so sánh với thư viện sklearn.

## Bài 1

- Data này là dùng các features như tuổi, giới tính, lượng cholesterol để dự đoán bệnh nhân có bị mắc bệnh tim mạch hay không.

- target gồm 2 label 1 và 0 tương ứng là mắc bệnh hay không mắc bệnh.

In [2]:
data=pd.read_csv("https://raw.githubusercontent.com/huynhthanh98/ML/master/lab-03/heart.csv")
print(data.shape)
X = data.loc[:,:'thal'].values
y = data['target'].values
print(X.shape)

(303, 14)
(303, 13)


In [3]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

min=np.min(X_train,axis=0)
max=np.max(X_train,axis=0)
X_train=(X_train-min)/(max -min)

X_test=(X_test-min)/(max-min)

In [4]:
y_train=y_train.reshape([-1,1])
y_test=y_test.reshape([-1,1])

In [5]:
#Thêm 1 cột những số 1 vào X_train
X_train_bar=np.concatenate([np.ones([X_train.shape[0],1]),X_train],axis=1)
X_train_bar.shape

(203, 14)

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
print(X_train.shape)
print(X_test.shape)

(203, 13)
(100, 13)


In [7]:
#Hàm sigmoid
def sigmoid(W,X):
  """
        X: array-like,
            Input data sample
        W: array-like,
            Weight values
  """

  return 1/(1+np.exp((-np.matmul(X,W))))

#Hàm Normalization
def Normalization(X_train,X_test):
    """
        X_train: array-like 
                data train
        X_test: array-like
                data test
    """
    min=np.min(X_train,axis=0)
    max=np.max(X_train,axis=0)
    X_train=(X_train-min)/(max -min)

    X_test=(X_test-min)/(max-min)
    return X_train,X_test

# Hàm Concatenate value one for bias
def Concatenate(X_train,X_test):
    """
        X_train: array-like
                data train.
        X_test: array-like
                data test    
    """
    X_train_bar=np.concatenate([np.ones([X_train.shape[0],1]),X_train],axis=1)
    X_test_bar=np.concatenate([np.ones([X_test.shape[0],1]),X_test],axis=1)
    
    return X_train_bar, X_test_bar

# Model logistic regression
def logistic_regression(X, y, W_init, lr = 0.001, max_iter = 50000):
    """
        X:  array-like,
            Input data.
        y:  array-like,
            Input label.
        W_init: array-like
            An initial weight.
        lr:  float, default=0.001
            learning rate
        max_iter: default=10000
            Maximum number of iterations taken for the solvers to converge.
    """

    list_W=[W_init]
    list_loss=[10]
    for epoch in range(max_iter):
        W=list_W[-1]
        prediction=sigmoid(W,X) # Dự đoán
        
        #Tính loss function of logistic regression
        loss=-np.mean((y*np.log(prediction)+(1-y)*np.log(1-prediction)),axis=0) 
        
        #Tính Gradient
        gradient=np.mean((prediction-y)*X ,axis=0) 
        gradient=gradient.reshape(-1,1)
        
        #cập nhật W
        W=W-lr*gradient 
        
        list_W.append(W)
        list_loss.append(loss)
        
        if epoch % 1000==0:
            print("Loss at iter {}: {}".format(epoch, list_loss[-1]))
            if (loss[-1] < 1e-5):
                  return W, list_loss[-1] 
    return W, list_loss[-1]

In [8]:
# Normalize data train , test
X_train, X_test = Normalization(X_train, X_test)

In [9]:
# Dùng thử với sklearn
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(random_state=0).fit(X_train, y_train)

print('Bias: ',clf.intercept_)
print('Matrix W:',clf.coef_)

y_pred = clf.predict(X_test)

from sklearn.metrics import mean_squared_error

MSE = mean_squared_error(y_test,y_pred)
print('Loss: ', MSE)
print('score: ',clf.score(X_test,y_test))

Bias:  [1.34612603]
Matrix W: [[-0.04312529 -1.12273845  1.80008111 -0.2487577  -0.18460104  0.20025636
   0.49782813  0.91506388 -1.10864927 -1.1569228   1.2377623  -2.54393322
  -1.82254879]]
Loss:  0.19
score:  0.81


In [10]:
# Thêm 1 cột 1 vào data train, test
X_train_bar, X_test_bar = Concatenate(X_train,X_test)

y_train=y_train.reshape([-1,1])
y_test=y_test.reshape([-1,1])

# Khởi tạo W ban đầu
W_init=np.random.randn(X_train_bar.shape[1],1)

In [11]:
W, loss = logistic_regression(X_train_bar, y_train, W_init, lr = 0.0011)
print('final W: ',W)
print('final loss: ',loss)

Loss at iter 0: [0.69394043]
Loss at iter 1000: [0.53822487]
Loss at iter 2000: [0.4980231]
Loss at iter 3000: [0.48402815]
Loss at iter 4000: [0.47570512]
Loss at iter 5000: [0.46892759]
Loss at iter 6000: [0.46284373]
Loss at iter 7000: [0.4572439]
Loss at iter 8000: [0.45204973]
Loss at iter 9000: [0.4472137]
Loss at iter 10000: [0.44269859]
Loss at iter 11000: [0.4384727]
Loss at iter 12000: [0.43450848]
Loss at iter 13000: [0.43078169]
Loss at iter 14000: [0.427271]
Loss at iter 15000: [0.42395753]
Loss at iter 16000: [0.42082451]
Loss at iter 17000: [0.41785703]
Loss at iter 18000: [0.41504176]
Loss at iter 19000: [0.41236678]
Loss at iter 20000: [0.40982139]
Loss at iter 21000: [0.40739595]
Loss at iter 22000: [0.40508178]
Loss at iter 23000: [0.40287101]
Loss at iter 24000: [0.40075652]
Loss at iter 25000: [0.39873183]
Loss at iter 26000: [0.39679105]
Loss at iter 27000: [0.39492879]
Loss at iter 28000: [0.39314014]
Loss at iter 29000: [0.39142058]
Loss at iter 30000: [0.389765

In [12]:
# test
predict = sigmoid(W,X_test_bar)
y_pred = np.where(predict > 0.5, 1, 0)
np.mean(y_pred==y_test)

0.83

## Bài 2 
#### Hãy xây dựng mô hình softmax regression trên bộ Iris (nên Normalize data), so sánh với thư viện sklearn.

In [13]:
from sklearn import datasets

# import some data to play with
iris = datasets.load_iris()
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(
  X, y, test_size=0.33, random_state=42)
print('Shape of data train',X_train.shape)
print('Shape of data test',X_train.shape)
print()
X_train, X_test = Normalization(X_train, X_test)


X_train_bar, X_test_bar = Concatenate(X_train,X_test)
print('Shape of X_train_bar',X_train_bar.shape)

Shape of data train (100, 4)
Shape of data test (100, 4)

Shape of X_train_bar (100, 5)


- Data này gồm 2 features là x1 và x2
- label gồm 2 class là 1, 2, 3

In [14]:
# Hàm mã hóa label 
def Onehot_encoder(y_train, y_test):
    """
        y_train: array-like,
                label train
        y_test: array-like,
                label test
    """
    y_train_onehot = np.zeros( (y_train.size, y_train.max() + 1),dtype=int)
    y_train_onehot[np.arange(y_train.size), y_train.reshape(-1)] = 1

    y_test_onehot = np.zeros( (y_test.size, y_test.max() + 1) ,dtype=int)
    y_test_onehot[np.arange(y_test.size), y_test.reshape(-1)] = 1
    return y_train_onehot, y_test_onehot

y_train_onehot, y_test_onehot = Onehot_encoder(y_train, y_test)
print(y_train_onehot.shape)

(100, 3)


In [15]:
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(random_state=0).fit(X_train, y_train)

print('Bias: ',clf.intercept_)
print('Matrix W:',clf.coef_)

y_pred = clf.predict(X_test)

from sklearn.metrics import mean_squared_error

MSE = mean_squared_error(y_test,y_pred)
print('Loss: ', MSE)
print('score: ',clf.score(X_test,y_test))

Bias:  [ 1.75179038  1.13814666 -2.88993704]
Matrix W: [[-1.1990263   1.32049321 -2.43592642 -2.25540126]
 [ 0.11103058 -1.40517501  0.39820193 -0.31581872]
 [ 1.08799572  0.0846818   2.03772449  2.57121997]]
Loss:  0.1
score:  0.9


In [16]:
def softmax(X, W):
    """
        X: array-like,
            Input data
        W: array-like,
            Weight values
    """
    expi = np.exp(np.matmul(X,W)) 
    exp_sum = np.sum(expi,axis=1)    
    soft = expi/exp_sum.reshape(-1,1)
    return soft


def softmax_model(X, y, W_init, lr = 0.001, max_iter = 200000):
    """
        X:  array-like,
            Input data.
        y:  array-like,
            Input label.
        W_init: array-like
            An initial weight.
        lr:  float, default=0.001
            learning rate
        max_iter: default=20000
            Maximum number of iterations taken for the solvers to converge.
    """
    list_W=[W_init]
    list_loss=[0]
    for epoch in range(max_iter):
        soft1 = softmax(X, list_W[-1])
        a = (- y + soft1)
        W_temp = np.zeros([X.shape[1],y.shape[1]])
        #W_temp
        for i in range(y.shape[1]):
            temp=i+1
            W_temp[:,i:temp]=np.mean(a[:,i:temp]*X ,axis=0).reshape(-1,1)
    #cal error
        W=list_W[-1]-lr*W_temp

        for i in range(y_train_onehot.shape[1]):
            loss = softmax(X,W)
            loss = -y*np.log(loss)
            loss = np.sum(np.mean(loss,axis=0))


        list_W.append(W)
        list_loss.append(loss)

        if epoch % 10000==0:
            print(list_loss[-1])
    return list_W[-1],list_loss[-1]

In [None]:
W_init = np.random.randn(X_train_bar.shape[1],len(np.unique(y)))
W, loss = softmax_model(X_train_bar, y_train_onehot, W_init, lr = 0.005)
print('final W: ',W)
print('final loss: ',loss)

1.8851002177876963
0.4927886309811343
0.37885448386147585
0.32295285789328887
0.2872082485332189
0.26137929243085967
0.24140822116787045
0.22530549370665606
0.21194845417739194
0.20063856381479833
0.1909097270704635
0.18243462401400332


In [None]:
# test
predict = softmax(X_test_bar,W) 
#Kết quả
np.mean(y_test.reshape(-1)==np.argmax(predict,axis=1))