#Logistic Regresion
Ta định nghĩa với mọi $t \in R$ thì hàm sigmoid được định nghĩa như sau:
$$f(t)=\frac{1}{1+\epsilon^{-t}}$$
$x_i \in R^{n \times 1}$ là một sample thứ $i$ trong tập dữ liệu,  $y_i \in R^{1 \times 1}$ là class của sample thứ $i$, $W \in R^{n \times 1}$ là trọng số mà ta cần tìm, ta có:

$$\hat{y_i}=f(x_i^TW)$$

Ta định nghĩa hàm Loss như sau:

$$Loss=\frac{1}{N}\sum^N-Ylog[f(X^TW)]-(1-Y)log[1-f(X^TW)]$$

Với $X \in R^{n \times 1}$, $Y \in R^{n \times 1}$, $W \in R^{n \times 1}$.

Đặt $Z=f(X^TW)$, ta có
$$\nabla_W Loss = -\frac{1}{N} \sum^N(\frac{Y}{Z}-\frac{1-Y}{1-Z})\frac{\partial Z}{\partial W}$$

Mà: $\frac{\partial Z}{\partial W}=Z(1-Z)X$ nên:

$$\nabla_W Loss = -\frac{1}{N} \sum^N(Y-Z)X$$

suy ra: 
$$W:=W-lr\frac{1}{N} \sum^N(Z-Y)X$$





#Softmax Regression
Ta hàm softmax như sau:
$$a_i=\frac{e^{X^Tw_i}}{\sum_{j=1}^Ce^{X^Tw_i}}$$

Với $w_i$ chính là trọng số cho hàm softmax của class thứ $i$. Nghĩa là với class thứ $i$ ta tương ứng có $a_i$ là hàm dự đoán xác xuất để sample $x_i$ rơi vào class này. $W=[w_1,w_2,...,w_C]$ là ma trận trọng số cần tìm, $W \in R^{n \times C}$, Với C là số Classes có trong dữ liệu

Ngoài ta ta phải đổi y từ dạng scaler sang vector theo onehot encoding, tức là:
$$y=[y_1,y_2,...,y_C]$$ 
với $\sum_{i=1}^Cy_i=1$


Ta định nghĩa hàm Loss như sau:

$$Loss=\frac{1}{N} \sum^N(-\sum_{i=1}^C y_i log(\frac{e^{x^Tw_i}}{\sum_j^Ce^{x^Tw_j}})) $$

$$Loss=\frac{1}{N} \sum^N(-\sum_{i=1}^C (y_ix^Tw_i-y_ilog(\sum_j^Ce^{x^Tw_j}))) $$

$$Loss=\frac{1}{N} \sum^N(-\sum_{i=1}^C (y_ix^Tw_i) +log(\sum_j^Ce^{x^Tw_j})) $$

Gradient:
$$\nabla_W Loss = [\frac{\partial Loss}{\partial w_1}, \frac{\partial Loss}{\partial w_2},...,\frac{\partial Loss}{\partial w_C}]$$

Với $\frac{\partial Loss}{\partial w_i}=\frac{1}{N} \sum^N(-y_i+\frac{e^{x^Tw_i}}{\sum_j^Ce^{x^Tw_j}})x$

Từ đây ta có công thức cập nhật:

$$W:= W- lr\nabla_W Loss $$

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

- Data này là dùng các features như tuổi, giới tính, lượng cholesterol để dự đoán bệnh nhân có bị mắc bệnh tim mạch hay không.

- target gồm 2 label 1 và 0 tương ứng là mắc bệnh hay không mắc bệnh.

In [None]:
data=pd.read_csv("https://raw.githubusercontent.com/huynhthanh98/ML/master/lab-03/heart.csv")
data

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,57,0,0,140,241,0,1,123,1,0.2,1,0,3,0
299,45,1,3,110,264,0,1,132,0,1.2,1,0,3,0
300,68,1,0,144,193,1,1,141,0,3.4,1,2,3,0
301,57,1,0,130,131,0,1,115,1,1.2,1,1,3,0


#Demo logistic regression

In [None]:
X_train, X_test, y_train, y_test = train_test_split(data.loc[:,"chol"].values, data.loc[:,"target"].values, test_size=0.33, random_state=42)

min=np.min(X_train,axis=0)
max=np.max(X_train,axis=0)
X_train=(X_train-min)/(max -min)

X_test=(X_test-min)/(max-min)



In [None]:
#Vì chỉ lấy có 1 biến nên phải reshape X_train và X_test
X_train=X_train.reshape([-1,1])
X_test=X_test.reshape([-1,1])

y_train=y_train.reshape([-1,1])
y_test=y_test.reshape([-1,1])

In [None]:
#Hàm sigmoid
def sigmoid(W,X):
  """
  W là trọng số
  X là sample(s)
  """

  return 1/(1+np.exp((-np.matmul(X,W))))


In [None]:
#Thêm 1 cột những số 1 vào X_train
X_train_bar=np.concatenate([np.ones([X_train.shape[0],1]),X_train],axis=1)
X_train_bar.shape

(203, 2)

In [None]:
lr=0.0001
#W_init=np.random.rand(14,1)
#W_init=np.array([[ 2.23789173],
#       [-0.96136103]]) #Đây là khởi tạo

W_init=np.zeros([X_train_bar.shape[1],1])
"""W_init=np.array([[ 0.38652764],
       [-1.0147613 ]]) #lưu ý đây là W_init gần với W cần tìm để chạy cho nhanh
       """
X_train_bar=np.concatenate([np.ones([X_train.shape[0],1]),X_train],axis=1)

list_W=[W_init]
list_error=[10]
for epoch in range(50000):
  W=list_W[-1]
  prediction=sigmoid(W,X_train_bar) # Dự đoán

  error=-np.mean((y_train*np.log(prediction)+(1-y_train)*np.log(1-prediction)),axis=0) #Tính error

  gradient=np.mean((prediction-y_train)*X_train_bar,axis=0) #Tính Gradient
  gradient=gradient.reshape(-1,1)
  
  W=W-lr*gradient #cập nhật W

  list_W.append(W)
  list_error.append(error)
  if epoch % 1000==0:
    print(list_error[-1])
  


[0.69314718]
[0.69307243]
[0.69300157]
[0.69293441]
[0.69287075]
[0.6928104]
[0.6927532]
[0.69269898]
[0.69264758]
[0.69259886]
[0.69255267]
[0.69250889]
[0.69246738]
[0.69242803]
[0.69239073]
[0.69235536]
[0.69232183]
[0.69229004]
[0.6922599]
[0.69223133]
[0.69220423]
[0.69217854]
[0.69215418]
[0.69213108]
[0.69210917]
[0.6920884]
[0.6920687]
[0.69205002]
[0.6920323]
[0.6920155]
[0.69199956]
[0.69198444]
[0.6919701]
[0.69195649]
[0.69194358]
[0.69193134]
[0.69191972]
[0.6919087]
[0.69189824]
[0.69188831]
[0.69187889]
[0.69186995]
[0.69186146]
[0.6918534]
[0.69184576]
[0.69183849]
[0.6918316]
[0.69182505]
[0.69181884]
[0.69181293]


In [None]:
#test
X_test_bar=np.concatenate([np.ones([X_test.shape[0],1]),X_test],axis=1)
a=sigmoid(W,X_test_bar)
np.mean(np.where(a>0.5,1,0)==y_test)

0.58

In [None]:
#Kiểm tra lại
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(random_state=0).fit(X_train, y_train)
clf.score(X_test,y_test)

  y = column_or_1d(y, warn=True)


0.58

#Demo Softmax

In [None]:
train=pd.read_csv("https://raw.githubusercontent.com/dinhvietcuong1996/Lab-MachineLearningCourse/master/Lab03/bt_train.csv")
test=pd.read_csv('https://raw.githubusercontent.com/dinhvietcuong1996/Lab-MachineLearningCourse/master/Lab03/bt_valid.csv')

X_train=train.loc[:,["x1","x2"]].values
X_test=test.loc[:,["x1","x2"]].values

y_train=train.loc[:,'label'].values.reshape(-1,1)
y_test=test.loc[:,'label'].values.reshape(-1,1)


- Data này gồm 2 features là x1 và x2
- label gồm 2 class là 1, 2, 3

In [None]:
#onehot
y_train_onehot = np.zeros( (y_train.sizes, y_train.max() + 1),dtype=int)
y_train_onehot[np.arange(y_train.size), y_train.reshape(-1)] = 1

y_test_onehot = np.zeros( (y_test.size, y_test.max() + 1) ,dtype=int)
y_test_onehot[np.arange(y_test.size), y_test.reshape(-1)] = 1

In [None]:
#Normalizaition
min=np.min(X_train,axis=0)
max=np.max(X_train,axis=0)
X_train=(X_train-min)/(max-min)
X_test=(X_test-min)/(max-min)

In [None]:
X_train_bar=np.concatenate([np.ones([X_train.shape[0],1]),X_train],axis=1)
X_test_bar=np.concatenate([np.ones([X_test.shape[0],1]),X_test],axis=1)
X_test_bar.shape

(300, 3)

In [None]:
lr=0.005
W_init=np.zeros([X_train_bar.shape[1],len(train.loc[:,"label"].unique())])
list_W=[W_init]
list_error=[0]
for epoch in range(200000):
  expi=np.exp(np.matmul(X_train_bar,list_W[-1])) #300 3
  expsum=np.sum(expi,axis=1)   #300, 
  soft1=expi/expsum.reshape(-1,1)  #300 1
  a=(-y_train_onehot+soft1)    #300,1
  W_temp=np.zeros([X_train_bar.shape[1],y_train_onehot.shape[1]])
  #W_temp
  for i in range(y_train_onehot.shape[1]):
    temp=i+1
    W_temp[:,i:temp]=np.mean(a[:,i:temp]*X_train_bar,axis=0).reshape(-1,1)
#cal error
  W=list_W[-1]-lr*W_temp


  for i in range(y_train_onehot.shape[1]):
    error=np.exp(np.matmul(X_train_bar,W))/np.sum(np.exp(np.matmul(X_train_bar,W)),axis=1).reshape(-1,1)
    error=-y_train_onehot*np.log(error)
    error=np.sum(np.mean(error,axis=0))

  
  list_W.append(W)
  list_error.append(error)

  if epoch % 10000==0:
    print(list_error[-1])

  




1.0985405995977544
0.7680388964163696
0.6356433784621851
0.5636533070156204
0.5179119125649342
0.4860495903279405
0.46245129089405224
0.44418460535287996
0.4295650300425287
0.41755506668146863
0.4074804688935484
0.39888385128555404
0.39144381444321563
0.3849277454102933
0.3791629993423992
0.374018623731808
0.3693933867448064
0.3652077120339552
0.36139811023917934
0.35791324994857887


In [None]:
expi=np.exp(np.matmul(X_test_bar,list_W[-1])) #300 3
expsum=np.sum(expi,axis=1)   #300, 
soft1=expi/expsum.reshape(-1,1)
soft1



In [None]:
expi=np.exp(np.matmul(X_test_bar,list_W[-1])) 
expsum=np.sum(expi,axis=1)   
#Kết quả
np.mean(y_test.reshape(-1)==np.argmax(expi/expsum.reshape(-1,1),axis=1))

0.6066666666666667

In [None]:
#dùng sklearn
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(random_state=0).fit(X_train, y_train)
clf.score(X_test,y_test)

  y = column_or_1d(y, warn=True)


0.6066666666666667

#Bài tập

1. Hãy xây dựng mô hình logistic regression bằng tất cả các features trong file heart, so sánh với thư viện sklearn.
2. Hãy xây dựng mô hình softmax regression trên bộ Iris (nên Normalize data), so sánh với thư viện sklearn.

In [None]:
from sklearn import datasets

# import some data to play with
iris = datasets.load_iris()
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(
  X, y, test_size=0.33, random_state=42)


max=np.max(X_train,axis=0)
min=np.min(X_train,axis=0)

X_train=(X_train-min)/(max-min)
X_test=(X_test-min)/(max-min)


y_train_onehot = np.zeros( (y_train.size, y_train.max() + 1),dtype=int)
y_train_onehot[np.arange(y_train.size), y_train.reshape(-1)] = 1

y_test_onehot = np.zeros( (y_test.size, y_test.max() + 1) ,dtype=int)
y_test_onehot[np.arange(y_test.size), y_test.reshape(-1)] = 1


X_train_bar=np.concatenate([np.ones([X_train.shape[0],1]),X_train],axis=1)
X_test_bar=np.concatenate([np.ones([X_test.shape[0],1]),X_test],axis=1)
X_test_bar.shape