<a href="https://colab.research.google.com/github/nguyentantan141/MACHINE-LEARNING/blob/Machine-learning/Train_model_linear_regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import numpy as np
import os
from scipy import optimize
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso

In [None]:
from google.colab import drive
drive.mount ('/content/drive/')

Mounted at /content/drive/


# Gradient descent

In [None]:
def readData(pathfolder: str, filename: str):
  data=np.loadtxt(os.path.join(pathfolder, filename),delimiter=',')
  return data

In [None]:
def scaling_minmax_norm(data):
  scaler =MinMaxScaler()
  #Phải thực hiện thao tác fit(data) trước khi điều chỉnh dữ liệu
  scaler.fit(data)
  #Thực hiện điều chỉnh dữ liệu
  data = scaler.transform(data)
  # Lấy ra tập X và y
  X_scl, y_scl = data[:,:-1], data[:,-1]
  m=X_scl.shape[0]
  X_scl=np.hstack((np.ones((m,1)),X_scl))
  y_scl=y_scl.reshape((m,1))
  return X_scl,y_scl
  

In [None]:
def split_data(X,y):
  X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.30, random_state=15)
  y_train = np.reshape(y_train, (y_train.shape[0], 1))
  y_test = np.reshape(y_test, (y_test.shape[0], 1))
  return X_train, X_test, y_train, y_test

In [None]:
def loss(w, X, y):
  m=y.shape[0]
  h=np.dot(X,w)
  J=(1/(2*m))*np.sum(np.square(h-y))
  return J

In [None]:
def minimize_scipy(X,y,w,n_iters):
    result = optimize.minimize(fun=loss, x0=w, args=(X,y),method='TNC',options={"maxiter":n_iters} )
    w_optimal = result.x
    J_optimal = result.fun
    return w_optimal, J_optimal

In [None]:
def train_model(X_train,X_test,y_train,y_test):
  #Xác định k-fold
  kf = KFold(n_splits=10)
  #Huấn luyện mô hình
  print('Huấn luyện mô hình TNC với k-fold')
  n=1500
  step = 0
  for train2_index, val_index in kf.split(X = X_train,y = y_train):
    step = step + 1
    print('\tBước lặp huấn luyện thứ: ', step)
    n=X_train.shape[1]
    w_opt = np.zeros([n, 1]).reshape([n,1])
    X_train2, X_val = X_train[train2_index], X_train[val_index]
    y_train2, y_val = y_train[train2_index], y_train[val_index]
    w_opt,j =  minimize_scipy(X_train2,y_train2,w_opt,n)
    print('\t\tĐánh giá mô hình trên tập dữ liệu validation')
    y_hat = np.dot(X_val,w_opt)
    print('\t\t\tMSE: ', mean_squared_error(y_val, y_hat))
  # Kiểm định mô hình với tập dữ liệu test
  print('ĐÁNH GIÁ HIỆU NĂNG CỦA MÔ HÌNH TRÊN TẬP DỮ LIỆU TEST')
  y_hat = np.dot(X_test,w_opt)
  print('\tMSE: ', mean_squared_error(y_test, y_hat))


# Linear Regression, Ridge, Lasso

In [None]:
def train_model(X_train,X_test,y_train,y_test):
  #Xác định k-fold
  kf = KFold(n_splits=10)
  #Huấn luyện mô hình
  print('Huấn luyện mô hình Ridge với k-fold')
  model = Ridge() # Thay LinearRegression  hoặc Lasso
  step = 0
  for train2_index, val_index in kf.split(X = X_train,y = y_train):
    step = step + 1
    print('\tBước lặp huấn luyện thứ: ', step)
    w_opt = np.zeros((X_train.shape[1], 1))
    X_train2, X_val = X_train[train2_index], X_train[val_index]
    y_train2, y_val = y_train[train2_index], y_train[val_index]
    model.fit(X_train2, y_train2)
    print('\t\tĐánh giá mô hình trên tập dữ liệu validation')
    y_hat = model.predict(X_val)
    print('\t\t\tMSE: ', mean_squared_error(y_val, y_hat))
  # Kiểm định mô hình với tập dữ liệu test
  print('ĐÁNH GIÁ HIỆU NĂNG CỦA MÔ HÌNH TRÊN TẬP DỮ LIỆU TEST')
  y_hat = model.predict(X_test)
  print('\tMSE: ', mean_squared_error(y_test, y_hat))
  return model.coef_


In [27]:
def main(pathfolder: str, filename: str):
  data=readData(pathfolder, filename)
  X_scl, y_scl=scaling_minmax_norm(data)
  X_train, X_test, y_train, y_test=split_data(X_scl, y_scl)
  a=train_model(X_train, X_test, y_train, y_test)
  print("Bộ trọng số w: ",a)
if __name__ == "__main__":
  main('/content/drive/MyDrive/Data/data/','ex1data2.txt')

Huấn luyện mô hình Ridge với k-fold
	Bước lặp huấn luyện thứ:  1
		Đánh giá mô hình trên tập dữ liệu validation
			MSE:  0.007342095872437096
	Bước lặp huấn luyện thứ:  2
		Đánh giá mô hình trên tập dữ liệu validation
			MSE:  0.014049333078351068
	Bước lặp huấn luyện thứ:  3
		Đánh giá mô hình trên tập dữ liệu validation
			MSE:  0.04428852697107722
	Bước lặp huấn luyện thứ:  4
		Đánh giá mô hình trên tập dữ liệu validation
			MSE:  0.05069037283758421
	Bước lặp huấn luyện thứ:  5
		Đánh giá mô hình trên tập dữ liệu validation
			MSE:  0.028517646668885285
	Bước lặp huấn luyện thứ:  6
		Đánh giá mô hình trên tập dữ liệu validation
			MSE:  0.03465955433033329
	Bước lặp huấn luyện thứ:  7
		Đánh giá mô hình trên tập dữ liệu validation
			MSE:  0.022081137144973808
	Bước lặp huấn luyện thứ:  8
		Đánh giá mô hình trên tập dữ liệu validation
			MSE:  0.014284963922507813
	Bước lặp huấn luyện thứ:  9
		Đánh giá mô hình trên tập dữ liệu validation
			MSE:  0.0437355963026947
	Bước lặp huấn 