<a href="https://colab.research.google.com/github/hoangnuthuphuong/Machine_Learning/blob/main/Chuong3_HoiQuyTuyenTinhDaBien/C3_BTVN2_TienXuLyDuLieu_HQTT.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Phương pháp điều chỉnh giá trị dữ liệu (data scaling)**.
Một cách tổng quát, phương pháp điều chỉnh dữ liệu (data scaling) có thể xem là:

$f(X): R^{m×n} → R^{m×n}$

Với hàm f(x) có nhiều định nghĩa khác nhau như:
- **Chuẩn hóa dữ liệu (Data normalization)** là thao tác đưa các giá trị của tập dữ liệu ban đầu về khoảng [0,1]: $x_i =\frac{x_i−min}{max − min}$ (Trong scikit-learn, hàm tương đương là **MinMaxScaler**);
- **Chuẩn hóa dữ liệu theo phương pháp điều chỉnh hướng tâm (center scaling)** được định nghĩa là: $x_i =\frac{x_i− x̅}{δ}$ với $\frac{1}{m} \sum_{i=1}^m x_i$
 và $δ = √\frac{∑{(x_i−x̅)}^2}{m}$ (Trong scikit-learn, hàm tương đương là **StandardScaler**)

**Quy tắc điều chỉnh dữ liệu khi sử dụng sklearn là:**
- Bước 1: Khởi tạo bộ điều chỉnh dữ liệu
- Bước 2: Đưa dữ liệu vào bộ điều chỉnh thông qua hàm **fit()**
- Bước 3: Thực hiện điều chỉnh dữ liệu bằng hàm **transform()**

# **Xây dựng mô hình HQTT đa biến với thuật toán tối ưu là Gradient Descent có sử dụng phương pháp tiền xử lý dữ liệu do sklearn cung cấp.**

In [87]:
import os
import numpy as np
import pandas as pd 
from matplotlib import pyplot as plt
from sklearn.preprocessing import MinMaxScaler


In [88]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [89]:
# Hàm đọc dữ liệu từ tập tin 
def readData(folder, filename):
    # Trích xuất tệp dữ liệu gốc
    data = np.loadtxt(os.path.join(folder, filename), delimiter=',')
    print('Original data shape', data.shape)
    X = data[:,:-1]
    print('X shape: ', X.shape)
    y = data[:,-1]
    print('y shape: ', y.shape)
    m = X.shape[0]
    print('Number of training examples m = ', m)
    x0 = np.ones((m,1))
    X = np.hstack([x0, X]) 
    print('Modified X shape: ', X.shape)
    y = np.reshape(y, (m,1))
    print('Modified y shape: ', y.shape)
    return X, y



In [90]:
# Hàm mất mát 
def computeLoss(X, y, w):
    m = y.shape[0]
    J = 0
    h = np.dot(X, w)
    J = (1/(2*m))*np.sum(np.square(h - y))
    return J

In [91]:
# Hàm Gradient Descent
def gradientDescent(X, y, w, alpha, n):
    m = y.shape[0]
    J_history = []
    w_optimal = w.copy()
    print('w_optimal shape: ', w_optimal.shape)
    for i in range(n):
        h = np.dot(X, w_optimal)
        error = h - y
        w_optimal = w_optimal - (alpha/m)*np.dot(X.T, error)
        J_history.append(computeLoss(X, y, w_optimal))
    return w_optimal, J_history

**Các hàm tiền xử lý dữ liệu**

In [98]:
# Hàm scale dữ liệu bằng MinMaxScaler
def scaleData_MinMaxScaler(X, y):
    #Khởi tạo bộ điều chỉnh dữ liệu
    scaler = MinMaxScaler()
    #Phải thực hiện thao tác fit(data) trước khi điều chỉnh dữ liệu
    scaler.fit(data)
    #Thực hiện điều chỉnh dữ liệu
    data_scl = scaler.transform(data)
    print('Kích thước của tập dữ liệu: ', data.shape)
    print('10 Giá trị đầu của tập dữ liệu: ')
    print(data[:10])
    print('Lấy ra tập dữ liệu X, y')
    X_scl, y_scl = data[:,:-1], data[:, -1]
    print('Kích thước tập X: ', X.shape)
    print('Kích thước vector y: ', y.shape)
    return X_scl, y_scl


In [100]:
# Hàm scale dữ liệu bằng MinMaxScaler
from sklearn.preprocessing import StandardScaler

def scaleData_StandardScaler(X, y):
    #Khởi tạo bộ điều chỉnh dữ liệu
    scaler = StandardScaler()
    #Phải thực hiện thao tác fit(data) trước khi điều chỉnh dữ liệu
    scaler.fit(data)
    #Thực hiện điều chỉnh dữ liệu
    data_scl = scaler.transform(data)
    print('Kích thước của tập dữ liệu: ', data.shape)
    print('10 Giá trị đầu của tập dữ liệu: ')
    print(data[:10])
    print('Lấy ra tập dữ liệu X, y')
    X_scl, y_scl = data[:,:-1], data[:, -1]
    print('Kích thước tập X: ', X.shape)
    print('Kích thước vector y: ', y.shape)
    return X_scl, y_scl


# **KẾT QUẢ TIỀN XỬ LÝ DỮ LIỆU BẰNG MinMaxScaler**

In [99]:
def main():
    n = 1500
    alpha = 0.01
    X, y = readData("/content/drive/MyDrive/Classroom/Học máy 1 Phần cơ sở", "ex1data1.txt")
    X_scl, y_scl = scaleData_MinMaxScaler(X, y)
    print('X scl: ', X_scl[1,:])
    print('y scl: ', y_scl[1])
    w = np.zeros((X_scl.shape[1], 1))
    w, J_history = gradientDescent(X_scl, y_scl, w, alpha, n)
    print("Optimal weights are: ", w)
    print("Loss function: ", J_history[-1])

if __name__ == '__main__':
    main()

Original data shape (97, 2)
X shape:  (97, 1)
y shape:  (97,)
Number of training examples m =  97
Modified X shape:  (97, 2)
Modified y shape:  (97, 1)
Kích thước của tập dữ liệu:  (97, 2)
10 Giá trị đầu của tập dữ liệu: 
[[0.06306437 0.75566299]
 [0.02915679 0.44025019]
 [0.20328829 0.60917261]
 [0.11506104 0.54177958]
 [0.0484918  0.35426071]
 [0.19538778 0.54297238]
 [0.14261095 0.26200532]
 [0.20675241 0.54722171]
 [0.08496108 0.34588876]
 [0.00161271 0.24218625]]
Lấy ra tập dữ liệu X, y
Kích thước tập X:  (97, 2)
Kích thước vector y:  (97, 1)
X scl:  [0.02915679]
y scl:  0.44025018917014874
w_optimal shape:  (1, 1)
Optimal weights are:  [[1.17911909 0.68695624 0.95053888 0.84538035 0.55278024 0.84724157
  0.40882705 0.85387214 0.53971685 0.37790183 0.34507469 1.05773312
  0.33942707 0.5761908  0.1975724  0.36023776 0.46445987 0.18853331
  0.36831659 0.46937463 0.33846738 1.42194922 0.40386575 0.45763736
  0.33520445 1.47260911 0.94117466 0.56577383 1.01044667 1.56037693
  0.084958

# **KẾT QUẢ TIỀN XỬ LÝ DỮ LIỆU BẰNG StandardScaler**

In [101]:
def main():
    n = 1500
    alpha = 0.01
    X, y = readData("/content/drive/MyDrive/Classroom/Học máy 1 Phần cơ sở", "ex1data1.txt")
    X_scl, y_scl = scaleData_StandardScaler(X, y)
    print('X scl: ', X_scl[1,:])
    print('y scl: ', y_scl[1])
    w = np.zeros((X_scl.shape[1], 1))
    w, J_history = gradientDescent(X_scl, y_scl, w, alpha, n)
    print("Optimal weights are: ", w)
    print("Loss function: ", J_history[-1])

if __name__ == '__main__':
    main()

Original data shape (97, 2)
X shape:  (97, 1)
y shape:  (97,)
Number of training examples m =  97
Modified X shape:  (97, 2)
Modified y shape:  (97, 1)
Kích thước của tập dữ liệu:  (97, 2)
10 Giá trị đầu của tập dữ liệu: 
[[0.06306437 0.75566299]
 [0.02915679 0.44025019]
 [0.20328829 0.60917261]
 [0.11506104 0.54177958]
 [0.0484918  0.35426071]
 [0.19538778 0.54297238]
 [0.14261095 0.26200532]
 [0.20675241 0.54722171]
 [0.08496108 0.34588876]
 [0.00161271 0.24218625]]
Lấy ra tập dữ liệu X, y
Kích thước tập X:  (97, 2)
Kích thước vector y:  (97, 1)
X scl:  [0.02915679]
y scl:  0.44025018917014874
w_optimal shape:  (1, 1)
Optimal weights are:  [[1.17911909 0.68695624 0.95053888 0.84538035 0.55278024 0.84724157
  0.40882705 0.85387214 0.53971685 0.37790183 0.34507469 1.05773312
  0.33942707 0.5761908  0.1975724  0.36023776 0.46445987 0.18853331
  0.36831659 0.46937463 0.33846738 1.42194922 0.40386575 0.45763736
  0.33520445 1.47260911 0.94117466 0.56577383 1.01044667 1.56037693
  0.084958