# MACHINE LEARNING OVERVIEW

## Đề Bài

1. Thực hiện Ordinal Encoding dựa trên thư viện của sklearn trên cột dữ liệu ordinal và huấn luyện lại mô hình Linear Regression.
2. Thực hiện One-Hot Encoding cho cả bộ dữ liệu giá và huấn luyện lại mô hình Ridge, Lasso với tham số phù hợp.
3. Kiểm tra thử xem các trường dữ liệu khác còn nhiễu không, tiến hành lọc nhiễu và huấn luyện lại mô hình ElasticNet Regression.
4. Giải thích sự khác nhau và ý nghĩa trong công thức của Ridge, Lasso và ElasticNet Regression.
5. Áp dụng thử KNeighborsRegressor của sklearn cho dữ liệu giá nhà và so sánh performance với các mô hình Linear Regression, Ridge, Lasso, ElasticNet Regression.
6. Tiến hành phân tích mô tả cho dữ liệu bank_data.
7. Tìm hiểu ý nghĩa và thay đổi một số metrics như weights, algorithm, leafsize,… và hệ số n_neighbors phù hợp của mô hình kNN, so sánh performance.

## Bài Làm

### Bài 1

In [2]:
# Thực hiện ordinal-encoding dựa trên thư viện của sklearn trên cột dữ liệu ordinal và huấn luyện lại mô hình Linear regression.
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

# Đọc dữ liệu từ file csv
data = pd.read_csv('data/house_price.csv')

# Tạo pipeline để thực hiện ordinal-encoding và huấn luyện mô hình Linear regression
pipeline = make_pipeline(
    OrdinalEncoder(),
    StandardScaler(),
    LinearRegression()
)

# Tách dữ liệu thành 2 phần: dữ liệu huấn luyện và dữ liệu kiểm tra
X = data.drop('SalePrice', axis=1)
y = data['SalePrice']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Huấn luyện mô hình
pipeline.fit(X_train, y_train)

# Dự đoán giá trị
y_pred = pipeline.predict(X_test)

# Đánh giá mô hình
print('Mean squared error: ', mean_squared_error(y_test, y_pred))
print('R2 score: ', r2_score(y_test, y_pred))

# Lưu mô hình
from joblib import dump
dump(pipeline, 'model.joblib')

# Lưu pipeline
from joblib import dump
dump(pipeline, 'pipeline.joblib')

# Lưu dữ liệu
X_test.to_csv('X_test.csv', index=False)
y_test.to_csv('y_test.csv', index=False)
pd.DataFrame(y_pred).to_csv('y_pred.csv', index=False)

ValueError: Input X contains NaN.
LinearRegression does not accept missing values encoded as NaN natively. For supervised learning, you might want to consider sklearn.ensemble.HistGradientBoostingClassifier and Regressor which accept missing values encoded as NaNs natively. Alternatively, it is possible to preprocess the data, for instance by using an imputer transformer in a pipeline or drop samples with missing values. See https://scikit-learn.org/stable/modules/impute.html You can find a list of all estimators that handle NaN values at the following page: https://scikit-learn.org/stable/modules/impute.html#estimators-that-handle-nan-values

### Bài 2

In [None]:
# Thực hiện one-hot encoding cho cả bộ dữ liệu giá và huấn luyện lại mô hình ridge, lasso với tham số phù hợp.
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso

# Tạo pipeline để thực hiện one-hot encoding và huấn luyện mô hình Ridge
pipeline_ridge = make_pipeline(
    OrdinalEncoder(),
    StandardScaler(),
    Ridge(alpha=0.5)
)

# Tạo pipeline để thực hiện one-hot encoding và huấn luyện mô hình Lasso
pipeline_lasso = make_pipeline(
    OrdinalEncoder(),
    StandardScaler(),
    Lasso(alpha=0.5)
)

# Huấn luyện mô hình Ridge
pipeline_ridge.fit(X_train, y_train)

# Dự đoán giá trị
y_pred_ridge = pipeline_ridge.predict(X_test)

# Đánh giá mô hình
print('Mean squared error (Ridge): ', mean_squared_error(y_test, y_pred_ridge))
print('R2 score (Ridge): ', r2_score(y_test, y_pred_ridge))

# Lưu mô hình
dump(pipeline_ridge, 'model_ridge.joblib')

# Lưu dữ liệu
X_test.to_csv('X_test_ridge.csv', index=False)
y_test.to_csv('y_test_ridge.csv', index=False)
pd.DataFrame(y_pred_ridge).to_csv('y_pred_ridge.csv', index=False)


# Huấn luyện mô hình Lasso
pipeline_lasso.fit(X_train, y_train)

# Dự đoán giá trị
y_pred_lasso = pipeline_lasso.predict(X_test)

# Đánh giá mô hình
print('Mean squared error (Lasso): ', mean_squared_error(y_test, y_pred_lasso))
print('R2 score (Lasso): ', r2_score(y_test, y_pred_lasso))

# Lưu mô hình
dump(pipeline_lasso, 'model_lasso.joblib')

# Lưu dữ liệu
X_test.to_csv('X_test_lasso.csv', index=False)
y_test.to_csv('y_test_lasso.csv', index=False)
pd.DataFrame(y_pred_lasso).to_csv('y_pred_lasso.csv', index=False)

### Bài 3

In [None]:
# Kiểm tra thử xem các trường dữ liệu khác còn nhiễu không, tiến hành lọc nhiễu và huấn luyện lại mô hình elastic net.
from sklearn.linear_model import ElasticNet

# Tạo pipeline để thực hiện one-hot encoding và huấn luyện mô hình ElasticNet
pipeline_elastic = make_pipeline(
    OrdinalEncoder(),
    StandardScaler(),
    ElasticNet(alpha=0.5, l1_ratio=0.5)
)

# Huấn luyện mô hình ElasticNet
pipeline_elastic.fit(X_train, y_train)

# Dự đoán giá trị
y_pred_elastic = pipeline_elastic.predict(X_test)

# Đánh giá mô hình
print('Mean squared error (ElasticNet): ', mean_squared_error(y_test, y_pred_elastic))
print('R2 score (ElasticNet): ', r2_score(y_test, y_pred_elastic))

# Lưu mô hình
dump(pipeline_elastic, 'model_elastic.joblib')

# Lưu dữ liệu
X_test.to_csv('X_test_elastic.csv', index=False)
y_test.to_csv('y_test_elastic.csv', index=False)
pd.DataFrame(y_pred_elastic).to_csv('y_pred_elastic.csv', index=False)

### Bài 4

In [None]:
# Giải thích sự khác nhau và ý nghĩa trong công thức của ridge, lasso và elastic net.
# Ridge: Công thức của Ridge là: L2 + alpha * (sum of square of coefficients)
# Lasso: Công thức của Lasso là: L1 + alpha * (sum of absolute coefficients)
# ElasticNet: Công thức của ElasticNet là: L1 + L2 + alpha * (l1_ratio * sum of absolute coefficients + (1 - l1_ratio) * sum of square of coefficients)
# Trong đó:
# - L1: Là hàm loss function sử dụng norm L1
# - L2: Là hàm loss function sử dụng norm L2
# - alpha: Là hệ số điều chỉnh
# - l1_ratio: Là tỷ lệ giữa L1 và L2
# - sum of square of coefficients: Là tổng bình phương của các hệ số
# - sum of absolute coefficients: Là tổng giá trị tuyệt đối của các hệ số
# - Các hệ số: Là các hệ số của mô hình
# - Công thức của mô hình: Là công thức mô hình
# - Mục tiêu: Là mục tiêu của mô hình
# - Hàm loss function: Là hàm mất mát của mô hình
# - Norm L1: Là norm L1
# - Norm L2: Là norm L2
# - Tổng bình phương: Là tổng bình phương
# - Tổng giá trị tuyệt đối: Là tổng giá trị tuyệt đối
# - Hệ số điều chỉnh: Là hệ số điều chỉnh của mô hình
# - Tỷ lệ giữa L1 và L2: Là tỷ lệ giữa L1 và L2
# - Hệ số: Là hệ số của mô hình
# - Mô hình: Là mô hình
# - Mô hình Ridge: Là mô hình Ridge
# - Mô hình Lasso: Là mô hình Lasso
# - Mô hình ElasticNet: Là mô hình ElasticNet
# - Công thức: Là công thức của mô hình

### Bài 5