In [None]:
"""
Author: Ngo Van Uc
Date: 11/11/2024
Contact: ngovanuc.1508@gmal.com
"""

***Tìm hiểu:***
- Fitting là gì?
- Overfitting là gì?
- Underfitting là gì?

***Các kĩ thuật điều khiển Overfitting:***
- Regularization trong Linear Regression (Ridge và Lasso)
    + Ridge Regression: phạt vào hàm mất mát để giảm bớt độ phức tạp của mô hình. có tác dụng làm giảm phương sai (variance) nhưng giữ lại độ chệch (bias), hữu ích khi dữ liệu có nhiều nhiễu (noise) hoặc đa cộng tuyến (multicollinearity).
    + Lasso Regression: phạt để làm giảm các hệ số của một số đặc trưng về đúng 0. giúp chọn lọc đặc trưng (feature selection) vừa tránh overfitting. hữu ích khi muốn làm đơn giản mô hình bằng cách loại bỏ các biến không quan trọng.
- Multicollinearity (Đa cộng tuyến)
    + Khi các biến độc lập (independent variables) có tương quan mạnh với nhau, phương pháp hồi quy tuyến tính có thể bị ảnh hưởng nặng nề do các biến không đóng góp thêm thông tin mới mà chỉ tạo thêm nhiễu.
    + Phát hiện: Sử dụng hệ số tương quan hoặc chỉ số VIF (Variance Inflation Factor).
    + Giải quyết: Sử dụng Ridge Regression, Lasso Regression, hoặc phương pháp chính tắc (Principal Component Analysis - PCA) để giảm bớt tương quan giữa các biến.
    + Biến độc lập (kí hiệu là X, biến phụ thuộc kí hiệu là Y theo một cách thông thường nào đó)
- Polynomial Regression và Nonlinear Transformations (Hồi quy đa thức và biến đổi phi tuyến tính)
    + Linear Regression chỉ hữu ích khi dữ liệu tuyến tính, nhưng nếu quan hệ giữa biến độc lập và biến phụ thuộc là phi tuyến, ta có thể chuyển đổi dữ liệu bằng cách thêm các đặc trưng đa thức (polynomial features) hoặc sử dụng các phép biến đổi hàm (exponential, log) để mô hình hóa mối quan hệ phức tạp hơn.
    + Lưu ý: Cần cẩn thận khi thêm các đặc trưng vì nó có thể dẫn đến overfitting nếu không có kỹ thuật điều chỉnh thích hợp.
- Outlier và Influential Points
    + Outliers có thể ảnh hưởng lớn đến mô hình hồi quy, đặc biệt nếu là influential points (các điểm có ảnh hưởng mạnh lên hệ số hồi quy).
    + Phát hiện: Dùng Cook's Distance hoặc leverage points để xác định các điểm có ảnh hưởng mạnh.
    + Giải pháp: Nếu phát hiện outliers có thể gây nhiễu, bạn có thể loại bỏ chúng hoặc sử dụng các mô hình hồi quy robust (Robust Regression) để giảm ảnh hưởng của các outlier.
- Assumption Violations (Vi phạm Giả định) và Kiểm tra Giả định
    + Hồi quy tuyến tính dựa vào nhiều giả định (normality, linearity, independence, homoscedasticity) để có được các ước lượng chính xác.
    + Kiểm tra giả định:
        + Sử dụng đồ thị phần dư (residual plots) để kiểm tra tính tuyến tính và tính đồng nhất của phương sai.
        + Dùng biểu đồ Q-Q (Quantile-Quantile Plot) để kiểm tra normality.
        + Sử dụng kiểm định Durbin-Watson để phát hiện tự tương quan trong dữ liệu chuỗi thời gian.
- Feature Engineering và Interaction Terms (Kỹ thuật tính năng và thuật ngữ tương tác)
    + Tạo các đặc trưng tương tác (interaction terms) giữa các biến để mô hình có thể biểu diễn mối quan hệ phức tạp giữa các biến.
    + Ngoài ra, có thể thực hiện các phép biến đổi khác nhau trên biến (ví dụ log, root, square) để có được mối quan hệ tuyến tính hơn với biến mục tiêu.
- Kỹ thuật Feature Selection nâng cao
    + Recursive Feature Elimination (RFE): Loại bỏ tuần tự các đặc trưng ít quan trọng nhất cho đến khi đạt được bộ đặc trưng tối ưu.
    + Regularized Models (như Lasso) để chọn lọc đặc trưng tự động.
    + Statistical Tests: Kiểm định t-test cho các hệ số để xác định biến nào là quan trọng.
- Bayesian Linear Regression
    + Sử dụng phương pháp Bayesian thay vì tối ưu hóa để tìm phân phối xác suất của các hệ số, giúp cung cấp không chỉ một giá trị duy nhất mà còn là độ không chắc chắn (uncertainty) của mỗi hệ số.
    + Điều này có lợi khi làm việc với các dữ liệu không chắc chắn hoặc khi bạn cần mô hình hồi quy cung cấp độ tự tin về dự đoán.
- Generalized Linear Models (GLMs) - Mô hình tuyến tính tổng quát (GLM)
    + Nếu biến mục tiêu không phải là biến liên tục hay phân phối chuẩn, các Generalized Linear Models như logistic regression (cho dữ liệu nhị phân), Poisson regression (cho dữ liệu đếm) sẽ giúp mô hình hóa các dữ liệu phi tuyến tính hoặc phi chuẩn.

# 1. Ridge và Lasso Regression (Sử dụng dữ liệu nhà ở từ Scikit-Learn)

- https://phamdinhkhanh.github.io/deepai-book/ch_ml/RidgedRegression.html
- Ridge và Lasso rất phù hợp với dữ liệu nhiều đặc trưng để kiểm soát overfitting.

In [None]:
from sklearn.linear_model import Ridge
from sklearn.datasets import load_boston
from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error


# Load data
data = load_boston()
x, y = data.data, data.target
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

# Ridge regression
ridge = Ridge(alpha=1.0)
ridge.fit(x_train, y_train)
ridge_pred = ridge.predict(x_test)
ridge_mse = mean_squared_error(y_test, ridge_pred)

# Lasso Regression
lasso = Lasso(alpha=0.1)
lasso.fit(x_train, y_train)
lasso_pred = lasso.predict(x_test)
lasso_mse = mean_squared_error(y_test, lasso_pred)

print(f"Ridge MSE: {ridge_mse}")
print(f"Lasso MSE: {lasso_mse}")

# 2. Multicollinearity Detection (Sử dụng hệ số VIF với dữ liệu kinh tế giả lập)

- https://en.wikipedia.org/wiki/Multicollinearity
- Phát hiện đa cộng tuyến trong các biến độc lập.

In [None]:
import pandas as pd
from statsmodels.stats.outliers_influence import variance_inflation_factor
import numpy as np


# Giả lập dữ liệu với đa cộng tuyến
np.random.seed(42)
X1 = np.random.rand(100)
X2 = 2 * X1 + np.random.normal(0, 0.1, 100)  # X2 có tương quan cao với X1
X3 = np.random.rand(100)
y = 3 * X1 + 2 * X3 + np.random.normal(0, 0.1, 100)

df = pd.DataFrame({'X1': X1, 'X2': X2, 'X3': X3, 'y': y})

# Tính VIF cho mỗi biến
vif_data = pd.DataFrame()
vif_data["feature"] = df.columns[:-1]
vif_data["VIF"] = [variance_inflation_factor(df.iloc[:, :-1].values, i) for i in range(df.iloc[:, :-1].shape[1])]

print(vif_data)

# 3. Polynomial Regression (Sử dụng dữ liệu mức độ ô nhiễm không khí và thời gian)

- Mô hình hóa mối quan hệ phi tuyến giữa các biến.
- https://www.sciencedirect.com/topics/computer-science/polynomial-regression#:~:text=Polynomial%20regression%20is%20a%20form,variables%20compared%20to%20linear%20regression.
- https://en.wikipedia.org/wiki/Polynomial_regression

In [None]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

# Giả lập dữ liệu
np.random.seed(0)
X = np.linspace(0, 10, 100).reshape(-1, 1)
y = 4 * (X ** 2) + np.random.normal(0, 10, X.shape[0]).reshape(-1, 1)

# Polynomial Regression
poly_features = PolynomialFeatures(degree=2)
X_poly = poly_features.fit_transform(X)

model = LinearRegression()
model.fit(X_poly, y)
y_poly_pred = model.predict(X_poly)

print("Polynomial Regression Model Coefficients:", model.coef_)


# 4. Weighted Least Squares (WLS) Regression cho Heteroscedasticity (Sử dụng dữ liệu giả lập với phương sai không đồng nhất)

In [None]:
import statsmodels.api as sm

# Dữ liệu giả lập
np.random.seed(42)
X = np.random.normal(size=100)
y = 2 * X + 1 + np.random.normal(scale=(0.5 + X), size=100)  # Phương sai thay đổi theo X

X = sm.add_constant(X)
wls_model = sm.WLS(y, X, weights=1 / (0.5 + X.flatten())).fit()
print(wls_model.summary())


# 5. Outlier Detection using Cook's Distance (Sử dụng dữ liệu sức khỏe từ Scikit-Learn)

In [None]:
from sklearn.datasets import fetch_california_housing
import statsmodels.api as sm

# Load dữ liệu
data = fetch_california_housing()
X, y = data.data, data.target

# Tạo mô hình hồi quy và tính Cook's Distance
X = sm.add_constant(X)
model = sm.OLS(y, X).fit()
influence = model.get_influence()
cooks = influence.cooks_distance

# Xác định các điểm outlier
outliers = cooks[0] > 4 / X.shape[0]
print("Indices of outliers:", np.where(outliers))


# 6. Assumption Checks - Normality, Linearity, Independence (Sử dụng dữ liệu lượng mưa)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import probplot
from sklearn.linear_model import LinearRegression

# Giả lập dữ liệu tuyến tính
np.random.seed(0)
X = np.random.normal(0, 1, 100).reshape(-1, 1)
y = 3 * X.flatten() + np.random.normal(0, 1, 100)

# Fit model
model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X)
residuals = y - y_pred

# Kiểm tra linearity và residuals
sns.scatterplot(x=y_pred, y=residuals)
plt.xlabel("Fitted values")
plt.ylabel("Residuals")
plt.title("Residual Plot")
plt.show()

# Q-Q plot for normality
probplot(residuals, plot=plt)
plt.show()


# 8. Bayesian Linear Regression (Sử dụng dữ liệu tài chính với phương pháp Bayesian)

In [6]:
from sklearn.linear_model import BayesianRidge

# Dữ liệu giả lập
np.random.seed(42)
X = np.random.normal(0, 1, 100).reshape(-1, 1)
y = 5 * X.flatten() + np.random.normal(0, 1, 100)

# Bayesian Linear Regression
bayesian_model = BayesianRidge()
bayesian_model.fit(X, y)

print("Bayesian Model Coefficients:", bayesian_model.coef_)
print("Model Intercept:", bayesian_model.intercept_)


Bayesian Model Coefficients: [4.85449211]
Model Intercept: 0.007194098956850303


# 9. Generalized Linear Models (GLMs) (Dữ liệu y học với hồi quy logistic)

In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Load dữ liệu
data = load_breast_cancer()
X, y = data.data, data.target

# Fit GLM logistic model
glm_logistic = LogisticRegression(max_iter=10000)
glm_logistic.fit(X, y)

y_pred = glm_logistic.predict(X)
accuracy = accuracy_score(y, y_pred)

print("Logistic Regression Accuracy:", accuracy)
