## Chương 4. HỌC MÁY

### Mô hình hồi quy tuyến tính
Các thuật toán hồi quy là nền tảng quan trọng trong học máy, giúp mô hình hóa mối quan hệ giữa các biến. Hồi quy tuyến tính giả định mối quan hệ tuyến tính giữa biến giải thích và biến phụ thuộc, thường được ứng dụng trong các bài toán dự báo như doanh số, đầu tư hay thời tiết. Phương trình tổng quát của mô hình hồi quy tuyến tính đa biến được viết như sau:

$$
\hat{y} = \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \cdots + \beta_n x_n + \beta_0
$$

Trong đó:

- $ \hat{y} $: Biến phụ thuộc cần dự đoán  
- $ x_1, x_2, \ldots, x_n $: Các biến giải thích (biến đầu vào)  
- $ \beta_1, \beta_2, \ldots, \beta_n $: Các hệ số góc (trọng số của từng biến)  
- $ \beta_0 $: Hệ số tự do (hay còn gọi là **hệ số chặn**, intercept)

Với cách biểu diễn trên, ta cần đi tìm véc-tơ tham số $\beta $ sao giá trị sai lệch của điểm $\hat{y}$ so với điểm $y$ (các điểm thực tế) đạt giá trị nhỏ nhất.

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
col = pd.read_csv('data\College.csv')

# 2. Tiền xử lý
col = col.drop(columns=['Unnamed: 0'])                 # bỏ cột tên trường không dùng trong tính toán
col['Private'] = col['Private'].map({'Yes':1, 'No':0}) # encode biến phân loại

# 3. Tách biến độc lập và phụ thuộc
X = col.drop(columns=['Expend'])
y = col['Expend']

# 4. Chia train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 5. Train mô hình hồi quy tuyến tính
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)

# 6. Dự đoán và đánh giá
y_pred = lin_reg.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)