## **1.Hàm cross_val_score và cross_val_predict trong thư viện scikit-learn**

### Hai hàm cross_val_score và cross_val_predict trong thư viện scikit-learn được sử dụng cho cross-validation (CV), nhưng chúng phục vụ các mục đích khác nhau và trả về các đầu ra khác nhau.

1. cross_val_score
- Mục đích: Tính toán điểm số (scores) cho mô hình của bạn trên mỗi lần chia cross-validation.
- Đầu ra: Một mảng 1D chứa các điểm số tương ứng với từng lần chia (fold) trong CV.
- Ví dụ:
```python
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression
import numpy as np

# Dữ liệu ví dụ
X = np.random.rand(100, 1)
y = 3 * X[:, 0] + np.random.randn(100) * 0.1

# Mô hình
model = LinearRegression()

# Tính điểm R² qua 5 lần chia (folds)
scores = cross_val_score(model, X, y, cv=5, scoring='r2')
print("Cross-validation scores (R²):", scores)
print("Mean R²:", scores.mean())
```

- Cross-validation scores (R²): [0.89, 0.91, 0.88, 0.92, 0.87]
- Mean R²: 0.894
- scores chứa điểm số trên mỗi fold.
- Bạn có thể thay đổi metric thông qua scoring (ví dụ: 'neg_mean_squared_error', 'accuracy', v.v.).
2. cross_val_predict
- Mục đích: Trả về các giá trị dự đoán từ mô hình trên toàn bộ tập dữ liệu bằng cách sử dụng cross-validation.
Các dự đoán này được thực hiện trên các fold không tham gia huấn luyện (out-of-fold predictions).
- Đầu ra: Một mảng 1D (hoặc 2D nếu có nhiều đầu ra) chứa các giá trị dự đoán tương ứng với từng mẫu trong tập dữ liệu.
- Ví dụ
```python
from sklearn.model_selection import cross_val_predict
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

# Dữ liệu ví dụ
X = np.random.rand(100, 1)
y = 3 * X[:, 0] + np.random.randn(100) * 0.1

# Mô hình
model = LinearRegression()

# Dự đoán qua 5 lần chia (folds)
y_pred = cross_val_predict(model, X, y, cv=5)

# Đánh giá độ chính xác
mse = mean_squared_error(y, y_pred)
print("Mean Squared Error (MSE):", mse)
```

- Mean Squared Error (MSE): 0.012

**So sánh cross_val_score và cross_val_predict**

|Hàm|Mục đích|Đầu ra|
|-------------|------------------|----------------|
|cross_val_score | Tính toán điểm số của mô hình trên từng fold.	|Mảng 1D chứa điểm số (e.g., R², MSE, accuracy) từ từng fold.|
|cross_val_predict	|Dự đoán giá trị đầu ra cho toàn bộ tập dữ liệu qua CV.|	Mảng 1D hoặc 2D chứa giá trị dự đoán (out-of-fold) |cho mỗi mẫu trong tập dữ liệu.
- Sử dụng cross_val_score để đánh giá hiệu năng mô hình.
- Sử dụng cross_val_predict nếu bạn cần các dự đoán out-of-fold để kiểm tra hoặc phân tích thêm.

## **2.Ý nghĩa của hàm pr.fit_transform trong PolynomialFeatures**

### Toán học đằng sau việc chuyển các đa thức với `PolynomialFeatures(degree=2)`

#### 1. **Dữ Liệu Đầu Vào (Input Data)**

Giả sử bạn có một tập dữ liệu với một đặc trưng đơn duy nhất, ví dụ như `CPU_frequency`, là một vector với các giá trị như sau:

$$
X = \begin{bmatrix}
x_1 \\
x_2 \\
x_3 \\
\vdots \\
x_n
\end{bmatrix}
$$
Trong đó:
- $ x_1, x_2, \dots, x_n$ là các giá trị của `CPU_frequency`, với $n$ là số lượng mẫu trong tập dữ liệu.

#### 2. **Chuyển Đổi Bằng `PolynomialFeatures(degree=2)`**

Khi bạn áp dụng `PolynomialFeatures(degree=2)` lên cột `CPU_frequency`, bạn yêu cầu mô hình tạo ra các đặc trưng (features) đa thức từ cột `CPU_frequency` ban đầu.

- **Bậc 0**: Tạo thêm một cột có giá trị luôn là 1. Cột này giúp cho mô hình học được hệ số chặn (intercept).
- **Bậc 1**: Tạo ra cột có giá trị chính là $ x_i$ từ `CPU_frequency`.
- **Bậc 2**: Tạo ra cột có giá trị là $ x_i^2$, tức là bình phương của `CPU_frequency`.

Với `degree=2`, mỗi giá trị $ x_i$ sẽ tạo ra ba đặc trưng: một cột giá trị 1, một cột giá trị $ x_i$, và một cột giá trị $ x_i^2$.

#### 3. **Ma Trận Đặc Trưng (Feature Matrix)**

Sau khi chuyển đổi, mỗi mẫu $ x_i $ từ `CPU_frequency` sẽ được chuyển thành một vector có ba phần tử: 1, $ x_i$, và $ x_i^2$. Từ đó, các giá trị này sẽ tạo thành một ma trận $n \times 3$, trong đó:
- Cột 1 chứa giá trị 1 (hệ số chặn),
- Cột 2 chứa các giá trị $ x_i$,
- Cột 3 chứa các giá trị $ x_i^2$.

#### 4. **Ví Dụ Cụ Thể**

Giả sử dữ liệu đầu vào của bạn là:

$$
X = \begin{bmatrix}
2 \\
3 \\
4 \\
\end{bmatrix}
$$
Khi áp dụng `PolynomialFeatures(degree=2)` lên dữ liệu này, chúng ta sẽ có:

$$
X_{\text{poly}} = \begin{bmatrix}
1 & 2 & 4 \\
1 & 3 & 9 \\
1 & 4 & 16 \\
\end{bmatrix}
$$
Ở đây:
- Cột đầu tiên (cột hệ số chặn) là các giá trị 1,
- Cột thứ hai là các giá trị $ x_i$ (2, 3, 4),
- Cột thứ ba là các giá trị $ x_i^2$ (4, 9, 16).

#### 5. **Giải Thích Toán Học**

Giả sử dữ liệu đầu vào là một vector $ X = [x_1, x_2, \dots, x_n]$, sau khi áp dụng `PolynomialFeatures(degree=2)`, bạn sẽ nhận được một ma trận mới với mỗi dòng là một vector đặc trưng của một mẫu. Ma trận này có cấu trúc như sau:

$$
X_{\text{poly}} = \begin{bmatrix}
1 & x_1 & x_1^2 \\
1 & x_2 & x_2^2 \\
1 & x_3 & x_3^2 \\
\vdots & \vdots & \vdots \\
1 & x_n & x_n^2 \\
\end{bmatrix}
$$
Trong đó:
- Mỗi dòng đại diện cho một mẫu trong tập dữ liệu,
- Cột 1 là 1 (giúp mô hình học được hệ số chặn),
- Cột 2 là giá trị của `CPU_frequency` ($x_i$),
- Cột 3 là bình phương của giá trị đó ($x_i^2$).

#### 6. **Kết Luận**

Qua đó, khi áp dụng `PolynomialFeatures(degree=2)` cho dữ liệu đầu vào, bạn thực tế đang tạo ra một ma trận mới, trong đó:
- Các cột đầu tiên là giá trị gốc của các đặc trưng (cột $x_i$),
- Các cột tiếp theo là các đặc trưng bậc cao, ví dụ như $ x_i^2$, $ x_i^3$, ...

Với việc tạo ra một ma trận mới $n \times 3$, bạn đã có thể đưa ra các đặc trưng không chỉ phụ thuộc vào giá trị gốc, mà còn bao gồm các mối quan hệ phi tuyến tính giữa các đặc trưng ban đầu.


## **3.Giải thích hàm fit(x,y) trong hàm Linear Regression**

### Giải thích chi tiết về `lr.fit(x_train_pr, y_train)` và toán học đằng sau

Để giải thích rõ hơn về quá trình khi bạn chạy lệnh `lr.fit(x_train_pr, y_train)` và toán học đằng sau nó, chúng ta sẽ đi sâu vào từng bước chi tiết:

#### **1. Về `PolynomialFeatures`**
Khi bạn sử dụng `PolynomialFeatures(degree=2)`, bạn đang chuyển đổi một đặc trưng đơn (chẳng hạn như `CPU_frequency`) thành các đặc trưng đa thức bậc 2. 

Giả sử đặc trưng ban đầu của bạn là một cột dữ liệu với các giá trị $ x $. Sau khi chuyển đổi bằng `PolynomialFeatures(degree=2)`, đặc trưng này sẽ được mở rộng thành các cột sau:
- $ 1 $ (để tương ứng với hệ số chặn trong hồi quy tuyến tính),
- $ x $ (giá trị của đặc trưng ban đầu),
- $ x^2 $ (đặc trưng bậc 2).

Ví dụ:
Giả sử cột `CPU_frequency` của bạn có giá trị là:
$$
\begin{bmatrix}
2 \\
3 \\
4 \\
\end{bmatrix}
$$

Sau khi áp dụng `PolynomialFeatures(degree=2)`, bạn sẽ có ma trận đặc trưng như sau:
$$
X_{\text{poly}} = \begin{bmatrix}
1 & 2 & 4 \\
1 & 3 & 9 \\
1 & 4 & 16 \\
\end{bmatrix}
$$

Mỗi hàng là một mẫu trong tập huấn luyện và mỗi cột là một đặc trưng, bao gồm cả giá trị ban đầu và các đặc trưng bậc cao.

#### **2. Về Mô Hình Hồi Quy Tuyến Tính (Linear Regression)**
Mô hình hồi quy tuyến tính (Linear Regression) được sử dụng để tìm các hệ số $ \beta_0, \beta_1, \dots, \beta_m $ sao cho mô hình có thể dự đoán chính xác giá trị $ y $ từ các đặc trưng $ x_1, x_2, \dots, x_m $.

Mô hình hồi quy tuyến tính có dạng:

$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_m x_m
$$

Trong đó:
- $ y $ là giá trị mục tiêu mà mô hình muốn dự đoán (chẳng hạn như `gpa` hoặc `price`),
- $ x_1, x_2, \dots, x_m $ là các đặc trưng đầu vào (trong trường hợp này là các đặc trưng đa thức từ `CPU_frequency`),
- $ \beta_0, \beta_1, \dots, \beta_m $ là các hệ số (coefficients) của mô hình mà chúng ta cần tìm.

#### **3. Quá Trình Huấn Luyện Mô Hình (Training the Model)**

Khi bạn chạy `lr.fit(x_train_pr, y_train)`, mô hình sẽ cố gắng tìm ra các hệ số $ \beta_0, \beta_1, \dots, \beta_m $ sao cho hàm mất mát (loss function), thường là **Mean Squared Error (MSE)**, được tối thiểu hóa.

##### **Hàm Mất Mát (Loss Function)**
Hàm mất mát MSE đo lường sự sai lệch giữa giá trị dự đoán $ \hat{y}_i $ và giá trị thực tế $ y_i $ từ dữ liệu huấn luyện. Công thức tính MSE là:

$$
MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$

Trong đó:
- $ y_i $ là giá trị mục tiêu thực tế,
- $ \hat{y}_i $ là giá trị dự đoán từ mô hình,
- $ n $ là số lượng mẫu trong tập huấn luyện.

Mục tiêu của quá trình huấn luyện là tối thiểu hóa giá trị MSE này, tức là tìm các hệ số $ \beta_0, \beta_1, \dots, \beta_m $ sao cho sự khác biệt giữa giá trị thực tế và giá trị dự đoán là nhỏ nhất.

##### **Giải Quyết Bài Toán Tối Thiểu MSE**
Để tối thiểu hóa MSE, bạn có thể sử dụng phương pháp bình phương tối thiểu (Ordinary Least Squares - OLS). Phương pháp này tìm các hệ số hồi quy $ \beta $ bằng cách giải phương trình:

$$
\hat{\beta} = (X^T X)^{-1} X^T y
$$

Trong đó:
- $ X $ là ma trận đặc trưng (sau khi chuyển đổi thành đa thức),
- $ X^T $ là ma trận chuyển vị của $ X $,
- $ (X^T X)^{-1} $ là ma trận nghịch đảo của $ X^T X $,
- $ y $ là vector giá trị mục tiêu (target values).

Phương trình này có thể được giải để tìm ra các hệ số $ \beta $, và chúng chính là các hệ số mà mô hình học được trong quá trình huấn luyện.

#### **4. Quá Trình Dự Đoán (Prediction)**
Khi bạn có các hệ số $ \hat{\beta_0}, \hat{\beta_1}, \dots, \hat{\beta_m} $, bạn có thể sử dụng chúng để dự đoán giá trị $ y $ cho các mẫu mới (chưa thấy trước đó).

Giả sử bạn có một vector đặc trưng $ X_{\text{new}} = [1, x_{\text{new}}, x_{\text{new}}^2] $, giá trị dự đoán $ \hat{y} $ sẽ được tính như sau:

$$
\hat{y} = \hat{\beta_0} + \hat{\beta_1} x_{\text{new}} + \hat{\beta_2} x_{\text{new}}^2
$$

#### **Tóm Tắt Quá Trình:**
- **Bước 1**: Bạn sử dụng `PolynomialFeatures(degree=2)` để chuyển đổi đặc trưng ban đầu thành các đặc trưng đa thức.
- **Bước 2**: Mô hình hồi quy tuyến tính được huấn luyện (fit) trên ma trận đặc trưng đã chuyển đổi.
- **Bước 3**: Quá trình huấn luyện tìm ra các hệ số $ \hat{\beta_0}, \hat{\beta_1}, \dots, \hat{\beta_m} $ sao cho giá trị MSE (lỗi dự đoán) được tối thiểu hóa.
- **Bước 4**: Mô hình sử dụng các hệ số đã học được để dự đoán giá trị $ y $ cho các mẫu mới.

#### **Ý Nghĩa Toán Học**:
Quá trình này chính là việc mô hình tìm ra phương trình đa thức phù hợp nhất để mô tả mối quan hệ giữa các đặc trưng và giá trị mục tiêu, bằng cách tối thiểu hóa sự sai lệch giữa giá trị thực tế và giá trị dự đoán qua việc tính toán các hệ số $ \beta $.
