# Lecture 1 - What Is Feature Engineering

## Mục tiêu của Feature Engineering

**Mục tiêu chính của Feature Engineering** là giúp dữ liệu của bạn **phù hợp hơn với bài toán** đang giải quyết.

Hãy xem xét một ví dụ thực tế về **nhiệt độ cảm nhận** như **chỉ số nhiệt (heat index)** và **gió lạnh (wind chill)**.  
Những giá trị này cố gắng đo **nhiệt độ thực tế mà con người cảm nhận**, dựa trên **nhiệt độ không khí, độ ẩm và tốc độ gió** – những yếu tố có thể đo lường trực tiếp.  
Bạn có thể coi **nhiệt độ cảm nhận** như một dạng **Feature Engineering**, giúp dữ liệu đo được trở nên **phù hợp hơn** với thứ mà con người thực sự quan tâm: **cảm giác thực tế khi ở ngoài trời!** 🌡️

Bạn có thể áp dụng **Feature Engineering** để:
- **Cải thiện hiệu suất dự đoán** của mô hình.
- **Giảm nhu cầu về dữ liệu và tài nguyên tính toán**.
- **Cải thiện khả năng diễn giải kết quả mô hình**.

---

## **Nguyên tắc quan trọng trong Feature Engineering**

Một **đặc trưng hữu ích** phải có **mối quan hệ** với biến mục tiêu mà **mô hình có thể học được**.  

Ví dụ:
- **Mô hình tuyến tính (Linear Model)** chỉ có thể học **mối quan hệ tuyến tính**.
- Nếu dữ liệu không có quan hệ tuyến tính, bạn cần **biến đổi đặc trưng** để tạo ra mối quan hệ tuyến tính hơn.

Điều quan trọng ở đây là:  
> **Mọi phép biến đổi bạn áp dụng vào dữ liệu đều trở thành một phần của mô hình!**  

---

### **Ví dụ minh họa**
Giả sử bạn cần dự đoán **giá đất (Price)** của một mảnh đất hình vuông từ **chiều dài (Length)** của một cạnh.

- Nếu bạn **sử dụng trực tiếp `Length`**, mô hình tuyến tính sẽ **không thể khớp dữ liệu tốt**, vì mối quan hệ giữa **chiều dài và giá đất không phải là tuyến tính**.

📌 **Biểu đồ sau cho thấy một đường thẳng không phù hợp với dữ liệu:**  
<img src="5D1z24N.png" width=300 alt="Biểu đồ phân tán của Length (x-axis) và Price (y-axis), với các điểm tăng theo đường cong nhưng mô hình tuyến tính không khớp tốt.">

📌 **Giải pháp**: Thay vì sử dụng **`Length`**, chúng ta có thể tạo một đặc trưng mới:  
👉 **Diện tích (`Area`) = `Length`²**  

- Khi sử dụng **`Area`** thay vì **`Length`**, chúng ta tạo ra **mối quan hệ tuyến tính** giữa đặc trưng và biến mục tiêu.
- Bây giờ, **mô hình tuyến tính có thể khớp dữ liệu tốt hơn** bằng cách **tạo ra một đường parabol**.

📌 **Kết quả sau khi biến đổi `Area`:**
<img src="BLRsYOK.png" width=600 alt="Trái: Biểu đồ với Area trên trục x, với một đường tuyến tính phù hợp. Phải: Biểu đồ với Length trên trục x, với một đường cong phù hợp.">

### **Bài học rút ra**
- **Feature Engineering giúp biến đổi dữ liệu để mô hình có thể học tốt hơn**.
- **Mọi mối quan hệ mà mô hình không thể tự học, bạn có thể tạo ra thông qua biến đổi đặc trưng**.
- Khi xây dựng tập đặc trưng, hãy **tự hỏi thông tin nào có thể giúp mô hình đạt hiệu suất tốt nhất**.

🚀 **Feature Engineering là một trong những cách mang lại giá trị cao nhất khi tối ưu mô hình Machine Learning!**

## Ví dụ - Công thức bê tông

Để minh họa những ý tưởng này, chúng ta sẽ xem xét cách thêm một số đặc trưng tổng hợp (*synthetic features*) vào tập dữ liệu có thể cải thiện hiệu suất dự đoán của mô hình *random forest*.

Tập dữ liệu [*Concrete*](https://www.kaggle.com/sinamhd9/concrete-comprehensive-strength) chứa nhiều công thức khác nhau của bê tông và *độ bền nén* (*compressive strength*) của sản phẩm thu được. Đây là một thước đo về khả năng chịu tải của loại bê tông đó. Nhiệm vụ với tập dữ liệu này là dự đoán độ bền nén của bê tông dựa trên thành phần của nó.

In [10]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score

df = pd.read_excel("Concrete_Data.xls")
df.head()

Unnamed: 0,Cement,BlastFurnaceSlag,FlyAsh,Water,Superplasticizer,CoarseAggregate,FineAggregate,Age,CompressiveStrength
0,540.0,0.0,0.0,162.0,2.5,1040.0,676.0,28,79.986111
1,540.0,0.0,0.0,162.0,2.5,1055.0,676.0,28,61.887366
2,332.5,142.5,0.0,228.0,0.0,932.0,594.0,270,40.269535
3,332.5,142.5,0.0,228.0,0.0,932.0,594.0,365,41.05278
4,198.6,132.4,0.0,192.0,0.0,978.4,825.5,360,44.296075


Bạn có thể thấy ở đây các thành phần khác nhau được sử dụng trong từng loại bê tông. Chúng ta sẽ sớm thấy rằng việc thêm một số đặc trưng tổng hợp (*synthetic features*) được suy ra từ các thành phần này có thể giúp mô hình học được các mối quan hệ quan trọng giữa chúng.

Trước tiên, chúng ta sẽ thiết lập một mô hình cơ sở (*baseline*) bằng cách huấn luyện mô hình trên tập dữ liệu chưa được bổ sung thêm đặc trưng. Điều này sẽ giúp chúng ta xác định liệu các đặc trưng mới có thực sự hữu ích hay không.

Thiết lập mô hình cơ sở như thế này là một thực hành tốt khi bắt đầu quá trình kỹ thuật đặc trưng (*feature engineering*). Một điểm số cơ sở có thể giúp bạn quyết định liệu các đặc trưng mới có đáng để giữ lại hay không, hay bạn nên loại bỏ chúng và thử một phương pháp khác.

In [11]:
X = df.copy()
y = X.pop("CompressiveStrength")

# Train and score baseline model
baseline = RandomForestRegressor(criterion="absolute_error", random_state=0)
baseline_score = cross_val_score(
    baseline, X, y, cv=5, scoring="neg_mean_absolute_error"
)
baseline_score = -1 * baseline_score.mean()

print(f"MAE Baseline Score: {baseline_score:.4}")

MAE Baseline Score: 8.397


Nếu bạn từng nấu ăn tại nhà, bạn có thể biết rằng *tỷ lệ* (*ratio*) giữa các thành phần trong một công thức thường là một yếu tố dự đoán tốt hơn về kết quả món ăn so với lượng tuyệt đối của từng thành phần. Do đó, chúng ta có thể suy luận rằng tỷ lệ giữa các đặc trưng trên sẽ là một yếu tố dự đoán tốt đối với `CompressiveStrength`.

Ô dưới đây sẽ thêm ba đặc trưng tỷ lệ mới vào tập dữ liệu.

In [12]:
X = df.copy()
y = X.pop("CompressiveStrength")

# Create synthetic features
X["FCRatio"] = X["FineAggregate"] / X["CoarseAggregate"]
X["AggCmtRatio"] = (X["CoarseAggregate"] + X["FineAggregate"]) / X["Cement"]
X["WtrCmtRatio"] = X["Water"] / X["Cement"]

# Train and score model on dataset with additional ratio features
model = RandomForestRegressor(criterion="absolute_error", random_state=0)
score = cross_val_score(
    model, X, y, cv=5, scoring="neg_mean_absolute_error"
)
score = -1 * score.mean()

print(f"MAE Score with Ratio Features: {score:.4}")

MAE Score with Ratio Features: 8.011


Và đúng như mong đợi, hiệu suất đã được cải thiện! Điều này chứng tỏ rằng các đặc trưng tỷ lệ mới đã giúp mô hình tiếp cận được những thông tin quan trọng mà trước đó nó chưa phát hiện ra.

## Continue

Chúng ta đã thấy rằng việc kỹ thuật đặc trưng (*feature engineering*) có thể cải thiện hiệu suất mô hình. Nhưng làm thế nào để xác định được các đặc trưng trong tập dữ liệu có thể hữu ích khi kết hợp với nhau? Hãy [**khám phá các đặc trưng hữu ích**](https://www.kaggle.com/ryanholbrook/mutual-information) bằng cách sử dụng thông tin tương hỗ (*mutual information*).

---

*Bạn có câu hỏi hoặc nhận xét? Hãy truy cập [diễn đàn thảo luận của khóa học](https://www.kaggle.com/learn/feature-engineering/discussion) để trò chuyện với các học viên khác.*