# Feature Scaling Exercises - Bài tập về Chuẩn hóa dữ liệu

## Mục tiêu học tập
- Hiểu và thực hành các kỹ thuật chuẩn hóa dữ liệu (Feature Scaling)
- So sánh Min-Max Scaling và Standardization
- Áp dụng Feature Scaling vào các thuật toán Machine Learning
- Đánh giá tác động của Feature Scaling đến hiệu suất mô hình

### 1. Implementing Feature Scaling in Python

**Yêu cầu:**
1. Đọc file `Housing.csv` bằng pandas
2. Chọn các cột số (numerical features): `price`, `area`, `bedrooms`, `bathrooms`, `stories`, `parking`
3. Viết hàm `min_max_scaling(data)` để thực hiện Min-Max Scaling thủ công
   - Công thức: X_scaled = (X - X_min) / (X_max - X_min)
4. Viết hàm `standardization(data)` để thực hiện Standardization thủ công
   - Công thức: X_scaled = (X - mean) / std
5. Áp dụng cả hai phương pháp lên các cột số và in ra kết quả (5 dòng đầu tiên)
6. So sánh:
   - Giá trị min, max của dữ liệu gốc
   - Giá trị min, max sau Min-Max Scaling
   - Mean và std sau Standardization

**Kết quả mong đợi:**
- Min-Max Scaling: giá trị nằm trong khoảng [0, 1]
- Standardization: giá trị có mean ≈ 0 và std ≈ 1

**Gợi ý:**
- Sử dụng NumPy để tính toán (np.min, np.max, np.mean, np.std)

In [None]:
# code here 


### 2. Normalization using Scikit-Learn

**Yêu cầu:**
1. Import `MinMaxScaler` từ `sklearn.preprocessing`
2. Sử dụng dữ liệu từ `Housing.csv`
3. Chọn các features số: `area`, `bedrooms`, `bathrooms`, `stories`, `parking`
4. Khởi tạo `MinMaxScaler()` và fit với dữ liệu
5. Transform dữ liệu và chuyển kết quả về DataFrame với cùng tên cột
6. So sánh dữ liệu trước và sau scaling (hiển thị 10 dòng đầu)
7. Kiểm tra và in ra:
   - Giá trị min của mỗi feature sau scaling
   - Giá trị max của mỗi feature sau scaling
8. Thực hiện inverse_transform để chuyển về dữ liệu gốc và verify kết quả

**Bonus:** 
- Thử thay đổi feature_range thành (-1, 1) và quan sát sự khác biệt
- Vẽ histogram so sánh phân phối trước và sau scaling cho feature `area`

In [None]:
# code here 

### 3. Standardization using Scikit-Learn

**Yêu cầu:**
1. Import `StandardScaler` từ `sklearn.preprocessing`
2. Sử dụng cùng features từ bài tập 6: `area`, `bedrooms`, `bathrooms`, `stories`, `parking`
3. Khởi tạo `StandardScaler()` và fit với dữ liệu
4. Transform dữ liệu và chuyển kết quả về DataFrame
5. Hiển thị 10 dòng đầu của dữ liệu đã scaling
6. Tính và in ra mean và standard deviation của từng feature sau khi scaling
7. So sánh kết quả giữa MinMaxScaler và StandardScaler:
   - Tạo DataFrame hiển thị cùng 5 dòng dữ liệu cho cả 2 phương pháp
   - Nhận xét về sự khác biệt

**Câu hỏi:**
- Feature nào có phương sai lớn nhất sau khi Standardization?
- Dữ liệu sau StandardScaler có bị giới hạn trong một khoảng cố định không? Tại sao?
- Khi nào nên dùng MinMaxScaler? Khi nào nên dùng StandardScaler?

**Bonus:**
- Vẽ boxplot để so sánh phân phối của các features sau khi scaling bằng cả 2 phương pháp

In [None]:
# code here 

### 4. Applying Feature Scaling to Machine Learning Algorithms

**Yêu cầu:**
1. Chuẩn bị dữ liệu từ `Housing.csv`:
   - Features (X): `area`, `bedrooms`, `bathrooms`, `stories`, `parking`, `airconditioning`, `prefarea`
   - Target (y): `price`
   - Encode các biến categorical (`airconditioning`, `prefarea`) thành số (yes=1, no=0)
2. Chia dữ liệu thành train/test set (test_size=0.2, random_state=42)
3. Tạo hai phiên bản của dữ liệu:
   - Dữ liệu gốc (không scaling)
   - Dữ liệu đã scaling (sử dụng StandardScaler)
4. **Lưu ý quan trọng:** Chỉ fit scaler trên tập train, sau đó transform cả train và test
   ```python
   scaler = StandardScaler()
   scaler.fit(X_train)
   X_train_scaled = scaler.transform(X_train)
   X_test_scaled = scaler.transform(X_test)
   ```
5. In ra thông tin:
   - Shape của X_train, X_test, y_train, y_test
   - 5 dòng đầu tiên của X_train và X_train_scaled

**Câu hỏi:**
- Tại sao không được fit scaler trên toàn bộ dữ liệu (bao gồm cả test set)?
- Điều gì xảy ra nếu ta fit scaler trên cả train và test?

In [None]:
# code here 


### 5. K-Nearest Neighbours (KNN)

**Yêu cầu:**
1. Import `KNeighborsRegressor` từ `sklearn.neighbors` (vì `price` là biến liên tục)
2. Sử dụng dữ liệu đã chuẩn bị ở bài tập 8
3. Huấn luyện 2 mô hình KNN (k=5):
   - Model 1: Sử dụng dữ liệu gốc (không scaling)
   - Model 2: Sử dụng dữ liệu đã scaling
4. Đánh giá cả 2 mô hình trên test set:
   - Tính R² score
   - Tính Mean Absolute Error (MAE)
   - Tính Root Mean Squared Error (RMSE)
5. So sánh kết quả dưới dạng bảng (DataFrame)
6. Vẽ scatter plot: Actual vs Predicted cho cả 2 mô hình

**Câu hỏi:**
- Tại sao KNN lại nhạy cảm với việc scaling?
- Mô hình nào cho kết quả tốt hơn? Giải thích tại sao?
- Feature nào có ảnh hưởng lớn nhất khi không scaling?

**Bonus:**
- Thử với các giá trị k khác nhau (k=3, 5, 7, 9, 11) và vẽ biểu đồ so sánh R² score
- Xác định giá trị k tối ưu cho cả 2 trường hợp (có và không có scaling)

In [None]:

# code here 


### 6. Decision Tree

**Yêu cầu:**
1. Import `DecisionTreeRegressor` từ `sklearn.tree`
2. Sử dụng cùng dữ liệu Housing từ bài tập 8
3. Huấn luyện 2 mô hình Decision Tree (max_depth=5):
   - Model 1: Dữ liệu gốc (không scaling)
   - Model 2: Dữ liệu đã scaling
4. Đánh giá và so sánh kết quả:
   - R² score
   - MAE
   - RMSE
5. So sánh Feature Importance của cả 2 mô hình:
   - In ra feature importance
   - Vẽ bar chart để visualize
6. Kiểm tra xem kết quả của 2 mô hình có giống nhau không

**Câu hỏi:**
- Decision Tree có bị ảnh hưởng bởi feature scaling không? Tại sao?
- Feature importance của 2 mô hình có khác nhau không?
- Feature nào quan trọng nhất trong việc dự đoán giá nhà?

**Tổng kết:**
Tạo bảng so sánh hiệu suất của tất cả các mô hình (KNN, SVR, Decision Tree) với và không có scaling:

| Model | Without Scaling (R²) | With Scaling (R²) | Difference |
|-------|---------------------|-------------------|------------|
| KNN   | ?                   | ?                 | ?          |
| DT    | ?                   | ?                 | ?          |

**Nhận xét:**
- Thuật toán nào bị ảnh hưởng nhiều nhất bởi scaling?
- Thuật toán nào cho kết quả tốt nhất trên dataset này?

**Bài tập mở rộng:**
- Thử với Random Forest và so sánh với Decision Tree
- Tạo một Pipeline tự động bao gồm scaling và training
- Thử với các phương pháp scaling khác (RobustScaler, MaxAbsScaler)

In [None]:
# code here 
