# BÀI THỰC HÀNH: TIỀN XỬ LÝ DỮ LIỆU CHO BÀI TOÁN DỰ ĐOÁN THUỐC PHẢN ỨNG
# PRACTICE: DATA PREPROCESSING FOR DRUG RESPONSE PREDICTION

---

## GIỚI THIỆU CHUNG
## GENERAL INTRODUCTION

Chào mừng các bạn đến với bài thực hành về **Tiền xử lý dữ liệu** - một trong những kỹ năng quan trọng nhất trong Machine Learning!  
Welcome to the practice on **Data Preprocessing** – one of the most important skills in Machine Learning!

---

### MỤC TIÊU BÀI THỰC HÀNH
### OBJECTIVES OF THIS PRACTICE

Sau khi hoàn thành bài thực hành này, sinh viên sẽ có khả năng:  
After completing this practice, students will be able to:

1. **Hiểu được tầm quan trọng** của tiền xử lý dữ liệu trong Machine Learning  
   **Understand the importance** of data preprocessing in Machine Learning
2. **Thực hành các kỹ thuật cơ bản** của tiền xử lý dữ liệu:  
   **Apply basic techniques** of data preprocessing:
   - Xử lý dữ liệu định tính (Categorical Data)  
     Handle categorical data
   - Chuẩn hóa dữ liệu số (Standardization)  
     Standardize numerical data
   - Mã hóa nhãn (Label Encoding)  
     Encode labels
3. **Áp dụng thực tế** trên bộ dữ liệu y tế về phản ứng thuốc của bệnh nhân  
   **Apply in practice** on a medical dataset of patient drug responses

---

### TÌNH HUỐNG THỰC TẾ
### REAL-WORLD SCENARIO

Bạn là một **Data Scientist** tại bệnh viện. Nhiệm vụ của bạn là xây dựng hệ thống hỗ trợ bác sĩ dự đoán loại thuốc phù hợp cho bệnh nhân mới dựa trên thông tin cá nhân và tình trạng sức khỏe.  
You are a **Data Scientist** at a hospital. Your task is to build a system that assists doctors in predicting the most suitable drug for a new patient based on personal information and health status.

> Thực tế: Trong y tế, việc chọn đúng thuốc có thể cứu sống bệnh nhân. Machine Learning giúp bác sĩ đưa ra quyết định chính xác hơn dựa trên dữ liệu lịch sử.  
> Reality: In healthcare, selecting the right drug can save lives. Machine Learning helps doctors make more accurate decisions based on historical data.

---

**Nguồn / Source**: [Google Drive Folder](https://drive.google.com/drive/u/0/folders/1RuVKVio76JgoC-lwwMv3R4BgWuco5bEZ)


## NỘI DUNG THỰC HÀNH
## PRACTICE CONTENT

Bài thực hành được chia thành các phần chính sau:  
The practice is divided into the following main sections:

<div class="alert alert-block alert-info" style="margin-top: 20px; padding: 15px; border-left: 5px solid #2196F3;">
    <h3><strong>Lộ trình học tập</strong></h3>
    <h3><strong>Learning Path</strong></h3>
    <ol style="font-size: 16px; line-height: 1.8;">
        <li><strong>Import thư viện</strong> - Chuẩn bị công cụ cần thiết  
            <strong>Import Libraries</strong> - Prepare necessary tools
        </li>
        <li><strong>Giới thiệu về dữ liệu</strong> - Hiểu bài toán và dữ liệu  
            <strong>Data Introduction</strong> - Understand the problem and dataset
        </li>
        <li><strong>Tải và đọc dữ liệu</strong> - Nạp dữ liệu vào Python  
            <strong>Load and Read Data</strong> - Load dataset into Python
        </li>
        <li><strong>Khám phá dữ liệu</strong> - Phân tích đặc điểm dữ liệu  
            <strong>Data Exploration</strong> - Analyze dataset characteristics
        </li>
        <li><strong>Tiền xử lý dữ liệu</strong> - Chuẩn bị dữ liệu cho ML  
            <strong>Data Preprocessing</strong> - Prepare data for ML
        </li>
        <li><strong>Kết luận và bài tập</strong> - Tổng kết kiến thức  
            <strong>Conclusion and Exercises</strong> - Summarize knowledge
        </li>
    </ol>
</div>

### THỜI GIAN DỰ KIẾN: 90 phút
### ESTIMATED TIME: 90 minutes

### CÔNG CỤ SỬ DỤNG: Google Colab, Python, Pandas, Scikit-learn
### TOOLS: Google Colab, Python, Pandas, Scikit-learn

---

<div class="alert alert-block alert-warning" style="margin-top: 20px; padding: 15px; border-left: 5px solid #FF9800;">
    <h4><strong>Hướng dẫn sử dụng Notebook</strong></h4>
    <h4><strong>Notebook Usage Instructions</strong></h4>
    <ul>
        <li><strong>Đọc kỹ giải thích</strong> trước khi chạy mỗi cell  
            <strong>Read explanations carefully</strong> before running each cell
        </li>
        <li><strong>Chạy cell theo thứ tự</strong> từ trên xuống dưới  
            <strong>Run cells in order</strong> from top to bottom
        </li>
        <li><strong>Thử nghiệm</strong> với các tham số khác nhau khi được yêu cầu  
            <strong>Experiment</strong> with different parameters when requested
        </li>
        <li><strong>Trả lời câu hỏi</strong> trong phần thảo luận  
            <strong>An


# BƯỚC 1: IMPORT CÁC THƯ VIỆN CẦN THIẾT
# STEP 1: IMPORT NECESSARY LIBRARIES

---

## Tại sao cần import thư viện?
## Why do we need to import libraries?

Trong Python, **thư viện (library)** chứa các hàm và công cụ được viết sẵn giúp chúng ta thực hiện các tác vụ phức tạp một cách dễ dàng.  
Thay vì viết code từ đầu, chúng ta sử dụng các thư viện chuyên dụng.  
In Python, **libraries** contain pre-written functions and tools that help us perform complex tasks easily.  
Instead of writing code from scratch, we use specialized libraries.

## Các thư viện sẽ sử dụng:
## Libraries to be used:

<div class="alert alert-block alert-success">
<table style="width:100%; font-size: 14px;">
  <tr style="background-color: #f0f0f0;">
    <th style="padding: 10px; text-align: left; width: 25%;">Thư viện / Library</th>
    <th style="padding: 10px; text-align: left; width: 75%;">Mục đích sử dụng / Purpose</th>
  </tr>
  <tr>
    <td style="padding: 10px;"><strong>NumPy</strong><br><code>import numpy as np</code></td>
    <td style="padding: 10px;">
      <strong>Tính toán khoa học</strong><br>
      • Xử lý mảng (array) hiệu quả<br>
      • Các phép toán toán học cơ bản<br>
      • Nền tảng cho các thư viện khác<br><br>
      <strong>Scientific computing</strong><br>
      • Efficient array handling<br>
      • Basic mathematical operations<br>
      • Foundation for other libraries
    </td>
  </tr>
  <tr>
    <td style="padding: 10px;"><strong>Pandas</strong><br><code>import pandas as pd</code></td>
    <td style="padding: 10px;">
      <strong>Xử lý và phân tích dữ liệu</strong><br>
      • Đọc/ghi file CSV, Excel<br>
      • Làm việc với DataFrame (bảng dữ liệu)<br>
      • Thống kê mô tả, lọc dữ liệu<br><br>
      <strong>Data manipulation and analysis</strong><br>
      • Read/write CSV, Excel files<br>
      • Work with DataFrames<br>
      • Descriptive statistics, data filtering
    </td>
  </tr>
  <tr>
    <td style="padding: 10px;"><strong>Scikit-learn</strong><br><code>from sklearn import preprocessing</code></td>
    <td style="padding: 10px;">
      <strong>Machine Learning & Tiền xử lý</strong><br>
      • Label Encoding (mã hóa nhãn)<br>
      • Standardization (chuẩn hóa)<br>
      • Các thuật toán ML<br><br>
      <strong>Machine Learning & Preprocessing</strong><br>
      • Label Encoding<br>
      • Standardization<br>
      • ML algorithms
    </td>
  </tr>
</table>
</div>

## Thực hành / Practice

**Nhiệm vụ**: Chạy cell dưới đây để import các thư viện cần thiết.  
**Task**: Run the cell below to import the required libraries.

> **Lưu ý / Note**: Sử dụng `as np`, `as pd` để tạo tên viết tắt, giúp code ngắn gọn hơn.  
> Use `as np`, `as pd` to create aliases for shorter code.


In [None]:
from sklearn import preprocessing
import numpy as np
import pandas as pd

### Kết quả / Result

Chúng ta đã import thành công các thư viện. Bây giờ có thể sử dụng:  
We have successfully imported the libraries. Now we can use:  

- `np.array()` thay vì `numpy.array()`  
- `np.array()` instead of `numpy.array()`  
- `pd.read_csv()` thay vì `pandas.read_csv()`  
- `pd.read_csv()` instead of `pandas.read_csv()`  

### Câu hỏi thảo luận / Discussion Questions

1. **Tại sao** chúng ta cần sử dụng nhiều thư viện khác nhau?  
   **Why** do we need to use multiple libraries?  

2. **Lợi ích** của việc sử dụng `as np`, `as pd` là gì?  
   What are the **benefits** of using `as np`, `as pd`?  

3. **Điều gì** sẽ xảy ra nếu chúng ta không import thư viện trước khi sử dụng?  
   What would happen if we do not import libraries before using them?


# BƯỚC 2: GIỚI THIỆU VỀ BỘ DỮ LIỆU / STEP 2: DATASET INTRODUCTION

---

## Bài toán thực tế: Dự đoán thuốc phản ứng cho bệnh nhân
## Real-world Problem: Predicting Drug Response for Patients

### Mô tả bài toán / Problem Description

Bạn là một **Data Scientist** làm việc cho bệnh viện. Bác sĩ muốn có một hệ thống hỗ trợ để dự đoán loại thuốc phù hợp với bệnh nhân mới dựa trên:
You are a **Data Scientist** at a hospital. Doctors want a support system to predict the most suitable drug for a new patient based on:

- Thông tin cá nhân (tuổi, giới tính)  
- Personal information (age, gender)  
- Tình trạng sức khỏe (huyết áp, cholesterol, tỷ lệ Na/K)  
- Health status (blood pressure, cholesterol, Na/K ratio)  

### Mục tiêu / Objective
Xây dựng mô hình Machine Learning dự đoán loại thuốc (**A, B, C, X, Y**) mà bệnh nhân sẽ phản ứng tốt nhất.  
Build a Machine Learning model to predict the drug (**A, B, C, X, Y**) that the patient will respond best to.

---

## Mô tả chi tiết về dữ liệu / Dataset Details

**Thông tin tổng quan / Overview:**
- Số lượng bệnh nhân: 200  
  Number of patients: 200
- Số thuộc tính: 6 (5 đầu vào + 1 đầu ra)  
  Number of features: 6 (5 inputs + 1 output)
- Loại bài toán: Phân loại (Classification)  
  Problem type: Classification
- Nguồn: Dữ liệu y tế mô phỏng  
  Source: Simulated medical data

### Chi tiết các thuộc tính / Feature Details

| Thuộc tính / Feature | Ý nghĩa / Meaning | Kiểu dữ liệu / Type | Giá trị ví dụ / Example Values |
|--------------------|-----------------|------------------|-------------------------------|
| Age | Tuổi của bệnh nhân / Patient age | Số nguyên / Integer | 23, 47, 69 |
| Sex | Giới tính / Gender | Định tính / Categorical | F (Female), M (Male) |
| BP | Huyết áp / Blood Pressure | Định tính / Categorical | LOW, NORMAL, HIGH |
| Cholesterol | Mức cholesterol / Cholesterol level | Định tính / Categorical | NORMAL, HIGH |
| Na_to_K | Tỷ lệ Sodium/Potassium | Số thực / Float | 15.4, 11.8, 13.1 |
| Drug | Loại thuốc phản ứng / Target Drug | Định tính / Categorical | drugA, drugB, drugC, drugX, drugY |

---

## Thách thức trong xử lý dữ liệu / Data Processing Challenges

**Vấn đề cần giải quyết / Issues to Solve:**
1. Dữ liệu hỗn hợp: Vừa có số (Age, Na_to_K) vừa có chữ (Sex, BP, Cholesterol)  
   Mixed data types: Numeric (Age, Na_to_K) and categorical (Sex, BP, Cholesterol)
2. Thang đo khác nhau: Age (15-74) vs Na_to_K (6.2-38.2)  
   Different scales: Age (15-74) vs Na_to_K (6.2-38.2)
3. Máy tính chỉ hiểu số: Thuật toán ML không thể xử lý dữ liệu dạng chữ  
   Computers only understand numbers: ML algorithms cannot handle textual data directly

**Giải pháp / Solution:**  
Sử dụng các kỹ thuật **tiền xử lý dữ liệu** để chuyển tất cả về dạng số và chuẩn hóa thang đo.  
Use **data preprocessing** techniques to convert all features into numeric form and standardize scales.

---

### Câu hỏi thảo luận / Discussion Questions

1. Tại sao thuật toán Machine Learning không thể xử lý trực tiếp dữ liệu dạng chữ như "Male", "Female"?  
   Why can't Machine Learning algorithms process textual data like "Male" or "Female" directly?

2. Hậu quả gì sẽ xảy ra nếu chúng ta không chuẩn hóa dữ liệu có thang đo khác nhau?  
   What would happen if we do not standardize features with different scales?

3. Dự đoán bước nào sẽ khó nhất trong quá trình tiền xử lý dữ liệu này?  
   Which step do you anticipate will be the most challenging in this preprocessing workflow?


# BƯỚC 3: TẢI VÀ ĐỌC DỮ LIỆU / STEP 3: LOAD AND READ DATA

---

## Mục tiêu của bước này / Objectives of this step

1. Tải file dữ liệu lên Google Colab  
   Upload the dataset file to Google Colab
2. Đọc dữ liệu vào Python sử dụng Pandas  
   Read the data into Python using Pandas
3. Khám phá cấu trúc dữ liệu ban đầu  
   Explore the initial structure of the dataset

---

## Bước 3.1: Tải file dữ liệu / Step 3.1: Upload Dataset

### Giải thích / Explanation

**Google Colab** là môi trường cloud không có sẵn file dữ liệu của chúng ta.  
Google Colab is a cloud environment and does not have your dataset by default.  

Do đó, chúng ta cần:  
Therefore, we need to:

1. **Upload file** từ máy tính lên Colab  
   **Upload the file** from your local machine to Colab
2. **Sử dụng** `files.upload()` để tải file lên  
   **Use** `files.upload()` to upload the file

### Lưu ý quan trọng / Important Notes

- File `drug200.csv` cần được chuẩn bị sẵn trên máy tính của bạn  
  The file `drug200.csv` must be prepared on your local machine
- Sau khi chạy cell dưới, một hộp thoại sẽ xuất hiện để chọn file  
  After running the cell below, a dialog box will appear to select the file
- Chọn file `drug200.csv` và click "Open"  
  Select `drug200.csv` and click "Open"

### Thực hành / Practice

**Nhiệm vụ**: Chạy cell dưới để upload file dữ liệu  
**Task**: Run the cell below to upload the dataset


### **Hướng dẫn upload file**  
### **File Upload Instructions**  

1. **Chạy cell** phía dưới  
   **Run the cell** below  
2. **Click "Choose Files"** khi hộp thoại xuất hiện  
   **Click "Choose Files"** when the dialog appears  
3. **Chọn file** `drug200.csv` từ máy tính  
   **Select the file** `drug200.csv` from your computer  
4. **Đợi** quá trình upload hoàn tất (thanh tiến trình sẽ hiển thị)  
   **Wait** for the upload to complete (a progress bar will appear)  

> **Mẹo**: File sẽ được lưu trong thư mục hiện tại của Colab và có thể sử dụng ngay sau khi upload xong.  
> **Tip**: The file will be saved in Colab's current directory and can be used immediately after the upload is complete.


In [None]:
from google.colab import files
uploaded = files.upload()

Saving drug200.csv to drug200.csv


### **Kết quả Upload**  
### **Upload Result**

Nếu upload thành công, bạn sẽ thấy:  
If the upload is successful, you will see:  
- Tên file: `drug200.csv`  
  File name: `drug200.csv`  
- Kích thước file (ví dụ: `4.5 KB`)  
  File size (e.g., `4.5 KB`)  
- Thông báo "100% uploaded"  
  Message "100% uploaded"  

---

## **Bước 3.2: Đọc dữ liệu với Pandas**  
## **Step 3.2: Read data with Pandas**

### **Tại sao sử dụng Pandas?**  
### **Why use Pandas?**

**Pandas** là thư viện mạnh mẽ nhất trong Python để:  
**Pandas** is the most powerful library in Python for:  
- **Đọc** file CSV, Excel, JSON, SQL...  
  **Reading** CSV, Excel, JSON, SQL files...  
- **Xử lý** dữ liệu dạng bảng (DataFrame)  
  **Handling** tabular data (DataFrame)  
- **Thống kê** và phân tích dữ liệu  
  **Statistical analysis** and data exploration  

###  **Hàm `pd.read_csv()`**  
###  **The `pd.read_csv()` Function**

```python
pd.read_csv("filename.csv", delimiter=",")
```

**Tham số quan trọng / Important parameters:**

- filename.csv: Đường dẫn đến file
- filename.csv: Path to the file

- delimiter=",": Ký tự phân cách (dấu phẩy cho CSV)
- delimiter=",": Separator character (comma for CSV)

### **Thực hành**
### **Practice**

- Nhiệm vụ: Đọc file CSV và hiển thị 5 dòng đầu tiên
- Task: Read the CSV file and display the first 5 rows

###  **Giải thích code**
### **Code explanation**

```python
my_data = pd.read_csv("drug200.csv", delimiter=",")  # Read CSV file (Đọc file CSV)
my_data[0:5]  # Show first five lines ( Hiển thị 5 dòng đầu tiên)
```

**Giải thích từng dòng / Explanation of each line**:  
1. **`pd.read_csv()`**: Đọc file và tạo DataFrame  
   **`pd.read_csv()`**: Reads the file and creates a DataFrame  
2. **`my_data`**: Biến lưu trữ DataFrame  
   **`my_data`**: Variable that stores the DataFrame  
3. **`[0:5]`**: Slicing - lấy từ dòng 0 đến 4 (tổng 5 dòng)  
   **`[0:5]`**: Slicing - get rows from 0 to 4 (total 5 rows)


In [None]:
my_data = pd.read_csv("drug200.csv", delimiter=",")
my_data[0:5]

Unnamed: 0,Age,Sex,BP,Cholesterol,Na_to_K,Drug
0,23,F,HIGH,HIGH,25.355,drugY
1,47,M,LOW,HIGH,13.093,drugC
2,47,M,LOW,HIGH,10.114,drugC
3,28,F,NORMAL,HIGH,7.798,drugX
4,61,F,LOW,HIGH,18.043,drugY


### **Phân tích kết quả / Result Analysis**

**Quan sát DataFrame vừa tạo / Observing the created DataFrame**:

<div class="alert alert-block alert-success">
<h4> <strong>Những gì chúng ta thấy / What we observe:</strong></h4>
<ul>
  <li><strong>Cấu trúc bảng / Table structure:</strong> Có hàng (rows) và cột (columns) / Contains rows and columns</li>
  <li><strong>Header / Header:</strong> Dòng đầu chứa tên cột / The first row contains column names</li>
  <li><strong>Index / Index:</strong> Số thứ tự dòng (0, 1, 2, 3, 4) / Row indices (0, 1, 2, 3, 4)</li>
  <li><strong>Dữ liệu hỗn hợp / Mixed data:</strong> Có cả số và chữ / Contains both numeric and text data</li>
</ul>
</div>

### **Câu hỏi quan sát / Observation Questions**

1. **Có bao nhiêu cột / How many columns** trong DataFrame?  
2. **Cột nào chứa dữ liệu số / Which columns contain numeric data**?  
   **Cột nào chứa dữ liệu chữ / Which columns contain text data**?  
3. **Cột Drug / Drug column** có những giá trị nào / What values does it contain?

### **Trả lời câu hỏi quan sát / Answers to Observation Questions**

1. **Số cột / Number of columns**: 6 cột / 6 columns  
   - Age, Sex, BP, Cholesterol, Na_to_K, Drug

2. **Cột dữ liệu số / Numeric columns**:  
   - Age, Na_to_K  
   **Cột dữ liệu chữ / Text columns**:  
   - Sex, BP, Cholesterol, Drug

3. **Giá trị trong cột Drug / Values in Drug column**:  
   - drugA, drugB, drugC, drugX, drugY


##  **Bước 3.3: Kiểm tra kích thước dữ liệu / Step 3.3: Check data size**

###  **Mục tiêu / Objective**
Hiểu được **cấu trúc** và **quy mô** của bộ dữ liệu để lên kế hoạch xử lý.  
Understand the **structure** and **scale** of the dataset to plan processing steps.

###  **Thuộc tính `.shape` / The `.shape` attribute**
- **Cú pháp / Syntax**: `dataframe.shape`
- **Kết quả / Result**: Tuple `(số_hàng, số_cột) / (rows, columns)`
- **Ý nghĩa / Meaning**: Cho biết kích thước của bảng dữ liệu / Shows the size of the DataFrame


In [None]:
# Kiểm tra kích thước dữ liệu / Check data size
print("THÔNG TIN KÍCH THƯỚC DỮ LIỆU / DATA SIZE INFORMATION")
print("=" * 40)

# Lấy kích thước DataFrame / Get DataFrame shape
shape = my_data.shape

# In thông tin chi tiết / Print detailed info
print(f"Kích thước / Shape: {shape}")
print(f"Số bệnh nhân (hàng) / Number of patients (rows): {shape[0]}")
print(f"Số thuộc tính (cột) / Number of features (columns): {shape[1]}")
print(f"Tổng số ô dữ liệu / Total number of cells: {shape[0] * shape[1]}")

# Hiển thị shape trực tiếp / Show shape directly
my_data.shape


THÔNG TIN KÍCH THƯỚC DỮ LIỆU / DATA SIZE INFORMATION
Kích thước / Shape: (200, 6)
Số bệnh nhân (hàng) / Number of patients (rows): 200
Số thuộc tính (cột) / Number of features (columns): 6
Tổng số ô dữ liệu / Total number of cells: 1200


(200, 6)

#  **BƯỚC 4: KHÁM PHÁ DỮ LIỆU CHI TIẾT / STEP 4: DETAILED DATA EXPLORATION**

---

##  **Mục tiêu / Objective**
**Hiểu sâu / Gain deeper understanding** về đặc điểm, phân phối và chất lượng dữ liệu trước khi tiền xử lý.  
Understand the characteristics, distribution, and quality of the data before preprocessing.

##  **Bước 4.1: Thông tin tổng quan về dữ liệu / Step 4.1: Overview of the data**

###  **Hàm `.info()` / The `.info()` method**
Cung cấp thông tin chi tiết về / Provides detailed information about:
- **Kiểu dữ liệu / Data type** của từng cột / of each column
- **Số lượng / Count** giá trị non-null / of non-null values
- **Bộ nhớ / Memory** sử dụng / used by the DataFrame


In [None]:
# Data Overview / Thông tin tổng quan về dữ liệu
print("THÔNG TIN CHI TIẾT VỀ DỮ LIỆU / DETAILED DATA INFORMATION")
print("=" * 50)

# Hiển thị thông tin DataFrame / Show DataFrame info
my_data.info()

# Giải thích kết quả / Explanation of results
print("\nGIẢI THÍCH KẾT QUẢ / EXPLANATION:")
print("• Non-Null Count: Số lượng giá trị không rỗng / Number of non-missing values")
print("• Dtype: Kiểu dữ liệu / Data type (object = text, int64 = integer, float64 = float)")
print("• Memory usage: Bộ nhớ sử dụng / Memory used by the DataFrame")


THÔNG TIN CHI TIẾT VỀ DỮ LIỆU / DETAILED DATA INFORMATION
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Age          200 non-null    int64  
 1   Sex          200 non-null    object 
 2   BP           200 non-null    object 
 3   Cholesterol  200 non-null    object 
 4   Na_to_K      200 non-null    float64
 5   Drug         200 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 9.5+ KB

GIẢI THÍCH KẾT QUẢ / EXPLANATION:
• Non-Null Count: Số lượng giá trị không rỗng / Number of non-missing values
• Dtype: Kiểu dữ liệu / Data type (object = text, int64 = integer, float64 = float)
• Memory usage: Bộ nhớ sử dụng / Memory used by the DataFrame


##  **Bước 4.2: Thống kê mô tả cho dữ liệu số / Step 4.2: Descriptive statistics for numeric data**

###  **Hàm `.describe()` / The `.describe()` method**
Cung cấp **thống kê mô tả / Provides descriptive statistics** cho các cột số / for numeric columns:
- **Count**: Số lượng giá trị / Number of values
- **Mean**: Giá trị trung bình / Mean value
- **Std**: Độ lệch chuẩn / Standard deviation
- **Min/Max**: Giá trị nhỏ nhất/lớn nhất / Minimum and maximum values
- **25%, 50%, 75%**: Các percentile / Percentiles


In [None]:
# Descriptive statistics for numeric columns / Thống kê mô tả cho các cột số
print("THỐNG KÊ MÔ TẢ CHO CÁC CỘT SỐ / DESCRIPTIVE STATISTICS FOR NUMERIC COLUMNS")
print("=" * 50)

# Tính thống kê mô tả / Compute descriptive statistics
numeric_stats = my_data.describe()
print(numeric_stats)

# Nhận xét kết quả / Observations
print("\nNHẬN XÉT / OBSERVATIONS:")
print("• Age: Tuổi từ 15-74, trung bình ~44 tuổi / Age ranges 15-74, mean ~44")
print("• Na_to_K: Tỷ lệ Na/K từ 6.2-38.2, có độ biến thiên lớn / Na_to_K ratio ranges 6.2-38.2, high variance")
print("• Cần chuẩn hóa Na_to_K vì thang đo khác với Age / Na_to_K needs standardization due to different scale than Age")


THỐNG KÊ MÔ TẢ CHO CÁC CỘT SỐ / DESCRIPTIVE STATISTICS FOR NUMERIC COLUMNS
              Age     Na_to_K
count  200.000000  200.000000
mean    44.315000   16.084485
std     16.544315    7.223956
min     15.000000    6.269000
25%     31.000000   10.445500
50%     45.000000   13.936500
75%     58.000000   19.380000
max     74.000000   38.247000

NHẬN XÉT / OBSERVATIONS:
• Age: Tuổi từ 15-74, trung bình ~44 tuổi / Age ranges 15-74, mean ~44
• Na_to_K: Tỷ lệ Na/K từ 6.2-38.2, có độ biến thiên lớn / Na_to_K ratio ranges 6.2-38.2, high variance
• Cần chuẩn hóa Na_to_K vì thang đo khác với Age / Na_to_K needs standardization due to different scale than Age


##  **Bước 4.3: Khám phá dữ liệu định tính**
##  **Step 4.3: Exploring categorical data**

###  **Mục tiêu / Objective**
Tìm hiểu **các giá trị duy nhất / unique values** và **tần suất / frequency** của dữ liệu định tính / categorical data.

###  **Hàm `.unique()` và `.value_counts()` / Methods `.unique()` and `.value_counts()`**
- **`.unique()`**: Liệt kê các giá trị duy nhất / List unique values
- **`.value_counts()`**: Đếm tần suất xuất hiện / Count frequency of each value


In [None]:
# Explore categorical data / Khám phá dữ liệu định tính
print("PHÂN TÍCH DỮ LIỆU ĐỊNH TÍNH / CATEGORICAL DATA ANALYSIS")
print("=" * 50)

categorical_columns = ['Sex', 'BP', 'Cholesterol', 'Drug']

for col in categorical_columns:
    print(f"\nCột '{col}' / Column '{col}':")

    # Các giá trị duy nhất / Unique values
    unique_values = my_data[col].unique()
    print(f"  Các giá trị / Unique values: {unique_values}")
    print(f"  Số lượng loại / Number of unique values: {len(unique_values)}")

    # Phân phối tần suất / Value counts and percentages
    print("  Phân phối / Distribution:")
    value_counts = my_data[col].value_counts()
    for value, count in value_counts.items():
        percentage = (count / len(my_data)) * 100
        print(f"    • {value}: {count} ({percentage:.1f}%)")

print("\nNHẬN XÉT QUAN TRỌNG / KEY OBSERVATIONS:")
print("• Tất cả dữ liệu định tính cần được chuyển đổi thành số / All categorical data needs to be converted to numeric")
print("• Drug có 5 lớp cần dự đoán / Drug has 5 classes to predict")
print("• Dữ liệu tương đối cân bằng / The data is relatively balanced")


PHÂN TÍCH DỮ LIỆU ĐỊNH TÍNH / CATEGORICAL DATA ANALYSIS

Cột 'Sex' / Column 'Sex':
  Các giá trị / Unique values: ['F' 'M']
  Số lượng loại / Number of unique values: 2
  Phân phối / Distribution:
    • M: 104 (52.0%)
    • F: 96 (48.0%)

Cột 'BP' / Column 'BP':
  Các giá trị / Unique values: ['HIGH' 'LOW' 'NORMAL']
  Số lượng loại / Number of unique values: 3
  Phân phối / Distribution:
    • HIGH: 77 (38.5%)
    • LOW: 64 (32.0%)
    • NORMAL: 59 (29.5%)

Cột 'Cholesterol' / Column 'Cholesterol':
  Các giá trị / Unique values: ['HIGH' 'NORMAL']
  Số lượng loại / Number of unique values: 2
  Phân phối / Distribution:
    • HIGH: 103 (51.5%)
    • NORMAL: 97 (48.5%)

Cột 'Drug' / Column 'Drug':
  Các giá trị / Unique values: ['drugY' 'drugC' 'drugX' 'drugA' 'drugB']
  Số lượng loại / Number of unique values: 5
  Phân phối / Distribution:
    • drugY: 91 (45.5%)
    • drugX: 54 (27.0%)
    • drugA: 23 (11.5%)
    • drugC: 16 (8.0%)
    • drugB: 16 (8.0%)

NHẬN XÉT QUAN TRỌNG / KEY OBSER

#  **BƯỚC 5: TIỀN XỬ LÝ DỮ LIỆU**  
# **STEP 5: DATA PREPROCESSING**

---
##  **Mục tiêu tổng quan**  
## **Overview Objective**

<div class="alert alert-block alert-warning">
<h4> <strong>Chuyển đổi dữ liệu thô thành dữ liệu sẵn sàng cho ML (Transform raw data into ML-ready data)</strong></h4>
<ol>
  <li><strong> Tách dữ liệu</strong> thành X (features) và y (target) (Split data into X (features) and y (target))</li>
  <li><strong> Label Encoding</strong> cho dữ liệu định tính (Encode categorical data)</li>
  <li><strong> Chuẩn hóa dữ liệu số</strong> (Standardize numeric data)</li>
</ol>
</div>

##  **Tại sao cần tiền xử lý?**  

**Machine Learning algorithms** chỉ hiểu **dữ liệu số** (numeric data only). Dữ liệu thô chứa:
-  **Dữ liệu chữ / Text data**: "Male", "Female", "HIGH", "LOW"  
-  **Thang đo khác nhau / Mixed scales**: Age (15-74) vs Na_to_K (6-38)
-  **Định dạng khác nhau / Different formats**: Cần thống nhất định dạng

**Sau tiền xử lý / After preprocessing**:
-  **Tất cả đều là số / All numeric**: Dữ liệu sẵn sàng cho ML
-  **Cùng thang đo / Same scale**: Không còn vấn đề về phạm vi giá trị
-  **Sẵn sàng cho thuật toán / ML-ready**: Có thể đưa trực tiếp vào model


**Làm sạch dữ liệu**

In [None]:
import pandas as pd
import numpy as np

# -----------------------------
# Tạo ví dụ dataset cần tiền xử lý / Create example dataset for preprocessing
# Dataset có các giá trị None (thiếu dữ liệu) và dòng bị trùng
# Dataset contains None values (missing data) and duplicate rows
# Mục tiêu / Goals:
#   - Điền đủ dữ liệu thiếu / Fill missing values
#   - Xóa các dòng trùng lặp / Remove duplicate rows
# -----------------------------
data = {
    "id": [1, 2, 3, 3, 4, 5, 6],             # có id=3 bị lặp / duplicate id=3
    "name": ["A", "B", "C", "C", "D", None, "E"],   # cột name có giá trị None / name column has None
    "age": [23, 35, None, None, 45, 29, 35],        # cột age có giá trị None / age column has None
    "score": [80, None, 70, 70, 90, 60, None]       # cột score có giá trị None / score column has None
}

df = pd.DataFrame(data)  # Tạo DataFrame từ dictionary / Create DataFrame from dictionary

# -----------------------------
# 1) Inspect & audit schema / Khám phá dữ liệu ban đầu
# -----------------------------
print("=== THÔNG TIN DỮ LIỆU BAN ĐẦU / INITIAL DATA INFO ===")
print(df.head(), "\n")      # In 5 dòng đầu tiên / Show first 5 rows
print(df.info(), "\n")      # Thông tin tổng quan / Overview: rows, dtypes, non-null counts
print(df.describe(include="all"), "\n")  # Thống kê mô tả / Descriptive statistics (numeric & categorical)

# -----------------------------
# 2) Handle missing values / Xử lý giá trị thiếu
# -----------------------------
# Numeric → điền median / Fill numeric columns with median
num_cols = df.select_dtypes(include=[np.number]).columns   # Lấy danh sách cột kiểu số / Select numeric columns
for col in num_cols:
    df[col] = df[col].fillna(df[col].median())             # Điền giá trị thiếu bằng median / Fill missing values with median

# Categorical → điền mode / Fill categorical columns with mode
cat_cols = df.select_dtypes(exclude=[np.number]).columns   # Lấy danh sách cột kiểu object / Select object columns
for col in cat_cols:
    mode_val = df[col].mode().iloc[0]                      # Lấy giá trị xuất hiện nhiều nhất / Get most frequent value
    df[col] = df[col].fillna(mode_val)                     # Điền giá trị thiếu bằng mode / Fill missing values with mode

print("=== SAU KHI XỬ LÝ GIÁ TRỊ THIẾU / AFTER HANDLING MISSING VALUES ===")
print(df, "\n")  # In lại bảng / Show DataFrame after filling missing values

# -----------------------------
# 3) Remove duplicates / Xóa dòng trùng lặp
# -----------------------------
before = len(df)               # Số dòng trước khi xóa / Rows before removing duplicates
df = df.drop_duplicates()      # Xóa các dòng trùng / Remove duplicate rows
after = len(df)                # Số dòng sau khi xóa / Rows after removing duplicates
print(f"Đã xoá {before - after} dòng trùng lặp / Removed {before - after} duplicate rows.\n")

# -----------------------------
# Kết quả cuối cùng sau khi làm sạch dữ liệu / Final cleaned data
# -----------------------------
print("=== DỮ LIỆU CUỐI CÙNG / FINAL CLEANED DATA ===")
print(df)


=== THÔNG TIN DỮ LIỆU BAN ĐẦU / INITIAL DATA INFO ===
   id name   age  score
0   1    A  23.0   80.0
1   2    B  35.0    NaN
2   3    C   NaN   70.0
3   3    C   NaN   70.0
4   4    D  45.0   90.0 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      7 non-null      int64  
 1   name    6 non-null      object 
 2   age     5 non-null      float64
 3   score   5 non-null      float64
dtypes: float64(2), int64(1), object(1)
memory usage: 356.0+ bytes
None 

              id name        age      score
count   7.000000    6   5.000000   5.000000
unique       NaN    5        NaN        NaN
top          NaN    C        NaN        NaN
freq         NaN    2        NaN        NaN
mean    3.428571  NaN  33.400000  74.000000
std     1.718249  NaN   8.173127  11.401754
min     1.000000  NaN  23.000000  60.000000
25%     2.500000  NaN  29.000000  70.000000
50%     

##  **Bước 5.1: Tách dữ liệu thành X và y (Step 5.1: Split data into X and y)**

###  **Khái niệm cơ bản (Basic concept)**

Trong Machine Learning, chúng ta luôn tách dữ liệu thành (In Machine Learning, we always split the data into):

<table style="width:100%; border-collapse: collapse; font-size: 14px;">
  <tr style="background-color: #2196F3; color: white;">
    <th style="padding: 15px; text-align: left; border: 1px solid #ddd; width: 20%;">Ký hiệu / Symbol</th>
    <th style="padding: 15px; text-align: left; border: 1px solid #ddd; width: 30%;">Tên gọi / Name</th>
    <th style="padding: 15px; text-align: left; border: 1px solid #ddd; width: 50%;">Mô tả / Description</th>
  </tr>
  <tr>
    <td style="padding: 12px; border: 1px solid #ddd;"><strong>X</strong></td>
    <td style="padding: 12px; border: 1px solid #ddd;"><strong>Features / Input</strong></td>
    <td style="padding: 12px; border: 1px solid #ddd;">Các thuộc tính dùng để dự đoán / Features used for prediction<br><code>['Age', 'Sex', 'BP', 'Cholesterol', 'Na_to_K']</code></td>
  </tr>
  <tr style="background-color: #f9f9f9;">
    <td style="padding: 12px; border: 1px solid #ddd;"><strong>y</strong></td>
    <td style="padding: 12px; border: 1px solid #ddd;"><strong>Target / Output</strong></td>
    <td style="padding: 12px; border: 1px solid #ddd;">Kết quả cần dự đoán / The result to predict<br><code>['Drug']</code></td>
  </tr>
</table>

###  **Phương thức `.values` (The `.values` method)**

- **Mục đích / Purpose**: Chuyển DataFrame thành **NumPy array (Convert DataFrame into a NumPy array)**
- **Lý do / Reason**: NumPy arrays xử lý nhanh hơn DataFrame (NumPy arrays are faster to process than DataFrames)
- **Cú pháp / Syntax**: `dataframe[columns].values`

###  **Thực hành (Exercise)**

**Nhiệm vụ / Task**: Tạo ma trận X chứa 5 features (Create X matrix containing 5 features)


In [None]:
# Tạo ma trận thuộc tính X (features) / Create feature matrix X
print("=== TÁCH DỮ LIỆU THÀNH X VÀ Y / SPLIT DATA INTO X AND Y ===")
print("=" * 50)

# TODO: Chọn các cột features và chuyển thành NumPy array
# Select feature columns and convert to NumPy array
X = my_data[['Age', 'Sex', 'BP', 'Cholesterol', 'Na_to_K']].values

print("=== Thông tin về ma trận X / Feature matrix info ===")
print(f"   Kích thước / Shape: {X.shape}")
print(f"   Kiểu dữ liệu / Data type: {X.dtype}")
print(f"   5 dòng đầu tiên / First 5 rows:")

# Hiển thị 5 dòng đầu với format đẹp / Display first 5 rows neatly
for i in range(5):
    print(f"   Bệnh nhân {i} / Patient {i}: {X[i]}")

print("\nGIẢI THÍCH / EXPLANATION:")
print("   • Mỗi dòng = 1 bệnh nhân / Each row = 1 patient")
print("   • Mỗi cột = 1 thuộc tính / Each column = 1 feature")
print("   • Cột 1,2,3 chứa text → Cần encoding! / Columns 1,2,3 contain text → need encoding")

# Hiển thị trực tiếp để so sánh / Show directly for comparison
X[0:5]


=== TÁCH DỮ LIỆU THÀNH X VÀ Y / SPLIT DATA INTO X AND Y ===
=== Thông tin về ma trận X / Feature matrix info ===
   Kích thước / Shape: (200, 5)
   Kiểu dữ liệu / Data type: object
   5 dòng đầu tiên / First 5 rows:
   Bệnh nhân 0 / Patient 0: [23 'F' 'HIGH' 'HIGH' 25.355]
   Bệnh nhân 1 / Patient 1: [47 'M' 'LOW' 'HIGH' 13.093]
   Bệnh nhân 2 / Patient 2: [47 'M' 'LOW' 'HIGH' 10.114]
   Bệnh nhân 3 / Patient 3: [28 'F' 'NORMAL' 'HIGH' 7.798]
   Bệnh nhân 4 / Patient 4: [61 'F' 'LOW' 'HIGH' 18.043]

GIẢI THÍCH / EXPLANATION:
   • Mỗi dòng = 1 bệnh nhân / Each row = 1 patient
   • Mỗi cột = 1 thuộc tính / Each column = 1 feature
   • Cột 1,2,3 chứa text → Cần encoding! / Columns 1,2,3 contain text → need encoding


array([[23, 'F', 'HIGH', 'HIGH', 25.355],
       [47, 'M', 'LOW', 'HIGH', 13.093],
       [47, 'M', 'LOW', 'HIGH', 10.114],
       [28, 'F', 'NORMAL', 'HIGH', 7.798],
       [61, 'F', 'LOW', 'HIGH', 18.043]], dtype=object)

##  **Bước 5.2: Label Encoding - Chuyển đổi dữ liệu định tính (Step 5.2: Label Encoding - Convert categorical data)**

---

###  **Vấn đề cần giải quyết (Problem to solve)**

<div class="alert alert-block alert-danger">
<h4> <strong>Thuật toán ML không hiểu dữ liệu text! (ML algorithms do not understand text data!)</strong></h4>
<p>Hiện tại ma trận X chứa / Currently, the X matrix contains:</p>
<ul>
  <li><strong>Cột 1 (Sex):</strong> "M", "F" → Cần chuyển thành số (Needs to be converted to numbers)</li>
  <li><strong>Cột 2 (BP):</strong> "HIGH", "LOW", "NORMAL" → Cần chuyển thành số (Needs to be converted to numbers)</li>
  <li><strong>Cột 3 (Cholesterol):</strong> "HIGH", "NORMAL" → Cần chuyển thành số (Needs to be converted to numbers)</li>
</ul>
</div>

###  **Giải pháp: Label Encoding (Solution: Label Encoding)**

**Label Encoding** gán cho mỗi giá trị text một **số nguyên duy nhất (Label Encoding assigns a unique integer to each text value)**:

<table style="width:100%; border-collapse: collapse; margin: 20px 0;">
  <tr style="background-color: #4CAF50; color: white;">
    <th style="padding: 10px; text-align: center;">Thuộc tính / Feature</th>
    <th style="padding: 10px; text-align: center;">Giá trị gốc / Original values</th>
    <th style="padding: 10px; text-align: center;">Sau encoding / After encoding</th>
  </tr>
  <tr>
    <td style="padding: 8px; text-align: center; border: 1px solid #ddd;">Sex</td>
    <td style="padding: 8px; text-align: center; border: 1px solid #ddd;">F, M</td>
    <td style="padding: 8px; text-align: center; border: 1px solid #ddd;">0, 1</td>
  </tr>
  <tr style="background-color: #f9f9f9;">
    <td style="padding: 8px; text-align: center; border: 1px solid #ddd;">BP</td>
    <td style="padding: 8px; text-align: center; border: 1px solid #ddd;">HIGH, LOW, NORMAL</td>
    <td style="padding: 8px; text-align: center; border: 1px solid #ddd;">0, 1, 2</td>
  </tr>
  <tr>
    <td style="padding: 8px; text-align: center; border: 1px solid #ddd;">Cholesterol</td>
    <td style="padding: 8px; text-align: center; border: 1px solid #ddd;">HIGH, NORMAL</td>
    <td style="padding: 8px; text-align: center; border: 1px solid #ddd;">0, 1</td>
  </tr>
</table>

###  **Cách hoạt động của LabelEncoder (How LabelEncoder works)**

```python
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit(['F', 'M'])          # Học các giá trị duy nhất / Learn unique values
result = le.transform(data)  # Chuyển đổi text → số / Convert text to numbers
```
**Quy trình 2 bước (2-step process):**

1. **.fit():** "Học" tất cả giá trị duy nhất (Learn all unique values)

2. **.transform()**: Chuyển đổi text thành số (Convert text to numbers)

### **Lưu ý quan trọng (Important notes)**

- Thứ tự encoding theo **alphabet** / encoding follows **alphabetical** order: "F" < "M" → F=0, M=1

- **Không có ý nghĩa thứ tự** thực tế / No order makes sense

- Chỉ là cách đại diện số cho máy tính hiểu / Just a numeric representation for the computer

### **Thực hành (Exercise)**

**Nhiệm vụ / Task**: Encoding từng cột một cách chi tiết (Encode each column step by step)

In [None]:
# Import thư viện preprocessing / Import preprocessing library
from sklearn import preprocessing

print("=== LABEL ENCODING CHO DỮ LIỆU ĐỊNH TÍNH / LABEL ENCODING FOR CATEGORICAL DATA ===")
print("=" * 60)

# ===== ENCODING CHO CỘT SEX (CỘT 1) / ENCODING 'SEX' COLUMN =====
print("\n1. ENCODING CỘT 'SEX' / ENCODING 'SEX' COLUMN:")
le_sex = preprocessing.LabelEncoder()  # Khởi tạo LabelEncoder / Initialize LabelEncoder

# Bước 1: Fit - học các giá trị duy nhất / Step 1: Fit - learn unique values
le_sex.fit(X[:,1])
print(f"   Các giá trị học được / Classes learned: {le_sex.classes_}")

# Bước 2: Transform - chuyển đổi / Step 2: Transform - convert to numbers
print(f"   Trước encoding / Before encoding: {X[0:3, 1]}")
X[:,1] = le_sex.transform(X[:,1])
print(f"   Sau encoding / After encoding:  {X[0:3, 1]}")
print(f"   Quy tắc / Rule: F→{le_sex.transform(['F'])[0]}, M→{le_sex.transform(['M'])[0]}")

# ===== ENCODING CHO CỘT BP (CỘT 2) / ENCODING 'BP' COLUMN =====
print("\n2. ENCODING CỘT 'BP' / ENCODING 'BP' COLUMN:")
le_BP = preprocessing.LabelEncoder()
le_BP.fit(X[:,2])
print(f"   Các giá trị học được / Classes learned: {le_BP.classes_}")

# Hiển thị vài giá trị trước encoding / Show original values
original_bp = my_data['BP'].iloc[0:3].values
print(f"   Trước encoding / Before encoding: {original_bp}")
X[:,2] = le_BP.transform(X[:,2])
print(f"   Sau encoding / After encoding:  {X[0:3, 2]}")
print(f"   Quy tắc / Rule: HIGH→{le_BP.transform(['HIGH'])[0]}, LOW→{le_BP.transform(['LOW'])[0]}, NORMAL→{le_BP.transform(['NORMAL'])[0]}")

# ===== ENCODING CHO CỘT CHOLESTEROL (CỘT 3) / ENCODING 'CHOLESTEROL' COLUMN =====
print("\n3. ENCODING CỘT 'CHOLESTEROL' / ENCODING 'CHOLESTEROL' COLUMN:")
le_Chol = preprocessing.LabelEncoder()
le_Chol.fit(X[:,3])
print(f"   Các giá trị học được / Classes learned: {le_Chol.classes_}")

original_chol = my_data['Cholesterol'].iloc[0:3].values
print(f"   Trước encoding / Before encoding: {original_chol}")
X[:,3] = le_Chol.transform(X[:,3])
print(f"   Sau encoding / After encoding:  {X[0:3, 3]}")
print(f"   Quy tắc / Rule: HIGH→{le_Chol.transform(['HIGH'])[0]}, NORMAL→{le_Chol.transform(['NORMAL'])[0]}")

# ===== KẾT QUẢ CUỐI CÙNG / FINAL RESULT =====
print(f"\n=== KẾT QUẢ SAU KHI ENCODING / RESULT AFTER ENCODING ===")
print(f"   Kích thước X / Shape of X: {X.shape}")
print(f"   5 dòng đầu tiên / First 5 rows:")
for i in range(5):
    print(f"   Bệnh nhân {i} / Patient {i}: {X[i]}")

print(f"\nHOÀN THÀNH / DONE: Tất cả dữ liệu text đã được chuyển thành số / All text data have been converted to numbers!")

# Hiển thị kết quả cuối / Show final result
X[0:5]


=== LABEL ENCODING CHO DỮ LIỆU ĐỊNH TÍNH / LABEL ENCODING FOR CATEGORICAL DATA ===

1. ENCODING CỘT 'SEX' / ENCODING 'SEX' COLUMN:
   Các giá trị học được / Classes learned: ['F' 'M']
   Trước encoding / Before encoding: ['F' 'M' 'M']
   Sau encoding / After encoding:  [0 1 1]
   Quy tắc / Rule: F→0, M→1

2. ENCODING CỘT 'BP' / ENCODING 'BP' COLUMN:
   Các giá trị học được / Classes learned: ['HIGH' 'LOW' 'NORMAL']
   Trước encoding / Before encoding: ['HIGH' 'LOW' 'LOW']
   Sau encoding / After encoding:  [0 1 1]
   Quy tắc / Rule: HIGH→0, LOW→1, NORMAL→2

3. ENCODING CỘT 'CHOLESTEROL' / ENCODING 'CHOLESTEROL' COLUMN:
   Các giá trị học được / Classes learned: ['HIGH' 'NORMAL']
   Trước encoding / Before encoding: ['HIGH' 'HIGH' 'HIGH']
   Sau encoding / After encoding:  [0 0 0]
   Quy tắc / Rule: HIGH→0, NORMAL→1

=== KẾT QUẢ SAU KHI ENCODING / RESULT AFTER ENCODING ===
   Kích thước X / Shape of X: (200, 5)
   5 dòng đầu tiên / First 5 rows:
   Bệnh nhân 0 / Patient 0: [23 0 0 0 25.

array([[23, 0, 0, 0, 25.355],
       [47, 1, 1, 0, 13.093],
       [47, 1, 1, 0, 10.114],
       [28, 0, 2, 0, 7.798],
       [61, 0, 1, 0, 18.043]], dtype=object)

##  **Bước 5.3: Chuẩn hóa dữ liệu số (Standardization - Numeric data scaling)**

---

###  **Vấn đề với thang đo khác nhau (Problem with different scales)**

<div class="alert alert-block alert-warning">
<h4> <strong>Thang đo không đồng nhất! (Inconsistent scales!)</strong></h4>
<p>Quan sát dữ liệu hiện tại / Observing current data:</p>
<ul>
  <li><strong>Age:</strong> 15 - 74 (khoảng 60 đơn vị / range ~60)</li>
  <li><strong>Na_to_K:</strong> 6.2 - 38.2 (khoảng 32 đơn vị / range ~32)</li>
</ul>
<p><strong>Vấn đề / Problem:</strong> Thuật toán ML có thể "thiên vị" thuộc tính có giá trị lớn hơn! (ML algorithms may "bias" features with larger values!)</p>
</div>

###  **Giải pháp: Standardization (Z-score normalization)**

**Standardization** chuyển đổi dữ liệu về **phân phối chuẩn (normal distribution)**:
- **Mean (μ) = 0**: Giá trị trung bình = 0 (average = 0)
- **Standard Deviation (σ) = 1**: Độ lệch chuẩn = 1 (standard deviation = 1)

###  **Công thức toán học (Mathematical formula)**

<div style="background-color: #f0f8ff; padding: 20px; border-left: 5px solid #2196F3; margin: 20px 0;">
<h4> <strong>Công thức Standardization / Standardization formula:</strong></h4>
<p style="font-size: 18px; text-align: center; margin: 15px 0;">
<strong>z = (x - μ) / σ</strong>
</p>
<p><strong>Trong đó / Where:</strong></p>
<ul>
  <li><strong>z:</strong> Giá trị sau chuẩn hóa / Standardized value</li>
  <li><strong>x:</strong> Giá trị gốc / Original value</li>
  <li><strong>μ:</strong> Giá trị trung bình (mean)</li>
  <li><strong>σ:</strong> Độ lệch chuẩn (standard deviation)</li>
</ul>
</div>

###  **Ví dụ minh họa (Example)**

Giả sử có dữ liệu Na_to_K: `[10, 20, 30]`  
Assume Na_to_K data: `[10, 20, 30]`

- **Mean (μ)**: (10+20+30)/3 = 20  
- **Std (σ)**: ≈ 8.16

**Sau standardization / After standardization**:
- 10 → (10-20)/8.16 = -1.22
- 20 → (20-20)/8.16 = 0.00  
- 30 → (30-20)/8.16 = +1.22

###  **Lợi ích của Standardization (Benefits of Standardization)**

1. **Cân bằng / Balance**: Tất cả thuộc tính có cùng tầm quan trọng / All features have equal importance
2. **Tăng tốc / Speed**: Thuật toán hội tụ nhanh hơn / Algorithms converge faster
3. **Chính xác / Accuracy**: Kết quả dự đoán tốt hơn / Better prediction results

###  **Thực hành / Exercise**

**Nhiệm vụ / Task**: Chuẩn hóa cột Na_to_K (cột cuối cùng của X) / Standardize the Na_to_K column (last column of X)


In [None]:
# Chuẩn hóa thuộc tính Na_to_K (cột cuối cùng) / Standardize Na_to_K (last column)
print("=== CHUẨN HÓA DỮ LIỆU SỐ / STANDARDIZATION ===")
print("=" * 60)

# Hiển thị dữ liệu trước khi chuẩn hóa / Show data before standardization
print("TRƯỚC KHI CHUẨN HÓA / BEFORE STANDARDIZATION:")
na_to_k_original = X[:, -1].copy()  # Lưu bản gốc để so sánh / Keep original for comparison
print(f"   5 giá trị đầu / First 5 values: {na_to_k_original[0:5]}")
print(f"   Giá trị min / Min: {na_to_k_original.min():.2f}")
print(f"   Giá trị max / Max: {na_to_k_original.max():.2f}")
print(f"   Trung bình / Mean: {na_to_k_original.mean():.2f}")
print(f"   Độ lệch chuẩn / Std: {na_to_k_original.std():.2f}")

# Bước 1: Tính mean và std / Step 1: Compute mean and std
mean = X[:, -1].mean()
std = X[:, -1].std()

print(f"\nTÍNH TOÁN THAM SỐ / CALCULATE PARAMETERS:")
print(f"   μ (mean) = {mean:.4f}")
print(f"   σ (std)  = {std:.4f}")

# Bước 2: Áp dụng công thức z = (x - μ) / σ / Step 2: Apply formula z = (x - μ)/σ
print(f"\nTHỰC HIỆN CHUẨN HÓA / APPLY STANDARDIZATION:")
print(f"   Công thức / Formula: z = (x - {mean:.2f}) / {std:.2f}")

X[:, -1] = (X[:, -1] - mean) / std

# Hiển thị kết quả sau chuẩn hóa / Show data after standardization
print(f"\nSAU KHI CHUẨN HÓA / AFTER STANDARDIZATION:")
print(f"   5 giá trị đầu / First 5 values: {X[0:5, -1]}")
print(f"   Giá trị min / Min: {X[:, -1].min():.2f}")
print(f"   Giá trị max / Max: {X[:, -1].max():.2f}")
print(f"   Trung bình mới / New mean: {X[:, -1].mean():.6f} ≈ 0")
print(f"   Độ lệch chuẩn mới / New std: {X[:, -1].std():.6f} ≈ 1")

# So sánh trước và sau / Compare before and after
print(f"\nSO SÁNH TRƯỚC VÀ SAU / BEFORE VS AFTER:")
print("Chỉ số / Index | Trước chuẩn hóa / Before | Sau chuẩn hóa / After")
print("-" * 45)
for i in range(5):
    print(f"     {i}       |       {na_to_k_original[i]:8.2f}       |    {X[i, -1]:8.2f}")

print(f"\nHOÀN THÀNH / DONE: Na_to_K đã được chuẩn hóa về mean=0, std=1 / Na_to_K standardized to mean=0, std=1!")

# Hiển thị ma trận X cuối cùng / Show final feature matrix X
print(f"\nMA TRẬN X SAU TIỀN XỬ LÝ HOÀN CHỈNH / FINAL X MATRIX AFTER PREPROCESSING:")
X[0:5]


=== CHUẨN HÓA DỮ LIỆU SỐ / STANDARDIZATION ===
TRƯỚC KHI CHUẨN HÓA / BEFORE STANDARDIZATION:
   5 giá trị đầu / First 5 values: [25.355 13.093 10.114 7.798 18.043]
   Giá trị min / Min: 6.27
   Giá trị max / Max: 38.25
   Trung bình / Mean: 16.08
   Độ lệch chuẩn / Std: 7.21

TÍNH TOÁN THAM SỐ / CALCULATE PARAMETERS:
   μ (mean) = 16.0845
   σ (std)  = 7.2059

THỰC HIỆN CHUẨN HÓA / APPLY STANDARDIZATION:
   Công thức / Formula: z = (x - 16.08) / 7.21

SAU KHI CHUẨN HÓA / AFTER STANDARDIZATION:
   5 giá trị đầu / First 5 values: [1.2865221173753503 -0.4151453955143358 -0.8285581765368749
 -1.1499626749753444 0.2717942708373152]
   Giá trị min / Min: -1.36
   Giá trị max / Max: 3.08
   Trung bình mới / New mean: 0.000000 ≈ 0
   Độ lệch chuẩn mới / New std: 1.000000 ≈ 1

SO SÁNH TRƯỚC VÀ SAU / BEFORE VS AFTER:
Chỉ số / Index | Trước chuẩn hóa / Before | Sau chuẩn hóa / After
---------------------------------------------
     0       |          25.36       |        1.29
     1       |     

array([[23, 0, 0, 0, 1.2865221173753503],
       [47, 1, 1, 0, -0.4151453955143358],
       [47, 1, 1, 0, -0.8285581765368749],
       [28, 0, 2, 0, -1.1499626749753444],
       [61, 0, 1, 0, 0.2717942708373152]], dtype=object)

##  **Bước 5.4: Xử lý Target Variable (y - Handling Target Variable)**

---

###  **Mục tiêu / Objective**
Tạo **vector target y** chứa nhãn cần dự đoán (loại thuốc)  
Create a **target vector y** containing labels to predict (drug type).

###  **Target Variable là gì? / What is Target Variable?**

<div class="alert alert-block alert-info">
<h4> <strong>Target Variable (Biến mục tiêu)</strong></h4>
<ul>
  <li><strong>Định nghĩa / Definition:</strong> Biến mà chúng ta muốn dự đoán / The variable we want to predict</li>
  <li><strong>Trong bài này / In this case:</strong> Cột 'Drug' (loại thuốc / drug type)</li>
  <li><strong>Giá trị / Values:</strong> drugA, drugB, drugC, drugX, drugY</li>
  <li><strong>Kiểu bài toán / Problem type:</strong> Classification (phân loại / classification)</li>
</ul>
</div>

###  **Thực hành / Exercise**

**Nhiệm vụ / Task**: Tạo vector y từ cột 'Drug' / Create the vector y from the 'Drug' column


In [None]:
# Tạo vector target y / Create target vector y
print("=== TẠO VECTOR TARGET Y / CREATE TARGET VECTOR Y ===")
print("=" * 40)

# Lấy cột Drug làm target / Take 'Drug' column as target
y = my_data["Drug"]

print("THÔNG TIN VỀ TARGET / TARGET INFORMATION:")
print(f"   Kích thước / Shape: {y.shape}")
print(f"   Kiểu dữ liệu / Data type: {y.dtype}")
print(f"   5 giá trị đầu / First 5 values: {list(y[0:5])}")

print(f"\nPHÂN PHỐI CÁC LỚP / CLASS DISTRIBUTION:")
class_counts = y.value_counts()
for drug, count in class_counts.items():
    percentage = (count/len(y)) * 100
    print(f"   {drug}: {count} ({percentage:.1f}%)")

print(f"\nNHẬN XÉT / COMMENTS:")
print(f"   • Có {len(class_counts)} loại thuốc khác nhau / There are {len(class_counts)} different drugs")
print(f"   • Dữ liệu tương đối cân bằng / Data is relatively balanced")
print(f"   • Đây là bài toán classification với 5 lớp / This is a 5-class classification problem")

# Hiển thị trực tiếp / Show values directly
y[0:5]


=== TẠO VECTOR TARGET Y / CREATE TARGET VECTOR Y ===
THÔNG TIN VỀ TARGET / TARGET INFORMATION:
   Kích thước / Shape: (200,)
   Kiểu dữ liệu / Data type: object
   5 giá trị đầu / First 5 values: ['drugY', 'drugC', 'drugC', 'drugX', 'drugY']

PHÂN PHỐI CÁC LỚP / CLASS DISTRIBUTION:
   drugY: 91 (45.5%)
   drugX: 54 (27.0%)
   drugA: 23 (11.5%)
   drugC: 16 (8.0%)
   drugB: 16 (8.0%)

NHẬN XÉT / COMMENTS:
   • Có 5 loại thuốc khác nhau / There are 5 different drugs
   • Dữ liệu tương đối cân bằng / Data is relatively balanced
   • Đây là bài toán classification với 5 lớp / This is a 5-class classification problem


Unnamed: 0,Drug
0,drugY
1,drugC
2,drugC
3,drugX
4,drugY


###  **Encoding cho Target Variable / Encoding the Target Variable**

<div class="alert alert-block alert-warning">
<h4> <strong>Tại sao cần encoding cho y? / Why encode y?</strong></h4>
<p>Hầu hết thuật toán Machine Learning yêu cầu target cũng phải là <strong>số</strong>, không phải text.  
Most Machine Learning algorithms require the target to be <strong>numeric</strong>, not text.</p>
<p><strong>Ví dụ / Example:</strong> "drugA", "drugB" → 0, 1, 2, 3, 4</p>
</div>

###  **Thực hành / Exercise**

**Nhiệm vụ / Task**: Encoding target variable y thành số / Encode the target variable y into numbers


In [None]:
# Encoding target variable y / Chuyển target y thành số
print("=== ENCODING TARGET VARIABLE Y / LABEL ENCODING TARGET Y ===")
print("=" * 50)

# Tạo LabelEncoder cho target / Create LabelEncoder for target
le_drug = preprocessing.LabelEncoder()

# Fit với tất cả các loại thuốc / Fit with all drug types
le_drug.fit(y)

print("THÔNG TIN VỀ LABEL ENCODER / LABEL ENCODER INFORMATION:")
print(f"   Các lớp học được / Classes learned: {le_drug.classes_}")

# Hiển thị mapping / Show mapping
print(f"\nBẢNG CHUYỂN ĐỔI / MAPPING TABLE:")
for i, drug in enumerate(le_drug.classes_):
    print(f"   {drug} → {i}")

# Thực hiện encoding / Perform encoding
print(f"\nTRƯỚC ENCODING / BEFORE ENCODING:")
print(f"   5 giá trị đầu / First 5 values: {list(y[0:5])}")

y_encoded = le_drug.transform(y)

print(f"\nSAU ENCODING / AFTER ENCODING:")
print(f"   5 giá trị đầu / First 5 values: {y_encoded[0:5]}")
print(f"   Kiểu dữ liệu / Data type: {y_encoded.dtype}")
print(f"   Kích thước / Shape: {y_encoded.shape}")

# Cập nhật y / Update y
y = y_encoded

print(f"\nHOÀN THÀNH / COMPLETED: Target y đã được chuyển thành số / Target y has been converted to numeric!")

# Kiểm tra phân phối sau encoding / Check distribution after encoding
print(f"\nPHÂN PHỐI SAU ENCODING / CLASS DISTRIBUTION AFTER ENCODING:")
unique, counts = np.unique(y, return_counts=True)
for val, count in zip(unique, counts):
    drug_name = le_drug.classes_[val]
    percentage = (count/len(y)) * 100
    print(f"   {val} ({drug_name}): {count} ({percentage:.1f}%)")


=== ENCODING TARGET VARIABLE Y / LABEL ENCODING TARGET Y ===
THÔNG TIN VỀ LABEL ENCODER / LABEL ENCODER INFORMATION:
   Các lớp học được / Classes learned: ['drugA' 'drugB' 'drugC' 'drugX' 'drugY']

BẢNG CHUYỂN ĐỔI / MAPPING TABLE:
   drugA → 0
   drugB → 1
   drugC → 2
   drugX → 3
   drugY → 4

TRƯỚC ENCODING / BEFORE ENCODING:
   5 giá trị đầu / First 5 values: ['drugY', 'drugC', 'drugC', 'drugX', 'drugY']

SAU ENCODING / AFTER ENCODING:
   5 giá trị đầu / First 5 values: [4 2 2 3 4]
   Kiểu dữ liệu / Data type: int64
   Kích thước / Shape: (200,)

HOÀN THÀNH / COMPLETED: Target y đã được chuyển thành số / Target y has been converted to numeric!

PHÂN PHỐI SAU ENCODING / CLASS DISTRIBUTION AFTER ENCODING:
   0 (drugA): 23 (11.5%)
   1 (drugB): 16 (8.0%)
   2 (drugC): 16 (8.0%)
   3 (drugX): 54 (27.0%)
   4 (drugY): 91 (45.5%)


In [None]:
# Hiển thị kết quả cuối cùng / Show final results
print("=== KẾT QUẢ CUỐI CÙNG SAU TIỀN XỬ LÝ / FINAL DATA AFTER PREPROCESSING ===")
print("=" * 50)

print("Ma trận X (Features) / Feature matrix X:")
print(f"   Kích thước / Shape: {X.shape}")
print(f"   5 dòng đầu / First 5 rows:")
for i in range(5):
    print(f"     Bệnh nhân {i} / Patient {i}: {X[i]}")

print(f"\nVector y (Target) / Target vector y:")
print(f"   Kích thước / Shape: {y.shape}")
print(f"   5 giá trị đầu / First 5 values: {y[0:5]}")

print(f"\nDỮ LIỆU ĐÃ SẴN SÀNG CHO MACHINE LEARNING / DATA IS ML-READY!")
print(f"    Tất cả giá trị đều là số / All values are numeric")
print(f"    Dữ liệu đã được chuẩn hóa / Data has been standardized")
print(f"    Không còn missing values / No missing values remaining")
print(f"    Format phù hợp cho thuật toán ML / Format is ready for ML algorithms")

# Hiển thị y trực tiếp để output / Display y directly
y[0:5]


=== KẾT QUẢ CUỐI CÙNG SAU TIỀN XỬ LÝ / FINAL DATA AFTER PREPROCESSING ===
Ma trận X (Features) / Feature matrix X:
   Kích thước / Shape: (200, 5)
   5 dòng đầu / First 5 rows:
     Bệnh nhân 0 / Patient 0: [23 0 0 0 1.2865221173753503]
     Bệnh nhân 1 / Patient 1: [47 1 1 0 -0.4151453955143358]
     Bệnh nhân 2 / Patient 2: [47 1 1 0 -0.8285581765368749]
     Bệnh nhân 3 / Patient 3: [28 0 2 0 -1.1499626749753444]
     Bệnh nhân 4 / Patient 4: [61 0 1 0 0.2717942708373152]

Vector y (Target) / Target vector y:
   Kích thước / Shape: (200,)
   5 giá trị đầu / First 5 values: [4 2 2 3 4]

DỮ LIỆU ĐÃ SẴN SÀNG CHO MACHINE LEARNING / DATA IS ML-READY!
    Tất cả giá trị đều là số / All values are numeric
    Dữ liệu đã được chuẩn hóa / Data has been standardized
    Không còn missing values / No missing values remaining
    Format phù hợp cho thuật toán ML / Format is ready for ML algorithms


array([4, 2, 2, 3, 4])

#  **TỔNG KẾT VÀ BÀI TẬP THỰC HÀNH / SUMMARY AND EXERCISES**

---

##  **Chúc mừng! Bạn đã hoàn thành bài thực hành tiền xử lý dữ liệu! / Congratulations! You have completed the data preprocessing exercise!**

<div class="alert alert-block alert-success" style="padding: 20px;">
<h3> <strong>Những gì bạn đã học được / What you have learned:</strong></h3>
<ol style="font-size: 16px; line-height: 1.8;">
  <li><strong> Import thư viện / Import libraries:</strong> NumPy, Pandas, Scikit-learn</li>
  <li><strong> Khám phá dữ liệu / Data exploration:</strong> .info(), .describe(), .unique()</li>
  <li><strong> Xử lý file / File handling:</strong> Upload và đọc CSV với Pandas / Upload and read CSV with Pandas</li>
  <li><strong> Label Encoding:</strong> Chuyển text thành số / Convert text to numbers</li>
  <li><strong> Standardization:</strong> Chuẩn hóa dữ liệu về mean=0, std=1 / Standardize data to mean=0, std=1</li>
  <li><strong> Target preprocessing:</strong> Xử lý biến mục tiêu / Process target variable</li>
</ol>
</div>

---

##  **Tóm tắt quy trình tiền xử lý / Summary of preprocessing pipeline**

###  **Bản đồ tư duy / Mind Map**


```
DỮ LIỆU THÔ (Raw Data)
        ↓
KHÁM PHÁ DỮ LIỆU (Data Exploration)
   • .info() - kiểu dữ liệu / data types
   • .describe() - thống kê / statistics
   • .unique() - giá trị duy nhất / unique values
        ↓
TÁCH DỮ LIỆU (Split Data)
   • X (features) ← Age, Sex, BP, Cholesterol, Na_to_K
   • y (target)  ← Drug
        ↓
LABEL ENCODING (Chuyển dữ liệu định tính thành số / Convert categorical to numeric)
   • Sex: F,M → 0,1
   • BP: HIGH,LOW,NORMAL → 0,1,2
   • Cholesterol: HIGH,NORMAL → 0,1
   • Drug: drugA,drugB,drugC,drugX,drugY → 0,1,2,3,4
        ↓
CHUẨN HÓA (Standardization)
   • Na_to_K: z = (x - μ) / σ
        ↓
DỮ LIỆU ML-READY (ML-ready Data)
   • Tất cả là số / All numeric
   • Cùng thang đo / Same scale
   • Sẵn sàng cho thuật toán / Ready for ML algorithms
```

---

---

## **Tài liệu tham khảo / References**

1. **Pandas Documentation**: https://pandas.pydata.org/docs/
2. **Scikit-learn User Guide**: https://scikit-learn.org/stable/user_guide.html
3. **NumPy Documentation**: https://numpy.org/doc/stable/

---

## **Câu hỏi / Questions**

### **Câu hỏi 1 / Question 1: Phân tích vai trò và tầm quan trọng của Label Encoding / Analyze the role and importance of Label Encoding**
**Hỏi / Question:** Tại sao cần thực hiện Label Encoding cho các thuộc tính định tính như Sex, BP, Cholesterol? Giải thích cách thức hoạt động của LabelEncoder và hậu quả nếu bỏ qua bước này trong quy trình Machine Learning.  
Why do we need to perform Label Encoding for categorical attributes like Sex, BP, Cholesterol? Explain how LabelEncoder works and the consequences of skipping this step in Machine Learning.


### **Câu hỏi 2 / Question 2: So sánh và đánh giá tác động của Standardization / Compare and evaluate the impact of Standardization**

**Hỏi / Question:** Giải thích khái niệm Standardization và tại sao cần chuẩn hóa thuộc tính Na_to_K trong khi không cần chuẩn hóa Age? Phân tích công thức z = (x - μ) / σ và lợi ích của việc chuyển dữ liệu về phân phối chuẩn.  
Explain the concept of Standardization and why we need to standardize Na_to_K but not Age. Analyze the formula z=(x-μ)/σ and the benefits of converting data to a standard distribution.


### **Câu hỏi 3 / Question 3: Phân tích quy trình tiền xử lý hoàn chỉnh / Analyze the complete preprocessing workflow**

**Hỏi / Question:** Tổng hợp và đánh giá toàn bộ quy trình tiền xử lý dữ liệu từ dữ liệu thô đến dữ liệu sẵn sàng cho ML. Giải thích cách kiểm tra chất lượng dữ liệu sau tiền xử lý và các tiêu chí để đánh giá dữ liệu đã "ML-ready".  
Summarize and evaluate the complete data preprocessing workflow from raw data to ML-ready data. Explain how to check data quality and criteria for ML-readiness.


##  BTVN

### Bài tập: Hoàn thiện 01 file .ipynb mới về tiền xử lý dữ liệu với input đầu vào là 01 file csv khi tải archive.zip về (các bạn có thể tìm dữ liệu trên: https://drive.google.com/drive/u/0/folders/1RuVKVio76JgoC-lwwMv3R4BgWuco5bEZ). Yêu cầu giải thích cách làm, đầu ra dữ liệu sau khi tiền xử lý là gì, tại sao lại phù hợp?