## Bài 1 : Thực hiện bước rút trích và tiền xử lý dữ liệu cho bài toán Phân lớp hoa Iris trong dữ liệu iris.csv. Tóm tắt và trình bày kết quả đạt được dùng trình diễn.

# 1. Mô tả Dữ liệu

Tập dữ liệu Iris bao gồm 150 mẫu (samples), mỗi mẫu đại diện cho một bông hoa Iris với 5 thuộc tính:

- **4 thuộc tính đặc trưng (features)**:
  - **Sepal Length (cm)**: Chiều dài đài hoa.
  - **Sepal Width (cm)**: Chiều rộng đài hoa.
  - **Petal Length (cm)**: Chiều dài cánh hoa.
  - **Petal Width (cm)**: Chiều rộng cánh hoa.

- **1 nhãn (label)**:
  - **Class**: Loại hoa Iris, gồm 3 lớp: `Iris-setosa`, `Iris-versicolor`, `Iris-virginica`.

## Cấu trúc dữ liệu

Dữ liệu được cung cấp dưới dạng CSV, mỗi dòng có định dạng:

```
<sepal_length>,<sepal_width>,<petal_length>,<petal_width>,<class>
```

**Ví dụ**:

```
5.1,3.5,1.4,0.2,Iris-setosa
```

- **Tổng số dòng**: 150 (mỗi dòng là một mẫu).
- **Số cột**: 5 (4 đặc trưng + 1 nhãn).

# 2. Các bước Rút trích và Tiền xử lý Dữ liệu

Để chuẩn bị dữ liệu cho bài toán phân lớp, tôi sẽ thực hiện các bước sau:

## Bước 1: Đọc và Rút trích Dữ liệu

- Dữ liệu được cung cấp dưới dạng văn bản, cần được đọc và chuyển thành cấu trúc phù hợp (ví dụ: DataFrame trong Python).
- Tách các đặc trưng (features) và nhãn (labels) để sử dụng trong mô hình học máy.

## Bước 2: Kiểm tra Dữ liệu

- Kiểm tra dữ liệu thiếu (missing values).
- Kiểm tra kiểu dữ liệu của các cột.
- Kiểm tra phân bố của các lớp (class distribution).

## Bước 3: Tiền xử lý Dữ liệu

- Chuyển đổi nhãn (labels) thành dạng số (encoding).
- Chuẩn hóa (normalize) hoặc chuẩn hóa (standardize) các đặc trưng nếu cần.
- Chia dữ liệu thành tập huấn luyện (train) và tập kiểm tra (test).

## Bước 4: Tóm tắt và Trình bày Kết quả

- Trình bày thông tin cơ bản về dữ liệu.
- Trình bày phân bố của các lớp.
- Trình bày dữ liệu sau khi tiền xử lý.

# 3. Thực hiện Tiền xử lý (Mô phỏng bằng Python)
Dưới đây là các bước tiền xử lý được mô phỏng bằng Python (dùng thư viện pandas, scikit-learn).

## 3.1 Đọc và Rút trích Dữ liệu
Giả sử dữ liệu đã được lưu trong file iris.csv. Tôi sẽ đọc dữ liệu và chuyển thành DataFrame:

In [15]:
import pandas as pd

# Đọc dữ liệu từ file CSV
data = pd.read_csv('iris.csv', header=None, names=['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class'])

# Hiển thị 5 dòng đầu tiên
print(data.head())

   sepal_length  sepal_width  petal_length  petal_width        class
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa
3           4.6          3.1           1.5          0.2  Iris-setosa
4           5.0          3.6           1.4          0.2  Iris-setosa


## 3.2. Kiểm tra Dữ liệu
Kiểm tra dữ liệu thiếu

In [16]:
# Kiểm tra dữ liệu thiếu
print(data.isnull().sum())

sepal_length    0
sepal_width     0
petal_length    0
petal_width     0
class           0
dtype: int64


Kiểm tra kiểu dữ liệu

In [17]:
# Kiểm tra kiểu dữ liệu
print(data.dtypes)

sepal_length    float64
sepal_width     float64
petal_length    float64
petal_width     float64
class            object
dtype: object


- Các cột đặc trưng (sepal_length, sepal_width, petal_length, petal_width) đều là kiểu float64, phù hợp để sử dụng trong mô hình học máy.
- Cột class là kiểu object (chuỗi), cần được mã hóa thành số.

Kiểm tra phân bố của các lớp

In [18]:
# Kiểm tra phân bố của các lớp
print(data['class'].value_counts())

class
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: count, dtype: int64


- Dữ liệu cân bằng (balanced): Mỗi lớp (Iris-setosa, Iris-versicolor, Iris-virginica) đều có 50 mẫu.

## 3.3. Tiền xử lý Dữ liệu
### Mã hóa nhãn (Label Encoding)
Cột class cần được chuyển từ chuỗi (Iris-setosa, Iris-versicolor, Iris-virginica) thành số (0, 1, 2) để sử dụng trong mô hình phân lớp.

In [19]:
from sklearn.preprocessing import LabelEncoder

# Mã hóa nhãn
label_encoder = LabelEncoder()
data['class'] = label_encoder.fit_transform(data['class'])

# Hiển thị 5 dòng đầu tiên sau khi mã hóa
print(data.head())

   sepal_length  sepal_width  petal_length  petal_width  class
0           5.1          3.5           1.4          0.2      0
1           4.9          3.0           1.4          0.2      0
2           4.7          3.2           1.3          0.2      0
3           4.6          3.1           1.5          0.2      0
4           5.0          3.6           1.4          0.2      0


### Chuẩn hóa dữ liệu (Standardization)
Các đặc trưng có giá trị nằm trong các khoảng khác nhau (ví dụ: sepal_length từ 4.3 đến 7.9, petal_width từ 0.1 đến 2.5). Để đảm bảo các đặc trưng có cùng thang đo, tôi sẽ chuẩn hóa dữ liệu bằng StandardScaler (chuyển về phân phối chuẩn với trung bình = 0, độ lệch chuẩn = 1).

In [20]:
from sklearn.preprocessing import StandardScaler

# Tách features và labels
X = data.drop('class', axis=1)
y = data['class']

# Chuẩn hóa features
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Chuyển X_scaled thành DataFrame để dễ trình bày
X_scaled_df = pd.DataFrame(X_scaled, columns=X.columns)
print(X_scaled_df.head())

   sepal_length  sepal_width  petal_length  petal_width
0     -0.900681     1.032057     -1.341272    -1.312977
1     -1.143017    -0.124958     -1.341272    -1.312977
2     -1.385353     0.337848     -1.398138    -1.312977
3     -1.506521     0.106445     -1.284407    -1.312977
4     -1.021849     1.263460     -1.341272    -1.312977


- Các đặc trưng đã được chuẩn hóa, giá trị trung bình của mỗi cột xấp xỉ 0, độ lệch chuẩn xấp xỉ 1.

### Chia dữ liệu thành tập huấn luyện và tập kiểm tra
Chia dữ liệu thành tập huấn luyện (train) và tập kiểm tra (test) với tỷ lệ 80:20.

In [21]:
from sklearn.model_selection import train_test_split

# Chia dữ liệu
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42, stratify=y)

# Kiểm tra kích thước
print("Kích thước tập huấn luyện:", X_train.shape, y_train.shape)
print("Kích thước tập kiểm tra:", X_test.shape, y_test.shape)

Kích thước tập huấn luyện: (120, 4) (120,)
Kích thước tập kiểm tra: (30, 4) (30,)


- Tập huấn luyện: 120 mẫu.
- Tập kiểm tra: 30 mẫu.
- stratify=y đảm bảo phân bố các lớp trong tập huấn luyện và tập kiểm tra giống với dữ liệu gốc (mỗi lớp vẫn có tỷ lệ 1:1:1).

# 4. Tóm tắt và Trình bày Kết quả

## 4.1. Thông tin cơ bản về dữ liệu

- **Số mẫu**: 150.
- **Số đặc trưng**: 4 (`sepal_length`, `sepal_width`, `petal_length`, `petal_width`).
- **Số lớp**: 3 (`Iris-setosa`, `Iris-versicolor`, `Iris-virginica`).
- **Dữ liệu thiếu**: Không có.

## 4.2. Phân bố của các lớp

| Class            | Số mẫu |
|------------------|--------|
| Iris-setosa      | 50     |
| Iris-versicolor  | 50     |
| Iris-virginica   | 50     |

- Dữ liệu cân bằng, mỗi lớp có 50 mẫu.

## 4.3. Dữ liệu sau khi tiền xử lý

- **Mã hóa nhãn**:
  - `Iris-setosa` → 0
  - `Iris-versicolor` → 1
  - `Iris-virginica` → 2

- **Chuẩn hóa đặc trưng**:
  - Các đặc trưng đã được chuẩn hóa (trung bình = 0, độ lệch chuẩn = 1).
  - Ví dụ 5 dòng đầu tiên sau chuẩn hóa:
    ```
       sepal_length  sepal_width  petal_length  petal_width
    0     -0.900681     1.032057     -1.341272    -1.312977
    1     -1.143017    -0.124958     -1.341272    -1.312977
    2     -1.385353     0.337848     -1.398138    -1.312977
    3     -1.506521     0.106445     -1.284407    -1.312977
    4     -1.021849     1.263460     -1.341272    -1.312977
    ```

- **Chia dữ liệu**:
  - Tập huấn luyện: 120 mẫu (80%).
  - Tập kiểm tra: 30 mẫu (20%).

# 5. Kết luận

- Dữ liệu Iris đã được rút trích và tiền xử lý thành công, sẵn sàng để sử dụng trong bài toán phân lớp.

- Các bước tiền xử lý bao gồm:
  - Kiểm tra và xác nhận không có dữ liệu thiếu.
  - Mã hóa nhãn thành số (0, 1, 2).
  - Chuẩn hóa các đặc trưng để đảm bảo thang đo đồng nhất.
  - Chia dữ liệu thành tập huấn luyện và tập kiểm tra với tỷ lệ 80:20.

- Dữ liệu cân bằng, không có bất thường, phù hợp để huấn luyện các mô hình học máy như Logistic Regression, SVM, hoặc Decision Tree.

Nếu bạn cần thực hiện thêm bước huấn luyện mô hình hoặc phân tích sâu hơn, hãy cho tôi biết!