# ĐÁNH GIÁ KẾT QUẢ TRAIN VÀ TEST

**Thứ tự chạy cell:**
- Cell 1: Đọc dữ liệu, chuẩn hóa và chia train/test (80%/20%)
- Cell 2: Template matching và đánh giá kết quả trên bộ test

In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

# 1. Đọc dữ liệu gốc
df = pd.read_csv('Iris.csv')  # File gốc

# 2. Chuẩn hóa các cột đặc trưng (bỏ 'Id' và 'Species')
features = df.drop(columns=['Id', 'Species'])
scaler = StandardScaler()
features_scaled = scaler.fit_transform(features)

# 3. Tạo DataFrame mới chứa dữ liệu chuẩn hóa
normalized_df = pd.DataFrame(features_scaled, columns=features.columns)
normalized_df['Species'] = df['Species']  # Thêm lại cột 'Species'
normalized_df.insert(0, 'Id', df['Id'])   # Thêm lại cột 'Id'

# 4. Lưu dữ liệu đã chuẩn hóa ra file
normalized_df.to_csv('iris_normalized.csv', index=False)

# 5. Tách các mẫu theo chỉ số yêu cầu (31-40, 81-90, 131-140)
# Lưu ý: chỉ số DataFrame bắt đầu từ 0, nên 31-40 là index 30-39, v.v.
selected_indices = list(range(30, 40)) + list(range(80, 90)) + list(range(130, 140))
selected_df = normalized_df.iloc[selected_indices].reset_index(drop=True)

# 6. Lưu dữ liệu đã tách ra file
selected_df.to_csv('iris_selected.csv', index=False)

print("✅ Đã chuẩn hóa và tách các mẫu theo chỉ số yêu cầu!")

✅ Đã chuẩn hóa và chia dữ liệu xong!


In [3]:
# Dự đoán loài hoa cho bộ test bằng template matching (tính khoảng cách Euclidean thủ công)
import numpy as np

# ===============================
# 1. Chuẩn bị dữ liệu
# ===============================
feature_cols = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']  # chọn 4 đặc trưng
X_train = train_df[feature_cols].values     # dữ liệu train (numpy array)
X_test = test_df[feature_cols].values       # dữ liệu test (numpy array)
y_train = train_df['Species'].values        # nhãn train

# ===============================
# 2. Template Matching (Nearest Neighbor)
# ===============================
pred_labels = []    # danh sách nhãn dự đoán cho từng mẫu test
min_dists = []      # danh sách khoảng cách nhỏ nhất tương ứng

for x in X_test:    
    # Tính khoảng cách Euclidean từ mẫu test x đến tất cả mẫu train
    dists = [np.sqrt(np.sum((x - x_train)**2)) for x_train in X_train]
    
    # Lấy chỉ số của mẫu train gần nhất
    nearest_idx = np.argmin(dists)
    
    # Ghi nhận nhãn dự đoán (lấy nhãn của train gần nhất)
    pred_labels.append(y_train[nearest_idx])
    
    # Ghi nhận khoảng cách nhỏ nhất
    min_dists.append(dists[nearest_idx])

# ===============================
# 3. Kết quả dự đoán
# ===============================
df_result = test_df.copy()                          # copy lại dữ liệu test gốc
df_result['Predicted_Species'] = pred_labels        # thêm cột nhãn dự đoán
df_result['Euclidean_Dist'] = min_dists             # thêm cột khoảng cách nhỏ nhất

# Hiển thị kết quả ra màn hình
print(df_result[['Id', 'Species', 'Predicted_Species', 'Euclidean_Dist']])

# ===============================
# 4. Lưu kết quả ra file CSV
# ===============================
df_result[['Id', 'Species', 'Predicted_Species', 'Euclidean_Dist']] \
    .to_csv("iris_test_result.csv", index=False)

print("✅ Đã lưu kết quả vào iris_test_result.csv")


     Id          Species Predicted_Species  Euclidean_Dist
0    41      Iris-setosa       Iris-setosa        0.133848
1    42      Iris-setosa       Iris-setosa        1.401037
2    43      Iris-setosa       Iris-setosa        0.353849
3    44      Iris-setosa       Iris-setosa        0.350268
4    45      Iris-setosa       Iris-setosa        0.262725
5    46      Iris-setosa       Iris-setosa        0.178793
6    47      Iris-setosa       Iris-setosa        0.143244
7    48      Iris-setosa       Iris-setosa        0.133848
8    49      Iris-setosa       Iris-setosa        0.121168
9    50      Iris-setosa       Iris-setosa        0.238288
10   91  Iris-versicolor   Iris-versicolor        0.350103
11   92  Iris-versicolor   Iris-versicolor        0.238288
12   93  Iris-versicolor   Iris-versicolor        0.238288
13   94  Iris-versicolor   Iris-versicolor        0.261207
14   95  Iris-versicolor   Iris-versicolor        0.311981
15   96  Iris-versicolor   Iris-versicolor        0.1876