In [1]:
# ==================================================
# IMPORT CÁC THƯ VIỆN CÂN THIẾT
# ==================================================
import os  # Thư viện để làm việc với hệ thống file
import numpy as np  # Thư viện tính toán số học
import matplotlib.pyplot as plt  # Thư viện vẽ đồ thị
plt.style.use('default')  # Sử dụng style mặc định cho đồ thị
import pandas as pd  # Thư viện xử lý dữ liệu dạng bảng (DataFrame)

# Cấu hình kích thước và độ phân giải cho đồ thị
plt.rcParams['figure.figsize'] = [12, 8]  # Kích thước: rộng 12 inch, cao 8 inch
plt.rcParams['figure.dpi'] = 100  # Độ phân giải: 100 DPI
plt.tight_layout()  # Tự động căn chỉnh layout để không bị chồng chéo

# Cấu hình font chữ cho đồ thị
import matplotlib 
font = {'family' : 'normal',
        'weight' : 'normal',
        'size'   : 20}  # Font size 20 để dễ đọc
matplotlib.rc('font', **font)

<Figure size 1200x800 with 0 Axes>

In [None]:
# ==================================================
# ĐỌC DỮ LIỆU GỐC TỪ FILE CSV
# ==================================================
# File penguins_lter.csv chứa dữ liệu nghiên cứu chim cánh cụt từ Palmer Station, Antarctica
# Dữ liệu bao gồm các thông tin về đặc điểm vật lý và sinh học của 3 loài chim cánh cụt
original_df = pd.read_csv("../data/penguins_lter.csv")
original_df  # Hiển thị toàn bộ dữ liệu để kiểm tra

Unnamed: 0,studyName,Sample Number,Species,Region,Island,Stage,Individual ID,Clutch Completion,Date Egg,Culmen Length (mm),Culmen Depth (mm),Flipper Length (mm),Body Mass (g),Sex,Delta 15 N (o/oo),Delta 13 C (o/oo),Comments
0,PAL0708,1,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N1A1,Yes,11-11-07,39.1,18.7,181.0,3750.0,MALE,,,Not enough blood for isotopes.
1,PAL0708,2,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N1A2,Yes,11-11-07,39.5,17.4,186.0,3800.0,FEMALE,8.94956,-24.69454,
2,PAL0708,3,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N2A1,Yes,11/16/07,40.3,18.0,195.0,3250.0,FEMALE,8.36821,-25.33302,
3,PAL0708,4,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N2A2,Yes,11/16/07,,,,,,,,Adult not sampled.
4,PAL0708,5,Adelie Penguin (Pygoscelis adeliae),Anvers,Torgersen,"Adult, 1 Egg Stage",N3A1,Yes,11/16/07,36.7,19.3,193.0,3450.0,FEMALE,8.76651,-25.32426,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
339,PAL0910,120,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N38A2,No,12-01-09,,,,,,,,
340,PAL0910,121,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N39A1,Yes,11/22/09,46.8,14.3,215.0,4850.0,FEMALE,8.41151,-26.13832,
341,PAL0910,122,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N39A2,Yes,11/22/09,50.4,15.7,222.0,5750.0,MALE,8.30166,-26.04117,
342,PAL0910,123,Gentoo penguin (Pygoscelis papua),Anvers,Biscoe,"Adult, 1 Egg Stage",N43A1,Yes,11/22/09,45.2,14.8,212.0,5200.0,FEMALE,8.24246,-26.11969,


In [None]:
# ==================================================
# KHÁM PHÁ DỮ LIỆU: Đếm số giá trị unique (duy nhất) trong mỗi cột
# ==================================================
# Mục đích: Hiểu được độ đa dạng của dữ liệu trong mỗi cột
# - Nếu 1 cột có quá ít giá trị unique -> có thể không hữu ích cho dự đoán
# - Nếu 1 cột có quá nhiều giá trị unique -> có thể là ID hoặc thông tin chi tiết không cần thiết
print(original_df.nunique())

studyName                3
Sample Number          152
Species                  3
Region                   1
Island                   3
Stage                    1
Individual ID          190
Clutch Completion        2
Date Egg                50
Culmen Length (mm)     164
Culmen Depth (mm)       80
Flipper Length (mm)     55
Body Mass (g)           94
Sex                      3
Delta 15 N (o/oo)      330
Delta 13 C (o/oo)      331
Comments                 7
dtype: int64


In [None]:
# ==================================================
# LOẠI BỎ CÁC CỘT KHÔNG CẦN THIẾT (FEATURE SELECTION)
# ==================================================
# Mục tiêu: Chỉ giữ lại các đặc điểm TỰ NHIÊN để dự đoán loài chim cánh cụt
# Loại bỏ những thông tin liên quan đến nghiên cứu, không phải đặc điểm sinh học

# 1. Loại bỏ 'studyName': Mỗi nghiên cứu chỉ nghiên cứu 1 loài -> gây bias
df_remove_spare_columns = original_df.drop('studyName', inplace=False, axis=1)

# 2. Loại bỏ 'Sample Number': Số thứ tự mẫu nghiên cứu -> không liên quan đến đặc điểm sinh học
df_remove_spare_columns = df_remove_spare_columns.drop('Sample Number', inplace=False, axis=1)

# 3. Loại bỏ 'Stage': Tất cả đều có cùng giá trị -> không mang thông tin hữu ích
df_remove_spare_columns = df_remove_spare_columns.drop('Stage', inplace=False, axis=1)

# 4. Loại bỏ 'Region': Tất cả đều ở cùng 1 vùng -> không phân biệt được loài
df_remove_spare_columns = df_remove_spare_columns.drop('Region', inplace=False, axis=1)

# 5. Loại bỏ 'Date Egg': Ngày đẻ trứng có thể tiết lộ loài (mỗi loài đẻ trứng vào thời điểm khác nhau)
#    -> Gây bias, không phải đặc điểm tự nhiên quan sát được
df_remove_spare_columns = df_remove_spare_columns.drop('Date Egg', inplace=False, axis=1)

# 6. Loại bỏ 'Individual ID': ID cá thể là thông tin chủ quan, riêng biệt cho mỗi con
df_remove_spare_columns = df_remove_spare_columns.drop('Individual ID', inplace=False, axis=1)

# 7. Loại bỏ 'Comments': Ghi chú cá nhân, có quá nhiều giá trị NaN (missing)
df_remove_spare_columns = df_remove_spare_columns.drop('Comments', inplace=False, axis=1)

# 8. Loại bỏ 'Clutch Completion': Thông tin về việc hoàn thành ấp trứng -> mất thời gian quan sát
df_remove_spare_columns = df_remove_spare_columns.drop('Clutch Completion', inplace=False, axis=1)

# 9. Loại bỏ 'Island': Đảo nghiên cứu có bias (mỗi đảo có thể chỉ có 1 vài loài)
#    -> Không phải đặc điểm tự nhiên của chim
df_remove_spare_columns = df_remove_spare_columns.drop('Island', inplace=False, axis=1)

In [None]:
# Hiển thị DataFrame sau khi loại bỏ các cột không cần thiết
# Giờ chỉ còn lại các đặc điểm sinh học: Sex, Culmen Length, Culmen Depth, 
# Flipper Length, Body Mass, Delta 15 N, Delta 13 C, và Species (nhãn)
df_remove_spare_columns

Unnamed: 0,Species,Culmen Length (mm),Culmen Depth (mm),Flipper Length (mm),Body Mass (g),Sex,Delta 15 N (o/oo),Delta 13 C (o/oo)
0,Adelie Penguin (Pygoscelis adeliae),39.1,18.7,181.0,3750.0,MALE,,
1,Adelie Penguin (Pygoscelis adeliae),39.5,17.4,186.0,3800.0,FEMALE,8.94956,-24.69454
2,Adelie Penguin (Pygoscelis adeliae),40.3,18.0,195.0,3250.0,FEMALE,8.36821,-25.33302
3,Adelie Penguin (Pygoscelis adeliae),,,,,,,
4,Adelie Penguin (Pygoscelis adeliae),36.7,19.3,193.0,3450.0,FEMALE,8.76651,-25.32426
...,...,...,...,...,...,...,...,...
339,Gentoo penguin (Pygoscelis papua),,,,,,,
340,Gentoo penguin (Pygoscelis papua),46.8,14.3,215.0,4850.0,FEMALE,8.41151,-26.13832
341,Gentoo penguin (Pygoscelis papua),50.4,15.7,222.0,5750.0,MALE,8.30166,-26.04117
342,Gentoo penguin (Pygoscelis papua),45.2,14.8,212.0,5200.0,FEMALE,8.24246,-26.11969


## Warning: The code below can change outside files

In [None]:
# ==================================================
# LƯU DỮ LIỆU SAU KHI XỬ LÝ RA FILE MỚI
# ==================================================
# CẢNH BÁO: Code này sẽ ghi đè file nếu đã tồn tại
# to_csv(): Lưu DataFrame thành file CSV
# index=False: Không lưu cột index (số thứ tự hàng) vào file
df_remove_spare_columns.to_csv('../data/data_remove_spare_columns.csv', index = False)
df_remove_spare_columns

Unnamed: 0,Species,Culmen Length (mm),Culmen Depth (mm),Flipper Length (mm),Body Mass (g),Sex,Delta 15 N (o/oo),Delta 13 C (o/oo)
0,Adelie Penguin (Pygoscelis adeliae),39.1,18.7,181.0,3750.0,MALE,,
1,Adelie Penguin (Pygoscelis adeliae),39.5,17.4,186.0,3800.0,FEMALE,8.94956,-24.69454
2,Adelie Penguin (Pygoscelis adeliae),40.3,18.0,195.0,3250.0,FEMALE,8.36821,-25.33302
3,Adelie Penguin (Pygoscelis adeliae),,,,,,,
4,Adelie Penguin (Pygoscelis adeliae),36.7,19.3,193.0,3450.0,FEMALE,8.76651,-25.32426
...,...,...,...,...,...,...,...,...
339,Gentoo penguin (Pygoscelis papua),,,,,,,
340,Gentoo penguin (Pygoscelis papua),46.8,14.3,215.0,4850.0,FEMALE,8.41151,-26.13832
341,Gentoo penguin (Pygoscelis papua),50.4,15.7,222.0,5750.0,MALE,8.30166,-26.04117
342,Gentoo penguin (Pygoscelis papua),45.2,14.8,212.0,5200.0,FEMALE,8.24246,-26.11969


In [None]:
# ==================================================
# ĐỌC LẠI DỮ LIỆU ĐÃ LƯU ĐỂ KIỂM TRA
# ==================================================
# Đọc file vừa lưu để đảm bảo dữ liệu được lưu đúng
df_remove_spare_columns = pd.read_csv("../data/data_remove_spare_columns.csv")
df_remove_spare_columns

Unnamed: 0,Species,Culmen Length (mm),Culmen Depth (mm),Flipper Length (mm),Body Mass (g),Sex,Delta 15 N (o/oo),Delta 13 C (o/oo)
0,Adelie Penguin (Pygoscelis adeliae),39.1,18.7,181.0,3750.0,MALE,,
1,Adelie Penguin (Pygoscelis adeliae),39.5,17.4,186.0,3800.0,FEMALE,8.94956,-24.69454
2,Adelie Penguin (Pygoscelis adeliae),40.3,18.0,195.0,3250.0,FEMALE,8.36821,-25.33302
3,Adelie Penguin (Pygoscelis adeliae),,,,,,,
4,Adelie Penguin (Pygoscelis adeliae),36.7,19.3,193.0,3450.0,FEMALE,8.76651,-25.32426
...,...,...,...,...,...,...,...,...
339,Gentoo penguin (Pygoscelis papua),,,,,,,
340,Gentoo penguin (Pygoscelis papua),46.8,14.3,215.0,4850.0,FEMALE,8.41151,-26.13832
341,Gentoo penguin (Pygoscelis papua),50.4,15.7,222.0,5750.0,MALE,8.30166,-26.04117
342,Gentoo penguin (Pygoscelis papua),45.2,14.8,212.0,5200.0,FEMALE,8.24246,-26.11969


In [None]:
# ==================================================
# LOẠI BỎ OUTLIERS (DỮ LIỆU LỖI)
# ==================================================
# Định nghĩa outlier: Mẫu không có BẤT KỲ giá trị quan trọng nào (tất cả đều NaN)
# Giữ lại các mẫu có ÍT NHẤT 1 trong các giá trị sau:
# - Culmen Length (Chiều dài mỏ)
# - Culmen Depth (Chiều sâu mỏ)
# - Flipper Length (Chiều dài cánh)
# - Body Mass (Khối lượng cơ thể)
# - Delta 15 N (Đồng vị Nitơ)
# - Delta 13 C (Đồng vị Carbon)

# .notna(): Kiểm tra giá trị NOT NaN (có giá trị)
# | : Toán tử OR - chỉ cần 1 điều kiện đúng là giữ lại
df_remove_outliers = df_remove_spare_columns[df_remove_spare_columns['Culmen Length (mm)'].notna() |
                                            df_remove_spare_columns['Culmen Depth (mm)'].notna() |
                                            df_remove_spare_columns['Flipper Length (mm)'].notna() |
                                            df_remove_spare_columns['Body Mass (g)'].notna() |
                                            df_remove_spare_columns['Delta 15 N (o/oo)'].notna() |
                                            df_remove_spare_columns['Delta 13 C (o/oo)'].notna()]

# Lưu dữ liệu sau khi loại bỏ outliers
df_remove_outliers.to_csv('../data/data_remove_outliers.csv', index = False)

In [9]:
df_remove_outliers = pd.read_csv("../data/data_remove_outliers.csv")
df_remove_outliers

Unnamed: 0,Species,Culmen Length (mm),Culmen Depth (mm),Flipper Length (mm),Body Mass (g),Sex,Delta 15 N (o/oo),Delta 13 C (o/oo)
0,Adelie Penguin (Pygoscelis adeliae),39.1,18.7,181.0,3750.0,MALE,,
1,Adelie Penguin (Pygoscelis adeliae),39.5,17.4,186.0,3800.0,FEMALE,8.94956,-24.69454
2,Adelie Penguin (Pygoscelis adeliae),40.3,18.0,195.0,3250.0,FEMALE,8.36821,-25.33302
3,Adelie Penguin (Pygoscelis adeliae),36.7,19.3,193.0,3450.0,FEMALE,8.76651,-25.32426
4,Adelie Penguin (Pygoscelis adeliae),39.3,20.6,190.0,3650.0,MALE,8.66496,-25.29805
...,...,...,...,...,...,...,...,...
337,Gentoo penguin (Pygoscelis papua),47.2,13.7,214.0,4925.0,FEMALE,7.99184,-26.20538
338,Gentoo penguin (Pygoscelis papua),46.8,14.3,215.0,4850.0,FEMALE,8.41151,-26.13832
339,Gentoo penguin (Pygoscelis papua),50.4,15.7,222.0,5750.0,MALE,8.30166,-26.04117
340,Gentoo penguin (Pygoscelis papua),45.2,14.8,212.0,5200.0,FEMALE,8.24246,-26.11969


In [10]:
print(df_remove_spare_columns.nunique())
print(df_remove_spare_columns.shape)

Species                  3
Culmen Length (mm)     164
Culmen Depth (mm)       80
Flipper Length (mm)     55
Body Mass (g)           94
Sex                      3
Delta 15 N (o/oo)      330
Delta 13 C (o/oo)      331
dtype: int64
(344, 8)


In [None]:
# ==================================================
# CHIA DỮ LIỆU THEO TỪNG LOÀI (STRATIFIED SPLIT)
# ==================================================
# Mục đích: Đảm bảo tỷ lệ các loài trong train/test set giống với dữ liệu gốc

# Chia dữ liệu thành 3 nhóm theo loài:
# 1. Adelie Penguin (Chim cánh cụt Adelie)
df_Adelie = df_remove_spare_columns[df_remove_spare_columns['Species'] == 'Adelie Penguin (Pygoscelis adeliae)']

# 2. Chinstrap penguin (Chim cánh cụt Chinstrap)
df_Chinstrap = df_remove_spare_columns[df_remove_spare_columns['Species'] == 'Chinstrap penguin (Pygoscelis antarctica)']

# 3. Gentoo penguin (Chim cánh cụt Gentoo)
df_Gentoo = df_remove_spare_columns[df_remove_spare_columns['Species'] == 'Gentoo penguin (Pygoscelis papua)']

# ==================================================
# SHUFFLE (XÁO TRỘN) DỮ LIỆU
# ==================================================
# sample(frac=1): Lấy mẫu ngẫu nhiên 100% dữ liệu (tức là xáo trộn toàn bộ)
# Mục đích: Tránh bias do thứ tự dữ liệu (ví dụ: dữ liệu được sắp xếp theo thời gian)
df_Adelie = df_Adelie.sample(frac=1)
df_Chinstrap = df_Chinstrap.sample(frac=1)
df_Gentoo = df_Gentoo.sample(frac=1)

In [None]:
# ==================================================
# HÀM CHIA DỮ LIỆU THÀNH TRAIN VÀ TEST
# ==================================================

def dfGetTrainData(df, percentage):
    """
    Lấy phần đầu của DataFrame làm tập TRAIN
    
    Args:
        df: DataFrame cần chia
        percentage: Tỷ lệ dữ liệu cho tập train (VD: 0.8 = 80%)
    
    Returns:
        DataFrame chứa phần train (80% đầu nếu percentage=0.8)
    """
    df_len = len(df)  # Đếm tổng số hàng
    return df.head(int(df_len * percentage))  # Lấy n hàng đầu tiên (n = tổng số hàng * percentage)
    
def dfGetTestData(df, percentage):
    """
    Lấy phần cuối của DataFrame làm tập TEST
    
    Args:
        df: DataFrame cần chia
        percentage: Tỷ lệ dữ liệu cho tập train (phần còn lại sẽ là test)
    
    Returns:
        DataFrame chứa phần test (20% cuối nếu percentage=0.8)
    """
    df_len = len(df)    
    return df.tail(df_len - int(df_len * percentage))  # Lấy phần còn lại

In [None]:
# ==================================================
# CHIA DỮ LIỆU TỪNG LOÀI THÀNH TRAIN VÀ TEST
# ==================================================
# Tỷ lệ: 80% train - 20% test
percentage = 0.8

# Chia train set cho từng loài (80% đầu)
df_Adelie_train = dfGetTrainData(df_Adelie, percentage)
df_Chinstrap_train = dfGetTrainData(df_Chinstrap, percentage)
df_Gentoo_train = dfGetTrainData(df_Gentoo, percentage)

# Chia test set cho từng loài (20% cuối)
df_Adelie_test = dfGetTestData(df_Adelie, percentage)
df_Chinstrap_test = dfGetTestData(df_Chinstrap, percentage)
df_Gentoo_test = dfGetTestData(df_Gentoo, percentage)

In [None]:
# ==================================================
# GỘP DỮ LIỆU TỪ 3 LOÀI VÀ XÁO TRỘN
# ==================================================
# pd.concat(): Gộp nhiều DataFrame lại với nhau theo chiều dọc (thêm hàng)

# Gộp train set của 3 loài
frames = [df_Adelie_train, df_Chinstrap_train, df_Gentoo_train]
df_train = pd.concat(frames).sample(frac=1)  # Gộp và xáo trộn lại

# Gộp test set của 3 loài
frames = [df_Adelie_test, df_Chinstrap_test, df_Gentoo_test]
df_test = pd.concat(frames).sample(frac=1)  # Gộp và xáo trộn lại

In [None]:
# ==================================================
# TẠO THƯ MỤC VÀ LƯU DỮ LIỆU TRAIN
# ==================================================
try:
    os.makedirs('../data/data1')  # Tạo thư mục 'data1' nếu chưa tồn tại
except OSError as e:
    pass  # Nếu thư mục đã tồn tại, bỏ qua lỗi
    
# Lưu tập train vào file CSV
df_train.to_csv('../data/data1/train_data.csv', index = False)

## Warning: The function below can change outside files

In [None]:
# ==================================================
# HÀM TỔNG HỢP: CHIA TRAIN/TEST VÀ LƯU FILE
# ==================================================
def splitTrainTest(df, percentage, data_name):
    """
    Hàm hoàn chỉnh để chia dữ liệu thành train/test theo stratified split
    
    Args:
        df: DataFrame gốc
        percentage: Tỷ lệ cho train set (VD: 0.8 = 80% train, 20% test)
        data_name: Tên thư mục để lưu kết quả
        
    Quy trình:
    1. Chia dữ liệu theo từng loài
    2. Shuffle từng loài
    3. Lấy 80% đầu làm train, 20% cuối làm test
    4. Gộp lại và shuffle
    5. Lưu vào file
    """
    # Bước 1: Chia theo loài
    df_Adelie = df_remove_spare_columns[df_remove_spare_columns['Species'] == 'Adelie Penguin (Pygoscelis adeliae)']
    df_Chinstrap = df_remove_spare_columns[df_remove_spare_columns['Species'] == 'Chinstrap penguin (Pygoscelis antarctica)']
    df_Gentoo = df_remove_spare_columns[df_remove_spare_columns['Species'] == 'Gentoo penguin (Pygoscelis papua)']

    # Bước 2: Shuffle từng loài
    df_Adelie = df_Adelie.sample(frac=1)
    df_Chinstrap = df_Chinstrap.sample(frac=1)
    df_Gentoo = df_Gentoo.sample(frac=1)
    
    # Định nghĩa hàm con để lấy train data
    def dfGetTrainData(df, percentage):
        df_len = len(df)
        return df.head(int(df_len * percentage))

    # Định nghĩa hàm con để lấy test data
    def dfGetTestData(df, percentage):
        df_len = len(df)    
        return df.tail(df_len - int(df_len * percentage))
    
    # Bước 3: Chia train/test cho từng loài
    df_Adelie_train = dfGetTrainData(df_Adelie, percentage)
    df_Chinstrap_train = dfGetTrainData(df_Chinstrap, percentage)
    df_Gentoo_train = dfGetTrainData(df_Gentoo, percentage)

    df_Adelie_test = dfGetTestData(df_Adelie, percentage)
    df_Chinstrap_test = dfGetTestData(df_Chinstrap, percentage)
    df_Gentoo_test = dfGetTestData(df_Gentoo, percentage)
    
    # Bước 4: Gộp và shuffle
    frames = [df_Adelie_train, df_Chinstrap_train, df_Gentoo_train]
    df_train = pd.concat(frames).sample(frac=1)
    frames = [df_Adelie_test, df_Chinstrap_test, df_Gentoo_test]
    df_test = pd.concat(frames).sample(frac=1)
    
    # Bước 5: Tạo thư mục và lưu file
    try:
        os.makedirs('../data/' + data_name)
    except OSError as e:
        pass
    
    df_train.to_csv('../data/' + data_name + '/train_data.csv', index = False)
    df_test.to_csv('../data/' + data_name + '/test_data.csv', index = False)

In [None]:
# ==================================================
# SỬ DỤNG HÀM ĐỂ CHIA DỮ LIỆU
# ==================================================
# Gọi hàm với tham số:
# - df_remove_outliers: Dữ liệu đã loại bỏ outliers
# - percentage = 0.8: 80% train, 20% test
# - data_name = 'data1': Lưu vào thư mục data/data1/
splitTrainTest(df_remove_outliers, percentage = 0.8, data_name = 'data1')

In [None]:
# ==================================================
# ĐỌC LẠI DỮ LIỆU VỪA CHIA ĐỂ KIỂM TRA
# ==================================================
train_data = pd.read_csv("../data/data1/train_data.csv")
test_data = pd.read_csv("../data/data1/test_data.csv")

In [19]:
df_remove_outliers.nunique()

Species                  3
Culmen Length (mm)     164
Culmen Depth (mm)       80
Flipper Length (mm)     55
Body Mass (g)           94
Sex                      3
Delta 15 N (o/oo)      330
Delta 13 C (o/oo)      331
dtype: int64

In [None]:
# ==================================================
# TÁCH FEATURES (X) VÀ LABELS (y)
# ==================================================
# Trong Machine Learning:
# - X (Features): Các đặc trưng đầu vào (chiều dài mỏ, khối lượng, v.v.)
# - y (Labels): Nhãn cần dự đoán (loài chim cánh cụt)

# TRAIN SET
# X_train: Tất cả các cột trừ 'Species' (features)
X_train = train_data.drop(['Species'], axis = 1)
# y_train: Chỉ lấy cột 'Species' (labels)
y_train = train_data[['Species']].copy()

# Lưu X_train và y_train
X_train.to_csv('../data/' + 'data1' + '/X_train.csv', index = False)
y_train.to_csv('../data/' + 'data1' + '/y_train.csv', index = False)

# TEST SET
# X_test: Features của tập test
X_test = test_data.drop(['Species'], axis = 1)
# y_test: Labels của tập test
y_test = test_data[['Species']].copy()

# Lưu X_test và y_test
X_test.to_csv('../data/' + 'data1' + '/X_test.csv', index = False)
y_test.to_csv('../data/' + 'data1' + '/y_test.csv', index = False)

In [21]:
pd.read_csv("../data/data1/X_train.csv").values

array([[43.5, 15.2, 213.0, ..., 'FEMALE', 8.21634, -26.11046],
       [45.4, 18.7, 188.0, ..., 'FEMALE', 8.64701, -24.62717],
       [44.5, 14.7, 214.0, ..., 'FEMALE', 8.20106, -26.16524],
       ...,
       [34.4, 18.4, 184.0, ..., 'FEMALE', 8.47827, -25.23319],
       [49.5, 19.0, 200.0, ..., 'MALE', 9.63074, -24.34684],
       [52.0, 19.0, 197.0, ..., 'MALE', 9.36799, -24.47142]], dtype=object)

In [22]:
print(X_train)

     Culmen Length (mm)  Culmen Depth (mm)  Flipper Length (mm)  \
0                  43.5               15.2                213.0   
1                  45.4               18.7                188.0   
2                  44.5               14.7                214.0   
3                  41.1               19.0                182.0   
4                  40.2               17.1                193.0   
..                  ...                ...                  ...   
269                50.5               15.9                222.0   
270                51.9               19.5                206.0   
271                34.4               18.4                184.0   
272                49.5               19.0                200.0   
273                52.0               19.0                197.0   

     Body Mass (g)     Sex  Delta 15 N (o/oo)  Delta 13 C (o/oo)  
0           4650.0  FEMALE            8.21634          -26.11046  
1           3525.0  FEMALE            8.64701          -24.62

In [None]:
# ==================================================
# LOẠI BỎ CỘT 'Island' (Nếu cần thiết)
# ==================================================
# Tạo một phiên bản khác của dữ liệu không có cột 'Island'
# Dùng cho trường hợp muốn so sánh hiệu suất model với/không có thông tin đảo
df_remove_Island = df_remove_outliers.drop('Island', inplace=False, axis=1)
df_remove_Island.to_csv('../data/data_remove_Island.csv', index = False)

KeyError: "['Island'] not found in axis"