In [1]:
import pandas as pd
import numpy as np
import os
import warnings
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score
import xgboost as xgb
import gc # Thư viện Garbage Collection để giải phóng bộ nhớ

warnings.filterwarnings('ignore')

# --- 1. Cấu hình và Hàm Tối ưu Bộ nhớ ---
print(">>> BƯỚC 1: Cấu hình và Thiết lập <<<")

TRAIN_PATH = 'wannaai-sentinel-2025/train.csv'
TEST_PATH = 'wannaai-sentinel-2025/test.csv'
CHUNK_SIZE = 5_000_000 # Đọc 5 triệu dòng mỗi lần, bạn có thể giảm xuống nếu vẫn bị lỗi

def reduce_mem_usage(df, verbose=True):
    start_mem = df.memory_usage().sum() / 1024**2
    for col in df.columns:
        col_type = df[col].dtype
        if col_type != object and col_type.name != 'category':
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)
            else:
                if c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
    end_mem = df.memory_usage().sum() / 1024**2
    if verbose:
        print(f'Mức sử dụng bộ nhớ giảm từ {start_mem:.2f} MB xuống {end_mem:.2f} MB ({100 * (start_mem - end_mem) / start_mem:.1f}% giảm)')
    return df

# --- 2. Tải Dữ liệu theo Chunk và Xử lý ---
print("\n>>> BƯỚC 2: Tải và Xử lý Dữ liệu theo Chunk <<<")

# Xử lý file train
train_chunks = []
# Sử dụng pd.read_csv với iterator và chunksize
for chunk in pd.read_csv(TRAIN_PATH, chunksize=CHUNK_SIZE):
    print(f"Đang xử lý chunk {len(train_chunks) + 1}...")
    # 1. Làm sạch NaN/Inf
    chunk.replace([np.inf, -np.inf], np.nan, inplace=True)
    chunk.fillna(0, inplace=True)
    
    # 2. Tối ưu bộ nhớ cho chunk
    chunk = reduce_mem_usage(chunk, verbose=False) # Tắt verbose để đỡ rối output
    
    train_chunks.append(chunk)

print("Ghép các chunk của train_df...")
train_df = pd.concat(train_chunks, ignore_index=True)
del train_chunks # Giải phóng bộ nhớ ngay lập tức
gc.collect() # Dọn dẹp rác

print(f"\nTổng bộ nhớ của train_df sau khi ghép: {train_df.memory_usage().sum() / 1024**2:.2f} MB")

# Xử lý file test (tương tự)
test_chunks = []
for chunk in pd.read_csv(TEST_PATH, chunksize=CHUNK_SIZE):
    chunk.replace([np.inf, -np.inf], np.nan, inplace=True)
    chunk.fillna(0, inplace=True)
    chunk = reduce_mem_usage(chunk, verbose=False)
    test_chunks.append(chunk)
    
print("Ghép các chunk của test_df...")
test_df = pd.concat(test_chunks, ignore_index=True)
del test_chunks
gc.collect()

print("\nTrain shape:", train_df.shape)
print("Test shape:", test_df.shape)


# --- 3. Tiền xử lý Chung ---
print("\n>>> BƯỚC 3: Tiền xử lý Chung <<<")

print("Áp dụng biến đổi log1p...")
problematic_features = ["Rate", "Std length", "Variance length"]
for col in problematic_features:
    if col in train_df.columns:
        train_df[col] = np.log1p(train_df[col].astype(np.float32))
        test_df[col] = np.log1p(test_df[col].astype(np.float32))

print("Encode Label...")
le = LabelEncoder()
train_df["label_mapped"] = le.fit_transform(train_df["Label"])


# --- 4. Chuẩn bị Dữ liệu để Huấn luyện ---
print("\n>>> BƯỚC 4: Chuẩn bị Dữ liệu cho Model <<<")
X = train_df.drop(["Label", "label_mapped"], axis=1)
y = train_df["label_mapped"]

# Xóa train_df để giải phóng thêm RAM trước khi training
del train_df
gc.collect()

X_train, X_val, y_train, y_val = train_test_split(
    X, y, test_size=0.1, stratify=y, random_state=42
)

# Xóa X, y không cần thiết nữa
del X, y
gc.collect()

print(f"Train split: {X_train.shape}, Valid split: {X_val.shape}")



>>> BƯỚC 1: Cấu hình và Thiết lập <<<

>>> BƯỚC 2: Tải và Xử lý Dữ liệu theo Chunk <<<
Đang xử lý chunk 1...
Đang xử lý chunk 2...
Đang xử lý chunk 3...
Đang xử lý chunk 4...
Đang xử lý chunk 5...
Ghép các chunk của train_df...

Tổng bộ nhớ của train_df sau khi ghép: 3456.16 MB
Ghép các chunk của test_df...

Train shape: (22509617, 40)
Test shape: (11241807, 39)

>>> BƯỚC 3: Tiền xử lý Chung <<<
Áp dụng biến đổi log1p...
Encode Label...

>>> BƯỚC 4: Chuẩn bị Dữ liệu cho Model <<<
Train split: (20258655, 39), Valid split: (2250962, 39)

>>> BƯỚC 5: Huấn luyện Model XGBoost <<<
Bắt đầu training với Early Stopping...


TypeError: XGBClassifier.fit() got an unexpected keyword argument 'early_stopping_rounds'

In [None]:
# --- 5. Huấn luyện Model XGBoost ---
print("\n>>> BƯỚC 5: Huấn luyện Model XGBoost <<<")

# Giảm các tham số để tiết kiệm RAM hơn nữa
xgb_clf = xgb.XGBClassifier(
    objective="multi:softmax",
    num_class=len(le.classes_),
    eval_metric="mlogloss",
    random_state=42,
    n_estimators=1500,
    learning_rate=0.05,
    max_depth=7,          # Giảm độ sâu của cây
    subsample=0.7,        # Dùng ít dữ liệu hơn cho mỗi cây
    colsample_bytree=0.7, # Dùng ít feature hơn cho mỗi cây
    tree_method="hist",   # 'hist' rất hiệu quả về bộ nhớ và tốc độ
    use_label_encoder=False
)

print("Bắt đầu training với Early Stopping...")
xgb_clf.fit(
    X_train, y_train,
    eval_set=[(X_val, y_val)],
    #early_stopping_rounds=30,
    verbose=50
)

# --- 6. Đánh giá và Dự đoán ---
print("\n>>> BƯỚC 6: Đánh giá và Dự đoán <<<")
print("Đánh giá trên tập Validation...")
y_pred_val = xgb_clf.predict(X_val)
print(f"Validation Accuracy: {accuracy_score(y_val, y_pred_val):.4f}")

print("\nDự đoán trên tập Test...")
test_pred_encoded = xgb_clf.predict(test_df)
test_pred_labels = le.inverse_transform(test_pred_encoded)

# --- 7. Tạo file Submission ---
print("\n>>> BƯỚC 7: Tạo file Submission <<<")
submission = pd.DataFrame({
    "ID": np.arange(len(test_pred_labels)),
    "Label": test_pred_labels
})
submission.to_csv("submission.csv", index=False)

print("\n✅ Hoàn tất! File 'submission.csv' đã được tạo.")
print("5 dòng đầu của file submission:")
print(submission.head())


>>> BƯỚC 5: Huấn luyện Model XGBoost <<<
Bắt đầu training với Early Stopping...
[0]	validation_0-mlogloss:2.94136
