# Đọc tệp dữ liệu đã tiền xử lý

In [16]:
import csv
import numpy as np
import logging
from PIL import Image
from skimage import feature
from sklearn.linear_model import SGDClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
import joblib
import sys
from ast import literal_eval

In [40]:
def read_data_from_csv(input):
    csv.field_size_limit(2**31 - 1)
    data = []
    labels = []
    with open(input, 'r') as file:
        reader = csv.reader(file)
        next(reader) # Skip title
        for row in reader:
            hog = np.array(literal_eval(row[0])) # Chuyển str -> list
            label = int(row[1])
            data.append(hog)
            labels.append(label)
    return np.array(data), np.array(labels)

# Thực hiện training bằng SVM

In [5]:
def save_model_pkl(model, output_file):
    joblib.dump(model, output_file)

In [6]:
def load_model_pkl(input_file):
    return joblib.load(input_file)

## Tải dữ liệu đã được tiền xử lý

In [41]:
X_train, y_train = read_data_from_csv('./data/train_data.csv')

In [18]:
model = SGDClassifier(loss='hinge')  # Sử dụng SVM với SGD

In [43]:
# Huấn luyện mô hình theo từng batch
batch_size = 3000
for start in range(0, len(X_train), batch_size):
    end = start + batch_size
    X_batch = X_train[start:end]
    y_batch = y_train[start:end]
    model.partial_fit(X_batch, y_batch, classes=np.unique(y_train))
    print(f"Đã huấn luyện batch từ {start} đến {end}")

Đã huấn luyện batch từ 0 đến 3000
Đã huấn luyện batch từ 3000 đến 6000
Đã huấn luyện batch từ 6000 đến 9000
Đã huấn luyện batch từ 9000 đến 12000
Đã huấn luyện batch từ 12000 đến 15000
Đã huấn luyện batch từ 15000 đến 18000
Đã huấn luyện batch từ 18000 đến 21000
Đã huấn luyện batch từ 21000 đến 24000
Đã huấn luyện batch từ 24000 đến 27000
Đã huấn luyện batch từ 27000 đến 30000
Đã huấn luyện batch từ 30000 đến 33000
Đã huấn luyện batch từ 33000 đến 36000
Đã huấn luyện batch từ 36000 đến 39000
Đã huấn luyện batch từ 39000 đến 42000


In [44]:
save_model_pkl(model, 'svm_model.pkl')
print("Mô hình đã được lưu thành công vào file 'svm_model.pkl'")

Mô hình đã được lưu thành công vào file 'svm_model.pkl'


# Training bằng RandomForest

In [45]:
from sklearn.ensemble import RandomForestClassifier

def train_random_forest(X_train, y_train, batch_size=3000):
    model = RandomForestClassifier(n_estimators=100, random_state=42, warm_start=True)
    for start in range(0, len(X_train), batch_size):
        end = start + batch_size
        X_batch = X_train[start:end]
        y_batch = y_train[start:end]
        if start == 0:
            model.fit(X_batch, y_batch)
        else:
            model.n_estimators += 10
            model.fit(X_batch, y_batch)
        print(f"Đã huấn luyện batch từ {start} đến {end}")
    save_model_pkl(model, 'rf_model.pkl')
    print("Mô hình Random Forest đã được lưu thành công vào file 'rf_model.pkl'")

In [46]:
train_random_forest(X_train, y_train)

Đã huấn luyện batch từ 0 đến 3000
Đã huấn luyện batch từ 3000 đến 6000
Đã huấn luyện batch từ 6000 đến 9000
Đã huấn luyện batch từ 9000 đến 12000
Đã huấn luyện batch từ 12000 đến 15000
Đã huấn luyện batch từ 15000 đến 18000
Đã huấn luyện batch từ 18000 đến 21000
Đã huấn luyện batch từ 21000 đến 24000
Đã huấn luyện batch từ 24000 đến 27000
Đã huấn luyện batch từ 27000 đến 30000
Đã huấn luyện batch từ 30000 đến 33000
Đã huấn luyện batch từ 33000 đến 36000
Đã huấn luyện batch từ 36000 đến 39000
Đã huấn luyện batch từ 39000 đến 42000
Mô hình Random Forest đã được lưu thành công vào file 'rf_model.pkl'


# Training bằng Gradient Boosting

In [47]:
from sklearn.ensemble import GradientBoostingClassifier

def train_gradient_boosting(X_train, y_train, batch_size=3000):
    model = GradientBoostingClassifier(n_estimators=100, random_state=42)
    for start in range(0, len(X_train), batch_size):
        end = start + batch_size
        X_batch = X_train[start:end]
        y_batch = y_train[start:end]
        model.fit(X_batch, y_batch)
        print(f"Đã huấn luyện batch từ {start} đến {end}")
    save_model_pkl(model, 'gbm_model.pkl')
    print("Mô hình Gradient Boosting đã được lưu thành công vào file 'gbm_model.pkl'")

train_gradient_boosting(X_train, y_train)

Đã huấn luyện batch từ 0 đến 3000
Đã huấn luyện batch từ 3000 đến 6000
Đã huấn luyện batch từ 6000 đến 9000
Đã huấn luyện batch từ 9000 đến 12000
Đã huấn luyện batch từ 12000 đến 15000
Đã huấn luyện batch từ 15000 đến 18000
Đã huấn luyện batch từ 18000 đến 21000
Đã huấn luyện batch từ 21000 đến 24000
Đã huấn luyện batch từ 24000 đến 27000
Đã huấn luyện batch từ 27000 đến 30000
Đã huấn luyện batch từ 30000 đến 33000
Đã huấn luyện batch từ 33000 đến 36000
Đã huấn luyện batch từ 36000 đến 39000


ValueError: y contains 1 class after sample_weight trimmed classes with zero weights, while a minimum of 2 classes are required.