In [4]:
import cv2
import numpy as np
import os
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import joblib # Thư viện để lưu model

# 1. Hàm tính HOG Features (Đặc trưng hình ảnh)
# SVM không nhìn ảnh pixel tốt, nó cần đặc trưng HOG
def get_hog_features(image):
    # Resize về kích thước chuẩn (phải khớp với kích thước lúc cắt ký tự ở Bước 2)
    image = cv2.resize(image, (30, 60)) 
    
    # Tính toán HOG
    hog = cv2.HOGDescriptor((30, 60), (10, 20), (5, 10), (5, 10), 9)
    h = hog.compute(image)
    return h.flatten()

# 2. Đọc dữ liệu Train
def load_data(data_path):
    features = []
    labels = []
    
    # Giả sử data_path là thư mục chứa các thư mục con 0, 1, 2... A, B, C...
    if not os.path.exists(data_path):
        print("Chưa có data! Hãy tải bộ data ký tự về trước.")
        return [], []

    for folder_name in os.listdir(data_path):
        folder_path = os.path.join(data_path, folder_name)
        if os.path.isdir(folder_path):
            print(f"Đang đọc folder: {folder_name}")
            for filename in os.listdir(folder_path):
                img_path = os.path.join(folder_path, filename)
                img = cv2.imread(img_path, cv2.IMREAD_GRAYSCALE) # Đọc ảnh xám
                
                if img is not None:
                    # Tính HOG và thêm vào list
                    hog_feat = get_hog_features(img)
                    features.append(hog_feat)
                    labels.append(folder_name) # Nhãn là tên thư mục (0, 1, A...)

    return np.array(features), np.array(labels)

# --- MAIN TRAIN ---
data_folder = 'data' # <-- ĐỔI ĐƯỜNG DẪN TỚI DATA KÝ TỰ CỦA BẠN

print("Bắt đầu load dữ liệu...")
X, y = load_data(data_folder)

if len(X) > 0:
    print(f"Load xong! Tổng số mẫu: {len(X)}")
    
    # Chia tập train/test
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Khởi tạo mô hình SVM
    print("Đang train model SVM (có thể mất vài phút)...")
    model = SVC(kernel='linear', C=1.0, probability=True)
    model.fit(X_train, y_train)
    
    # Đánh giá
    y_pred = model.predict(X_test)
    acc = accuracy_score(y_test, y_pred)
    print(f"Độ chính xác trên tập Test: {acc * 100:.2f}%")
    
    # Lưu model để dùng lại
    joblib.dump(model, 'svm_license_plate.pkl')
    print("Đã lưu model vào file 'svm_license_plate.pkl'")
else:
    print("Không có dữ liệu để train.")

Bắt đầu load dữ liệu...
Đang đọc folder: 0
Đang đọc folder: 1
Đang đọc folder: 2
Đang đọc folder: 3
Đang đọc folder: 4
Đang đọc folder: 5
Đang đọc folder: 6
Đang đọc folder: 65
Đang đọc folder: 66
Đang đọc folder: 67
Đang đọc folder: 68
Đang đọc folder: 69
Đang đọc folder: 7
Đang đọc folder: 70
Đang đọc folder: 71
Đang đọc folder: 72
Đang đọc folder: 75
Đang đọc folder: 76
Đang đọc folder: 77
Đang đọc folder: 78
Đang đọc folder: 8
Đang đọc folder: 80
Đang đọc folder: 82
Đang đọc folder: 83
Đang đọc folder: 84
Đang đọc folder: 85
Đang đọc folder: 86
Đang đọc folder: 88
Đang đọc folder: 89
Đang đọc folder: 9
Đang đọc folder: 90
Load xong! Tổng số mẫu: 1047
Đang train model SVM (có thể mất vài phút)...
Độ chính xác trên tập Test: 97.14%
Đã lưu model vào file 'svm_license_plate.pkl'
