# SVM

In [2]:

import pandas


data_train = pandas.read_csv('./data/data_train_processed.csv').set_index('id')
data_test = pandas.read_csv('./data/data_test_processed.csv').set_index('id')

In [3]:
from sklearn.svm import LinearSVC
from sklearn.metrics import f1_score

# กำหนด target
target = 'label'

# แยกข้อมูลฝึกและทดสอบ
X_train = data_train.drop(columns=[target])
y_train = data_train[target]
X_test = data_test.drop(columns=[target])
y_test = data_test[target]

# สร้างและฝึกโมเดลเริ่มต้น
model = LinearSVC(random_state=42, max_iter=10000)  # max_iter เพิ่มเพื่อป้องกัน ConvergenceWarning
model.fit(X_train, y_train)

# ทดสอบและคำนวณ F1 Score
y_pred = model.predict(X_test)
f1 = f1_score(y_test, y_pred)
print("\nF1 Score จาก LinearSVC เริ่มต้น:", f1)


F1 Score จาก LinearSVC เริ่มต้น: 0.781707591799955


In [4]:
from sklearn.svm import LinearSVC
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import f1_score

# กำหนดพารามิเตอร์ที่ต้องการทดสอบ
param_grid = {
    'C': [0.01, 0.1, 1, 10, 100],  # ความเข้มงวดของ regularization
    'class_weight': [None, 'balanced']  # ปรับน้ำหนักคลาส
}

# ฝึกโมเดลด้วย GridSearchCV
model = LinearSVC(random_state=42, max_iter=10000)
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='f1', n_jobs=2)
grid_search.fit(X_train, y_train)

# ผลลัพธ์
print("พารามิเตอร์ที่ดีที่สุด:", grid_search.best_params_)
print("F1 Score ที่ดีที่สุดจาก GridSearch:", grid_search.best_score_)

# ใช้โมเดลที่ดีที่สุดในการทำนาย
best_model = grid_search.best_estimator_
y_pred_best = best_model.predict(X_test)
f1_best = f1_score(y_test, y_pred_best)
print("\nF1 Score หลังปรับแต่ง LinearSVC:", f1_best)

พารามิเตอร์ที่ดีที่สุด: {'C': 0.1, 'class_weight': 'balanced'}
F1 Score ที่ดีที่สุดจาก GridSearch: 0.794968762457232

F1 Score หลังปรับแต่ง LinearSVC: 0.7878271972760161


## Non-Linear SVM

In [7]:
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import f1_score

# กำหนดพารามิเตอร์ที่จำกัด
param_grid = {
    'C': [1, 10],  # ลดจาก [0.1, 1, 10]
    'gamma': ['scale'],  # ใช้ค่าเดียวก่อน
    'class_weight': ['balanced']
}

# ฝึกโมเดล
model = SVC(kernel='rbf', random_state=42, max_iter=10000)
grid_search = GridSearchCV(model, param_grid, cv=3, scoring='f1', n_jobs=2)  # ลด cv จาก 5 เป็น 3
grid_search.fit(X_train, y_train)

# ผลลัพธ์
print("พารามิเตอร์ที่ดีที่สุด:", grid_search.best_params_)
print("F1 Score ที่ดีที่สุดจาก GridSearch:", grid_search.best_score_)

# ใช้โมเดลที่ดีที่สุดในการทำนาย
best_model = grid_search.best_estimator_
y_pred_best = best_model.predict(X_test)
f1_best = f1_score(y_test, y_pred_best)
print("\nF1 Score หลังปรับแต่ง SVC ด้วย RBF kernel (จำกัดพารามิเตอร์):", f1_best)



พารามิเตอร์ที่ดีที่สุด: {'C': 10, 'class_weight': 'balanced', 'gamma': 'scale'}
F1 Score ที่ดีที่สุดจาก GridSearch: 0.7905513396822205

F1 Score หลังปรับแต่ง SVC ด้วย RBF kernel (จำกัดพารามิเตอร์): 0.7872473431964992
