# Naive Bayes

In [2]:
import pandas

from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import f1_score


In [3]:
data_train = pandas.read_csv('./data/data_train_processed.csv').set_index('id')
data_test = pandas.read_csv('./data/data_test_processed.csv').set_index('id')

In [4]:
# กำหนด target
target = 'label'

# แยกข้อมูลฝึกและทดสอบ
X_train = data_train.drop(columns=[target])
y_train = data_train[target]
X_test = data_test.drop(columns=[target])
y_test = data_test[target]

# สร้างและฝึกโมเดลเริ่มต้น
model = GaussianNB()
model.fit(X_train, y_train)

# ทดสอบและคำนวณ F1 Score
y_pred = model.predict(X_test)
f1 = f1_score(y_test, y_pred)
print("\nF1 Score จาก Gaussian Naive Bayes เริ่มต้น:", f1)


F1 Score จาก Gaussian Naive Bayes เริ่มต้น: 0.6503313299429804


In [5]:
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import f1_score

# กำหนดพารามิเตอร์ที่ต้องการทดสอบ
param_grid = {
    'var_smoothing': [1e-9, 1e-8, 1e-7, 1e-6, 1e-5]  # ค่าเริ่มต้นคือ 1e-9
}

# ฝึกโมเดลด้วย GridSearchCV
model = GaussianNB()
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='f1', n_jobs=2)
grid_search.fit(X_train, y_train)

# ผลลัพธ์
print("พารามิเตอร์ที่ดีที่สุด:", grid_search.best_params_)
print("F1 Score ที่ดีที่สุดจาก GridSearch:", grid_search.best_score_)

# ใช้โมเดลที่ดีที่สุดในการทำนาย
best_model = grid_search.best_estimator_
y_pred_best = best_model.predict(X_test)
f1_best = f1_score(y_test, y_pred_best)
print("\nF1 Score หลังปรับแต่ง Gaussian Naive Bayes:", f1_best)

พารามิเตอร์ที่ดีที่สุด: {'var_smoothing': 1e-05}
F1 Score ที่ดีที่สุดจาก GridSearch: 0.7193076131986358

F1 Score หลังปรับแต่ง Gaussian Naive Bayes: 0.7069296561354512


In [7]:
# กำหนด target
target = 'label'

# แยกข้อมูลฝึกและทดสอบ
X_train = data_train.drop(columns=[target])
y_train = data_train[target]
X_test = data_test.drop(columns=[target])
y_test = data_test[target]

# สร้างและฝึกโมเดลเริ่มต้น
model = GaussianNB(var_smoothing=1e-05)
model.fit(X_train, y_train)

# ทดสอบและคำนวณ F1 Score
y_pred = model.predict(X_test)
f1 = f1_score(y_test, y_pred)
print("\nF1 Score จาก Gaussian Naive Bayes เริ่มต้น:", f1)


F1 Score จาก Gaussian Naive Bayes เริ่มต้น: 0.7069296561354512
