In [None]:
!pip install numpy -q

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
from google.colab import drive
drive.mount('/content/drive')

file_path = '/content/drive/MyDrive/DATA_all()/people_all.xlsx'
df = pd.read_excel(file_path)
df.sample(10)

In [None]:
df.info()

In [None]:
df.isnull()

In [None]:
df.duplicated()

In [None]:
# ทราบข่าวจากไหน
follow = df[['social','billboard','news_paper','radio','tv','friend','government','village_leader']]

# มางานเพิ่อจุดประสงค์อะไร
spend = df[['store','food','activity','art','temple','view']]

In [None]:
#ด้านการดำเนินงานของสถานี & การจัดงาน
station = df[['c1','c2','c3','c4','c5','c6','c7','c8','c9','c10','c11','c12','c13','c14','c15','c16']]

#ด้านสถานที่เเละสภาพเเวดล้อม
environment = df[['c7','c18','c19','c20','c21','c22','c23','c24','c25']]

#ด้านร้านค้าเเละอาหาร
store = df[['c27','c28','c29','c30','c31']]

In [None]:
df_channels = pd.DataFrame(follow)
df_preference = pd.DataFrame(spend)

# Analyze Data

In [None]:
min_row = min(len(df_channels), len(df_preference))
df_channels = df_channels.head(min_row)
df_preference = df_preference.head(min_row)

df_combined = pd.concat([df_channels, df_preference], axis=1)

corr_channels = df_channels.corr()

plt.figure(figsize=(10, 9)) # ปรับขนาดรูปภาพ
sns.heatmap(corr_channels,
            annot=True,     # แสดงค่าตัวเลขบน Heatmap
            cmap='coolwarm',# เลือกโทนสี (coolwarm: แดง-น้ำเงิน)
            fmt=".2f",      # แสดงทศนิยม 2 ตำแหน่ง
            linewidths=.5,  # เพิ่มเส้นแบ่งระหว่างเซลล์
            cbar_kws={'label': 'Pearson Correlation Coefficient'}) # เพิ่มป้ายกำกับแถบสี
plt.title('Heatmap: Relation between Perception channels', fontsize=18)
plt.xticks(rotation=45, ha='right') # หมุนป้ายแกน X เพื่อให้อ่านง่าย
plt.yticks(rotation=0) # ป้ายแกน Y ตั้งตรง
plt.tight_layout() # ปรับ layout ให้พอดี
plt.show()

In [None]:
min_row = min(len(df_channels), len(df_preference))
df_channels = df_channels.head(min_row)
df_preference = df_preference.head(min_row)

df_combined = pd.concat([df_channels, df_preference], axis=1)

corr_preference = df_preference.corr()

plt.figure(figsize=(10, 9)) # ปรับขนาดรูปภาพ
sns.heatmap(corr_preference,
            annot=True,
            cmap='coolwarm',
            fmt=".2f",
            linewidths=.5,
            cbar_kws={'label': 'Pearson Correlation Coefficient'})
plt.title('Heatmap: Relation betweeen activity/store', fontsize=16)
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

In [None]:
min_row = min(len(df_channels), len(df_preference))
df_channels = df_channels.head(min_row)
df_preference = df_preference.head(min_row)

df_combined = pd.concat([df_channels, df_preference], axis=1)

cross_corr = df_channels.corrwith(df_preference) # แต่ละคอลัมน์ของ df_channels เทียบกับแต่ละคอลัมน์ของ df_preferences


full_corr_matrix = df_combined.corr()
cross_corr_subset = full_corr_matrix.loc[df_channels.columns, df_preference.columns]


plt.figure(figsize=(12, 10)) # ปรับขนาดรูปภาพให้ใหญ่ขึ้น เพราะมีจำนวนคอลัมน์เยอะ
sns.heatmap(cross_corr_subset, # ใช้ Sub-matrix ที่เลือกมา
            annot=True,
            cmap='coolwarm',
            fmt=".2f",
            linewidths=.5,
            cbar_kws={'label': 'Pearson Correlation Coefficient'})
plt.title('Heatmap: Relation between Perception channels & activity/store', fontsize=18)
plt.xlabel('activity / store', fontsize=14)
plt.ylabel('Perception channel', fontsize=14)
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

In [None]:
attendees_per_year = df.groupby('year').size()

attendees_per_year.plot(kind='bar', color='coral')
plt.title('number of Participants each year')
plt.xlabel('year')
plt.ylabel('number of Participants')
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()

In [None]:
age_order = ['<20','21-40','41-60','60>']

age_counts = df['age'].value_counts().reindex(age_order)

plt.figure(figsize=(6,10))
sns.barplot(x=age_counts.index,y=age_counts.values)
plt.xlabel('age')
plt.ylabel('number of participants')
plt.show()

In [None]:
travel_counts = df['travel'].value_counts()

plt.figure(figsize=(6,10))
sns.barplot(x=travel_counts.values,y=travel_counts.index)
plt.xlabel('travel')
plt.ylabel('number of participants')
plt.show()

In [None]:
follow_counts = follow.sum().sort_values(ascending=False)

plt.figure(figsize=(6,10))
sns.barplot(x=follow_counts.values,y=follow_counts.index)
plt.xlabel('follow news about 66-68')
plt.ylabel('number of participants')
plt.show()

In [None]:
spend_counts = spend.sum().sort_values(ascending=False)

plt.figure(figsize=(6,10))
sns.barplot(x=spend_counts.values,y=spend_counts.index)
plt.xlabel('follow news about 66-68')
plt.ylabel('number of participants')

In [None]:
choices = df.loc[:, 'c1':'c31']

# นับจำนวนที่มีค่า = 1 (แสดงว่า "พอใจน้อยที่สุด")
choice_counts = (choices == 1).sum().nlargest(5).sort_values(ascending=True)

# วาด Horizontal Bar Chart
plt.figure(figsize=(8, 10))
choice_counts.plot(kind='barh')
plt.title('number of Respondent (c1 - c31)')
plt.xlabel('number of score')
plt.ylabel('choice')
plt.tight_layout()
plt.show()

In [None]:
choices = df.loc[:, 'c1':'c31']

# นับจำนวนที่มีค่า = 5 (แสดงว่า "พอใจมากที่สุด")
choice_counts = (choices == 5).sum().nlargest(5).sort_values(ascending=True)

# วาด Horizontal Bar Chart
plt.figure(figsize=(8, 10))
choice_counts.plot(kind='barh')
plt.title('number of Respondent (c1 - c31)')
plt.xlabel('number of score')
plt.ylabel('choice')
plt.tight_layout()
plt.show()

# Modeling

## Preprocessing

In [None]:
df_channels

In [None]:
score_cols = [f'c{i}' for i in range(21,25)] + [f'c{i}' for i in range(27,31)]

for col in score_cols:
    if col in df_combined.columns:
        # แปลงเป็น numeric หากไม่ใช่ (coerce จะเปลี่ยนค่าที่ไม่สามารถแปลงได้เป็น NaN)
        df_combined[col] = pd.to_numeric(df_combined[col], errors='coerce')

        # สร้างคอลัมน์ Dummy (0/1) เพื่อระบุว่า 'ไม่แสดงความคิดเห็น' (เดิมเป็น 9)
        # ตั้งชื่อคอลัมน์ใหม่ว่า 'col_no_opinion'
        df_combined[f'{col}_no_opinion'] = (df_combined[col] == 9).astype(int)

        # เปลี่ยนค่า 9 ให้เป็น NaN เพื่อเตรียมการ Imputation หรือเพื่อจัดการแยกต่างหาก
        df_combined.loc[df_combined[col] == 9, col] = np.nan

        # จัดการค่าที่อยู่นอกช่วง 1-5 ที่อาจเป็นค่าผิดปกติอื่นๆ (ถ้ามี)
        df_combined.loc[df_combined[col] > 5, col] = np.nan
        df_combined.loc[df_combined[col] < 1, col] = np.nan

# 1.2 จัดการค่าที่หายไป (NaN) ในคอลัมน์คะแนน c21-c31 โดยการเติมด้วยค่าเฉลี่ย (Mean Imputation)
# หมายเหตุ: ค่าเฉลี่ยนี้จะคำนวณจากเฉพาะค่า 1-5 เท่านั้น เนื่องจากค่า 9 ถูกเปลี่ยนเป็น NaN แล้ว
for col in score_cols:
    if col in df_combined.columns:
        if df_combined[col].isnull().any(): # ตรวจสอบว่ามี NaN อยู่หรือไม่
            df_combined[col] = df_combined[col].fillna(df_combined[col].mean())


In [None]:
# 2.1 One-Hot Encoding สำหรับคอลัมน์เชิงหมวดหมู่ที่เป็นข้อความ
df['join_next_year'] = df['join_next_year'].replace('no','No').replace('yes','Yes').replace('maybe','Maybe')
df['dress'] = df['dress'].replace('no','No').replace('yes','Yes').replace('maybe','Maybe')

categorical_cols_to_encode = ['sex', 'age', 'province', 'travel', 'join_next_year', 'dress']
df_processed = pd.get_dummies(df, columns=categorical_cols_to_encode, drop_first=True)

In [None]:
# 2.2 Multi-Label Binarization สำหรับ 'preferences_activity_product_raw' (จาก image_d62d18.png / image_d6345c.png)
if 'preferences_activity_product_raw' in df_processed.columns:
    print("\n--- การแปลง 'preferences_activity_product_raw' (Multi-Label) ---")
    # ทำความสะอาดและแยกข้อความ: แทนที่ '.' ด้วย ',' และลบช่องว่าง ทำเป็นตัวพิมพ์เล็ก
    df_processed['preferences_activity_product_raw'] = df_processed['preferences_activity_product_raw'].astype(str).str.replace('.', ',', regex=False).str.replace(' ', '').str.lower()

    # ดึงค่าที่ไม่ซ้ำกันทั้งหมดจากทุกเซลล์
    all_prefs = df_processed['preferences_activity_product_raw'].str.split(',').explode()
    unique_prefs = all_prefs.dropna().unique()

    # สร้างคอลัมน์ใหม่สำหรับแต่ละ preference และใส่ 0/1
    for pref in unique_prefs:
        if pref and pd.notna(pref): # ตรวจสอบว่าไม่ใช่ค่าว่างหรือ NaN
            col_name = f'pref_{pref.strip()}' # Trim whitespace
            df_processed[col_name] = df_processed['preferences_activity_product_raw'].apply(
                lambda x: 1 if pref.strip() in str(x).split(',') else 0
            )
    # ลบคอลัมน์ preferences_activity_product_raw เดิมออก
    df_processed = df_processed.drop(columns=['preferences_activity_product_raw'])
    print("DataFrame หลังแปลง 'preferences_activity_product_raw':")
    print(df_processed.head())
    print("-" * 50)


# 2.3 Multi-Label Binarization สำหรับ 'product_choices_text_raw' (จาก image_f111f8.png)
if 'product_choices_text_raw' in df_processed.columns:
    print("\n--- การแปลง 'product_choices_text_raw' (Multi-Label) ---")
    # ทำความสะอาดข้อความ: ลบตัวเลขนำหน้าและข้อความในวงเล็บ
    df_processed['product_choices_text_raw'] = df_processed['product_choices_text_raw'].astype(str).str.lower().str.replace(r'\d+\.', '', regex=True).str.replace(r'\(.*?\)', '', regex=True).str.strip()

    # แยกด้วยเครื่องหมายจุลภาคและจัดเรียง/ทำความสะอาดเพื่อมาตรฐาน
    df_processed['product_choices_text_raw'] = df_processed['product_choices_text_raw'].apply(
        lambda x: ','.join(sorted([item.strip() for item in str(x).split(',') if item.strip()]))
    )

    all_product_choices = df_processed['product_choices_text_raw'].str.split(',').explode()
    unique_product_choices = all_product_choices.dropna().unique()

    # สร้างคอลัมน์ใหม่สำหรับแต่ละตัวเลือก
    for choice in unique_product_choices:
        if choice and pd.notna(choice):
            col_name = f'product_{choice.strip()}'
            df_processed[col_name] = df_processed['product_choices_text_raw'].apply(
                lambda x: 1 if choice.strip() in str(x).split(',') else 0
            )
    # ลบคอลัมน์ product_choices_text_raw เดิมออก
    df_processed = df_processed.drop(columns=['product_choices_text_raw'])
    print("DataFrame หลังแปลง 'product_choices_text_raw':")
    print(df_processed.head())
    print("-" * 50)

In [None]:
# --- 3. การคัดเลือกและลบคอลัมน์ที่ไม่จำเป็น ---
# --- แสดงผลลัพธ์สุดท้ายของ DataFrame ที่พร้อมสำหรับ Model ---
print("\n--- ผลลัพธ์สุดท้าย: DataFrame พร้อมสำหรับ Train Model ---")
print("\nDataFrame Head (ตัวอย่าง 5 แถวแรก):")
print(df_processed.head())

print("\nDataFrame Info (ข้อมูลสรุปประเภทข้อมูลและจำนวน Non-Null):")
df_processed.info()

print("\n--- รายชื่อคอลัมน์ (Feature Names) ทั้งหมดที่พร้อมสำหรับ Model ---")
# แสดงชื่อคอลัมน์ทั้งหมดเพื่อดูภาพรวมของ Features
print(df_processed.columns.tolist())

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix
from sklearn.model_selection import GridSearchCV

In [None]:
X = df_processed.drop(columns=['join_next_year_Yes', 'join_next_year_No']) # ลบคอลัมน์ Target และ Dummy ที่เหลือ
y = df_processed['join_next_year_Yes']

X_train,X_test,y_train,y_test = train_test_split(X,y, test_size=0.2, random_state=42)

In [None]:
# ตัวอย่าง: ใช้ Logistic Regression
model_lr = LogisticRegression(random_state=42, solver='liblinear') # solver='liblinear' เหมาะกับ dataset ขนาดเล็ก-กลาง
model_lr.fit(X_train, y_train)

In [None]:
y_pred_lr = model_lr.predict(X_test)

In [None]:
# สำหรับ Logistic Regression
print("--- Logistic Regression ---")
print(f"Accuracy: {accuracy_score(y_test, y_pred_lr):.4f}")
print(f"Precision: {precision_score(y_test, y_pred_lr):.4f}")
print(f"Recall: {recall_score(y_test, y_pred_lr):.4f}")
print(f"F1-Score: {f1_score(y_test, y_pred_lr):.4f}")

# ถ้าต้องการ ROC AUC (ต้องใช้ predict_proba)
if hasattr(model_lr, "predict_proba"):
    y_prob_lr = model_lr.predict_proba(X_test)[:, 1]
    print(f"ROC AUC Score: {roc_auc_score(y_test, y_prob_lr):.4f}")

# Confusion Matrix
cm_lr = confusion_matrix(y_test, y_pred_lr)
plt.figure(figsize=(6, 4))
sns.heatmap(cm_lr, annot=True, fmt='d', cmap='Blues', cbar=False,
            xticklabels=['Predicted 0', 'Predicted 1'], yticklabels=['Actual 0', 'Actual 1'])
plt.title('Confusion Matrix - Logistic Regression')
plt.ylabel('Actual Label')
plt.xlabel('Predicted Label')
plt.show()

In [None]:
# ตัวอย่าง: ใช้ Random Forest Classifier
model_rf = RandomForestClassifier(random_state=42, n_estimators=100) # n_estimators คือจำนวนต้นไม้
model_rf.fit(X_train, y_train)

In [None]:
y_pred_rf = model_rf.predict(X_test)

In [None]:
# ทำซ้ำสำหรับ Random Forest (หรือโมเดลอื่นๆ)
print("\n--- Random Forest ---")
print(f"Accuracy: {accuracy_score(y_test, y_pred_rf):.4f}")
print(f"Precision: {precision_score(y_test, y_pred_rf):.4f}")
print(f"Recall: {recall_score(y_test, y_pred_rf):.4f}")
print(f"F1-Score: {f1_score(y_test, y_pred_rf):.4f}")

if hasattr(model_rf, "predict_proba"):
    y_prob_rf = model_rf.predict_proba(X_test)[:, 1]
    print(f"ROC AUC Score: {roc_auc_score(y_test, y_prob_rf):.4f}")

cm_rf = confusion_matrix(y_test, y_pred_rf)
plt.figure(figsize=(6, 4))
sns.heatmap(cm_rf, annot=True, fmt='d', cmap='Blues', cbar=False,
            xticklabels=['Predicted 0', 'Predicted 1'], yticklabels=['Actual 0', 'Actual 1'])
plt.title('Confusion Matrix - Random Forest')
plt.ylabel('Actual Label')
plt.xlabel('Predicted Label')
plt.show()

In [None]:
# ตัวอย่าง: ปรับจูน Random Forest
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_leaf': [1, 2, 4]
}

grid_search_rf = GridSearchCV(estimator=RandomForestClassifier(random_state=42),
                              param_grid=param_grid,
                              cv=3, # ใช้ 3-fold cross-validation
                              scoring='f1', # หรือ 'roc_auc', 'accuracy'
                              n_jobs=-1, # ใช้ทุก core ของ CPU
                              verbose=1)

grid_search_rf.fit(X_train, y_train)

print("\nBest Hyperparameters for Random Forest:", grid_search_rf.best_params_)
print("Best F1-Score for Random Forest:", grid_search_rf.best_score_)

# โมเดลที่ดีที่สุดหลังการจูน
best_model_rf = grid_search_rf.best_estimator_
y_pred_best_rf = best_model_rf.predict(X_test)
f1_rf_manual = f1_score(y_test, y_pred_best_rf)
print("F1-Score on Test Set (Best RF):", f1_score(y_test, y_pred_best_rf))

#Auto ML

In [None]:
!pip uninstall numpy -y

In [None]:
!pip install numpy==1.24.4 -q

In [None]:
!pip uninstall pycaret -y

In [None]:
!pip install pycaret[full] --q --upgrade

In [None]:
# ก่อนอื่น ตรวจสอบให้แน่ใจว่าได้รันโค้ดส่วนการเตรียมข้อมูลทั้งหมดแล้ว
# และ df_processed ได้ถูกสร้างขึ้นเรียบร้อย
# โดย df_processed ควรเป็น DataFrame ที่ไม่มีคอลัมน์ 'id' และคอลัมน์ข้อความดิบอื่นๆ แล้ว
# และมีคอลัมน์เช่น 'c21_no_opinion' และ 'pref_food', 'product_สินค้าบริโภค' เป็นต้น

# --- Import PyCaret ---
from pycaret.classification import *

# --- เตรียมข้อมูลสำหรับ PyCaret ---
# เราจะใช้ df_processed เป็นข้อมูลตั้งต้น
# และ 'join_next_year_Yes' เป็นคอลัมน์เป้าหมาย
# คอลัมน์ 'join_next_year_No' จะต้องถูกลบออกไปจากข้อมูลที่จะส่งให้ PyCaret
# เนื่องจากมันเป็นตัวแทนของอีกคลาสหนึ่งของ Target และจะทำให้เกิด Multicollinearity
# (คล้ายกับที่เรา drop 'join_next_year_No' จาก X ในการสร้างโมเดลเอง)
data_for_pycaret = df_processed.copy()
if 'join_next_year_No' in data_for_pycaret.columns:
    data_for_pycaret = data_for_pycaret.drop(columns=['join_next_year_No'])
    print("Dropped 'join_next_year_No' from data_for_pycaret as it's redundant with the target.")


# --- เรียกใช้งาน setup ของ PyCaret ---
# PyCaret จะจัดการการแบ่งข้อมูล (train/test split), Preprocessing (scaling, encoding ที่เหลือ),
# และจัดการค่าที่หายไป (ถ้ามี) ให้โดยอัตโนมัติ
# ระบุ session_id เพื่อให้ผลลัพธ์ repeatable
# คุณสามารถเพิ่ม normalize=True หรือ feature_selection=True หรือ parameters อื่นๆ ได้
# เพื่อให้ PyCaret ทำ preprocessing เพิ่มเติม
clf = setup(
    data=data_for_pycaret,
    target='join_next_year_Yes', # ระบุคอลัมน์ Target ที่ถูกต้อง
    session_id=123,
    # normalize = True, # ลองใช้ Normalization (StandardScaler)
    # feature_selection = True, # ลองให้ PyCaret เลือก Features ที่สำคัญให้
    # fix_imbalance = True # หาก Target Class ไม่สมดุล ลองเปิดใช้
    # silent = True # หากต้องการซ่อน output ระหว่าง setup
)

# --- เปรียบเทียบโมเดลทั้งหมดและเลือกโมเดลที่ดีที่สุด ---
# PyCaret จะรันโมเดล Classification ยอดนิยมหลายตัว
# และเปรียบเทียบประสิทธิภาพโดยใช้ Cross-Validation
# โดย default จะใช้ 'Accuracy' เป็น metric หลักในการเลือก แต่สามารถเปลี่ยนได้
# เช่น compare_models(sort='F1')
best_model = compare_models(sort='F1') # เราใช้ F1-Score ในการประเมินโมเดลของคุณเอง จึงควรใช้ F1 สำหรับ PyCaret ด้วย

print("\n--- Best Model from PyCaret ---")
print(best_model)

# คุณยังสามารถเข้าถึง evaluation metrics ของ best_model ได้
# predict_model(best_model, data=data_for_pycaret) # เพื่อดู performance บน full data
# evaluate_model(best_model) # เพื่อดู plots ต่างๆ เช่น Confusion Matrix, ROC Curve

# ถ้าต้องการสร้างโมเดลใดๆ ที่ PyCaret เปรียบเทียบแล้ว (เช่น 'lightgbm')
# lgbm_model = create_model('lightgbm')
# tuned_lgbm = tune_model(lgbm_model, optimize='F1')

In [None]:
# เปรียบเทียบโมเดลทั้งหมดและเลือกโมเดลที่ดีที่สุด
best_model_pycaret_table = compare_models(sort='F1', verbose=False) # ใช้ verbose=False เพื่อไม่ให้แสดงตารางใหญ่
# เราต้องการ F1-Score ของโมเดลที่ดีที่สุดจาก PyCaret (CatBoost)
# ซึ่งสามารถดึงได้จากตารางที่ compare_models สร้างขึ้น (แต่เราต้องรับค่าเต็มของตาราง)
# ถ้าต้องการ F1 ของ CatBoost โดยเฉพาะ
best_f1_pycaret = pull()['F1'][0] # ดึงตารางแล้วเอาค่า F1 ของแถวแรก (ซึ่งคือ best model)
best_model_name_pycaret = pull()['Model'][0] # ดึงชื่อโมเดลที่ดีที่สุด

print(f"Best Model from PyCaret: {best_model_name_pycaret}")
print(f"F1-Score on Test Set (Best PyCaret Model - Cross-Validation Average): {best_f1_pycaret:.4f}")

In [None]:
# สร้าง DataFrame เพื่อเปรียบเทียบ
comparison_data = {
    'Model Source': ['Manual (Your Tuned RF)', 'AutoML (PyCaret Best Model)'],
    'Model Name': ['Random Forest', best_model_name_pycaret],
    'F1-Score': [f1_rf_manual, best_f1_pycaret]
}
comparison_df = pd.DataFrame(comparison_data)

print("\n--- Model Comparison Summary ---")
print(comparison_df.to_string(index=False)) # ใช้ to_string(index=False) เพื่อไม่แสดง index

# --- 7. สรุปผล ---

print("\n--- Conclusion ---")
if f1_rf_manual > best_f1_pycaret:
    print(f"The manually tuned Random Forest model performed slightly better with an F1-Score of {f1_rf_manual:.4f}.")
    print(f"The AutoML (PyCaret) best model, {best_model_name_pycaret}, achieved an F1-Score of {best_f1_pycaret:.4f}.")
    print("\nThis suggests that your in-depth understanding and manual tuning were highly effective for this dataset.")
elif best_f1_pycaret > f1_rf_manual:
    print(f"The AutoML (PyCaret) best model, {best_model_name_pycaret}, performed better with an F1-Score of {best_f1_pycaret:.4f}.")
    print(f"Your manually tuned Random Forest model achieved an F1-Score of {f1_rf_manual:.4f}.")
    print("\nThis indicates that AutoML efficiently found a superior model (CatBoost) that you might not have considered initially, showcasing its strength in broad model exploration.")
else:
    print(f"Both your manually tuned Random Forest model and the AutoML (PyCaret) best model ({best_model_name_pycaret}) achieved very similar F1-Scores of {f1_rf_manual:.4f}.")
    print("\nThis suggests that both approaches are highly effective for this dataset.")

print("\nOverall, this comparison highlights the strengths of both human expertise in deep tuning and AutoML's ability to efficiently explore a wide range of models.")

In [None]:
# @title
# การหา Feature Importance ของ Random Forest ---
importances = best_model_rf.feature_importances_
feature_names = X.columns
feature_importance_df = pd.DataFrame({'Feature': feature_names, 'Importance': importances})

# จัดเรียงตามความสำคัญจากมากไปน้อย
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=False)

print("\n--- Feature Importance from Manual Random Forest Model ---")
print(feature_importance_df.head(10).to_string(index=False)) # แสดง 10 อันดับแรก

# พล็อต Feature Importance
plt.figure(figsize=(12, 8))
sns.barplot(x='Importance', y='Feature', data=feature_importance_df.head(20)) # แสดง 20 อันดับแรกในกราฟ
plt.title('Top 20 Feature Importances from Random Forest')
plt.xlabel('Importance (MDI)')
plt.ylabel('Feature')
plt.show()