In [2]:
# Cell 1: Import Libraries
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report, accuracy_score

In [3]:
files = ['INFP_cleaned.csv', 'INFJ_cleaned.csv', 'INTJ_cleaned.csv', 'INTP_cleaned.csv']
dfs = [pd.read_csv(file) for file in files]
data = pd.concat(dfs, ignore_index=True)

In [4]:
mbti_to_animal = {'INTP': 'Owl', 'INTJ': 'Cat', 'INFP': 'Dolphin', 'INFJ': 'Wolf'}
data['animal'] = data['mbti_type'].map(mbti_to_animal)

In [5]:
data['comment'].fillna('', inplace=True)  # แทนที่ค่าว่างในคอลัมน์ comment ด้วยข้อความว่าง

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['comment'].fillna('', inplace=True)  # แทนที่ค่าว่างในคอลัมน์ comment ด้วยข้อความว่าง


In [12]:
X_train, X_test, y_train, y_test = train_test_split(data['comment'], data['animal'], test_size=0.2, random_state=100)


In [13]:
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),      # แปลงข้อความเป็น TF-IDF
    ('clf', MultinomialNB())           # ใช้ Naive Bayes เป็นโมเดลแยกประเภท
])

In [14]:
pipeline.fit(X_train, y_train)


In [15]:
def predict_animal(comment):
    animal = pipeline.predict([comment])[0]
    return animal

In [16]:
example_comment = "This is a sample comment for testing."
print("Animal:", predict_animal(example_comment))


Animal: Cat


In [17]:
accuracy = pipeline.score(X_test, y_test)
print(f"Accuracy: {accuracy * 100:.2f}%")

Accuracy: 52.19%


In [2]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline

# 1. โหลดข้อมูลจากไฟล์
files = ['INFP_cleaned.csv', 'INFJ_cleaned.csv', 'INTJ_cleaned.csv', 'INTP_cleaned.csv']
dfs = [pd.read_csv(file) for file in files]
data = pd.concat(dfs, ignore_index=True)

# 2. ตรวจสอบข้อมูลว่ามีคอลัมน์ 'comment' และ 'mbti_type' หรือไม่
if 'comment' not in data.columns or 'mbti_type' not in data.columns:
    raise ValueError("ข้อมูลต้องมีคอลัมน์ 'comment' และ 'mbti_type'")

# 3. สร้าง mapping สำหรับ MBTI แต่ละประเภทเป็นสัตว์
mbti_to_animal = {'INTP': 'Owl', 'INTJ': 'Cat', 'INFP': 'Dolphin', 'INFJ': 'Wolf'}
data['animal'] = data['mbti_type'].map(mbti_to_animal)

# 4. ตรวจสอบและจัดการค่าว่าง
data['comment'].fillna('', inplace=True)  # แทนที่ค่าว่างในคอลัมน์ comment ด้วยข้อความว่าง

# 5. แบ่งข้อมูลเป็นชุดฝึกและทดสอบ
X_train, X_test, y_train, y_test = train_test_split(data['comment'], data['animal'], test_size=0.2, random_state=42)

# 6. สร้าง pipeline ของโมเดล
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),      # แปลงข้อความเป็น TF-IDF
    ('clf', MultinomialNB())           # ใช้ Naive Bayes เป็นโมเดลแยกประเภท
])

# 7. ฝึกโมเดล
pipeline.fit(X_train, y_train)

# 8. ฟังก์ชันการทำนายโดยใช้โมเดลที่ฝึกแล้ว
def predict_animal(comment):
    animal = pipeline.predict([comment])[0]
    return animal

# 9. ทดสอบฟังก์ชันการทำนาย
example_comment = "This is a sample comment for testing."
print("Animal:", predict_animal(example_comment))

# 10. ประเมินความแม่นยำของโมเดล
accuracy = pipeline.score(X_test, y_test)
print(f"Accuracy: {accuracy * 100:.2f}%")


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['comment'].fillna('', inplace=True)  # แทนที่ค่าว่างในคอลัมน์ comment ด้วยข้อความว่าง


Animal: Cat
Accuracy: 51.21%
