In [19]:
import pandas as pd
from collections import Counter
import re

In [20]:
# อ่านไฟล์ข้อมูล
trainingSet = pd.read_csv('Training_Set.csv')
testSet = pd.read_csv('Test_Set.csv')

In [21]:
# ฟังก์ชันทำความสะอาดข้อความและนับความถี่คำ
def wordFrequency(textColumn):
    allWords = ' '.join(textColumn.dropna()).lower()  # รวมข้อความทั้งหมดเป็นสตริงเดียว
    allWords = re.findall(r'\b\w+\b', allWords)  # แยกคำด้วย regex (รักษาคำที่เป็นตัวอักษรและตัวเลข)
    wordCount = Counter(allWords)  # นับความถี่ของคำ
    return wordCount

In [22]:
# นับความถี่คำในคอลัมน์ subject และ body ของ Training Set
subjectWordCountTrain = wordFrequency(trainingSet['subject'])
bodyWordCountTrain = wordFrequency(trainingSet['body'])

In [23]:
# นับความถี่คำในคอลัมน์ subject และ body ของ Test Set
subjectWordCountTest = wordFrequency(testSet['subject'])
bodyWordCountTest = wordFrequency(testSet['body'])

In [24]:
# แปลงความถี่ของคำเป็น DataFrame และเรียงลำดับจากมากไปน้อย
subjectWordCountTrainDf = pd.DataFrame(subjectWordCountTrain.items(), columns=['Word', 'Frequency']).sort_values(by='Frequency', ascending=False)
bodyWordCountTrainDf = pd.DataFrame(bodyWordCountTrain.items(), columns=['Word', 'Frequency']).sort_values(by='Frequency', ascending=False)

In [25]:
subjectWordCountTestDf = pd.DataFrame(subjectWordCountTest.items(), columns=['Word', 'Frequency']).sort_values(by='Frequency', ascending=False)
bodyWordCountTestDf = pd.DataFrame(bodyWordCountTest.items(), columns=['Word', 'Frequency']).sort_values(by='Frequency', ascending=False)

In [28]:
# บันทึกข้อมูลลงในไฟล์ CSV โดยใช้ PascalCase และเรียงลำดับจากความถี่มากไปน้อย
subjectWordCountTrainDf.to_csv('SubjectWordCountTrainSorted.csv', index=False)
bodyWordCountTrainDf.to_csv('BodyWordCountTrainSorted.csv', index=False)

In [29]:
subjectWordCountTestDf.to_csv('SubjectWordCountTestSorted.csv', index=False)
bodyWordCountTestDf.to_csv('BodyWordCountTestSorted.csv', index=False)

In [30]:
# แสดงจำนวนคำทั้งหมดในแต่ละคอลัมน์ (optional)
print(f"Total unique words in Training Set subject: {len(subjectWordCountTrain)}")
print(f"Total unique words in Training Set body: {len(bodyWordCountTrain)}")

print(f"Total unique words in Test Set subject: {len(subjectWordCountTest)}")
print(f"Total unique words in Test Set body: {len(bodyWordCountTest)}")

Total unique words in Training Set subject: 3365
Total unique words in Training Set body: 64735
Total unique words in Test Set subject: 1612
Total unique words in Test Set body: 19166
