In [None]:
import pandas as pd
from collections import Counter
import re

In [None]:
# อ่านไฟล์ข้อมูล
phishingDf = pd.read_csv('Phishing.csv')

In [None]:
# จัดการคอลัมน์ให้สอดคล้องกัน
# เรียงคอลัมน์ให้เหมือนกัน: sender, receiver, date, subject, body, urls, label
phishingDf = phishingDf[['sender', 'receiver', 'date', 'subject', 'body', 'urls', 'label']]

In [None]:
# ทำความสะอาดข้อมูล โดยลบแถวที่มีค่าว่างในคอลัมน์ที่สำคัญ
phishingEmails = pd.concat([phishingDf], ignore_index=True)
phishingEmails.dropna(subset=['sender', 'receiver', 'date', 'subject', 'body', 'urls', 'label'], inplace=True)

In [None]:
# ฟังก์ชันทำความสะอาดข้อความและนับความถี่คำ
def wordFrequency(textColumn):
    allWords = ' '.join(textColumn.dropna()).lower()  # รวมข้อความทั้งหมดเป็นสตริงเดียว
    allWords = re.findall(r'\b\w+\b', allWords)  # แยกคำด้วย regex (รักษาคำที่เป็นตัวอักษรและตัวเลข)
    wordCount = Counter(allWords)  # นับความถี่ของคำ
    return wordCount

In [None]:
# นับความถี่คำในคอลัมน์ subject และ body ของ data Set
subjectWordCount = wordFrequency(phishingEmails['subject'])
bodyWordCount = wordFrequency(phishingEmails['body'])

In [None]:
# แปลงความถี่ของคำเป็น DataFrame และเรียงลำดับจากมากไปน้อย
subjectWordCountDataframe = pd.DataFrame(subjectWordCount.items(), columns=['Word', 'Frequency']).sort_values(by='Frequency', ascending=False)
bodyWordCountDataframe = pd.DataFrame(bodyWordCount.items(), columns=['Word', 'Frequency']).sort_values(by='Frequency', ascending=False)

In [None]:
# บันทึกข้อมูลลงในไฟล์ CSV โดยใช้ PascalCase และเรียงลำดับจากความถี่มากไปน้อย
subjectWordCountDataframe.to_csv('SubjectWordCountPhishingSorted.csv', index=False)
bodyWordCountDataframe.to_csv('BodyWordCountPhishingSorted.csv', index=False)