# 📧 Assignment: คำนวณ Probability สำหรับ Message "Buy, Cheap, Work & Free"

## 🎯 โจทย์
จากตารางข้อมูลที่กำหนด ให้คำนวณ probability ว่า message ที่มีคำ **"Buy, Cheap, Work & Free"** จะเป็น **Spam** หรือ **No Spam**

## 📊 ข้อมูลที่ใช้
| คำ | Spam | No Spam |
|-----|------|--------|
| **Total** | 25 | 75 |
| Buy | 20 | 5 |
| Cheap | 15 | 10 |
| Work | 5 | 30 |
| Free | 20 | 7 |
| **Buy, Cheap, Work, & Free** | ? | ? |

## 📚 1. การตั้งค่าข้อมูลและ Libraries

In [1]:
import pandas as pd
import numpy as np
from fractions import Fraction

print("✅ Libraries loaded successfully!")

✅ Libraries loaded successfully!


## 📊 2. การสร้างข้อมูลจากตาราง

In [2]:
# สร้างข้อมูลจากตารางที่กำหนด
data = {
    'Word': ['Total', 'Buy', 'Cheap', 'Work', 'Free'],
    'Spam': [25, 20, 15, 5, 20],
    'No_Spam': [75, 5, 10, 30, 7]
}

df = pd.DataFrame(data)
print("📊 ตารางข้อมูล:")
print(df.to_string(index=False))

# แยกข้อมูล Total และคำศัพท์
total_row = df[df['Word'] == 'Total'].iloc[0]
words_df = df[df['Word'] != 'Total'].reset_index(drop=True)

print(f"\n📈 ข้อมูลพื้นฐาน:")
print(f"   Spam emails: {total_row['Spam']}")
print(f"   No Spam emails: {total_row['No_Spam']}")
print(f"   Total emails: {total_row['Spam'] + total_row['No_Spam']}")

print("\n📝 คำศัพท์และความถี่:")
print(words_df.to_string(index=False))

📊 ตารางข้อมูล:
 Word  Spam  No_Spam
Total    25       75
  Buy    20        5
Cheap    15       10
 Work     5       30
 Free    20        7

📈 ข้อมูลพื้นฐาน:
   Spam emails: 25
   No Spam emails: 75
   Total emails: 100

📝 คำศัพท์และความถี่:
 Word  Spam  No_Spam
  Buy    20        5
Cheap    15       10
 Work     5       30
 Free    20        7


## 🧮 3. คำนวณ Prior Probability

In [3]:
# คำนวณ Prior Probability
total_emails = total_row['Spam'] + total_row['No_Spam']
spam_emails = total_row['Spam']
no_spam_emails = total_row['No_Spam']

# P(Spam) และ P(No Spam)
P_spam = spam_emails / total_emails
P_no_spam = no_spam_emails / total_emails

print("🎯 Prior Probabilities:")
print(f"P(Spam) = {spam_emails}/{total_emails} = {P_spam:.4f}")
print(f"P(No Spam) = {no_spam_emails}/{total_emails} = {P_no_spam:.4f}")
print(f"\nเศษส่วน:")
print(f"P(Spam) = {Fraction(spam_emails, total_emails)}")
print(f"P(No Spam) = {Fraction(no_spam_emails, total_emails)}")

🎯 Prior Probabilities:
P(Spam) = 25/100 = 0.2500
P(No Spam) = 75/100 = 0.7500

เศษส่วน:
P(Spam) = 1/4
P(No Spam) = 3/4


## 📊 4. คำนวณ Conditional Probability สำหรับแต่ละคำ

In [4]:
# คำนวณ total words ในแต่ละ class
total_spam_words = words_df['Spam'].sum()
total_no_spam_words = words_df['No_Spam'].sum()

print(f"📊 จำนวนคำทั้งหมดในแต่ละ class:")
print(f"Total words in Spam emails: {total_spam_words}")
print(f"Total words in No Spam emails: {total_no_spam_words}")

# คำนวณ conditional probability สำหรับแต่ละคำ
print("\n🧮 Conditional Probabilities สำหรับแต่ละคำ:")
print("=" * 80)
print(f"{'Word':<8} {'Count(Spam)':<12} {'Count(No Spam)':<15} {'P(word|Spam)':<15} {'P(word|No Spam)':<15}")
print("=" * 80)

conditional_probs = {}
target_words = ['Buy', 'Cheap', 'Work', 'Free']

for _, row in words_df.iterrows():
    word = row['Word']
    spam_count = row['Spam']
    no_spam_count = row['No_Spam']
    
    # P(word|Spam) และ P(word|No Spam)
    p_word_given_spam = spam_count / total_spam_words
    p_word_given_no_spam = no_spam_count / total_no_spam_words
    
    conditional_probs[word] = {
        'spam_count': spam_count,
        'no_spam_count': no_spam_count,
        'p_word_given_spam': p_word_given_spam,
        'p_word_given_no_spam': p_word_given_no_spam
    }
    
    print(f"{word:<8} {spam_count:<12} {no_spam_count:<15} {p_word_given_spam:<15.6f} {p_word_given_no_spam:<15.6f}")

print("=" * 80)

📊 จำนวนคำทั้งหมดในแต่ละ class:
Total words in Spam emails: 60
Total words in No Spam emails: 52

🧮 Conditional Probabilities สำหรับแต่ละคำ:
Word     Count(Spam)  Count(No Spam)  P(word|Spam)    P(word|No Spam)
Buy      20           5               0.333333        0.096154       
Cheap    15           10              0.250000        0.192308       
Work     5            30              0.083333        0.576923       
Free     20           7               0.333333        0.134615       


## 🎯 5. คำนวณ Probability สำหรับ Message "Buy, Cheap, Work & Free"

In [5]:
# Message ที่ต้องการคำนวณ
message = ['Buy', 'Cheap', 'Work', 'Free']

print(f"🎯 คำนวณ Probability สำหรับ Message: {', '.join(message)}")
print("=" * 70)

# เริ่มต้นด้วย Prior Probability
prob_spam = P_spam
prob_no_spam = P_no_spam

print(f"\n📊 ขั้นตอนที่ 1: Prior Probabilities")
print(f"P(Spam) = {P_spam:.4f} = {Fraction(spam_emails, total_emails)}")
print(f"P(No Spam) = {P_no_spam:.4f} = {Fraction(no_spam_emails, total_emails)}")

print(f"\n📊 ขั้นตอนที่ 2: คำนวณ Likelihood สำหรับแต่ละคำ")
print("─" * 70)

# คำนวณ likelihood สำหรับแต่ละคำ
for i, word in enumerate(message, 1):
    p_word_spam = conditional_probs[word]['p_word_given_spam']
    p_word_no_spam = conditional_probs[word]['p_word_given_no_spam']
    
    spam_count = conditional_probs[word]['spam_count']
    no_spam_count = conditional_probs[word]['no_spam_count']
    
    print(f"\n{i}. คำ '{word}':")
    print(f"   P({word}|Spam) = {spam_count}/{total_spam_words} = {p_word_spam:.6f}")
    print(f"   P({word}|No Spam) = {no_spam_count}/{total_no_spam_words} = {p_word_no_spam:.6f}")
    
    # คูณเข้าไปใน probability
    prob_spam *= p_word_spam
    prob_no_spam *= p_word_no_spam
    
    print(f"   Current P(Spam|message) ∝ {prob_spam:.10f}")
    print(f"   Current P(No Spam|message) ∝ {prob_no_spam:.10f}")

print(f"\n📊 ขั้นตอนที่ 3: ผลลัพธ์ก่อน Normalize")
print(f"P(Spam|Buy,Cheap,Work,Free) ∝ {prob_spam:.12f}")
print(f"P(No Spam|Buy,Cheap,Work,Free) ∝ {prob_no_spam:.12f}")

🎯 คำนวณ Probability สำหรับ Message: Buy, Cheap, Work, Free

📊 ขั้นตอนที่ 1: Prior Probabilities
P(Spam) = 0.2500 = 1/4
P(No Spam) = 0.7500 = 3/4

📊 ขั้นตอนที่ 2: คำนวณ Likelihood สำหรับแต่ละคำ
──────────────────────────────────────────────────────────────────────

1. คำ 'Buy':
   P(Buy|Spam) = 20/60 = 0.333333
   P(Buy|No Spam) = 5/52 = 0.096154
   Current P(Spam|message) ∝ 0.0833333333
   Current P(No Spam|message) ∝ 0.0721153846

2. คำ 'Cheap':
   P(Cheap|Spam) = 15/60 = 0.250000
   P(Cheap|No Spam) = 10/52 = 0.192308
   Current P(Spam|message) ∝ 0.0208333333
   Current P(No Spam|message) ∝ 0.0138683432

3. คำ 'Work':
   P(Work|Spam) = 5/60 = 0.083333
   P(Work|No Spam) = 30/52 = 0.576923
   Current P(Spam|message) ∝ 0.0017361111
   Current P(No Spam|message) ∝ 0.0080009672

4. คำ 'Free':
   P(Free|Spam) = 20/60 = 0.333333
   P(Free|No Spam) = 7/52 = 0.134615
   Current P(Spam|message) ∝ 0.0005787037
   Current P(No Spam|message) ∝ 0.0010770533

📊 ขั้นตอนที่ 3: ผลลัพธ์ก่อน Normalize


## 📈 6. Normalize Probabilities และสรุปผล

In [6]:
# Normalize probabilities
total_prob = prob_spam + prob_no_spam
normalized_spam = prob_spam / total_prob
normalized_no_spam = prob_no_spam / total_prob

print(f"📊 ขั้นตอนที่ 4: Normalize Probabilities")
print(f"Total Probability = {prob_spam:.12f} + {prob_no_spam:.12f} = {total_prob:.12f}")
print(f"\nNormalized Probabilities:")
print(f"P(Spam|message) = {prob_spam:.12f} / {total_prob:.12f} = {normalized_spam:.6f}")
print(f"P(No Spam|message) = {prob_no_spam:.12f} / {total_prob:.12f} = {normalized_no_spam:.6f}")

# แสดงเป็นเปอร์เซ็นต์
print(f"\n🎯 ผลลัพธ์สุดท้าย:")
print("=" * 50)
print(f"P(Spam|Buy,Cheap,Work,Free) = {normalized_spam:.4f} ({normalized_spam*100:.2f}%)")
print(f"P(No Spam|Buy,Cheap,Work,Free) = {normalized_no_spam:.4f} ({normalized_no_spam*100:.2f}%)")
print("=" * 50)

# การตัดสินใจ
prediction = 'Spam' if normalized_spam > normalized_no_spam else 'No Spam'
confidence = max(normalized_spam, normalized_no_spam)

print(f"\n🎯 การทำนาย: {prediction}")
print(f"🔥 ความมั่นใจ: {confidence*100:.2f}%")

if prediction == 'Spam':
    print(f"\n🚨 Message นี้มีโอกาสเป็น SPAM สูงกว่า!")
else:
    print(f"\n✅ Message นี้มีโอกาสเป็น NO SPAM สูงกว่า!")

print(f"\n✅ ตรวจสอบ: {normalized_spam + normalized_no_spam:.6f} = 1.000000")

📊 ขั้นตอนที่ 4: Normalize Probabilities
Total Probability = 0.000578703704 + 0.001077053281 = 0.001655756984

Normalized Probabilities:
P(Spam|message) = 0.000578703704 / 0.001655756984 = 0.349510
P(No Spam|message) = 0.001077053281 / 0.001655756984 = 0.650490

🎯 ผลลัพธ์สุดท้าย:
P(Spam|Buy,Cheap,Work,Free) = 0.3495 (34.95%)
P(No Spam|Buy,Cheap,Work,Free) = 0.6505 (65.05%)

🎯 การทำนาย: No Spam
🔥 ความมั่นใจ: 65.05%

✅ Message นี้มีโอกาสเป็น NO SPAM สูงกว่า!

✅ ตรวจสอบ: 1.000000 = 1.000000


## 🧮 7. แสดงสูตรการคำนวณ

In [7]:
print("📚 สูตร Naive Bayes ที่ใช้:")
print("=" * 60)
print("P(Class|Message) = P(Class) × ∏P(word|Class)")
print("")
print("สำหรับ Message = {Buy, Cheap, Work, Free}:")
print("")
print("P(Spam|Message) = P(Spam) × P(Buy|Spam) × P(Cheap|Spam) × P(Work|Spam) × P(Free|Spam)")
print("P(No Spam|Message) = P(No Spam) × P(Buy|No Spam) × P(Cheap|No Spam) × P(Work|No Spam) × P(Free|No Spam)")

print("\n🔢 การแทนค่าจริง:")
print("─" * 60)

# สร้างสูตรแทนค่าจริง
spam_formula = f"P(Spam|Message) = {P_spam:.4f}"
no_spam_formula = f"P(No Spam|Message) = {P_no_spam:.4f}"

for word in message:
    p_word_spam = conditional_probs[word]['p_word_given_spam']
    p_word_no_spam = conditional_probs[word]['p_word_given_no_spam']
    spam_formula += f" × {p_word_spam:.6f}"
    no_spam_formula += f" × {p_word_no_spam:.6f}"

spam_formula += f" = {prob_spam:.12f}"
no_spam_formula += f" = {prob_no_spam:.12f}"

print(spam_formula)
print(no_spam_formula)

print("\n🎯 หลังจาก Normalize:")
print(f"P(Spam|Message) = {normalized_spam:.6f}")
print(f"P(No Spam|Message) = {normalized_no_spam:.6f}")

📚 สูตร Naive Bayes ที่ใช้:
P(Class|Message) = P(Class) × ∏P(word|Class)

สำหรับ Message = {Buy, Cheap, Work, Free}:

P(Spam|Message) = P(Spam) × P(Buy|Spam) × P(Cheap|Spam) × P(Work|Spam) × P(Free|Spam)
P(No Spam|Message) = P(No Spam) × P(Buy|No Spam) × P(Cheap|No Spam) × P(Work|No Spam) × P(Free|No Spam)

🔢 การแทนค่าจริง:
────────────────────────────────────────────────────────────
P(Spam|Message) = 0.2500 × 0.333333 × 0.250000 × 0.083333 × 0.333333 = 0.000578703704
P(No Spam|Message) = 0.7500 × 0.096154 × 0.192308 × 0.576923 × 0.134615 = 0.001077053281

🎯 หลังจาก Normalize:
P(Spam|Message) = 0.349510
P(No Spam|Message) = 0.650490


## 📊 8. สรุปตารางผลลัพธ์

In [8]:
# สร้างตารางสรุป
summary_data = {
    'Word': ['Total'] + message + ['Buy, Cheap, Work, & Free'],
    'Spam': [25, 20, 15, 5, 20, f'{normalized_spam:.4f}'],
    'No_Spam': [75, 5, 10, 30, 7, f'{normalized_no_spam:.4f}']
}

summary_df = pd.DataFrame(summary_data)
print("📊 ตารางสรุปผลลัพธ์:")
print("=" * 50)
print(summary_df.to_string(index=False))
print("=" * 50)

print(f"\n🎯 คำตอบ Assignment:")
print(f"   Message 'Buy, Cheap, Work & Free'")
print(f"   → Spam Probability: {normalized_spam:.4f} ({normalized_spam*100:.2f}%)")
print(f"   → No Spam Probability: {normalized_no_spam:.4f} ({normalized_no_spam*100:.2f}%)")
print(f"   → การทำนาย: {prediction}")

print("\n" + "=" * 50)
print("✅ Assignment เสร็จสมบูรณ์!")
print("=" * 50)

📊 ตารางสรุปผลลัพธ์:
                    Word   Spam No_Spam
                   Total     25      75
                     Buy     20       5
                   Cheap     15      10
                    Work      5      30
                    Free     20       7
Buy, Cheap, Work, & Free 0.3495  0.6505

🎯 คำตอบ Assignment:
   Message 'Buy, Cheap, Work & Free'
   → Spam Probability: 0.3495 (34.95%)
   → No Spam Probability: 0.6505 (65.05%)
   → การทำนาย: No Spam

✅ Assignment เสร็จสมบูรณ์!
