![image.png](attachment:image.png)


In [53]:
def calculate_prior_probs(labels): #P(c|X)
    classes = set(labels)
    prior_probs = {}
    total_count = len(labels)
    
    for cls in classes:
        prior_probs[cls] = labels.count(cls) / total_count
    
    return prior_probs

In [69]:
def calculate_cond_probs(data, labels, features): #P(x1|C)*P(x2|C)*...*(Pxn|C)*P(c)
    classes = list(set(labels)) # เก็บ Class ผลเฉลย ทั้งหมดใส่ array 
    num_features = len(features) # นับ feature ทั้งหมด
    cond_probs = {} #เก็บความน่าจะเป็นเงื่อนไข (conditional probabilities) ของ feature แต่ละ class
    
    for f in range(num_features): # Loop ตามจำนวนรอบของ feature
        feature_counts = [0] * len(classes) #สร้างรายการ (list) ที่มีขนาดเท่ากับจำนวน class
        for i, example in enumerate(data): #วนลูปใน Data ทั้งหมด
            if example[f] == features[f]: # check ว่ามี feature ใน data แต่ละตัวหรือไม่
                feature_counts[classes.index(labels[i])] += 1 # ถ้ามีให้นับ class นั้น + 1
        for cls in classes:  #วนลูปใน Class ทั้งหมด ที่มีผลเฉลยทั้งหมด
            #คำนวณ probability ของ feature ใน Class และเก็บใน cond_probs
            cond_probs[(f, cls)] = (feature_counts[classes.index(cls)] + 1) / (labels.count(cls) + 1 + len(features))
    print("index {}, cond_probs {}".format(f,cond_probs))
    return cond_probs

In [55]:
# ตัวอย่างการใช้งาน
data = [
    [1, 'sunny', 'hot'],
    [2, 'sunny', 'hot'],
    [3, 'overcast', 'hot'],
    [4, 'rainy', 'mild'],
    [5, 'rainy', 'cool'],
    [6, 'rainy', 'cool'],
    [7, 'overcast', 'cool'],
    [8, 'sunny', 'mild'],
    [9, 'sunny', 'cool'],
    [10, 'rainy', 'mild'],
]

In [56]:
labels = ['no', 'no', 'yes', 'yes', 'yes', 'no', 'yes', 'no', 'yes', 'yes']
features = ['overcast', 'cool']

### สรุปการทำงานของ calculate_prior_probs<br>
P(c) = จำนวนตัวอย่างในประเภท c / จำนวนตัวอย่างทั้งหมด<br>

แทนค่าสมการด้วยข้อมูลจะได้<br>
P('no') = count('no') / (count('no') + count('yes'))<br>
P('yes') = count('yes') / (count('no') + count('yes'))<br>

เมื่อแทนตัวเลขลงไปจะได้<br>
P('no') = 4 / (4 + 6) = 0.4<br>
P('yes') = 6 / (4 + 6) = 0.6<br>

### สรุปตัวอย่างการทำงาน calculate_cond_probs
เพื่อคำนวณความน่าจะเป็นเงื่อนไข (conditional probabilities) ของคุณสมบัติที่สนใจในแต่ละประเภท โดยใช้วิธีการสกัดคำนั้นในแต่ละประเภท และคำนวณค่าเป็นตัวเลขที่แสดงความน่าจะเป็นที่คำนั้นจะปรากฏในแต่ละประเภท

จำนวนตัวอย่างทั้งหมด (Total Count) = 10<br>
จำนวนตัวอย่างที่มีประเภทเป็น 'no' (Count('no')) = 4<br>
จำนวนตัวอย่างที่มีประเภทเป็น 'yes' (Count('yes')) = 6<br>

ให้ features[0] เป็น 'overcast' และ features[1] เป็น 'cool' <----- 2 Loop ครั้งแรกเป็น overcast, ครั้ง 2 เป็น cool

แทนค่าสมการด้วยข้อมูลจะได้<br> 
P('overcast' | 'no') = (Count('overcast' ในประเภท 'no') + 1) / (Count('no') + 1)<br>
P('overcast' | 'yes') = (Count('overcast' ในประเภท 'yes') + 1) / (Count('yes') + 1)<br>
P('cool' | 'no') = (Count('cool' ในประเภท 'no') + 1) / (Count('no') + 1)<br>
P('cool' | 'yes') = (Count('cool' ในประเภท 'yes') + 1) / (Count('yes') + 1)<br>

เมื่อแทนตัวเลขลงไปจะได้<br>
P('overcast' | 'no') = (0 + 1) / (Count('no') + 1)<br>
P('overcast' | 'yes') = (0 + 1) / (Count('yes') + 1)<br>
P('cool' | 'no') = (0 + 1) / (Count('no') + 1)<br>
P('cool' | 'yes') = (0 + 1) / (Count('yes') + 1)<br>

*เสริม Count คือการนับความถี่ frequency <- มันคือสิ่งเดียวกันแค่ใช้คนละคำเฉยๆ

### สั่งเหตุว่า มีการ +1/+1 เข้าไป จุดนี้เรียกว่าการทำ Smoothing 
    เพื่อแก้ปัญหาการหารด้วยศูนย์และการจัดการกับคำ (feature) ที่ไม่เคยปรากฏใน class ที่ต้องการคำนวณ

ตัวอย่างเพิ่มเติมเพื่อให้เข้าใจเหตุผลที่ต้องเพิ่มค่า +1 หรือ +2 เข้าไปในสูตร ลองพิจารณาสองกรณีดังต่อไปนี้
- เพิ่มค่า 1 เข้าไปในจำนวนตัวอย่างที่ไม่เคยปรากฏในประเภทที่ต้องการคำนวณ เพื่อให้คำนวณความน่าจะเป็นเงื่อนไขไม่เป็นศูนย์
- เพิ่มค่า 2 เข้าไปในจำนวนตัวอย่างทั้งหมดในประเภทที่ต้องการคำนวณ เพื่อให้ผลลัพธ์รวมของความน่าจะเป็นเงื่อนไขเท่ากับ 1 

* Smoothing ตรงนี้ไม่มีค่าที่เหมาะสม แต่ส่วนใหญ่ใช้ +1 ทั้งตัวบนและล่าง เป็นเพียงแค่การป้องกันหารแล้วได้ผลเป็น 0 เมื่อเจอคำที่ไม่เคยพบมาก่อนใน class

In [68]:
prior_probs = calculate_prior_probs(labels) # จำนวน Classที่อาจจะเกิดขึ้น/จำนวน Class ทั้งหมดหรือความน่าจะเป็นของ Class ใดๆ
cond_probs = calculate_cond_probs(data, labels, features) #คำนวณความน่าจะเป็น ของ feature แต่ละ class ของชุดข้อมูลที่ไม่มีผลเฉลย

index 1
index 1, cond_probs {(0, 'yes'): 0.1111111111111111, (0, 'no'): 0.14285714285714285, (1, 'yes'): 0.1111111111111111, (1, 'no'): 0.14285714285714285}


In [58]:
print('Prior Probabilities:')
for cls, prob in prior_probs.items():
    print(cls, ':', prob)
print('----------------------')
print('Conditional Probabilities:')
for feature, cls in cond_probs.keys():
    print('P({} | {}) = {}'.format(feature, cls, cond_probs[(feature, cls)]))

Prior Probabilities:
yes : 0.6
no : 0.4
----------------------
Conditional Probabilities:
P(0 | yes) = 0.3333333333333333
P(0 | no) = 0.14285714285714285
P(1 | yes) = 0.4444444444444444
P(1 | no) = 0.2857142857142857


#### เสริมเรื่องการทำ Smoothing
การทำ smoothing ด้านบนเพียงอย่างเดียว (เพิ่ม +1 หรือ +2 ที่ด้านบนของสมการ) จะช่วยลดผลกระทบจากตัวอย่างที่ไม่เคยปรากฏในประเภทที่กำลังคำนวณ และเพิ่มความน่าจะเป็นเงื่อนไขไม่เป็นศูนย์ ซึ่งเป็นเทคนิคที่เรียกว่า Laplace smoothing หรือ add-one/add-two smoothing

การทำ smoothing ด้านล่างเพียงอย่างเดียว (เพิ่ม +1 หรือ +2 ที่ด้านล่างของสมการ) จะช่วยปรับค่าจำนวนตัวอย่างที่เป็นจริงในประเภทที่กำลังคำนวณเพื่อรักษาความสมดุลและความน่าเชื่อถือของผลลัพธ์

การทำ smoothing ทั้งบนและล่าง (เพิ่ม +1 หรือ +2 ทั้งที่ด้านบนและด้านล่างของสมการ) จะเป็นการปรับค่าทั้งในจำนวนตัวอย่างที่ไม่เคยปรากฏในประเภทที่กำลังคำนวณและจำนวนตัวอย่างทั้งหมดในประเภทนั้น ซึ่งช่วยให้ความน่าเชื่อถือของผลลัพธ์เพิ่มมากขึ้น

ดังนั้นเลือกทำ smoothing ด้านบนเพียงอย่างเดียวหรือด้านล่างเพียงอย่างเดียวหรือทั้งคู่ขึ้นอยู่กับเป้าหมายในการประมวลผลข้อมูลและการควบคุมความเสี่ยงที่เกี่ยวข้องกับข้อมูล คุณสามารถทดลองใช้และประเมินผลลัพธ์เพื่อเลือกวิธีที่เหมาะสมที่สุดสำหรับงานและข้อมูลของคุณได้