## ตัวอย่าง Naive Bayes

In [1]:
import pandas as pd
import numpy as np

In [2]:
# สร้าง dataframe ชื่อ data ว่างๆ ขึ้นมาก่อน
data = pd.DataFrame()

# ต้องการสร้างข้อมูลที่ประกอบด้วยคุณลักษณะ (attribute) ได้แก่ ความสูง น้ำหนัก ขนาดรองเท้า และเพศ ของลูกค้า ต้องการจะใช้วิธี naive bayes 
# เพื่อมาทำนายลูกค้าจะเป็นเพศหญิงหรือชาย (class) เมื่อทราบคุณลักษณะของข้อมูลของลูกค้า

# สร้างข้อมูลที่เป็น class เก็บใน dataframe ที่สร้างไว้ 
data['Gender'] = ['male','male','male','male','female','female','female','female']

# สร้้างข้อมูลที่เป็น attribute
data['Weight'] = [60,50.92,50.58,50.92,50,50.5,50.42,50.75]
data['Height'] = [180,190,170,165,100,150,130,150]
data['Foot_Size'] = [12,11,12,10,6,8,7,9]

# view ข้อมูล
data

Unnamed: 0,Gender,Weight,Height,Foot_Size
0,male,60.0,180,12
1,male,50.92,190,11
2,male,50.58,170,12
3,male,50.92,165,10
4,female,50.0,100,6
5,female,50.5,150,8
6,female,50.42,130,7
7,female,50.75,150,9


In [3]:
# สร้าง dataframe ชื่อ person ว่างๆ ขึ้นมาก่อน
person = pd.DataFrame()

# สร้างข้อมูลที่เป็น new data 
person['Weight'] = [60]
person['Height'] = [130]
person['Foot_Size'] = [8]

# View the data 
person

Unnamed: 0,Weight,Height,Foot_Size
0,60,130,8


In [4]:
# นับจำนวนลูกค้าที่เป็นเพศชาย 
n_male = data['Gender'][data['Gender'] == 'male'].count()

# นับจำนวนลูกค้าที่เป็นเพศหญิง 
n_female = data['Gender'][data['Gender'] == 'female'].count()

# นับจำนวนลูกค้าทั้งหมด
total_ppl = data['Gender'].count()
print(total_ppl)
print(n_male)
print(n_female)

8
4
4


In [5]:
# หาค่าสัดส่วน (ความน่าจะเป็น) ของจำนวนลูกค้าชายต่อจำนวนลูกค้าทั้งหมด
P_male = n_male/total_ppl

# หาค่าสัดส่วน (ความน่าจะเป็น) ของจำนวนลูกค้าหญิงต่อจำนวนลูกค้าทั้งหมด
P_female = n_female/total_ppl
P_male

print(P_male,P_female )
#print(person['Height'][0])

0.5 0.5


In [6]:
# หาค่าเฉลี่ยของข้อมูลทั้งหมดที่แยกกลุ่มลูกค้าหญิงและชาย
data_means = data.groupby('Gender').mean()

# แสดงค่าเฉลี่ยของข้อมูลทั้งหมดที่แยกกลุ่มลูกค้าหญิงและชาย
data_means

Unnamed: 0_level_0,Weight,Height,Foot_Size
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,50.4175,132.5,7.5
male,53.105,176.25,11.25


In [7]:
# หาค่าความปรปรวนของข้อมูลที่แยกกลุ่มลูกค้าหญิงและชาย
data_variance = data.groupby('Gender').var()

# แสดงค่าความแปรปรวนของข้อมูลทั้งหมดที่แยกกลุ่มลูกค้าหญิงและชาย
data_variance

Unnamed: 0_level_0,Weight,Height,Foot_Size
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.097225,558.333333,1.666667
male,21.155033,122.916667,0.916667


### numerator of the posteriorคำนวณค่าความน่าจะเป็นที่จะเป็นลูกค้าหญิงหรือชาย โดยใช้คุณลักษณะของข้อมูลนั่นคือ ส่วนสูง น้ำหนัก ขนาดรองเท้า ตัวอย่างเช่น =p(female)xp(height∣female)xp(weight∣female)xp(foot size∣female)
### ต้องการใช้ naive bayes เพื่อทำนายข้อมูลใหม่ที่ที่มีคุณลักษณะเก็บอยู่ใน dataframe ชื่อ person โดยใช้ข้อมูลจากค่าเฉลี่ย และค่าความแปรปรวนของข้อมูลทั้งหมด และเรียกใช้ฟังก์ชั่นชื่อ (p_x_given_y) เพื่อคำนวณค่าความน่าจะเป็น

In [8]:
# คำนวณค่าเฉลี่ยของข้อมูลเพศชาย
male_height_mean = data_means['Height'][data_means.index == 'male'].values[0]
male_weight_mean = data_means['Weight'][data_means.index == 'male'].values[0]
male_footsize_mean = data_means['Foot_Size'][data_means.index == 'male'].values[0]
print(male_height_mean)

# คำนวณค่าความแปรปรวนของข้อมูลเพศชาย  
male_height_variance = data_variance['Height'][data_variance.index == 'male'].values[0]
male_weight_variance = data_variance['Weight'][data_variance.index == 'male'].values[0]
male_footsize_variance = data_variance['Foot_Size'][data_variance.index == 'male'].values[0]

# คำนวณค่าเฉลี่ยของข้อมูลเพศหญิง
female_height_mean = data_means['Height'][data_means.index == 'female'].values[0]
female_weight_mean = data_means['Weight'][data_means.index == 'female'].values[0]
female_footsize_mean = data_means['Foot_Size'][data_means.index == 'female'].values[0]

# คำนวณค่าความแปรปรวนของข้อมูลเพศหญิง 
female_height_variance = data_variance['Height'][data_variance.index == 'female'].values[0]
female_weight_variance = data_variance['Weight'][data_variance.index == 'female'].values[0]
female_footsize_variance = data_variance['Foot_Size'][data_variance.index == 'female'].values[0]

176.25


## คำนวณค่าความน่าจะเป็นจากการใช้ฟังก์ชั่นการแจกแจงแบบปกติ

รูปแบบฟังก์ชั่นดูจาก https://th.wikipedia.org/wiki/%E0%B8%81%E0%B8%B2%E0%B8%A3%E0%B9%81%E0%B8%88%E0%B8%81%E0%B9%81%E0%B8%88%E0%B8%87%E0%B8%9B%E0%B8%A3%E0%B8%81%E0%B8%95%E0%B8%B4

In [9]:
# สร้าง function เพื่อคำนวณ  p(x | y):
def p_x_given_y(x, mean_y, variance_y):

    # คำนวณค่าความน่าจะเป็นจากการใช้ฟังก์ชั่นการแจกแจงแบบปกติ 
    p = 1/(np.sqrt(2*np.pi*variance_y)) * np.exp((-(x-mean_y)**2)/(2*variance_y))
    
    # return p
    return p

In [10]:
# คำนวณความน่าจะเป็นที่คุณลักษณะของข้อมูลใหม่แล้วะเป็นเพศชาย
# เรียกใช้ function p_x_given_y และใส่ Input ตาม arguments ใน function
P_male * \
p_x_given_y(person['Height'][0], male_height_mean, male_height_variance) * \
p_x_given_y(person['Weight'][0], male_weight_mean, male_weight_variance) * \
p_x_given_y(person['Foot_Size'][0], male_footsize_mean, male_footsize_variance)

1.1067556317818892e-10

In [11]:
# คำนวณความน่าจะเป็นที่คุณลักษณะของข้อมูลใหม่แล้วะเป็นเพศหญิง
# เรียกใช้ function p_x_given_y และใส่ Input ตาม arguments ใน function
P_female * \
p_x_given_y(person['Height'][0], female_height_mean, female_height_variance) * \
p_x_given_y(person['Weight'][0], female_weight_mean, female_weight_variance) * \
p_x_given_y(person['Foot_Size'][0], female_footsize_mean, female_footsize_variance)

2.5315081639706153e-208

ค่าความน่าจะเป็นของคุณลักษณะดังกล่าวที่เป็นเพศหญิงมีค่าน้อยกว่าค่าความน่าจะเป็นของคุณลักษณะดังกล่าวที่เป็นเพศชาย ดังนั้นข้อมูลใหม่ที่ได้มาเป็นจึงน่าจะเป็นเพศชาย