# **Naive baysianClassifier**

In [338]:
from pprint import pprint

In [339]:
# 가상의 email 환경 설정 

email = {
    'normal':{
                'total':12,
                '친애하는':6,
                '식사':8,
                '월급':5,
                '대출':2,
                '회식':5},
    'spam':{
        'total':8,
        '친애하는':3,
        '식사':0,
        '월급':4,
        '대출':12,
        '회식':3
    }
}


In [340]:
class NaiveBaysian:
    
    def __init__(self,email):
        
        self.email = email
        
    def prior(self):
        
        '''
        사전 확률을 계산하는 메소드
        사전 확률을 전체 빈도 중 사건의 빈도수로 설정했다
        '''
        total = self.email['normal']['total'] + self.email['spam']['total']
        
        normal_prob = round(self.email['normal']['total'] / total,2)
        spam_prob = round(self.email['spam']['total'] / total,2)
        
        
        self.prior_prob = {'normal' : normal_prob,
                            'spam': spam_prob}
        
        pprint(self.prior_prob)
        
    def likelihood(self,S,y,value):
        '''
        어떤 사건 A 가 일어났을 때 사건 B가 일어날 확률
        예를 들어 이메일이 Normal 이면서 value 가 발생할 확률
        '''
        return S[y][value] / S[y]['total']
    
    def update(self,alpha):
        
        print('업데이트 이전')
        pprint(self.email)
        print('')
        
        for key in self.email.keys():
            for value in self.email[key].keys():
                if value != 'total':
                    self.email[key][value] += alpha 
    
        print('업데이트 이후')
        pprint(self.email)

        
    def fit(self,items):
        
        self.items = items
        
        total_post_prob = {}
        notations = {}
        for key in self.email.keys():
            

            post_probability = self.prior_prob[key] # 초기 사후 확률을 사전 확률로 설정 
            
            notation = f'사전확률({self.prior_prob[key]})'
            
            for item in self.items:
                
                L = self.likelihood(S = self.email,
                                y = key,
                                value = item)


                post_probability *= L 
                
                notation += f'* {item}({round(L,2)})'
                
                # 정규화
                total_post_prob[key] = post_probability
                
            notations[key] = notation
                
                
        for key in self.email.keys():
            # 정규화
            post_probability = total_post_prob[key] / sum(total_post_prob.values())
            print(f'{key} 의 사후확률 추정 식: {notations[key]}')
            print(f'{key} 일 사후확률 : {round(post_probability,3)}')
            print('')

In [341]:
# 예를 들어 이런 메일이 왔다고 가정 해보자 

example = ['친애하는','월급','회식']

# 해당 이메일은 일반 메일일까, 스팸 메일일까 ? 

In [342]:
naive = NaiveBaysian(email)
# 사전 확률
naive.prior()

{'normal': 0.6, 'spam': 0.4}


In [343]:
naive.fit(example)

normal 의 사후확률 추정 식: 사전확률(0.6)* 친애하는(0.5)* 월급(0.42)* 회식(0.42)
normal 일 사후확률 : 0.649

spam 의 사후확률 추정 식: 사전확률(0.4)* 친애하는(0.38)* 월급(0.5)* 회식(0.38)
spam 일 사후확률 : 0.351



In [344]:
# 만약 spam 에는 없는 단어가 발생한다면 어떻게 될까 ? 

example_2 = ['월급','대출','대출', '식사']

naive.fit(example_2)

normal 의 사후확률 추정 식: 사전확률(0.6)* 월급(0.42)* 대출(0.17)* 대출(0.17)* 식사(0.67)
normal 일 사후확률 : 1.0

spam 의 사후확률 추정 식: 사전확률(0.4)* 월급(0.5)* 대출(1.5)* 대출(1.5)* 식사(0.0)
spam 일 사후확률 : 0.0



In [345]:
# spam 에서는 식사라는 단어의 빈도가 발생한 적 없기 때문에 확률값을 곱할 때 0이 곱해져 spam 일 확률이 0이 되어버린다.

# 특정값 alpah 를 모든 빈도에 더해주자 

alpha = 1 # 현재 더해줄 값은 1로 설정하겠다.

naive.update(alpha = alpha)

업데이트 이전
{'normal': {'total': 12, '대출': 2, '식사': 8, '월급': 5, '친애하는': 6, '회식': 5},
 'spam': {'total': 8, '대출': 12, '식사': 0, '월급': 4, '친애하는': 3, '회식': 3}}

업데이트 이후
{'normal': {'total': 12, '대출': 3, '식사': 9, '월급': 6, '친애하는': 7, '회식': 6},
 'spam': {'total': 8, '대출': 13, '식사': 1, '월급': 5, '친애하는': 4, '회식': 4}}


In [346]:
# 전체에 똑같은 값을 더해줬기 때문에 사전 확률 및 학습 과정에선 크게 영향을 미치지 않는다.
print(example_2,end = '\n\n')
naive.fit(example_2)

['월급', '대출', '대출', '식사']

normal 의 사후확률 추정 식: 사전확률(0.6)* 월급(0.5)* 대출(0.25)* 대출(0.25)* 식사(0.75)
normal 일 사후확률 : 0.146

spam 의 사후확률 추정 식: 사전확률(0.4)* 월급(0.62)* 대출(1.62)* 대출(1.62)* 식사(0.12)
spam 일 사후확률 : 0.854



In [347]:
import numpy as np

In [348]:
np.random.randn()

1.3359269400834983