# 5. Bayesian 

* 문제
* 알고리즘
* 구현

## 5.1 문제

* 사람의 보편적인 인식법칙 -> ‘가장 그럴듯한’ class로 분류
* 기계(컴퓨터)의 인식 -> 수학적 틀을 이용하여 프로그래밍이 가능
* 기본적인 확률 기초이론을 사용
* P(W|X) 특징 X가 주어졌을 때 Class W 에서 발생했을 확률 (**사후 확률**)

## 5.2 알고리즘

* 확률 기초 (주사위)
    + 주사위 던졌을 때 3이 나올 확률 P(x=3) = 1/6
    - 여기에서 X는 랜덤 변수이며 이산 값을 가짐

* 사람 키
    * 사람의 키는 연속 값을 가짐
    * 확률 밀도함수
  
  <img src="img\cdf.jpg"/>
    
* 패턴 인식에서 특징 각각이 랜덤 변수에 해당

* 확률 실험
    * 주머니에서 카드를 뽑아 상자를 선택하고 선택된 상자에서 공을 뽑는 실험
    <img src="img\test.jpg"/>
    
* 상자 A가 선택될 확률은? : P(X=A) = P(A) = 7/10
* 상자 A에서 하얀 공이 뽑힐 확률은? : 조건부 확률 P(하양|A) = 2/10
* 상자는 A이고 공은 하양이 뽑힐 확률은? 
     =  결합 확률 p(A, 하양) = P(하양|A)P(A) = 2/10 * 7/10 = 7/50
* 하얀 공이 나올 확률은 ? = 주변 확률 P(하양) = P(하양|A)P(A) + P (하양|B)P(B) = 8/25
* **P(X)를 사전 확률이라 부름**

* 사후 확률
    * 하얀 공이 뽑혔는데 어느 상자에서 나왔는지 맞추어라.
    * 기본 전략: 상자 A와 B에서 나왔을 가능성을 각각 구하고 큰 가능성을 보인상자를 답으로 취한다.

    * 방법1 : P(하양|B), P(하양|A) 각 상자에서의 하얀 공이 나타날 확률 인 조건부확률을 사용하여 구함
        * P(하양|B) 9/15 > P(하양|A) = 2/10 이므로 “상자 B에서 나왔다.” 
        * 이러한 조건부 확률을 우도(Likelihood)라 부름

    * 방법2 : 사전 확률을 사용하여 상자 A와 상자 B의 선택 가능성을 비교
        * P(A) = 7/10 > P(B) = 3/10 이므로 “상자 A에서 나왔다.”

    * 두 가지 방법의 한계
        * 극단적으로 P(A) = 0.999 라면 방법 1이 틀린 것이 확실하다.
        * 극단적으로 P(하양|A) = 0.999 라면 방법2가 틀린 것이 확실하다.
        * 우도(조건부 확률)와 사전 확률을 모두 고려해야 함
    * 해결 방법
        * 조건부 확률 P(A|하양)과 P(B|하양)을 비교하여 큰 쪽을 취함
        * P(A|하양), P(B|하양)을 **사후 확률**이라고 함
        
    <img src="img\baysian.jpg"/>
    
    

# 5.3 구현
## 5.3.1 파이썬으로 텍스트 분류하기

In [8]:
# loadDataSet(): 단어 리스트와 리스트안의 문서가 폭력적인지(0) 폭력적이지 않은지(1) 분류 값을 반환
def loadDataSet():
    postingList=[['my','dog','has','flea','problems','help','please'],
                 ['maybe','not','take','him','to','dog','park','stupid'],
                ['my','dalmation','is','so','cute','I','love','him'],
                ['stop','posting','stupid','worthless','garbage'],
                ['mr','licks','ate','my','steak','how','to','stop','him'],
                ['quit','buying','wothless','dog','food','stupid']]
    classVec = [0,1,0,1,0,1] # 1: 폭력적인 0: 폭력적이지 않음
    return postingList,classVec

#createVocabList(dataset) : 단어 리스트 dataSet중 중복된 것을 제거하여 리스트로 반환
def createVocabList(dataSet):
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)
    return list(vocabSet)

#setOfWords2Vec(vocabList, inputSet): inputSet의 단어 들이, vocabList에 있으면 1, 없으면 0인 벡터 리스트 반환#
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList) 
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else: print "the word: %s is not in my Vocabulary" % word
    return returnVec

In [9]:
listOPosts, listClasses = loadDataSet()
myVocabList = createVocabList(listOPosts)
myVocabList

['cute',
 'love',
 'help',
 'garbage',
 'quit',
 'I',
 'problems',
 'is',
 'park',
 'stop',
 'flea',
 'dalmation',
 'licks',
 'wothless',
 'food',
 'not',
 'him',
 'buying',
 'posting',
 'has',
 'worthless',
 'ate',
 'to',
 'maybe',
 'please',
 'dog',
 'how',
 'stupid',
 'so',
 'take',
 'mr',
 'steak',
 'my']

In [10]:
setOfWords2Vec(myVocabList,listOPosts[0])

[0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 1,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1]

In [11]:
setOfWords2Vec(myVocabList,listOPosts[3])

[0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0]

* 단어 벡터로 확률 계산(베이지안 분류기 훈련)

In [28]:
from numpy import *

def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0]) ## 각 분류 항목에 대한 문서의 개수 세기
    pAbusive = sum(trainCategory) / float(numTrainDocs) #사전확률 계산 (폭력적이지 않은(1)에 대한)
    p0Num = zeros(numWords); p1Num = zeros(numWords) ##초기화
    p0Denom = 0.0; p1Denom = 0.0 
    for i in range(numTrainDocs): ## 훈련을 위한 모든 문서의 개수만큼 반복
        if trainCategory[i] ==1: ## 폭력적인 단어의 문서일 경우
            p1Num +=trainMatrix[i] ## 해당문서의 단어 갯수 증가
            p1Denom += sum(trainMatrix[i]) ## 전체 문서에서 해당 문서의 단어 갯수
        else: ## 비폭력적인 단어의 문서일 경우
            p0Num += trainMatrix[i]  ## 해당문서의 단어 갯수 증가
            p0Denom += sum(trainMatrix[i])## 전체 문서에서 해당 문서의 단어 갯수
    p1Vect = p1Num / p1Denom ## 각 폭력적인 단어들이 전체 폭력적인 단어에서 나타날 확률
    p0Vect = p0Num / p0Denom ## 각 비폭력적인 단어들이 전체 비폭력적인 단어에서 나타날 확률
        
    
    return p0Vect,p1Vect,pAbusive
    

In [29]:
from numpy import *

trainMat=[]
for postingDoc in listOPosts:
    trainMat.append(setOfWords2Vec(myVocabList,postingDoc)) ## 각 5개의 문서의 단어가 전체 단어에서의 위치 혹은 존재 여부

p0V,p1V,pAb=trainNB0(trainMat,listClasses)

[ 0.  0.  0.  0.  0.  0.  0.  0.  1.  0.  0.  0.  0.  0.  0.  1.  1.  0.
  0.  0.  0.  0.  1.  1.  0.  1.  0.  1.  0.  1.  0.  0.  0.]
8.0
[ 0.  0.  0.  1.  0.  0.  0.  0.  1.  1.  0.  0.  0.  0.  0.  1.  1.  0.
  1.  0.  1.  0.  1.  1.  0.  1.  0.  2.  0.  1.  0.  0.  0.]
13.0
[ 0.  0.  0.  1.  1.  0.  0.  0.  1.  1.  0.  0.  0.  1.  1.  1.  1.  1.
  1.  0.  1.  0.  1.  1.  0.  2.  0.  3.  0.  1.  0.  0.  0.]
19.0


In [17]:
pAb

0.5

In [18]:
p0V

array([ 0.04166667,  0.04166667,  0.04166667,  0.        ,  0.        ,
        0.04166667,  0.04166667,  0.04166667,  0.        ,  0.04166667,
        0.04166667,  0.04166667,  0.04166667,  0.        ,  0.        ,
        0.        ,  0.08333333,  0.        ,  0.        ,  0.04166667,
        0.        ,  0.04166667,  0.04166667,  0.        ,  0.04166667,
        0.04166667,  0.04166667,  0.        ,  0.04166667,  0.        ,
        0.04166667,  0.04166667,  0.125     ])

In [19]:
p1V

array([ 0.        ,  0.        ,  0.        ,  0.05263158,  0.05263158,
        0.        ,  0.        ,  0.        ,  0.05263158,  0.05263158,
        0.        ,  0.        ,  0.        ,  0.05263158,  0.05263158,
        0.05263158,  0.05263158,  0.05263158,  0.05263158,  0.        ,
        0.05263158,  0.        ,  0.05263158,  0.05263158,  0.        ,
        0.10526316,  0.        ,  0.15789474,  0.        ,  0.05263158,
        0.        ,  0.        ,  0.        ])

In [32]:
## 확률 벡터에 log를 취하도록 변경
## 분모 값을 2.0으로 초기화
## 이전 함수의 결함을 처리하기 위한 변경
## 1. 확률값이 아주 작을 경우 곱셈시 언더플로우가 일어나는것을 방지
## 2. 조건부 확률에서 0으로 나누어 지는경우 방지

def trainNB0(trainMatrix,trainCategory):
    numTrainDocs=len(trainMatrix)
    numWords=len(trainMatrix[0])
    pAbusive=sum(trainCategory)/float(numTrainDocs)
    p0Num=ones(numWords);p1Num=ones(numWords)  ##zeros->ones
    p0Denom=2.0;p1Denom=2.0  ##0.0->2.0
    for i in range(numTrainDocs):
        if trainCategory[i]==1:
            p1Num+=trainMatrix[i]
            p1Denom+=sum(trainMatrix[i])
        else:
            p0Num+=trainMatrix[i]
            p0Denom+=sum(trainMatrix[i])
    p1Vect=log(p1Num/p1Denom)      ## p1Num/p1Denom -> log(p1Num/p1Denom)
    p0Vect=log(p0Num/p0Denom)      ## p0Num/p0Denom -> log(p0Num/p0Denom)
    return p0Vect,p1Vect,pAbusive

    

In [33]:
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)    #element-wise mult
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else: 
        return 0
    
def testingNB():
    listOPosts,listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat=[]
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb)
    testEntry = ['stupid', 'garbage']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb)
    
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

In [34]:
testingNB()

['love', 'my', 'dalmation'] classified as:  0
['stupid', 'garbage'] classified as:  1


## 5.3.2 스팸 이메일 분류하기

In [39]:
MySent = 'This book is the best book on Python or M.L. I have ever laid eyes upon.'
MySent.split()

['This',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'Python',
 'or',
 'M.L.',
 'I',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon.']

In [44]:
# 구두점(.) 제거
import re
regEx = re.compile('\\W*')
listOfTokens = regEx.split(MySent)
listOfTokens

['This',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'Python',
 'or',
 'M',
 'L',
 'I',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon',
 '']

In [49]:

def textParse(bigString):    #input is big string, #output is word list
    import re
    listOfTokens = re.split(r'\W*', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2] 
    
def spamTest():
    docList=[]; classList = []; fullText =[]
    for i in range(1,26):
        wordList = textParse(open('email/spam/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(open('email/ham/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)#create vocabulary
    trainingSet = range(50); testSet=[]           #create test set
    for i in range(10):
        randIndex = int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])  
    trainMat=[]; trainClasses = []
    for docIndex in trainingSet:#train the classifier (get probs) trainNB0
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V,p1V,pSpam = trainNB0(array(trainMat),array(trainClasses))
    errorCount = 0
    for docIndex in testSet:        #classify the remaining items
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(array(wordVector),p0V,p1V,pSpam) != classList[docIndex]:
            errorCount += 1
            print "classification error",docList[docIndex]
    print 'the error rate is: ',float(errorCount)/len(testSet)
    #return vocabList,fullText



In [50]:
spamTest()

classification error ['thanks', 'peter', 'definitely', 'check', 'this', 'how', 'your', 'book', 'going', 'heard', 'chapter', 'came', 'and', 'was', 'good', 'shape', 'hope', 'you', 'are', 'doing', 'well', 'cheers', 'troy']
classification error ['peter', 'with', 'jose', 'out', 'town', 'you', 'want', 'meet', 'once', 'while', 'keep', 'things', 'going', 'and', 'some', 'interesting', 'stuff', 'let', 'know', 'eugene']
classification error ['linkedin', 'kerry', 'haloney', 'requested', 'add', 'you', 'connection', 'linkedin', 'peter', 'like', 'add', 'you', 'professional', 'network', 'linkedin', 'kerry', 'haloney']
classification error ['zach', 'hamm', 'commented', 'your', 'status', 'zach', 'wrote', 'doggy', 'style', 'enough', 'said', 'thank', 'you', 'good', 'night']
the error rate is:  0.4
