# 4장 Naive Bayes

## 학습목표
   - 분류를 위해 확률 분포 사용하기
   - 나이브 베이스 분류기 학습하기
   - RSS 피드에서 제공되는 데이터 구문 분석하기
   - 지역적인 태도를 알아보기 위해 나이브 베이스 사용하기

## 4.1 베이지안 의사결정 이론으로 분류하기
### 장점
   - 소량의 데이터를 가지고 작업이 이루어짐
   - 여러개의 분류 항목을 다룰 수 있음
    
### 단점
   - 입력 데이터를 어떻게 준비하느냐에 따라 민감하게 작용함
    
### 적용
   - 명목형 값
    
## 4.2 조건부 확률
   - '양동이 B에 주어진 회색 돌의 확률' => P(gray|bucketB)
   - P(gray|bucketB)=P(gray and bucketB)/P(bucketB)
    
   - p(x|c)를 알고 있는 상태에서 P(c|x)는 베이즈 규칙을 이용하여 다음과 같이 구할 수 있음
   - P(c|x)=P(x|c)p(c)/P(x)

## 4.3 조건부 확률로 분류하기
   ### 베이스 정리 이론
- 만약 p1(x,y)>p2(x,y)이면, 분류 항목 1에 속함
- 만약 p2(x,y)>p1(x,y)이면, 분류 항목 2에 속함
    
### 베이지안 분류 규칙
- p(ci|x,y)=p(x,y|ci)p(ci)/p(x,y)
- 만약 P(c1|x,y)>P(c2|x,y)이면, 분류 항목 c1에 속함
- 만약 P(c1|x,y)<P(c2|x,y)이면, 분류 항목 c2에 속함
    
## 4.4 나이브 베이스로 문서 분류하기
### 나이브 베이스에 대한 일반적인 접근 방법
1. 수집: 많은 방법이 있으나 이번 장에서는 RSS 자료를 사용
2. 준비: 명목형 또는 부울 형(Boolean)값이 요구됨
3. 분석: 많은 속성들을 플롯하는 것은 도움이 되지 못함. 히스토그램으로 보는 것이 가장 좋음
4. 훈련: 각 속성을 독립적으로 조건부 확률을 계산함
5. 검사: 오류율을 계산함
6. 사용: 어떤 분류를 설정하는 데 있어 나이브 베이스를 사용할 수 있음
    <br>나이브 베이스의 일반적인 응용 프로그램 중 하나는 문서 분류이나 꼭 텍스트 분류만 가능한 것은 아님
          
## 4.5 파이썬으로 텍스트 분류하기
1. 텍스트 목록을 숫자 벡터로 변환하는 방법과 이 벡터로부터 조건부 확률을 구하는 방법을 살펴봄
2. 파이썬으로 나이브 베이스를 수행하기 위한 분류기를 생성
3. 몇가지 실질적인 고려사항을 살펴봄

### 4.5.1 준비: 텍스트로 단어 벡터 만들기

In [15]:
#bayes.py

# function loadDataSet: 예제 데이터 생성
# output: postingList, classVec
def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', \
                  'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', \
                  'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', \
                  'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how',\
                  'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1] #1: 폭력적인, 0: 폭력적이지 않음
    return postingList,classVec


# function createVocabList: 유일한 단어 목록 생성
# input: dataSet 
# output: list(vocabSet) 
def createVocabList(dataSet):
    vocabSet = set([]) #비어있는 집합 생성
    for document in dataSet:
        vocabSet = vocabSet|set(document) #두 개의 집합 통합 생성
    return list(vocabSet)


# function setOfWords2Vec: 주어진 문서 내에 어휘 목록에 있는 단어가 존재하는지 아닌지를 확인
# input: vocabList, inputSet
# output: returnVec
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList) #vocabList와 같은 길이의 모두 0인 벡터 생성
    for word in inputSet:
        if word in vocabList: #vocabList내에 있다면
            returnVec[vocabList.index(word)] = 1 
        else: #vocabList내에 없다면
            print ("the word: %s is not in my Vocabulary!" % word)
    return returnVec

In [16]:
# loadDataSet 확인
print("loadDataSet example:\n")
listOPosts,listClasses = loadDataSet()
print("listOPosts = %s" %listOPosts)
print("\nlistClasses = %s" %listClasses)

loadDataSet example:

listOPosts = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'], ['stop', 'posting', 'stupid', 'worthless', 'garbage'], ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'], ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

listClasses = [0, 1, 0, 1, 0, 1]


In [17]:
# createVocabList 확인
myVocabList = createVocabList(listOPosts)
print ("createVocabList example:")
print (myVocabList)

# setOfWord2Vect 확인
print("\nsetOfWords2Vec example:")
print (setOfWords2Vec(myVocabList, listOPosts[0]))
print (setOfWords2Vec(myVocabList, listOPosts[3]))

createVocabList example:
['mr', 'I', 'to', 'posting', 'ate', 'my', 'stupid', 'worthless', 'not', 'garbage', 'park', 'take', 'please', 'buying', 'steak', 'him', 'love', 'dalmation', 'is', 'stop', 'has', 'quit', 'cute', 'how', 'flea', 'help', 'so', 'dog', 'food', 'licks', 'problems', 'maybe']

setOfWords2Vec example:
[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0]
[0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


### 4.5.2 훈련: 단어 벡터로 확률 계산하기
p(ci|<b>w</b>)=p(<b>w</b>|ci)p(ci)/p(<b>w</b>)
<br>p(ci) :단어가 얼마나 많이 발생했는가를 가지고 구할 수 있음 즉 i번째 분류 항목을 확인한 다음 전체 문서의 수로 나눔
<br>p(<b>w</b>|ci) = p(w0,w1,w2...wN|ci)  :이 때 모든 단어들이 독립적이라고 가정하며 이를 <b>조건부 독립</b>
이라고 함
따라서 이에 대한 확률은 p(w0|ci)p(w1|ci)p(w2|ci)...p(wN|ci)로 계산할 수 있음

In [18]:
import numpy as np

# function trainNB0: 나이브 베이스 분류기 훈련
# input: trainMatrix, trainCategory
# output: p0Vect, p1Vect, pAbusive
def trainNB0(trainMatrix, trainCategory):
    # 각 분류 항목(trainCategory)에 대한 문서(trainMatrix)의 개수 세기
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    p0Num = np.zeros(numWords); p1Num = np.zeros(numWords)
    p0Denom=0.0; p1Denom=0.0

    # 훈련을 위한 모든 문서의 개수(numTrainDocs)만큼 반복
    for i in range(numTrainDocs):
        # 분류 항목 개수만큼 반복
        if trainCategory[i]==1:
            # 해당 토큰이 문서 내에 있다면 해당 토큰에 대한 개수를 증가
            p1Num += (trainMatrix[i])
            p1Denom += sum(trainMatrix[i])
        # 분류 항목 개수만큼 반복
        else:
            p0Num += (trainMatrix[i])
            p0Denom += sum(trainMatrix[i])

    #조건부 확률을 구하기 위해 해당 토큰의 개수를 토큰 전체의 수로 나눔
    p1Vect = p1Num/p1Denom
    # 토큰의 개수만큼 반복
    p0Vect = p0Num/p0Denom

    # 각 분류 항목에 대한 조건부 확률을 반환함
    return p0Vect, p1Vect, pAbusive

In [19]:
# trainNB0 확인

trainMat = []
for postinDoc in listOPosts:
    trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
print ("trainMat:%s" %trainMat)

# trainNB0 example
p0V, p1V, pAb = trainNB0(trainMat, listClasses)
print ("\ntrainNB0 example:")
print (p0V)
print (p1V)
print (pAb)

trainMat:[[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0], [0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1], [0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0], [0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0], [0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0]]

trainNB0 example:
[ 0.04166667  0.04166667  0.04166667  0.          0.04166667  0.125       0.
  0.          0.          0.          0.          0.          0.04166667
  0.          0.04166667  0.08333333  0.04166667  0.04166667  0.04166667
  0.04166667  0.04166667  0.          0.04166667  0.04166667  0.04166667
  0.04166667  0.04166667  0.04166667  0.          0.04166667  0.04166667
  0.        ]


### 4.5.3 검사: 실제 조건을 반영하기 위해 분류기 수정하기

In [20]:
from numpy import *
# trainNB0 function
# input
#  - trainMatrix: Training data set
#  - trainCategory: Class labels
# output
#  - p0Vect: 분류 항목 0일 확률
#  - p1Vect: 분류 항목 1일 확률
#  - pAbusive: 폭력적일 확률
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    # initialize probabilities
    pAbusive = sum(trainCategory) / float(numTrainDocs)
    p0Num = ones(numWords); p1Num = ones(numWords)
    p0Denom = 2.0; p1Denom = 2.0
    for i in range(numTrainDocs):
        # Vector addition
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    # Element-wise division
    p1Vect = log(p1Num / p1Denom)  # change to log()
    p0Vect = log(p0Num / p0Denom)  # change to log()
    return p0Vect, p1Vect, pAbusive

In [21]:
# trainNB0 확인

trainMat = []
for postinDoc in listOPosts:
    trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
print ("trainMat:%s" %trainMat)

# trainNB0 example
p0V, p1V, pAb = trainNB0(trainMat, listClasses)
print ("\ntrainNB0 example:")
print (p0V)
print (p1V)
print (pAb)

trainMat:[[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0], [0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1], [0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0], [0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0], [0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0]]

trainNB0 example:
[-2.56494936 -2.56494936 -2.56494936 -3.25809654 -2.56494936 -1.87180218
 -3.25809654 -3.25809654 -3.25809654 -3.25809654 -3.25809654 -3.25809654
 -2.56494936 -3.25809654 -2.56494936 -2.15948425 -2.56494936 -2.56494936
 -2.56494936 -2.56494936 -2.56494936 -3.25809654 -2.56494936 -2.56494936
 -2.56494936 -2.56494936 -2.56494936 -2.56494936 -3.25809654 -2.56494936
 -2.56494936 -3.25

In [27]:
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec)+log(pClass1)
    p0 = sum(vec2Classify * p0Vec)+log(1.0 - pClass1)
    if p1>p0:
        return 1
    else:
        return 0

def testingNB():
    listOPosts, listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat = []
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V, p1V, pAb = trainNB0(array(trainMat), array(listClasses))
    testEntry = ['love','my','dalmation']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as:', classifyNB(thisDoc, p0V, p1V, pAb))
    testEntry = ['stupid','garbage']
    thisDoc = array(setOfWords2Vec(myVocabList,testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))

In [28]:
testingNB()

['love', 'my', 'dalmation'] classified as: 0
['stupid', 'garbage'] classified as:  1


### 4.5.4 준비: 중복 단어 문서 모델

In [29]:
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

In [31]:
vec = bagOfWords2VecMN(myVocabList, listOPosts[0])
print (vec)

[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0]


## 4.6 예제: 스팸 이메일 분류하기
1. 수집: 제공된 텍스트 파일
2. 준비: 토큰 벡터로 텍스트 구문 분석
3. 분석: 구문 분석이 정확하게 되었는지 토큰 검토
4. 훈련: 이전에 생성했던 trainNB0() 사용
5. 검사: classifyNB()를 사용하고 문서 집합에서 오류율을 계산하는 새로운 검사 함수를 생성한다.
6. 사용: 완전한 프로그램을 구축하여 문서들을 분류하고 화면에 잘못 분류된 문서들을 출력한다.

### 4.6.1 준비: 텍스트 토큰 만들기

In [36]:
#텍스트 분할하기
mySent = 'This book is the best book on Python or M.L. I have ever laid eyes upon.'
listOfTokens = mySent.split()
print (listOfTokens)

# 모두 소문자로 변환
listOfTokens = [tok.lower() for tok in listOfTokens if len(tok) > 0]
print (listOfTokens)

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'Python', 'or', 'M.L.', 'I', 'have', 'ever', 'laid', 'eyes', 'upon.']
['this', 'book', 'is', 'the', 'best', 'book', 'on', 'python', 'or', 'm.l.', 'i', 'have', 'ever', 'laid', 'eyes', 'upon.']


### 4.6.2 검사: 나이브 베이스로 교차 검증하기

In [6]:
#-*- coding: utf-8 -*-
def textParse(bigString):
    import re
    listOfTokens = re.split(r'\W*', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

def spamTest():
    docList=[]; classList=[]; fullText=[]
    for i in range(1, 26):
        wordList = textParse(open('data/email/spam/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(open('data/email/ham/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)
    trainingSet = range(50); testSet = []
    for i in range(10):
        randIndex = int(random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    trainMat = []; trainClasses = []
    for docIndex in trainingSet:
        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V, p1V, pSpam = trainNB0(array(trainMat), array(trainClasses))
    errorCount = 0
    for docIndex in testSet:
        wordVector = setOfWords2Vec(vocabList, docList[docIndex])
        if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
    print ('the error rate is: %s' %float(errorCount)/len(testSet))

In [1]:
spamTest()

NameError: name 'spamTest' is not defined

## 4.7 예제: 나이브 베이스를 사용하여 개인 광고에 포함된 지역 특색 도출하기
1. 수집: RSS 피드로부터 수집. RSS 피드의 인터페이스 구축
2. 준비: 토큰 벡터로 텍스트 구문 분석
3. 분석: 구문 분석이 확실하게 되었는지 토큰을 검사
4. 훈련: 이전에 생성한 trainNB0()를 사용
5. 검사: 실질적으로 동작하는지 확인하기 위해 오류율을 확인. 오류율과 결과를 개선하기 위해 토큰화를 수정할 수 있음.
6. 사용: 모든 상황을 함께 다루는 완전한 프로그램을 구축함. 두 가지 RSS 피드에서 얻은 가장 일반적인 단어를 표현함

### 4.7.1 수집: RSS 피드 불러오기

In [52]:
def calcMostFreq(vocabList,fullText):
    import operator
    freqDict = {}
    for token in vocabList:
        freqDict[token]=fullText.count(token)
    sortedFreq = sorted(freqDict.iteritems(), key=operator.itemgetter(1),reverse=True)
    return sortedFreq[:30]

def localWords(feed1,feed0):
    import feedparser
    docList=[]; classList = []; fullText =[]
    minLen = min(len(feed1['entries']),len(feed0['entries']))
    for i in range(minLen):
        wordList = textParse(feed1['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(feed0['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)
    top30Words = calcMostFreq(vocabList,fullText)
    for pairW in top30Words:
        if pairW[0] in vocabList: vocabList.remove(pairW[0])
    trainingSet = range(2*minLen); testSet=[]
    for i in range(20):
        randIndex = int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    trainMat=[]; trainClasses = []
    for docIndex in trainingSet:
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V,p1V,pSpam = trainNB0(array(trainMat),array(trainClasses))
    errorCount = 0
    for docIndex in testSet:
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(array(wordVector),p0V,p1V,pSpam) != \
            classList[docIndex]:
            errorCount += 1
    print ('the error rate is: %s' %float(errorCount)/len(testSet))
    return vocabList,p0V,p1V

### 4.7.2 분석: 지역적으로 사용되는 단어 표현하기

In [4]:
def getTopWords(ny, sf):
    import operator
    vocabList, p0V, p1V = localWords(ny, sf)
    topNY=[]; topSF=[]
    for i in range(len(p0V)):
        if p0V[i] > -6.0 : topSF.append((vocabList[i],p0V[i]))
        if p1V[i] > -6.0 : topNY.append((vocabList[i],p1V[i]))
    sortedSF = sorted(topSF, key=lambda pair: pair[1], reverse=True)
    print ("SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**")
    for item in sortedSF:
        print (item[0])
    sortedNY = sorted(topNY, key=lambda pair: pair[1], reverse=True)
    print ("NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY **")
    for item in sortedNY:
        print (item[0])
    

In [5]:
import feedparser
ny = feedparser.parse('http://newyork.craigslist.org/stp/index.rss')
sf = feedparser.parse('http://sfbay.craigslist.org/stp/index.rss')
getTopWords(ny,sf)

NameError: name 'localWords' is not defined