#### 학습 목표

+ 분류를 위해 확률 분포 사용하기

+ 나이브 베이스 분류기 학습하기

+ RSS 피드에서 제공되는 데이터 구문 분석하기

+ 지역적인 태도를 알아보기 위해 나이브 베이스 사용하기



1. 많은 머신러닝 알고리즘은 확률 이론에 기반을 두고 있다. 주어진 값이 나타나는 속성에 대한 확률을 계산할 때, 3장에서 다루었던 부분을 확률로 다루어볼 것이다. 

2. 간단한 확률적 분류기를 가지고 시작하여, 약간의 가정을 세우고 나이브 베이즈 분류기를 학습한다. "나이브"라고 하는 것은 이 공식이 몇 가지 나이브한 가정을 이야기 함

3. 문서를 단어 벡터로 분할하기 위해 파이썬이 가진 텍스트 처리의 장점을 가능한 최대로 활용할 것이다.
즉, 파이썬을 텍스트 분류에 사용할 것이다. 또 다른 분류기를 구축하고 이것이 실제 스펨 이메일 데이터 집합에서 어떻게 사용되는지 확인할 것 이다.

4. 조건부확률

## 4.1 베이지안 의사결정 이론으로 분류하기

> ** _ 나이브 베이즈 _**

>**장점** : 소량의 데이터를 가지고 작업이 이루어지며, 여러 개의 분류 항목을 다룰 수 있다.
>
>**단점** : 입력 데이터를 어떻게 준비하느냐에 따라 민감하게 작용한다.
>
>**적용** : 명목형 값

데이터 분류 항목에 통계적 매개변수를 찾았다고 해 보자. 우리는 분류 항목 1에 속하는 데이터의 확률 방정식 (원): $p1(x,y)$ 와 분류 항목 2에 속하는 데이터 확률 방정식(세모) $p2(x,y)$가 있다. 속성 (x, y)를 가지고 새로운 측정으로 분류하기 위해서 다음과 같은 규칙을 사용한다. 

만약에 $p1(x,y)$ > $p2(x,y)$이면, 분류 항목 1에 속한다.

만약에 $p2(x,y)$ > $p1(x,y)$이면, 분류 항목 1에 속한다.

간단하게 말하면, **더 높은 확률을 가지는 분류 항목을 선택한다.** 베이즈 정리 이론은 더 높은 확률을 가지는 의사결정을 선택하는 것이다.
그림 4.1에 있는 데이터로 돌아가보자. 만약에 우리가 소수점 여섯 자리의 수로 데이터를 표현할 수 있고, 확률을 계산하는 코드가 파이썬에서 2줄 표현이 가능하다면, 우리에게 이보다 더 좋은 일이 있을까?

1. 1장에 있는 kNN을 사용하여 1,000개의 거리 계산을 수행

2. 2장에 있는 의사결정 트리를 사용하여, x축을 따르는 데이터인지 y축을 따르는 데이터인지 분할한다.

3. 각 분류 항목의 확률을 계산하고 이들을 비교한다.

의사결정 트리는 매우 성공적이지 못하며, kNN은 간단한 확률 계산을 비교하는 많은 계산이 요구된다. 이러한 문제를 감안할 떄 가장 좋은 선택은 곧 다루게 될 확률적인 비교이다.

## 4.2 조건부 확률

$$
p(c_i|x,y) = \frac{p(x,y|c_i)p(c_i)}{p(x,y)}
$$

## 4.3 조건부 확률 분류하기

$$
p(c_1|x,y) > p(c_2|x,y), 분류 항목 c_1에 속함
$$

$$
p(c_2|x,y) > p(c_1|x,y), 분류 항목 c_2에 속함
$$

## 4.4 나이브 베이즈로 문서 분류하기

> ** _ 나이브 베이즈에 대한 일반적인 접근 방법 _**

>**수집** : 많은 방법이 있다. 이번 장에서는 RSS 자료를 사용할 것이다.
>
>**준비** : 명목형 또는 부울 형(Boolean) 값이 요구된다.
>
>**분석** : 많은 속성들을 플롯하는 것은 도움이 되지 못한다.히스토그램으로 보는 것이 가장 좋다.
>
>**훈련** : 각 속성을 독립적으로 조건부 확률을 계산한다.
>
>**검사** : 오분류율을 계산한다.
>
>**사용** : 나이브 베이스의 일반적인 응용 프로그램 중 하나는 문서 분류이다. 어떤 분류를 설정하는 데 있어 나이브 베이스를 사용할 수 있다. 그것이 꼭 텍스트일 필요는 없다.

## 4.5 파이썬으로 텍스트 분류하기

### 4.5.1 준비 : 텍스로 단어 벡터 만들기

#### [리스팅 4.1] 벡터 함수의 단어 목록

In [1]:
import numpy as np

def loadDataSet():
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0, 1, 0, 1, 0, 1]    #1 is abusive, 0 not
    return postingList, classVec


def createVocabList(dataSet):
    vocabSet = set([])  #create empty set
    for document in dataSet:
        vocabSet = vocabSet | set(document) #union of the two sets
    return list(vocabSet)


def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else: print("the word: %s is not in my Vocabulary!" % word)
    return returnVec

In [2]:
listOPosts, listClasses = loadDataSet()

In [5]:
listOPosts

[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

In [250]:
def createVocabList(dataSet):
    vocabSet = set([]) # 비어있는 집합 생성
    for document in dataSet: 
        vocabSet = vocabSet | set(document) # loop 돌면서 unique value를 vocabSet에 저장!
    return list(vocabSet)

In [6]:
# 중복된 단어가 없음을 확인!!
mVocabList = createVocabList(listOPosts)
mVocabList

['cute',
 'quit',
 'him',
 'ate',
 'buying',
 'dog',
 'how',
 'licks',
 'posting',
 'help',
 'stupid',
 'to',
 'flea',
 'problems',
 'so',
 'mr',
 'has',
 'dalmation',
 'love',
 'please',
 'maybe',
 'park',
 'I',
 'garbage',
 'worthless',
 'is',
 'steak',
 'my',
 'food',
 'stop',
 'not',
 'take']

$ \ $이 목록을 검토해 보면 중복된 단어가 없다는 것을 알 수 있다. 이 목록은 정렬되지 않았지만, 혹시라도 정렬을 원하면 해도 상관없다.

In [7]:
setOfWords2Vec(list(mVocabList), listOPosts[0])

[0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 1,
 1,
 0,
 0,
 1,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0]

In [8]:
setOfWords2Vec(mVocabList, listOPosts[3])

[0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 1,
 0,
 0,
 0,
 0,
 1,
 0,
 0]

$ \ $ 이 함수는 각 단어의 속성을 확인하고 생성하고자 할 때 어휘 목록 또는 모든 단어의 목록을 구한다. 이제 주어진 문서를 적용하면, 문서는 단위 벡터로 변환됨

### 4.5.2 훈련 : 단어 벡터로 확률 계산

### 4.5.3 검사: 실제 조건을 반영하기 위해 분류기 수정하기

$$
p(c_i|w) =  \frac{p(w|c_i)p(c_i)}{p(w)}
$$

$$
c_i : 분류 항목(i = 1 폭력) or (i = 0 : 비폭력)
$$

$$
w : 어휘집에 있는 단어들처럼 많은 값
$$



$ \ $ 단어가 얼마나 많이 발생하는지를 가지고 $p(c_i)$를 계산할 수 있음. 즉 i번째 분류 항목(폭력적인 글인지 아니면 폭력적이지 않은 글인지)을 확인한 다음 이를 전체 문서의 수로 나눔.

**$1.$** 나이브 가정

$$
p(w|c_i) = p(w_1,w_2,w_3,...,w_N|c_i)
$$

**$2.$** 모든 단어들이 서로 독립적이라고 가정하면 이를 조건부 독립으로 하여 다음과 같이 펼쳐 쉽게 계산가능


$$
p(w|c_i) = p(w_1|c_i)p(w_2|c_i)p(w_3|c_i)...p(w_N|c_i)
$$

**$3.$** Laplace Smoothing/ Log 변환 [문제점 해결]

    1. 입력 벡터에 학습 벡터가 제시되지 않은 요소가 존재하면 조건부 확률은 항상 0으로 계산

        '첫번째 문제'를 해결 하기 위해 단어의 개수(분자)를 모두 1로 초기화하고, 분모는 2로 초기화한다.

$$
p(w_k|c_i) = \frac{1 + count(w_k,c_i)}{2 + \sum count(w_k,c_i)}
$$

    2. 입력 벡터를 구성하는 요소가 많으면, 조건부 확률 값이 너무 작아져서 값의 비교가 어려운 underflow 현상 발생

        '두번째 문제'를 해결 하기 위해 log변환 이용함

$$
log(p(w_1|c_i)) + log(p(w_2|c_i)) + log(p(w_3|c_i)) + ... + log(p(w_n|c_i))
$$


#### [리스팅 4.2] 나이브 베이즈 분류기 train 함수

In [9]:
from numpy import *

# [1] : 인자 2개!
def trainNB0(trainMatrix, trainCategory): 
    numTrainDocs = len(trainMatrix) # 문서 갯수 : 6
    numWords = len(trainMatrix[0]) # 문서 1에 해당하는 list 길이 : 32
    pAbusive = sum(trainCategory)/float(numTrainDocs) # 3/6 = 0.5

# [2] 확률 초기화!
    # 단어 벡터를 1로 초기화
    p0Num = np.ones(numWords) 
    p1Num = np.ones(numWords)
    # 분모를 2로 초기화
    p0Denom = 2.0 
    p1Denom = 2.0 
    
# [3] "분류[1,0]에 따라서 단어가 나올 확률" 벡터 추가하는 과정    
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i]) # 2 + 7 + 8 + 9 
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
            
    p1Vect = np.log(p1Num/p1Denom)          # log(p1Num / 21)
    p0Vect = np.log(p0Num/p0Denom)          # log(p1Num / 26)
    return p0Vect, p1Vect, pAbusive

#### [1] : 문서 행렬인  [trainMatrix]와 각 문서에 대한 분류 항목이 저장된 벡터인 [trainCategory]를 인자로 받음

#### [2] : 폭력적인 문서(분류 항목의 값이 1인 문서)의 확률을 계산하는 것

> $ \ $ 이 계산을 확률로 표현하면, 분류 항목이 두 개이기 때문에 $p(1)$ 이 된다. 그리고 $p(0)$는 $1-p(1)$으로 구할 수 있다. 분류 항목이 두 개 이상인 경우에는 이 부분을 조금 수정해야 한다.

> 1. $p(w_i|c_1)$ 과 $p(w_i|c_0)$을 계산하기 위해서 분자와 분모를 초기화.
>
>  $ \ $ 많은 $w$을 가지고 있으므로 빠르게 계산하기 위해 Numpy의 배열을 사용. 분자는 Numpy 배열로 표현되며, 배열의 크기는 마치 어휘집 내에 가지고 있는 단어들처럼 원소의 개수와 같다. 반복문에서는  trainMatrix나 훈련 집합에 있는 모든 문서를 반복한다. 반복을 할 때마다 하나의 단어는 하나의 문서 내에 나타나게 되며, 이때마다 단어의 개수(**p1Num** or **p0Num**)는 증가하게 된다.

#### [3] : "분류[1,0]에 따라서 단어가 나올 확률" 벡터 추가하는 과정

In [10]:
listOpsts, listClasses = loadDataSet()

In [11]:
listOpsts

[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

In [12]:
listClasses

[0, 1, 0, 1, 0, 1]

In [13]:
# 이전에 불러왔던 값을 데이터로 불러옴
myVocabList = createVocabList(listOpsts)

In [14]:
# myVocabList에 있는 단어들을 가자ㅣ고 하나의 리스트를 생성하게 된다.
trainMat = []
for postinDoc in listOpsts: 
    trainMat.append(setOfWords2Vec(myVocabList, postinDoc))

 여기서 for 반복문은 tarinMat 리스트를 단어 벡터로 채운다. 이제 폭력적인 단어가 있는 문서의 확률과 두 개의 확률 벡터를 구해 보도록 하자.

In [15]:
p0V, p1V, pAb = trainNB0(trainMat, listClasses) 

$p(c_1)$ : 폭력적인 단어가 있는 문서의 확률

In [139]:
pAb

0.5

p0V

In [16]:
# 폭력적인 단어가 있는 문서일때, 각 단어가 가지는 우도를 나타냄
p1V

array([-3.04452244, -2.35137526, -2.35137526, -3.04452244, -2.35137526,
       -1.94591015, -3.04452244, -3.04452244, -2.35137526, -3.04452244,
       -1.65822808, -2.35137526, -3.04452244, -3.04452244, -3.04452244,
       -3.04452244, -3.04452244, -3.04452244, -3.04452244, -3.04452244,
       -2.35137526, -2.35137526, -3.04452244, -2.35137526, -1.94591015,
       -3.04452244, -3.04452244, -3.04452244, -2.35137526, -2.35137526,
       -2.35137526, -2.35137526])

In [17]:
# 폭력적인 단어 없는 문서일때, 각 단어가 가지는 우도를 나타냄
p0V

array([-2.56494936, -3.25809654, -2.15948425, -2.56494936, -3.25809654,
       -2.56494936, -2.56494936, -2.56494936, -3.25809654, -2.56494936,
       -3.25809654, -2.56494936, -2.56494936, -2.56494936, -2.56494936,
       -2.56494936, -2.56494936, -2.56494936, -2.56494936, -2.56494936,
       -3.25809654, -3.25809654, -2.56494936, -3.25809654, -3.25809654,
       -2.56494936, -2.56494936, -1.87180218, -3.25809654, -2.56494936,
       -3.25809654, -3.25809654])

**이제 분류기 전체를 구축하도록 준비**
#### [리스팅 4.3] 나이브 베이즈 분류 함수

In [18]:
# 네 개의 입력 변수를 받음
# vec2Classify : 분류를 위한 벡터
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)    #element-wise mult
    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0

def testingNB():
    listOPosts, listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat = []
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V, p1V, pAb = trainNB0(np.array(trainMat), np.array(listClasses))
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))
    testEntry = ['stupid', 'garbage']
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))

In [19]:
testingNB()

['love', 'my', 'dalmation'] classified as:  0
['stupid', 'garbage'] classified as:  1


### 4.5.4 준비: 중복 단어 문서 모델

 $ \ $ 앞서 `setOfWords2Vec()`는 하나의 문서에 2개 이상의 중복된 단어가 있어도 무조건 1으로만 나타냄, 이는 불합리함. 이를 해결하기 위해서 `bagOfWords2VecMN()` 라는 함수를 사용 -> 단어 벡터를 1로 설정한 것보다 단어 벡터가 증가함

In [28]:
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

## 4.6 예제 : 스팸 이메일 분류하기 

#### $ \ $ 앞선 예제는 list로 정형화된 데이터를 가지고 했지만, 실생활 문제에서 나이브 베이스를 사용하기 위해서는 문서 전체를 스트링 리스트로 변환할 수 있어야 한다.

예제 :
1. 수집: 제공된 텍스트 파일
2. 준비: 토큰 벡터로 텍스트 구문 분석
3. 분석: 구문 분석이 정확하게 되었는지 토큰 검토
4. 훈련: 이전에 생성했던 trainNB0()사용
5. 검사: classifyNB()를 사용하고 문서 집합에서 오류율을 계산하는 새로운 검사 함수를 생성한다.
6. 사용: 완전한 프로그램을 구축하여 문서들을 분류하고 화면에 잘못 분류된 문서들을 출력한다.

### 4.6.1 준비: 텍스트 토큰 만들기

In [31]:
mySent = 'This book is the best book on Python or M.L. I have ever laid eyes upon'
mySent.split()

###문제점 : 구두점이 단어의 일부로 간주됨..

['This',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'Python',
 'or',
 'M.L.',
 'I',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon']

**위의 문제점을 해결하기 위해 `re`라는 라이브러리를 활용해 효과적인 분할**

In [36]:
import re
regEx = re.compile('\WW*')
listOfTokens = regEx.split(mySent)
listOfTokens

['This',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'Python',
 'or',
 'M',
 'L',
 '',
 'I',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon']

그러나 제거해야 할 약간의 빈 문자열을 가지고 있으므로, 우리는 각 스트링의 길이를 구할 수 있고, 길이가 0보다 큰 아이템만을 반환할 수 있다.

In [37]:
[tok for tok in listOfTokens if len(tok) > 0]

['This',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'Python',
 'or',
 'M',
 'L',
 'I',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon']

### 4.6.2 검사 : 나이브 베이즈로 교차 검증하기

#### [리스팅4.5] : 파일 구문 분석과 전체 스팸 검사 함수

In [55]:
def textParse(bigString):    #input is big string, #output is word list
    import re
    listOfTokens = re.split(r'\W+', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

def spamTest():
    docList = []; classList = []; fullText = []
    for i in range(1, 26):
        wordList = textParse(open('email/spam/%d.txt' % i, encoding="ISO-8859-1").read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(open('email/ham/%d.txt' % i, encoding="ISO-8859-1").read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)#create vocabulary
    trainingSet = range(50); testSet = []           #create test set
    for i in range(10):
        randIndex = int(np.random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(list(trainingSet)[randIndex])
    trainMat = []; trainClasses = []
    for docIndex in trainingSet:#train the classifier (get probs) trainNB0
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))
    errorCount = 0
    for docIndex in testSet:        #classify the remaining items
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
            print("classification error", docList[docIndex])
    print('the error rate is: ', float(errorCount)/len(testSet))
    #return vocabList, fullText

In [56]:
spamTest()

the error rate is:  0.0
