# Naive Bayes

이번 시간에는 naive bayes classifier에 대해 실습을 해 봅시다.

## 목차

1. <a href="#Classifying-with-Bayesian-decision-theory">Classifying with Bayesian decision theory</a>
2. <a href="#Conditional-Probability">Conditional Probability</a>
3. <a href="#Document-classification-with-Naive-Bayes">Document classification with Naive Bayes</a>
4. <a href="#예제-:-스팸-메일-분류기">예제 : 스팸 메일 분류기</a>
5. <a href="#예제-:-개인-광고로부터-지역별-핵심-단어를-추출하기">예제 : 개인 광고로부터 지역 별 핵심 단어를 추출하기</a>
6. <a href="#실습-:-과학-분야별-뉴스-비교하기">실습 : 과학 분야별 뉴스 비교하기</a>

## Classifying with Bayesian decision theory

<img src="./img/4_1.png">

위와 같은 2d 데이터셋을 bayesian 방법으로 분류해 봅시다.

파란색 class를 class 1, 빨간색 class를 class 2라고 합시다.

이 때, 파란색 점들과 빨간색 점들이 각각 어떤 확률분포로부터 나왔는지, 그 parameter를 어떻게든 알고 있다고 가정합니다.

즉, 현재 우리는 class 1 과 class 2의 분포에 관한 통계치(평균, 공분산 등)를 알고 있습니다.

한 점 (x, y)에 대해서 (x, y)가 class 1과 class 2에 속할 확률을 각각 p1(x, y), p2(x, y)라고 하면, 다음과 같이 분류할 수 있습니다.

<b>p1(x, y) > p2(x, y)이면 (x, y)는 class 1에 속한다.</b>

<b>p2(x, y) > p1(x, y)이면 (x, y)는 class 2에 속한다.</b>

(x, y)가 속하는 class는 (x, y)가 속할 확률이 더 큰 class라는 겁니다. 이것이 bayesian 방법을 이용한 분류의 핵심입니다.

여기서,

p1(x, y)는 $ p(c_1 | x, y) $, p2(x, y)는 $ p(c_2 | x, y) $ 와 같이 쓰일 수 있습니다. 

이를 풀어서 써보면, "x와 y가 주어졌을 때, (x, y)가 class 1/class 2에 속할 확률" 이 되기 때문입니다.

그렇다면 어떻게 $ p(c_1 | x, y) $, $ p(c_2 | x, y) $를 계산할 수 있을까요?

## Conditional Probability

조건부확률에 대해서 간단히 복습해봅시다.

\begin{equation*}
p(c|x) = \frac{p(x|c)p(c)}{p(x)}
\end{equation*}

입니다.

확장하면

\begin{equation*}
p(c_i|x, y) = \frac{p(x, y|c_i)p(c_i)}{p(x, y)}
\end{equation*}

도 성립합니다.

아, 이제 $ p(c_i|x, y) $를 직접 구하지 않고도 우변의 세 확률을 계산하면 $ p(c_i|x, y) $를 구할 수 있겠군요!

각각의 항의 의미를 풀어서 써보면 다음과 같습니다.

$ p(x, y|c_i) $ : "class i 내에서 임의의 점을 골랐을 때 (x, y)가 선택될 확률" (= class i의 확률분포)

$ p(c_i) $ : "임의의 점을 골랐을 때 class i의 점이 선택될 확률" (= 전체 class에서 class i가 차지하는 비율)

$ p(x, y) $ : "임의의 점을 골랐을 때 (x, y)가 선택될 확률"

## Document classification with Naive Bayes

자동 문서 분류는 머신 러닝에서 다루는 중요한 분야 중 하나입니다.

문서 분류에서는 하나의 문서가 하나의 데이터가 되며, 문서 내의 요소들(단어, 문장 등)이 feature가 됩니다.

즉, <b>어떤 단어의 존재 유무(0/1)를 벡터로 표현</b>하게 되면 그것을 해당 문서를 나타내는 feature로 생각할 수 있게 되는 것입니다.

### Naive Bayes Classifier

Naive Bayes Classifier는 문서 분류에서 자주 사용되는 알고리즘입니다.

아까 단어의 존재 유무 벡터가 feature가 된다고 했는데, 그렇다면 그 벡터의 크기는 얼마가 되어야 할까요?

영어에서 사용되는 단어의 총 개수(단어장)는 약 500,000개라고 합니다. 

그러니까 50만개의 원소를 갖는 벡터가 하나의 데이터를 나타내는 feature가 되는 것입니다.

이 벡터들을 가지고 학습을 시키면 실제 세계의 문서들을 잘 분류할 수 있겠군요! 하지만 여기서는 간단한 단어장만을 다루겠습니다.

단어장의 크기가 1000 이라고 합시다. 이를 가지고 좋은 확률분포를 만들어 내려면 충분한 데이터가 필요합니다.

통계적으로, 하나의 feature에 대해 $ N $개의 데이터로 좋은 확률분포를 만들어내기에 충분하다면 10개의 feature에 대해서는 $ N^{10} $개, 1000개의 feature에 대해서는 $ N^{1000} $개의 데이터가 필요하다고 합니다.

즉 만약 단어장의 크기가 1000이고, $ N = 10 $이라고 생각하면 $ 10^{1000} $개의 데이터가 필요하다는 것입니다.

하지만 Naive Bayes에서는 feature들간의 독립을 가정합니다. 이렇게 하면 $ N^{1000} $개의 데이터가 필요하던 것이 $ 1000N $으로 줄어들게 된다고 합니다.

feature들간의 독립을 가정한다는 것이 무슨 의미일까요? 문서 분류에서는 feature가 특정 단어의 존재 유무라고 했지요? 이들이 서로 독립이라는 것은, 이를테면 <i>bacon</i>이라는 단어가 <i>unhealthy</i>와 같이 등장할 확률과 <i>delicious</i>와 같이 등장할 확률이 같다는 의미입니다.

하지만 <i>bacon</i>은 <i>delicious</i>와 같이 등장할 확률이 <i>unhealthy</i>와 같이 등장할 확률보다 높으므로(?) feature간의 독립성을 가정하는 것은 말 그대로 naive한 가정일 뿐입니다. 그래서 Naive Bayes인 것이죠.



간단한 테스트 데이터셋을 만들어 봅시다. 공격적인 댓글과, 그렇지 않은 댓글을 분류해봅시다.

악성 댓글을 필터링하는데 사용될 수 있겠죠?

In [1]:
def loadDataSet():
    # example message postings
    messages = ['my dog has flea problems help please', # non abusive - 0
                       'maybe not take him to dog park stupid', # abusive - 1
                       'my dalmation is so cute I love him',   # non abusive - 0
                       'stop posting stupid worthless garbage',  # abusive - 1
                       'mr licks ate my steak how to stop him', # non abusive - 0
                       'quit buying worthless dog food stupid'] # abusive - 1
    # split each message by space
    tokenizedMessages = [message.split() for message in messages]
    
    classVec = [0, 1, 0, 1, 0, 1] # 1 is abusive, 0 not
    
    return tokenizedMessages, classVec

이 데이터셋으로부터 단어장을 만드는 함수 <b>createVocabList()</b>를 작성합니다.

In [2]:
def createVocabList(dataSet):
    vocabSet = set([]) # empty set
    
    for document in dataSet:
        vocabSet = vocabSet | set(document) # iteratively enlarge vocabulary set
        
    return list(vocabSet)

이제 단어의 list를 받아서, 우리의 단어장에 있는 단어이면 1, 없는 단어이면 0으로 해당 원소를 세팅한 벡터를 반환하는 함수 <b>setOfWords2Vec()</b>을 작성합니다.

ex) 단어장 ['I', 'like', 'you', 'hate', 'dog', 'cat'] 일 때,

input ['I', 'like', 'dog'] 이면, [1, 1, 0, 0, 1, 0] 반환

input ['I', 'hate', 'you'] 이면, [1, 0, 1, 1, 0, 0] 반환

In [3]:
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)
    # for each word in input set,
    for word in inputSet:
        # if the word is in my vocabulary list, make corresponding element of the vector 1
        # else print warning message
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word '%s' is not in my Vocabulary!" % word)
    
    return returnVec

In [4]:
# 데이터셋을 로드합니다.
myMessages, myClasses = loadDataSet()

print(myMessages)
print(myClasses)

[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'], ['stop', 'posting', 'stupid', 'worthless', 'garbage'], ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'], ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
[0, 1, 0, 1, 0, 1]


In [5]:
# 단어장을 만들고,
myVocabList = createVocabList(myMessages)

print(myVocabList)

['dalmation', 'stop', 'quit', 'I', 'so', 'mr', 'not', 'worthless', 'take', 'flea', 'is', 'please', 'garbage', 'cute', 'love', 'steak', 'my', 'licks', 'park', 'has', 'him', 'posting', 'ate', 'food', 'stupid', 'how', 'buying', 'maybe', 'dog', 'help', 'problems', 'to']


In [6]:
# 단어의 list가 feature vector로 잘 표현되는지 확인합니다.
print(setOfWords2Vec(myVocabList, myMessages[0])) # my dog has flea problems help please
print()
print(setOfWords2Vec(myVocabList, myMessages[1])) # maybe not take him to dog park stupid

[0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0]

[0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1]


### Naive Bayes trainer

\begin{equation*}
p(c_i|x, y) = \frac{p(x, y|c_i)p(c_i)}{p(x, y)}
\end{equation*}

위의 식을 다시 봅시다. 우리가 지금 다루는 데이터는 (x, y)의 2차원 벡터가 아니라 단어장 크기만큼의 N차원 벡터입니다.

이 벡터를 $ \mathbf{w} $라고 표현합시다. 위 식을 다시 쓰면

\begin{equation*}
p(c_i|\mathbf{w}) = \frac{p(\mathbf{w}|c_i)p(c_i)}{p(\mathbf{w})}
\end{equation*}

이 됩니다.

우리의 Naive Bayes trainer 함수 <b>trainNB0()</b>는 우변의 항들을 계산해줄 겁니다.

$ {p(\mathbf{w})} $ 는 $ p(c_0|\mathbf{w}) $을 계산할때도, $ p(c_1|\mathbf{w}) $을 계산할때도 똑같을 것이므로 신경쓰지 않아도 됩니다.

$ p(c_i) $는 training set에서 class i의 개수를 전체 데이터의 개수로 나누어 구할 수 있습니다.

문제는 $ p(\mathbf{w}|c_i) $인데요, class i 내에서 단어벡터 $ \mathbf{w} $가 나타날 확률은 어떻게 구할 수 있을까요?

아까 feature의 원소 간의 독립을 가정했지요? 따라서 $ p(\mathbf{w}|c_i) = p(w_0|c_i) * p(w_1|c_i) * p(w_2|c_i) * .... * p(w_n|c_i) $가 됩니다!

즉 class 별로 각각의 단어가 나타날 확률을 계산해두면 되겠네요!

In [7]:
import numpy as np

# the first version of Naive Bayes trainer
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix) # total # of docs(sentences)
    numWords = len(trainMatrix[0]) # total # of words in my vocabulary list
    
    pAbusive = sum(trainCategory) / float(numTrainDocs) # (= p(c1)). Note that p(c0) = 1 - p(c1) since we only have two classes
    # Numerator (클래스 별로 각각의 단어가 나타나면 1 증가시킵니다)
    p0Num = np.zeros(numWords)
    p1Num = np.zeros(numWords)
    # Denominator (클래스 별로 단어의 총 개수)
    p0Denom = 0.0
    p1Denom = 0.0
    
    for i in range(numTrainDocs):
        # if the data belongs to class 1 (abusive)
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += np.sum(trainMatrix[i]) # add total count of words
        # if the data belongs to class 0 (non abusive)
        else:
            p0Num += trainMatrix[i]
            p0Denom += np.sum(trainMatrix[i]) # add total count of words
            
    # p1Vect = [p(w_0|c1), p(w_1|c1), ...., p(w_n|c1)]
    # p0Vect = [p(w_0|c0), p(w_1|c0), ...., p(w_n|c0)]
    p1Vect = p1Num / p1Denom
    p0Vect = p0Num / p0Denom
    
    return p0Vect, p1Vect, pAbusive

테스트 해봅시다.

In [8]:
myMessages, myClasses = loadDataSet()
myVocabList = createVocabList(myMessages)

myTrainMat = [setOfWords2Vec(myVocabList, message) for message in myMessages]

p0V, p1V, pAb = trainNB0(myTrainMat, myClasses)

# p0V : class 0에서 각각의 단어가 나타날 확률
# p1V : class 1에서 각각의 단어가 나타날 확률
# pAb : class 1(Abusive)의 비율

print("%-15s%-15s%-15s" % ("word", "non abusive", "abusive"))
for word, class0probability, class1probability in zip(myVocabList, p0V, p1V):
    print("%-15s%-15.2f%-15.2f" % (word, class0probability, class1probability))

word           non abusive    abusive        
dalmation      0.04           0.00           
stop           0.04           0.05           
quit           0.00           0.05           
I              0.04           0.00           
so             0.04           0.00           
mr             0.04           0.00           
not            0.00           0.05           
worthless      0.00           0.11           
take           0.00           0.05           
flea           0.04           0.00           
is             0.04           0.00           
please         0.04           0.00           
garbage        0.00           0.05           
cute           0.04           0.00           
love           0.04           0.00           
steak          0.04           0.00           
my             0.12           0.00           
licks          0.04           0.00           
park           0.00           0.05           
has            0.04           0.00           
him            0.08           0.05

그런데 우리의 <b>trainNB0()</b>함수에는 심각한 문제가 있습니다. 만약 $ p(\mathbf{w}|c_i) = p(w_0|c_i) * p(w_1|c_i) * p(w_2|c_i) * .... * p(w_n|c_i) $ 이 값을 계산하는데, 중간의 어느 한 값 $ p(w_k|c_i) $가 0이라면 $ p(\mathbf{w}|c_i) $ 값이 0이 되어버립니다! 

이것을 막기 위해, 클래스 별로 단어의 개수를 저장하는 p0Num과 p1Num 리스트를 1로 초기화시키고, 클래스 별 총 단어 개수인 p0Denom과 p1Denom을 2로 초기화시킵시다.

또한, 단어의 종류가 많아지면, 특정 단어가 나타나는 빈도가 작아지기 때문에, 이렇게 작은 확률들을 곱하다보면 floating point 계산의 한계로 underflow 오류가 발생하게 됩니다. 즉, 실제 확률 값보다 작은 값을 반환하는 것이죠. 

이것을 막기 위해, 확률들을 곱하지 말고 log(확률)들을 더하는 방식으로 계산하도록 합시다.

새로운 Naive Bayes trainer <b>trainNB1()</b>함수를 작성합시다.

In [9]:
def trainNB1(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    
    pAbusive = sum(trainCategory) / float(numTrainDocs)
    # Numerator
    p0Num = np.ones(numWords) # zeros -> ones
    p1Num = np.ones(numWords)
    # Denominator
    p0Denom = 2.0 # 0.0 -> 2.0
    p1Denom = 2.0
    
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += np.sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += np.sum(trainMatrix[i])
    p1Vect = np.log(p1Num / p1Denom) # added np.log()
    p0Vect = np.log(p0Num / p0Denom)
    
    return p0Vect, p1Vect, pAbusive

이를 바탕으로 classify하는 <b>classifyNB()</b> 함수와, 테스트를 위한 <b>testingNB()</b>함수를 작성합시다.

In [10]:
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)
    
    if p1 > p0:
        return 1
    else:
        return 0

def testingNB():
    messages, classes = loadDataSet()
    vocabList = createVocabList(messages)
    
    trainMat =  [setOfWords2Vec(vocabList, message) for message in messages]
    
    p0V, p1V, pAb = trainNB1(np.array(trainMat), np.array(classes))
    
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = np.array(setOfWords2Vec(vocabList, testEntry))
    
    print(testEntry, "classified as : ", classifyNB(thisDoc, p0V, p1V, pAb))
    
    testEntry = ['stupid', 'garbage']
    thisDoc = np.array(setOfWords2Vec(vocabList, testEntry))
    
    print(testEntry, "classified as : ", classifyNB(thisDoc, p0V, p1V, pAb))

In [11]:
testingNB()

['love', 'my', 'dalmation'] classified as :  0
['stupid', 'garbage'] classified as :  1


위에서는 <b>setOfWords2Vec()</b>함수를 이용하여 단어의 존재 유무를 feature vector로 나타냈지만, 다른 방법도 존재합니다.

<b>bagOfWords2Vec()</b> 함수는 각각의 단어가 출현한 횟수를 세어서 벡터로 반환해줍니다.

In [12]:
def bagOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

## Tokenizing Text

실제 세계의 문서들을 다루기 전에 이 문서들을 각각의 단어로 쪼개는 tokenizing 방법을 알아봅시다.

In [13]:
mySentence = "This book is the best book on Python or M.L. I have ever laid eyes upon."

print(mySentence.split())

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'Python', 'or', 'M.L.', 'I', 'have', 'ever', 'laid', 'eyes', 'upon.']


단어들로 잘 쪼개졌지만, 온점이 단어에 포함된 것을 확인할 수 있습니다. (upon.)

regular expression을 사용하여, 알파벳이나 숫자가 아닌 것들("\\\W")을 기준으로 문장을 쪼개면 해결됩니다.

In [14]:
import re
regEx = re.compile("\\W")
tokens = regEx.split(mySentence)

print(tokens)

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'Python', 'or', 'M', 'L', '', 'I', 'have', 'ever', 'laid', 'eyes', 'upon', '']


마지막에 아무것도 없는 단어가 있군요! 이런 녀석들을 제거하기 위해, 길이가 0보다 큰 단어들만 취합시다.

In [15]:
print([token for token in tokens if len(token) > 0])

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'Python', 'or', 'M', 'L', 'I', 'have', 'ever', 'laid', 'eyes', 'upon']


단어장의 일관성을 위해, 모든 단어를 소문자로 바꿔줍시다.

In [16]:
print([token.lower() for token in tokens if len(token) > 0])

['this', 'book', 'is', 'the', 'best', 'book', 'on', 'python', 'or', 'm', 'l', 'i', 'have', 'ever', 'laid', 'eyes', 'upon']


길이가 너무 짧은 단어들은 도움이 안 될 가능성이 큽니다. 길이가 2보다 큰 단어들만 취하는게 좋겠군요.

<b>textParse()</b>함수를 만들어 봅시다.

In [17]:
def textParse(bigString):
    import re
    tokens = re.split(r'\W', bigString)
    return [tok.lower() for tok in tokens if len(tok) > 2]

## 예제 : 스팸 메일 분류기

이제 스팸 메일 분류기를 만들어 봅시다.

<a href="./datasets/email.zip">데이터셋 다운로드</a>

이 데이터셋은 스팸 메일과 스팸 메일이 아닌 메일(ham) 25개씩을 포함하고 있습니다.

이 중 랜덤하게 10개를 골라 test set으로 활용하여 cross-validation test를 해봅시다.

In [18]:
def spamTest(verbose=False):
    docList, classList, fullText, = [], [], []
    # ham & spam have 25 mails each (1~25)
    for i in range(1, 26):
        # spam
        wordList = textParse(open("./datasets/email/spam/%d.txt" % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        # non-spam
        wordList = textParse(open("./datasets/email/ham/%d.txt" % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    
    # create vocab list
    vocabList = createVocabList(docList)
    trainingSet = list(range(50))
    testSet = []
    
    # sample 10 for test set
    for i in range(10):
        randIndex = int(np.random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    
    trainMat, trainClasses = [], []
    
    # train naive bayes classifier
    for docIndex in trainingSet:
        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V, p1V, pSpam = trainNB1(np.array(trainMat), np.array(trainClasses))
    
    # compute error rate
    errorCount = 0
    for docIndex in testSet:
        wordVector = setOfWords2Vec(vocabList, docList[docIndex])
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
    if verbose:
        print("the error rate is ", float(errorCount)/len(testSet))
    
    return float(errorCount)/len(testSet)

In [19]:
spamTest(verbose=True)

the error rate is  0.1


0.1

한 번으로는 충분하지 않습니다. 10번 정도 반복하여 error rate의 평균을 확인해봅시다.

In [20]:
errors = [spamTest() for _ in range(10)]

print(errors)
print(np.mean(errors))

[0.0, 0.0, 0.1, 0.0, 0.2, 0.0, 0.0, 0.0, 0.1, 0.1]
0.05


## 예제 : 개인 광고로부터 지역별 핵심 단어를 추출하기

이번 예제는 재밌습니다. 

지금까지 우리는 악성 댓글과 스팸 메일을 분류해내는 데 Naive Bayes classifier를 활용했습니다.

Naive Bayes classifier는 그 활용 가능성이 무궁무진합니다.

예를 들어, 어떤 사람은 자신이 좋아했던 혹은 좋아하지 않았던 여성들의 SNS 프로필을 학습시켜서 처음 보는 사람의 프로필만 가지고 그 사람을 자신이 좋아할지 안 좋아할지 예측하게 해 보기도 했다고 합니다.

이번 예제에서는 미국의 두 도시 뉴욕과 샌프란시스코의 개인 광고를 비교해볼 것입니다.

<a href="http://www.craigslist.org">Craigslist</a>는 간단하게 말해서 온라인 벼룩시장 같은 느낌의 사이트입니다. 개인이 게시판에 짤막한 광고를 올리는 형태이죠.

우리는 이 사이트에 올라온 글들을 RSS(Rich Site Summary) feed의 형태로 받아 와서 parsing할 것입니다. 이를 위해 python library인 feedparser가 필요합니다.

설치는 pip install feedparser를 치고 성공하기를 기도하면 됩니다. 만약 안 된다면 구글링을 해서 소스 파일을 받아 직접 설치하세요!

가장 먼저 feedparser를 import 하고,

In [21]:
import feedparser

뉴욕의 craigslist 광고를 받아옵니다. /stp/는 strictly platonic으로, 다른 게시판에는 좀 선정적인 광고들도 올라오기 때문에 이 게시판을 사용합시다.

In [22]:
ny = feedparser.parse("http://newyork.craigslist.org/stp/index.rss")

첫 번째 entry를 확인해봅시다. Dictionary 형태로 parsing된 것을 확인할 수 있습니다. 주목해야 할 부분은 'summary' 입니다.

In [23]:
ny['entries'][0]

{'dc_source': 'http://newyork.craigslist.org/mnh/stp/5689915740.html',
 'dc_type': 'text',
 'enc_enclosure': {'resource': 'http://images.craigslist.org/00i0i_dXxb8aaeioN_300x300.jpg',
  'type': 'image/jpeg'},
 'id': 'http://newyork.craigslist.org/mnh/stp/5689915740.html',
 'language': 'en-us',
 'link': 'http://newyork.craigslist.org/mnh/stp/5689915740.html',
 'links': [{'href': 'http://newyork.craigslist.org/mnh/stp/5689915740.html',
   'rel': 'alternate',
   'type': 'text/html'}],
 'published': '2016-07-19T02:00:00-04:00',
 'published_parsed': time.struct_time(tm_year=2016, tm_mon=7, tm_mday=19, tm_hour=6, tm_min=0, tm_sec=0, tm_wday=1, tm_yday=201, tm_isdst=0),
 'rights': 'copyright 2016 craiglist',
 'rights_detail': {'base': 'http://newyork.craigslist.org/search/stp?format=rss',
  'language': None,
  'type': 'text/plain',
  'value': 'copyright 2016 craiglist'},
 'summary': 'Hello! \nI am a writer and a poet (a male), and I am seeking an older woman who can act as an ally to me in my

뉴욕과 샌프란시스코의 광고를 비교해보기 전에, 간단한 helper function을 작성합시다. 

<b>calcMostFreq(vocabList, fullText)</b>는 vocabList에 있는 단어들 중 fullText에 가장 많이 나타나는 30개의 단어를 반환합니다.

In [24]:
def calcMostFreq(vocabList, fullText):
    import operator
    freqDict = {}
    for token in vocabList:
        freqDict[token] = fullText.count(token)
    sortedFreq = sorted(freqDict.items(), key=operator.itemgetter(1), reverse=True)
    return sortedFreq[:30]

기본적으로는 스팸 메일 분류기와 비슷합니다. 그러나 가장 많이 나타나는 30개의 단어를 vocabList에서 삭제한 뒤에 분류를 합니다. 그 이유는 무엇일까요?

In [25]:
def localWords(feed1, feed0):
    import feedparser
    docList, classList, fullText = [], [], []
    minLen = min(len(feed1['entries']), len(feed0['entries']))
    for i in range(minLen):
        wordList = textParse(feed1['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        
        wordList = textParse(feed0['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    
    ### remove top 30 frequent words from vocabList
    vocabList = createVocabList(docList)
    top30Words = calcMostFreq(vocabList, fullText)
    
    for pairW in top30Words:
        if pairW[0] in vocabList:
            vocabList.remove(pairW[0])
    
    trainingSet = list(range(2 * minLen))
    testSet = []
    # choose 20 for test set
    for i in range(20):
        randIndex = int(np.random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    
    # train our classifier
    trainMat, trainClasses = [], []
    for docIndex in trainingSet:
        trainMat.append(bagOfWords2Vec(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    
    p0V, p1V, pSpam = trainNB1(np.array(trainMat), np.array(trainClasses))
    
    # test
    errorCount = 0
    for docIndex in testSet:
        wordVector = bagOfWords2Vec(vocabList, docList[docIndex])
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
    
    print("the error rate is: ", float(errorCount) / len(testSet))
    return vocabList, p0V, p1V

In [26]:
ny = feedparser.parse("http://newyork.craigslist.org/stp/index.rss")
sf = feedparser.parse("http://sfbay.craigslist.org/stp/index.rss")

In [27]:
vocabList, pSF, pNY = localWords(ny, sf)

the error rate is:  0.35


우리의 원래 목적은 두 도시의 광고를 분류하는 것이 아니라 그냥 비교해보는 것이었습니다.

어떤 단어가 그 지역의 핵심 단어인지, 다시 말해 어떤 단어가 "도시가 주어졌을 때, 그 단어가 나타날 확률이 높은($ p(word | city) $)"지 알아봅시다.

$ p(word | city) $ 의 값들은 로그가 씌워진 형태로 p0V, p1V에 저장되어 있었죠. 이를 활용하면 됩니다.

log(probability) 값이 -5.0보다 큰 단어들만 각각 골라내서 출력해봅시다.

In [28]:
def getTopWords(ny, sf):
    import operator
    vocabList, p0V, p1V = localWords(ny, sf)
    topNY, topSF = [], []
    
    # select words if log(probability) > -5.0
    for i in range(len(p0V)):
        if p0V[i] > -6.0:
            topSF.append((vocabList[i], p0V[i]))
        if p1V[i] > -6.0:
            topNY.append((vocabList[i], p1V[i]))
            
    sortedSF = sorted(topSF, key=lambda pair: pair[1], reverse=True) # descending
    print("===========SF============")
    for item in sortedSF:
        print(item[0])
        
    sortedNY = sorted(topNY, key=lambda pair: pair[1], reverse=True)
    print("===========NY============")
    for item in sortedNY:
        print(item[0])

In [29]:
getTopWords(ny, sf)

the error rate is:  0.25
ladies
please
area
some
they
more
jose
matter
send
sure
san
lady
here
fit
cool
been
looks
black
really
free
says
decent
older
smoke
conversation
friendship
super
night
strictly
race
about
picture
than
there
need
never
platonic
chill
female
work
ask
coffee
well
any
when
sweet
able
provide
doing
old
happy
gal
has
how
working
man
anime
netflix
obey
platonically
single
wished
post
move
going
fall
play
already
bitch
before
accepted
enjoy
lunch
cuddle
stress
sometimes
dinner
bay
meeting
preferably
everyone
sarcastic
kick
intimate
slightly
care
round
enough
moving
interests
partner
love
feel
bigoted
where
listen
while
invited
own
year
lounges
grad
somewhat
mix
hotty
person
likely
angeles
topics
ethnicity
semester
many
smart
drinks
searching
know
cute
lives
loooking
nothing
email
420
smell
girlfriend
comes
educated
pics
likes
owl
trying
casual
probably
friend
aren
state
male
open
talk
first
starts
definitely
school
pet
watch
back
find
dry
always
speaking
shave
posting


## 실습 : 과학 분야별 뉴스 비교하기

재미있는 실습을 준비했습니다. 과학 분야별 뉴스를 비교해서 그 분야의 핵심 단어를 추출해낼 수 있을까요?

아래의 표는 어떤 두 주제에 대해서 상위 25개의 단어를 추출해본 것입니다. 각각 어떤 주제인지 아시겠나요?

<img src="./img/4_2.png"></img>

### sciencedaily.com

https://www.sciencedaily.com/newsfeeds.htm

위 사이트에서 다양한 주제의 과학 분야 뉴스에 대한 rss feed를 얻을 수 있습니다.

예를 들어, colon cancer에 대한 feed를 얻기 위해서는 colon cancer를 찾아 클릭한 뒤 그 주소를 <b>feedparser.parse()</b>의 인자로 넘겨주면 됩니다.

colonCancer = feedparser.parse("https://rss.sciencedaily.com/health_medicine/colon_cancer.xml")

이렇게요.

### Stop words

위의 샌프란시스코와 뉴욕의 결과를 보면, can, than, very... 등의 자주 사용되는 단어가 꽤나 많이 출력되는 것을 확인할 수 있습니다.

이 단어들은 우리의 분석에 아무런 도움이 안 되죠. 이런 단어들을 stop word라고 합니다.

<a href="./datasets/stopwords.txt">Stop word들을 모아 놓은 데이터</a>가 있습니다.

### 실습

제공된 stopwords.txt를 이용하여 stop word를 고려하지 않도록 우리의 문서 분류기를 수정합시다.

또한, 이 문서 분류기를 이용하여 sciencedaily.com에서 자신이 흥미 있는 두 주제를 선택하여 각각의 핵심 단어를 추출해보세요!