# 중간과제: 텍스트마이닝을 통한 정서분류

## 1. 과제개요
* 정서: 사람의 마음에 일어나는 여러 가지 감정. 또는 감정을 불러일으키는 기분이나 분위기.
* 특정 주제에 대해 웹 상에 있는 의견을 모아 긍정(Positive) 혹은 부정(Negative)로 분류한다.
* 제출데이터는 데이터, 보고서(가설, 연구방법, 결론), 실행프로그램으로 구성한다.
* 데이터는 웹에서 300개의 문장을 수집하며, Training, Test로 나누어 진행한다.

## 2. 텍스트마이닝을 통한 정서분류 개요
* 주제: 서울 지하철에 대한 외국인의 정서
* 가설: 서울 지하철에 대한 외국인의 정서를 긍정 or 부정으로 분류할 수 있다.

## 3. 연구방법

### 3-1. 데이터 마이닝
* Training Set을 확보하기 위해 트립어드바이저 리뷰에서 데이터 마이닝을 수동으로 하였다.
* 트립어드바이저( https://www.tripadvisor.co.kr/Attraction_Review-g294197-d2194168-Reviews-Seoul_Metro-Seoul.html )
* '아주좋음', '좋음' 평점을 준 리뷰에서 Positive 문장 150개를 긁어 MetroPositiveTraining 텍스트 파일로 저장하였다.
* '보통', '별로', '최악' 평점을 준 리뷰에서 Negative 문장 150개를 긁어 MetroNegativeTraining 텍스트 파일로 저장하였다.
* Test Set은 트위터에서 서울 지하철에 대한 의견을 검색하여 긍정 10개, 부정 10개, 총 20개 문장을 MetroTestSet 텍스트 파일로 저장하였다.

### 3-2. 나이브 베이즈 (NaiveBayesian)
* 정서분류를 하기 위해 나이브 베이즈 기법을 사용하였다.
* Machine Learning in Action 책에 나온 나이브 베이즈 함수를 수정하여 사용하였다.

In [11]:
# directory setup
import os
myhome=os.path.expanduser('~')
mywd=os.path.join(myhome,'Desktop/S_ParkMinJi/src/')
mytxt=os.path.join(myhome,'Desktop/S_ParkMinJi/doc/')
print myhome, mywd, mytxt

C:\Users\MinJi C:\Users\MinJi\Desktop/S_ParkMinJi/src/ C:\Users\MinJi\Desktop/S_ParkMinJi/doc/


In [12]:
%cd {mywd}

C:\Users\MinJi\Desktop\S_ParkMinJi\src


#### 서울지하철에 대한 관광객들의 Positive, Negative의견 단어 벡터 생성

In [13]:
from numpy import *

"""
textParse
input: bigString
output: word list
"""
# 문자열 리스트로 텍스트를 구문 분석, 문자의 길이가 두 개 이하인 단어는 탈락, 모든 문자를 소문자로 변환
def textParse(bigString):
    import re
    listOfTokens = re.split(r'\W*', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

"""
loadDataSet
output: postingList, classVec
"""
def loadDataSet():
    postingList = [];
    # MetroPositiveTraining 파일을 줄 단위로 읽은 후, textParse를 거쳐 postingList에 저장한다.
    with open('data/metro/MetroPositiveTraining.txt') as mPosTrain:
        for i, line in enumerate(mPosTrain):
            postingList.append(textParse(line))
    classVec = list(zeros(150))    #0: Positive     
    # MetroNegativeTraining 파일을 줄 단위로 읽은 후, textParse를 거쳐 postingList에 추가한다.    
    with open('data/metro/MetroNegativeTraining.txt') as mNegTrain:
        for i, line in enumerate(mNegTrain):
            postingList.append(textParse(line))           
    classVec.extend(ones(150))    #1: Negative
    return postingList, classVec

"""
createVocabList
input: dataSet
output: list(vocabSet)
"""
# 모든 문서에 있는 유일한 단어 목록을 생성
def createVocabList(dataSet):
    vocabSet = set([])  #create empty set
    for document in dataSet:
        vocabSet = vocabSet | set(document) #union of the two sets - or
    return list(vocabSet)

"""
createVocabList
input: vocabList, inputSet
output: returnVec
"""
#주어진 문서 내에 어휘 목록에 있는 단어가 존재하는지 아닌지를 표현 - 어휘 목록, 문서, 1과 0의 출력 데이터 사용
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList) #어휘 목록과 같은 길이의 벡터를 생성하고 모두 0으로 채움
    for word in inputSet: #문서 내에 있는 단어를 하나하나 비교
        if word in vocabList: #해당 단어가 어휘 목록에 있다면
            returnVec[vocabList.index(word)] = 1 #출력 벡터에 있는 해당 단어의 값을 1로 설정
        else: print "the word: %s is not in my Vocabulary!" % word
    return returnVec

# listPosts, listClasses = loadDataSet()
# print listPosts, listClasses
# myVocabList = createVocabList(listPosts)
# print myVocabList
# print listPosts[0]
# print setOfWords2Vec(myVocabList, listPosts[0])
# print listPosts[1]
# print setOfWords2Vec(myVocabList, listPosts[1])

#### 나이브 베이즈 분류기 훈련 함수

In [14]:
"""
trainNB0
input: trainMatrix,trainCategory
output: p0Vect,p1Vect,pAbusive
"""
def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    p0Num = ones(numWords); p1Num = ones(numWords)      #change to ones() 
    p0Denom = 2.0; p1Denom = 2.0                        #change to 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = log(p1Num/p1Denom)          #change to log()
    p0Vect = log(p0Num/p0Denom)          #change to log()
    return p0Vect,p1Vect,pAbusive

# listPosts, listClasses = loadDataSet()
# myVocabList = createVocabList(listPosts)

# trainMat = []
# for postinDoc in listPosts:
#     trainMat.append(setOfWords2Vec(myVocabList, postinDoc))

# p0V,p1V,pAb=trainNB0(trainMat, listClasses)
# print pAb
# print p0V
# print p1V

#### 나이브 베이즈 분류 함수 및 테스트 함수

In [15]:
"""
classifyNB
input: vec2Classify, p0Vec, p1Vec, pClass1
output: 0(positive) or 1(negative)
"""
# 0(positive) 또는 1(negative)로 분류
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)    #element-wise mult
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else: 
        return 0

"""
testingNB
input: text
output: classifyNB(thisDoc,p0V,p1V,pAb)
"""    
# 문자열 리스트를 받아 나이즈 베이즈 분류를 한 결과를 출력한다.
def testingNB(text):
    listPosts,listClasses = loadDataSet()
    myVocabList = createVocabList(listPosts)
    trainMat=[]
    for postinDoc in listPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))

    testEntry = textParse(text)
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print testEntry,'classified as: ', classifyNB(thisDoc,p0V,p1V,pAb)
    return classifyNB(thisDoc,p0V,p1V,pAb)

# training data 중 임의로 네 가지를 골라 테스트 해보았음
testingNB('Not convenient at all.')
testingNB('The underground stations are not staff and there is someone on the information kiosk.')
testingNB('Easy, accessible, great running times, regular, clean, English signage, safe, modern.')
testingNB('Always on time and clean.')

['not', 'convenient', 'all'] classified as:  1
['the', 'underground', 'stations', 'are', 'not', 'staff', 'and', 'there', 'someone', 'the', 'information', 'kiosk'] classified as:  1
['easy', 'accessible', 'great', 'running', 'times', 'regular', 'clean', 'english', 'signage', 'safe', 'modern'] classified as:  0
['always', 'time', 'and', 'clean'] classified as:  0


0

#### 나이브 베이즈 분류 테스트

In [16]:
"""
testData
output: errorCount/testCount
"""
# testSet을 불러와 분류기를 실행시킨 후, 분류 결과와 기존 분류 결과를 비교하여 일치하지 않았을 경우 errorCount를 함
# errorCount를 testCount(총 분류 시도 횟수)로 나누어 최종 에러율을 구함
def testData():
    testList = []; testClass = []; testCount = 0
    with open('data/metro/MetroTestSet.txt') as mTest:
        for i, line in enumerate(mTest):
            currLine = line.strip().split('\t')
            testClass.extend(currLine[0])
            testList.append(currLine[1])
            testCount += 1         
    errorCount = 0.0
    for i in range(0, testCount):
        if testingNB(testList[i]) != int(testClass[i]):
            errorCount += 1
        print 'origin class: ', int(testClass[i]), '  classified as: ', testingNB(testList[i])
    print 'the error rate is:', errorCount/testCount

In [10]:
import sentiment
sentiment.testData()

origin class:  0   classified as:  0
origin class:  0   classified as:  0
origin class:  0   classified as:  0
origin class:  0   classified as:  0
origin class:  0   classified as:  0
origin class:  0   classified as:  0
origin class:  0   classified as:  0
origin class:  0   classified as:  0
origin class:  0   classified as:  0
origin class:  0   classified as:  0
origin class:  1   classified as:  1
origin class:  1   classified as:  1
origin class:  1   classified as:  1
origin class:  1   classified as:  1
origin class:  1   classified as:  0
origin class:  1   classified as:  1
origin class:  1   classified as:  1
origin class:  1   classified as:  1
origin class:  1   classified as:  0
origin class:  1   classified as:  1
the error rate is: 0.1


## 4. 결론
* 분류기의 오차율은 10%로, 가설에 대해 정확도는 90%임을 알 수 있었다.
* Training 데이터로 사용된 트립어드바이저는 불편함에 대해 직접 언급하는 방면, Test 데이터인 트위터에는 비꼼, 이모티콘 등이 많이 사용되었다.
* Training에 긍정, 부정으로 사용된 단어가 다양하였으므로 Training 데이터의 영향이 많이 줄었으나, 여전히 나이브 베이즈를 사용하기 위한 문장을 도출하는데 어려움이 있으며 Training 데이터에 영향을 많이 받는다는 단점이 있다.

## 5. Reference
* https://ko.wikipedia.org/wiki/%EB%82%98%EC%9D%B4%EB%B8%8C_%EB%B2%A0%EC%9D%B4%EC%A6%88_%EB%B6%84%EB%A5%98
* http://www.opendataminer.com/sub/tutorial/naive.asp