### 텍스트마이닝으로 정서분류
#### 정서란? 
- 사람의 마음에 일어나는 여러 가지 감정 또는 감정을 불러일으키는 기분이나 분위기

#### 한국문화, 한류 등의 주제로 긍정 or 부정 등의 정서 분류 하기

- 연구가설 : 한국 사람들의 한류에 대한 생각이 긍정적 일 것이다.
- 연구방법 : 네이버 블로그, 다음 블로그 내용 크롤링 해서 긍정, 부정 분류
- 결론 : 한국 사람들의 한류에 대한 생각이 89% 정도가 긍정적이다. (300개 중 267개)

#### 분류하기
- NaiveBayesian으로 분류하기
- SVM(LIBSVM)으로 분류하기


### 1. 데이터 수집 : RSS 이용
- 네이버 블로그, 다음 블로그 중심으로
- 키워드 : 한류, 반한류, 혐한류
- 키워드로 검색후 나온 페이지의 rss 주소를 urls_rss.txt 에 저장 (210개의 rss 주소 수집)

In [39]:
#! /usr/bin/python2.7
# -*- coding: utf-8 -*-
import feedparser
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

def spider():
    
    with open('python_week10/urls_rss.txt') as input_file:
        
        count = 0
        keyword = '한류'
        
        for i, line in enumerate(input_file):

            url_info = line.split('\t')
            url = url_info[0]
            rss = feedparser.parse(url)

            for post in rss.entries:
                final_text = ""
                final_text = post.description
                if(keyword in final_text):
                    count = count + 1
                    file_name = ("python_week10/doc_rss/%s.txt" % count)
                    out = open(file_name, 'w')
                    #print(final_text)
                    print >> out, final_text
                    out.close()
                    
spider()

### 2. 데이터 분류 : 수작업
- 수집된 300개의 데이터를 내용을 보고 긍정, 부정으로 분류
- 긍정은 doc_rss>p 폴더, 부정은 doc_rss>n 폴더

### 3. 자연어처리 (NLP)
- NLP는 대표적인 한글 파이썬 NLP인 konlpy 이용
- 분류된 텍스트를 NLP를 이용해 명사, 동사, 형용사 위주로 분리
- 텍스트 분리후 doc_nlp.txt 에 한꺼번에 저장 (긍정은 1, 부정은 0 으로 태깅. 267개:33개)

In [111]:
#! /usr/bin/python2.7
# -*- coding: utf-8 -*-
import konlpy
import nltk
import os.path
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

def nlp():
    
    # Define a chunk grammar, or chunking rules, then chunk
    grammar = """
    NNG: {<NNG.*>*}   # Noun phrase
    NNP: {<NNP.*>*}   # Noun phrase
    NP: {<NP.*>*}     # Noun phrase
    VV: {<VV.*>*}     # Verb phrase
    VA: {<VA.*>*}     # Adjective phrase
    """

    # 초기화
    file_name = "python_week10/doc_rss/doc_nlp.txt"
    open(file_name, 'w').close()
    
    for no in range(1, 301):
    
        txt_file = 'python_week10/doc_rss/p/%s.txt' % no
        if(os.path.isfile(txt_file)):
            pn_type = '1'
        else:
            txt_file = 'python_week10/doc_rss/n/%s.txt' % no
            pn_type = '0'

        with open(txt_file) as input_file:

            sentence = ""
            for i, line in enumerate(input_file):
                sentence = sentence + ' ' + line

            words = konlpy.tag.Kkma().pos(sentence)

            #print(words)
            parser = nltk.RegexpParser(grammar)
            chunks = parser.parse(words)

            #word_arr = set([])
            word_arr = pn_type + "\t"
            for subtree in chunks.subtrees():
                if subtree.label()=='NNG' or subtree.label()=='NNP' or subtree.label()=='NP' or subtree.label()=='VV' or subtree.label()=='VA':
                    for sub in subtree:
                        try:
                            #word_arr = word_arr | set([sub.__getitem__(0)])
                            word_arr = word_arr + sub.__getitem__(0) + ' '
                        except UnicodeEncodeError:
                            pass

            out = open(file_name, 'a')
            #print(unicode(word_arr))
            print >> out, word_arr
            out.close()
        
nlp()

### 4. 베이지안
#### 4.1 단어 벡터 만들기
- train set
- test set

In [17]:
#! /usr/bin/python2.7
# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')


def loadDataSet():
    postingList = []
    classVec = []
    
    with open('python_week10/doc_rss/doc_nlp.txt') as input_file:
        
        for i, line in enumerate(input_file):

            info = line.split('\t')
            pos_neg = info[0]
            text = info[1]
            
            postingList.append(text.split())
            classVec.append(int(pos_neg))
            
    return postingList,classVec
                 
def createVocabList(dataSet):
    vocabSet = set([])  #create empty set
    for document in dataSet:
        vocabSet = vocabSet | set(document) #union of the two sets
    return list(vocabSet)

def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else: print "the word: %s is not in my Vocabulary!" % word
    return returnVec



# listOPosts, listClasses = loadDataSet()
# myVocabList = createVocabList(listOPosts)
# print unicode(myVocabList[0])
# #print setOfWords2Vec(myVocabList, listOPosts[0])


#### 4.2 훈련 : 단어 벡터로 확률 계산


In [18]:
#! /usr/bin/python2.7
# -*- coding: utf-8 -*-
from numpy import *
import sys
reload(sys)
sys.setdefaultencoding('utf-8')


def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) #+ log(pClass1)    #element-wise mult
    p0 = sum(vec2Classify * p0Vec) #+ log(1.0 - pClass1)
    
    print('p1: %s, p0: %s' % (p1, p0))
    
    if p1 > p0:
        return u'긍정'
    else: 
        return u'부정'
    
    
def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
        
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    p0Num = zeros(numWords); p1Num = zeros(numWords)      #change to ones() 
    p0Denom = 0.0; p1Denom = 0.0                        #change to 2.0
#     p0Num = ones(numWords); p1Num = ones(numWords)      #change to ones() 
#     p0Denom = 2.0; p1Denom = 2.0                        #change to 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
#     p1Vect = log(p1Num/p1Denom)          #change to log()
#     p0Vect = log(p0Num/p0Denom)          #change to log()
    p1Vect = p1Num/p1Denom          #change to log()
    p0Vect = p0Num/p0Denom          #change to log()
    return p0Vect,p1Vect,pAbusive


#### 4.3. 최종 분류하기

In [6]:
#! /usr/bin/python2.7
# -*- coding: utf-8 -*-
import feedparser
import konlpy
import nltk
from numpy import *
# import sys
# reload(sys)
# sys.setdefaultencoding('utf-8')


def testingNB():
    listOPosts,listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    
    trainMat=[]
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
        
    p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))
        
#     print pAb
#     print p0V
#     print p1V    
    
    
    # Define a chunk grammar, or chunking rules, then chunk
    grammar = """
    NNG: {<NNG.*>*}   # Noun phrase
    NNP: {<NNP.*>*}   # Noun phrase
    NP: {<NP.*>*}     # Noun phrase
    VV: {<VV.*>*}     # Verb phrase
    VA: {<VA.*>*}     # Adjective phrase
    """
    
    
    # 테스트할 문장
    
    ## 긍정
    rss = feedparser.parse('http://blog.rss.naver.com/myth2030.xml')
    ## 부정
#     rss = feedparser.parse('http://blog.rss.naver.com/golf798kang5.xml')

    for post in rss.entries:
        final_text = ""
        final_text = post.description
        
        if('한류' in final_text):
            sentence = unicode(final_text)
#             sentence = u"방 중국 어제 보 중국인 무감각 표정 맛 멋 없 언행 나 이번 방 미사일 초토화되 중국 미소 지켜보 태양 후예 드라마 황 치열 가수 어떠 사람 말하 한류 중국 동남아 공산권 회교권 강타 이유 감성 차 하 맞 말 보 공산주의 유물론 젖 영혼 물질 팔아먹 중국 강압적 교리 묶이 본성 허리띠 묶이 회교권 향하 날아가 한류 미사일 핵폭탄 퍼지 수년 전 하 상상 현상 작가 나 뛰어나 감성 배우 감성 연기 중국 녹 회교권 다운 이 세기 감성 시대 사실 웅변 거대 경제력 엄청나 외환 보유고 거기 다그 각종 첨단 무기 우주 개발 기술 전 세계 뒤덮 같 중국 한국 드라마 하나 한류 가수 의하 대륙 들끓 정부 간섭 하 정도 어디 둘 드라마 흉내 내서 치킨 맥주 잔 마시 장면 연출 위하 한국 새카맣 몰려오 나 그만큼 감성 후지 약하 그 중국 최대 약점 아킬레스건 유구 역사 속 문화 예술 유전 인자 가지 그 공산주의 유물론 치 정신문화 후진국 되 거기 비하 복음 서양 선교사 전하 받 하 복음 인하 나라 밝 되 발전 발전 하 되 주 초가 되 지금 감성 문화 발달 저변 복음 전파 교회 공로 가 지대 말하 있 계몽 시대 지나 음 표현 노래 문화 교회 이끌 하 과언 열매 사회 저변 깔리 국가 전체 감성 흐름 주도 말하 있 정 보도 기술 세계 평준화 되 앞서 뒤서 하 중국 재벌 영화 촬영 세트 미국 할리우드 크 짓 떠들 중국 그렇 하 그러 영혼 노래 감성 흐르 표정 언어 없 연출자 배우 우리 같 드라마 영화 기대 있 그 숙제 되 가수 드라마 그 가슴 울리 웃기 하 나 이번 방 핵 미 사실 같 한류 폭탄 맞 중국 보 그 쉽 생각 하 보 세계 최대 경제 대국 인구 가지 중국 우리 앞 마당 있 장터 느낌 지우 없 "
            words = konlpy.tag.Kkma().pos(sentence)

            #print(words)
            parser = nltk.RegexpParser(grammar)
            chunks = parser.parse(words)

            #word_arr = set([])
            word_arr = ""
            for subtree in chunks.subtrees():
                if subtree.label()=='NNG' or subtree.label()=='NNP' or subtree.label()=='NP' or subtree.label()=='VV' or subtree.label()=='VA':
                    for sub in subtree:
                        try:
                            word_arr = word_arr + sub.__getitem__(0) + ' '
                        except UnicodeEncodeError:
                            pass

            testEntry = word_arr.split()
            thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
            print sentence,'\n classified as: ',classifyNB(thisDoc,p0V,p1V,pAb)
    
    
testingNB()


### 5. SVM (LIBSVM)
#### 5.1 LIBSVM 설치
- http://www.lfd.uci.edu/~gohlke/pythonlibs/#libsvm
- libsvm-3.21-cp27-none-win_amd64.whl 파일 다운로드 후 pip install로 설치

#### 5.2 LIBSVM 이용 분류

In [38]:
from svmutil import *
svm_model.predict = lambda self, x: svm_predict([0], [x], self)[0][0]

listOPosts, listClasses = loadDataSet()
myVocabList = createVocabList(listOPosts)
trainMat=[]
for postinDoc in listOPosts:
    trainMat.append(setOfWords2Vec(myVocabList, postinDoc))

prob = svm_problem(listClasses, trainMat)

param = svm_parameter()
param.kernel_type = LINEAR
param.C = 10

m=svm_train(prob, param)

# m.predict([3,1])
svm_predict(listClasses, trainMat, m)

([1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  0.0,
  1.0,
  1.0,
  1.0,
  0.0,
  1.0,
  0.0,
  1.0,
  1.0,
  1.0,
  0.0,
  1.0,
  1.0,
  1.0,
  0.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  0.0,
  0.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  0.0,
  0.0,
  1.0,
  1.0,
  1.0,
  1.0,
  0.0,
  0.0,
  0.0,
  0.0,
  0.0,
  0.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  0.0,
  0.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  0.0,
  0.0,
  0.0,
  1.0,
  1.0,
  1.0,
  1.0,
  0.0,
  1.0,
  1.0,
  1.0,
  0.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  0.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,

### 6. 결론

#### 6.1 NaiveBayesian 분류
- Train Data 내의 모든 Data를 100% 정확하게 분류함
- 어휘를 Vector로 변환하여 Test 데이터로 넣기가 수월함

#### 6.2 SVM (LIBSVM) 분류
- Train Data 내의 모든 Data를 100% 정확하게 분류함
- 어휘를 Test 데이터로 넣기가 어려움

## 문제점

### 1. 한글 코딩하기 정~~~~~~~~~~~~~~~~~~~~말 힘듦
### 2. 아래 코드를 사용하니 print가 inline으로 안되고 콘솔창에 찍힘
> import sys <br>
> reload(sys) <br>
> sys.setdefaultencoding('utf-8') <br>



# 한 학기 동안 고생하셨습니다. 감사합니다.
