### NSMC 학습데이터 다운로드


* ratings_train.txt 다운로드
* https://github.com/e9t/nsmc/blob/master/ratings_train.txt

### 데이터 불러오기: load_data()

In [24]:
def load_data(file_path):
    # file_path에 잇는 데이터를 읽어 옴
    
    train = []
    
    count = 0
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f.readlines():
            if count == 500: break
                
            line = line.strip()
            id, doc, label = line.split('\t')
            if label == '1': label = 'pos'
            elif label == '0': label = 'neg'
            train.append((doc, label))
            
            count+=1
            
    return train

In [25]:
train = load_data('./Movie Data/ratings_train.txt')
print(train[:5])

[('document', 'label'), ('아 더빙.. 진짜 짜증나네요 목소리', 'neg'), ('흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나', 'pos'), ('너무재밓었다그래서보는것을추천한다', 'neg'), ('교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정', 'neg')]


In [26]:
train = train[1:]
print(train[:5])

[('아 더빙.. 진짜 짜증나네요 목소리', 'neg'), ('흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나', 'pos'), ('너무재밓었다그래서보는것을추천한다', 'neg'), ('교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정', 'neg'), ('사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다', 'pos')]


### 학습하기

* 21번 정리본에 사용한 내용을 함수로 사용

In [27]:
from nltk.tokenize import word_tokenize
import nltk

from konlpy.tag import Okt
okt = Okt()

def pos_tokenize(raw_sent):
    pos_sent = []
    sent = okt.pos(raw_sent, norm=True, stem=True)
    
    for tup in sent:
        word, tag = tup[0], tup[1]    # tup: ('사과', 'Noun')
        word_tag = word + '/' + tag   # word_tag: '사과/Noun'
        pos_sent.append(word_tag)
        
    return ' '.join(pos_sent)

def make_word_dict(train, use_morph=False):
    all_words = set()
    
    for tup in train:
        sent, label = tup[0], tup[1]
        if use_morph: sent = pos_tokenize(sent)   # pos_tokenize 함수 추가
        words = word_tokenize(sent)
        for word in words:
            all_words.add(word)
            
    return all_words

def make_train_feats(train, all_words, use_morph=False):
    train_features = []
    
    for tup in train:
        sent, label = tup[0], tup[1]
        if use_morph: sent = pos_tokenize(sent)   # pos_tokenize 함수 추가
        words = word_tokenize(sent)
        tmp = {set_word: (set_word in words) for set_word in all_words}
        sent_tup = (tmp, label)
        train_features.append(sent_tup)
        
    return train_features

In [28]:
train = load_data('./Movie Data/ratings_train.txt')
print(train[:5])

[('document', 'label'), ('아 더빙.. 진짜 짜증나네요 목소리', 'neg'), ('흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나', 'pos'), ('너무재밓었다그래서보는것을추천한다', 'neg'), ('교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정', 'neg')]


In [29]:
train = train[1:]
print(train[:5])

[('아 더빙.. 진짜 짜증나네요 목소리', 'neg'), ('흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나', 'pos'), ('너무재밓었다그래서보는것을추천한다', 'neg'), ('교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정', 'neg'), ('사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다', 'pos')]


In [30]:
# 테스트하기

use_morph = True
all_words = make_word_dict(train, use_morph)
print('단어 집합 개수:', len(all_words))

train_features = make_train_feats(train, all_words, use_morph)

단어 집합 개수: 2322


In [31]:
classifier = nltk.NaiveBayesClassifier.train(train_features)
classifier.show_most_informative_features()

Most Informative Features
                       ; = True              neg : pos    =      8.2 : 1.0
          재미없다/Adjective = True              neg : pos    =      8.2 : 1.0
                주인공/Noun = True              neg : pos    =      7.5 : 1.0
                 최고/Noun = True              pos : neg    =      6.9 : 1.0
                  뭐/Noun = True              neg : pos    =      6.8 : 1.0
           재밌다/Adjective = True              pos : neg    =      6.5 : 1.0
                 내용/Noun = True              neg : pos    =      6.2 : 1.0
       ㅡㅡ/KoreanParticle = True              neg : pos    =      6.1 : 1.0
                스토리/Noun = True              neg : pos    =      6.1 : 1.0
                 다시/Noun = True              pos : neg    =      5.9 : 1.0


In [32]:
# 테스트하기 2

test_sent = '보다가 중간에 나왔습니다'

if use_morph: test_sent = pos_tokenize(test_sent)   # pos_tokenize 함수 추가
words = word_tokenize(test_sent)
test_feature = {set_word: (set_word in words) for set_word in all_words}

print(test_feature)

{'수도/Noun': False, '신라/Noun': False, '정상/Noun': False, '흐르다/Verb': False, 'DVD/Alpha': False, '그냥/Modifier': False, '타겟/Noun': False, '인지/Josa': False, '정은지/Noun': False, '대하/Noun': False, '구/Modifier': False, '럼/Noun': False, '산만하다/Adjective': False, '억지/Noun': False, '이정/Noun': False, '아이스/Noun': False, '전반/Noun': False, '각기/Noun': False, '/Punctuation': False, '베다/Verb': False, '팝핀현준/Noun': False, '주기/Noun': False, '걸/Noun': False, '무한/Noun': False, '알다/Verb': False, '근데/Adverb': False, '패널/Noun': False, '흘러나오다/Verb': False, '생인/Noun': False, '사슴/Noun': False, '이하늘/Noun': False, '이/Josa': False, '해/Noun': False, '서글프다/Adjective': False, '노출씬/Noun': False, '현실/Noun': False, '먹듯/Noun': False, '유명/Noun': False, '트로트/Noun': False, '주네/Noun': False, '누군가/Noun': False, '잊다/Verb': False, '레전드/Noun': False, 'is/Alpha': False, '전작/Noun': False, '아주/Noun': False, '-_-/Punctuation': False, '머임/Noun': False, '성도/Noun': False, '이그/Noun': False, '죽/Noun': False, '인게/Josa': False, '잘쓰다/Verb': Fals

In [34]:
classifier.classify(test_feature)

'pos'