### Naive Bayes Classifier

In [1]:
from nltk.tokenize import word_tokenize
import nltk

### tokenize

In [24]:
train = [('i like you', 'pos'),
        ('i hate you', 'neg'),
        ('you like me', 'neg'),
        ('i like her', 'pos')]


### 전체 말뭉치

In [25]:
all_words = set(word.lower() for sentence in train for word in word_tokenize(sentence[0]))
all_words

{'hate', 'her', 'i', 'like', 'me', 'you'}

### 훈련용 데이터에 마킹

In [26]:
t = [({word: (word in word_tokenize(x[0])) for word in all_words}, x[1]) for x in train]

t

[({'i': True,
   'hate': False,
   'her': False,
   'you': True,
   'like': True,
   'me': False},
  'pos'),
 ({'i': True,
   'hate': True,
   'her': False,
   'you': True,
   'like': False,
   'me': False},
  'neg'),
 ({'i': False,
   'hate': False,
   'her': False,
   'you': True,
   'like': True,
   'me': True},
  'neg'),
 ({'i': True,
   'hate': False,
   'her': True,
   'you': False,
   'like': True,
   'me': False},
  'pos')]

### Naive Bayes Classifier

In [27]:
classifier = nltk.NaiveBayesClassifier.train(t)
classifier.show_most_informative_features()

Most Informative Features
                       i = True              pos : neg    =      1.7 : 1.0
                     her = False             neg : pos    =      1.7 : 1.0
                     you = True              neg : pos    =      1.7 : 1.0
                    like = True              pos : neg    =      1.7 : 1.0
                      me = False             pos : neg    =      1.7 : 1.0
                    hate = False             pos : neg    =      1.7 : 1.0


### test 문장 입력

In [28]:
test_sentence = 'I like MeRui'
test_sent_features = {word.lower(): word in word_tokenize(test_sentence.lower()) for word in all_words}

test_sent_features

{'i': True,
 'hate': False,
 'her': False,
 'you': False,
 'like': True,
 'me': False}

### 분류결과

In [29]:
classifier.classify(test_sent_features)

'pos'

### 한글에서 Naive Bayes Classifier 연습

In [7]:
from konlpy.tag import Okt

In [8]:
pos_tagger = Okt()

### 훈련용 문장

In [9]:
train = [('난 수업이 빨리 마치면 좋겠어', 'pos'),
        ('내일은 수업이 없어서 좋아', 'pos'),
        ('내일은 수업이 없어서 좋아', 'pos'),
        ('오늘 수업은 정말 지루해', 'neg'),
        ('수업은 아직 시작도 안했어', 'neg'),
        ('나는 왜 이런걸 해야하는지 모르겠어', 'neg')]

### 형태소 분석

In [10]:
pos_tagger.pos(train[0][0])

[('난', 'Noun'),
 ('수업', 'Noun'),
 ('이', 'Josa'),
 ('빨리', 'Adverb'),
 ('마치', 'Noun'),
 ('면', 'Josa'),
 ('좋겠어', 'Adjective')]

 - 실제로는 태그가 붙어 있는 상태에서 사용하는 것이 좋다

### 훈련용 데이터 형태소 분서

In [11]:
train_docs = [(pos_tagger.morphs(sentence[0]), sentence[1]) for sentence in train]
train_docs

[(['난', '수업', '이', '빨리', '마치', '면', '좋겠어'], 'pos'),
 (['내일', '은', '수업', '이', '없어서', '좋아'], 'pos'),
 (['내일', '은', '수업', '이', '없어서', '좋아'], 'pos'),
 (['오늘', '수업', '은', '정말', '지루해'], 'neg'),
 (['수업', '은', '아직', '시작', '도', '안', '했어'], 'neg'),
 (['나', '는', '왜', '이런', '걸', '해야하는지', '모르겠어'], 'neg')]

### 말뭉치 만들기

In [12]:
all_words = set([t for d in train_docs for t in d[0]])
all_words

{'걸',
 '나',
 '난',
 '내일',
 '는',
 '도',
 '마치',
 '면',
 '모르겠어',
 '빨리',
 '수업',
 '시작',
 '아직',
 '안',
 '없어서',
 '오늘',
 '왜',
 '은',
 '이',
 '이런',
 '정말',
 '좋겠어',
 '좋아',
 '지루해',
 '해야하는지',
 '했어'}

### 말뭉치 안에 있는지 없는지 확인하기

In [13]:
def term_exists(doc):
    return {word: (word in  set(doc)) for word in all_words}

In [14]:
train_xy = [(term_exists(d), c) for d,c in train_docs]
train_xy

[({'마치': True,
   '왜': False,
   '시작': False,
   '모르겠어': False,
   '도': False,
   '수업': True,
   '정말': False,
   '아직': False,
   '좋겠어': True,
   '안': False,
   '해야하는지': False,
   '이런': False,
   '은': False,
   '나': False,
   '는': False,
   '빨리': True,
   '걸': False,
   '면': True,
   '이': True,
   '난': True,
   '내일': False,
   '지루해': False,
   '했어': False,
   '좋아': False,
   '오늘': False,
   '없어서': False},
  'pos'),
 ({'마치': False,
   '왜': False,
   '시작': False,
   '모르겠어': False,
   '도': False,
   '수업': True,
   '정말': False,
   '아직': False,
   '좋겠어': False,
   '안': False,
   '해야하는지': False,
   '이런': False,
   '은': True,
   '나': False,
   '는': False,
   '빨리': False,
   '걸': False,
   '면': False,
   '이': True,
   '난': False,
   '내일': True,
   '지루해': False,
   '했어': False,
   '좋아': True,
   '오늘': False,
   '없어서': True},
  'pos'),
 ({'마치': False,
   '왜': False,
   '시작': False,
   '모르겠어': False,
   '도': False,
   '수업': True,
   '정말': False,
   '아직': False,
   '좋겠어': False,
   '안': False,
   '

### Naive Bayes 훈련

In [15]:
classifier = nltk.NaiveBayesClassifier.train(train_xy)
classifier.show_most_informative_features()

Most Informative Features
                      내일 = False             neg : pos    =      2.3 : 1.0
                     없어서 = False             neg : pos    =      2.3 : 1.0
                      좋아 = False             neg : pos    =      2.3 : 1.0
                   해야하는지 = False             pos : neg    =      1.4 : 1.0
                       도 = False             pos : neg    =      1.4 : 1.0
                      했어 = False             pos : neg    =      1.4 : 1.0
                      아직 = False             pos : neg    =      1.4 : 1.0
                      빨리 = False             neg : pos    =      1.4 : 1.0
                      시작 = False             pos : neg    =      1.4 : 1.0
                    모르겠어 = False             pos : neg    =      1.4 : 1.0


### 테스트 문장

In [16]:
test_sentence = '수업 마치면 놀러 가야지'


In [17]:
test_docs = pos_tagger.morphs(test_sentence)
test_docs

['수업', '마치', '면', '놀러', '가야', '지']

In [18]:
test_xy = term_exists(test_docs)
test_xy

{'마치': True,
 '왜': False,
 '시작': False,
 '모르겠어': False,
 '도': False,
 '수업': True,
 '정말': False,
 '아직': False,
 '좋겠어': False,
 '안': False,
 '해야하는지': False,
 '이런': False,
 '은': False,
 '나': False,
 '는': False,
 '빨리': False,
 '걸': False,
 '면': True,
 '이': False,
 '난': False,
 '내일': False,
 '지루해': False,
 '했어': False,
 '좋아': False,
 '오늘': False,
 '없어서': False}

In [19]:
classifier.classify(test_xy)

'pos'

### 테스트

In [20]:
test_sentence = '오늘은 언제 수업 마칠려나'
classifier.classify(term_exists(pos_tagger.morphs(test_sentence)))


'neg'

In [21]:
test_sentence = '오늘 수업 마칠려나'
classifier.classify(term_exists(pos_tagger.morphs(test_sentence)))


'neg'

In [22]:
test_sentence = '오늘 수업 마치고 일어나면 내일이다'
classifier.classify(term_exists(pos_tagger.morphs(test_sentence)))


'pos'