# Naive Bayes Classifier
## (1) 감성분석_영어
- 영어는 nltk만 있으면 된다.

In [1]:
from nltk.tokenize import word_tokenize
import nltk

### 나이브 베이즈 분류기는 지도학습이라서 정답을 알려줘야 한다.

In [2]:
train = [('i like you', 'pos'),
        ('i hate you', 'neg'),
        ('you like me', 'neg'),
        ('i like her', 'pos')]

### 전체 말 뭉치 만들기

In [3]:
train[0]

('i like you', 'pos')

In [4]:
sentence = train[0]
word_tokenize(sentence[0])

['i', 'like', 'you']

- word_tokenize: 띄어쓰기를 기준으로 분리해준다

In [5]:
[word.lower() for sentence in train for word in word_tokenize(sentence[0])]

['i',
 'like',
 'you',
 'i',
 'hate',
 'you',
 'you',
 'like',
 'me',
 'i',
 'like',
 'her']

- set이 없으면 반복되어 들어간다.

In [6]:
all_words = set(word.lower() for sentence in train for word in word_tokenize(sentence[0]))
all_words

{'hate', 'her', 'i', 'like', 'me', 'you'}

- set으로 중복을 허용하지 않고, train의 문장에 있는 단어들만 모아 말뭉치를 구성한다.
- 말뭉치를 사용하면, train에 있는 모든 문장들을 만들 수 있다.

In [7]:
t = [({word: (word in word_tokenize(x[0])) for word in all_words}, x[1]) for x in train]
t

[({'me': False,
   'like': True,
   'i': True,
   'hate': False,
   'you': True,
   'her': False},
  'pos'),
 ({'me': False,
   'like': False,
   'i': True,
   'hate': True,
   'you': True,
   'her': False},
  'neg'),
 ({'me': True,
   'like': True,
   'i': False,
   'hate': False,
   'you': True,
   'her': False},
  'neg'),
 ({'me': False,
   'like': True,
   'i': True,
   'hate': False,
   'you': False,
   'her': True},
  'pos')]

- 말뭉치에 단어가 있는지 없는지를 표시한다.

### 분류기 학습

In [8]:
clf = nltk.NaiveBayesClassifier.train(t)
clf.show_most_informative_features()

Most Informative Features
                    hate = False             pos : neg    =      1.7 : 1.0
                     her = False             neg : pos    =      1.7 : 1.0
                       i = True              pos : neg    =      1.7 : 1.0
                    like = True              pos : neg    =      1.7 : 1.0
                      me = False             pos : neg    =      1.7 : 1.0
                     you = True              neg : pos    =      1.7 : 1.0


- hate 가 없는게 1.7의 확률로 positive
- her 가 없는게 1.7의 확률로 negative
- i 가 있는게 1.7의 확률로 positive
- like 가 있는게 1.7의 확률로 positive
- me 가 없는게 1.7의 확률로 positive
- you 가 있는게 1.7의 확률로 negative

### 학습 결과를 가지고 테스트

In [10]:
test_sen = 'i like MeRui'
test_sen_feat = {word.lower(): (word in word_tokenize(test_sen.lower())) for word in all_words}
test_sen_feat

{'me': False,
 'like': True,
 'i': True,
 'hate': False,
 'you': False,
 'her': False}

In [11]:
clf.classify(test_sen_feat)

'pos'

- 결과는 pos

---
## (2) 감성분석_한글
- 한글은 형태소 분석을 해야 한다..!

### 일단 형태소 분석없이 도전

In [12]:
from konlpy.tag import Okt

In [13]:
pos_tagger = Okt()

### 훈련용 데이터

In [14]:
train = [('메리가 좋아', 'pos'),
        ('고양이도 좋아', 'pos'),
        ('난 수업이 좋아', 'neg'),
        ('메리는 이쁜 고양이야', 'pos'),
        ('난 마치고 메리랑 놀거야', 'pos')]

### 말뭉치 만들기

In [18]:
all_words = set(word for sentence in train for word in word_tokenize(sentence[0]))
all_words

{'고양이도', '고양이야', '난', '놀거야', '마치고', '메리가', '메리는', '메리랑', '수업이', '이쁜', '좋아'}

- 형태소 분석을 안했더니 '메리가', '메리는', '메리랑' 을 모두 다른 단어로 인식한다

### 각 문장에 말뭉치 유무 출력

In [19]:
t = [({word: (word in word_tokenize(x[0])) for word in all_words}, x[1]) for x in train]
t

[({'고양이야': False,
   '난': False,
   '이쁜': False,
   '메리가': True,
   '마치고': False,
   '메리랑': False,
   '좋아': True,
   '메리는': False,
   '놀거야': False,
   '수업이': False,
   '고양이도': False},
  'pos'),
 ({'고양이야': False,
   '난': False,
   '이쁜': False,
   '메리가': False,
   '마치고': False,
   '메리랑': False,
   '좋아': True,
   '메리는': False,
   '놀거야': False,
   '수업이': False,
   '고양이도': True},
  'pos'),
 ({'고양이야': False,
   '난': True,
   '이쁜': False,
   '메리가': False,
   '마치고': False,
   '메리랑': False,
   '좋아': True,
   '메리는': False,
   '놀거야': False,
   '수업이': True,
   '고양이도': False},
  'neg'),
 ({'고양이야': True,
   '난': False,
   '이쁜': True,
   '메리가': False,
   '마치고': False,
   '메리랑': False,
   '좋아': False,
   '메리는': True,
   '놀거야': False,
   '수업이': False,
   '고양이도': False},
  'pos'),
 ({'고양이야': False,
   '난': True,
   '이쁜': False,
   '메리가': False,
   '마치고': True,
   '메리랑': True,
   '좋아': False,
   '메리는': False,
   '놀거야': True,
   '수업이': False,
   '고양이도': False},
  'pos')]

### 학습하기
- train은 fit 과 동일

In [20]:
clf = nltk.NaiveBayesClassifier.train(t)
clf.show_most_informative_features()

Most Informative Features
                       난 = True              neg : pos    =      2.5 : 1.0
                      좋아 = True              neg : pos    =      1.5 : 1.0
                    고양이도 = False             neg : pos    =      1.1 : 1.0
                    고양이야 = False             neg : pos    =      1.1 : 1.0
                     놀거야 = False             neg : pos    =      1.1 : 1.0
                     마치고 = False             neg : pos    =      1.1 : 1.0
                     메리가 = False             neg : pos    =      1.1 : 1.0
                     메리는 = False             neg : pos    =      1.1 : 1.0
                     메리랑 = False             neg : pos    =      1.1 : 1.0
                      이쁜 = False             neg : pos    =      1.1 : 1.0


### 테스트

In [21]:
test_sen = '난 수업이 마치면 메리랑 놀거야'
test_sen_feat = {word.lower(): (word in word_tokenize(test_sen.lower())) for word in all_words}
test_sen_feat

{'고양이야': False,
 '난': True,
 '이쁜': False,
 '메리가': False,
 '마치고': False,
 '메리랑': True,
 '좋아': False,
 '메리는': False,
 '놀거야': True,
 '수업이': True,
 '고양이도': False}

In [22]:
clf.classify(test_sen_feat)

'neg'

- 형태소 분석을 안했더니 결과가 이상하다.

---
### 형태소 분석
- 형태소 분석을 한 후에 품사를 단어 뒤에 붙여넣는다.

In [23]:
def tokenize(doc):
    return ["/".join(t) for t in pos_tagger.pos(doc, norm=True, stem=True)]

In [24]:
train_docs = [(tokenize(row[0]), row[1]) for row in train]
train_docs

[(['메리/Noun', '가/Josa', '좋다/Adjective'], 'pos'),
 (['고양이/Noun', '도/Josa', '좋다/Adjective'], 'pos'),
 (['난/Noun', '수업/Noun', '이/Josa', '좋다/Adjective'], 'neg'),
 (['메리/Noun', '는/Josa', '이쁘다/Adjective', '고양이/Noun', '야/Josa'], 'pos'),
 (['난/Noun', '마치/Noun', '고/Josa', '메리/Noun', '랑/Josa', '놀다/Verb'], 'pos')]

### 말뭉치 다시 만들기

In [25]:
tokens = [t for d in train_docs for t in d[0]]
tokens

['메리/Noun',
 '가/Josa',
 '좋다/Adjective',
 '고양이/Noun',
 '도/Josa',
 '좋다/Adjective',
 '난/Noun',
 '수업/Noun',
 '이/Josa',
 '좋다/Adjective',
 '메리/Noun',
 '는/Josa',
 '이쁘다/Adjective',
 '고양이/Noun',
 '야/Josa',
 '난/Noun',
 '마치/Noun',
 '고/Josa',
 '메리/Noun',
 '랑/Josa',
 '놀다/Verb']

### 각 문장에 말뭉치 유무 출력

In [26]:
def term_exist(doc):
    return {word: (word in set(doc)) for word in tokens}

In [27]:
train_xy = [(term_exist(d), c) for d, c in train_docs]
train_xy

[({'메리/Noun': True,
   '가/Josa': True,
   '좋다/Adjective': True,
   '고양이/Noun': False,
   '도/Josa': False,
   '난/Noun': False,
   '수업/Noun': False,
   '이/Josa': False,
   '는/Josa': False,
   '이쁘다/Adjective': False,
   '야/Josa': False,
   '마치/Noun': False,
   '고/Josa': False,
   '랑/Josa': False,
   '놀다/Verb': False},
  'pos'),
 ({'메리/Noun': False,
   '가/Josa': False,
   '좋다/Adjective': True,
   '고양이/Noun': True,
   '도/Josa': True,
   '난/Noun': False,
   '수업/Noun': False,
   '이/Josa': False,
   '는/Josa': False,
   '이쁘다/Adjective': False,
   '야/Josa': False,
   '마치/Noun': False,
   '고/Josa': False,
   '랑/Josa': False,
   '놀다/Verb': False},
  'pos'),
 ({'메리/Noun': False,
   '가/Josa': False,
   '좋다/Adjective': True,
   '고양이/Noun': False,
   '도/Josa': False,
   '난/Noun': True,
   '수업/Noun': True,
   '이/Josa': True,
   '는/Josa': False,
   '이쁘다/Adjective': False,
   '야/Josa': False,
   '마치/Noun': False,
   '고/Josa': False,
   '랑/Josa': False,
   '놀다/Verb': False},
  'neg'),
 ({'메리/Noun': True,


### 학습
-  train은 fit 과 동일

In [28]:
clf = nltk.NaiveBayesClassifier.train(train_xy) 
clf.show_most_informative_features()

Most Informative Features
                  난/Noun = True              neg : pos    =      2.5 : 1.0
                 메리/Noun = False             neg : pos    =      2.5 : 1.0
                고양이/Noun = False             neg : pos    =      1.5 : 1.0
            좋다/Adjective = True              neg : pos    =      1.5 : 1.0
                  가/Josa = False             neg : pos    =      1.1 : 1.0
                  고/Josa = False             neg : pos    =      1.1 : 1.0
                 놀다/Verb = False             neg : pos    =      1.1 : 1.0
                  는/Josa = False             neg : pos    =      1.1 : 1.0
                  도/Josa = False             neg : pos    =      1.1 : 1.0
                  랑/Josa = False             neg : pos    =      1.1 : 1.0


### 테스트 문장 형태소 분석

In [30]:
test_sen = '난 수업이 마치면 메리랑 놀거야'

test_doc = pos_tagger.pos(test_sen)
test_doc

[('난', 'Noun'),
 ('수업', 'Noun'),
 ('이', 'Josa'),
 ('마치', 'Noun'),
 ('면', 'Josa'),
 ('메리', 'Noun'),
 ('랑', 'Josa'),
 ('놀거야', 'Verb')]

### 모델 예측

In [31]:
test_sen_feat = {word: (word in tokens) for word in test_doc}
test_sen_feat

{('난', 'Noun'): False,
 ('수업', 'Noun'): False,
 ('이', 'Josa'): False,
 ('마치', 'Noun'): False,
 ('면', 'Josa'): False,
 ('메리', 'Noun'): False,
 ('랑', 'Josa'): False,
 ('놀거야', 'Verb'): False}

In [32]:
clf.classify(test_sen_feat)

'pos'