## 분류기 이용하기


### 분류(Classify)와 분류기(Classifier)

- 나이브 베이즈 분류기 (Naive Bayes Classifier)
- 의사결정 나무(Decision Tree)
- 랜덤 포레스트(Random Forest)
- 서포터 벡터 머신(SVM, Support Vector Machine)


### 나이브 베이즈 분류기

* **베이즈 정리**에 기반한 **통계적 분류** 기법
    - 베이즈 정리: p(a|b) = p(a|b)/p(b) = p(b|a)p(a)/p(b)
    - 이미 알고 있는 값들을 이용하여 계산한 것
    - 예) 비가 오는 날 경기를 할 확률은? P(Yes|비) = P(비|Yes)P(Yes) / P(비)
    
* 추가예시 1
    - p(긍정|입력텍스트) = p(입력텍스트|긍정)p(긍정)
    - p(부정|입력텍스트) = p(입력텍스트|부정)p(부정)
    
* Naive Bayes Classifier의 'Naive'
    - 단순한, 순진한
    - 개별 단ㅇ끼리는 서로 조건부 독립이 성립한다는 순진한 믿음

### 데이터 입력하기: 영어 버전



* 분류기: **NLTK 이용**


* *NLTK란?*
    - Natural Language Toolkit (자연어 처리 툴킷 / 패키지)
    - 교육용으로 개발된 자연어 처리 및 텍스트 분석을 위한 패키지
    - word_tokenize와 NaiveBayesClassifier를 사용할 예정
    - 공식 홈페이지: https://www.nltk,org

In [2]:
# 필요한 모듈 불러오기

from nltk.tokenize import word_tokenize
import nltk

In [3]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\phi49\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

* **데이터 입력하기 (영어 버전)**
    - 이미 알고 있는 정보를 튜플(tuple) 형태로 입력
    - 어떤 단어가 긍정/부정을 결정하는지?

In [18]:
train = [('I like you', 'pos'), ('I hate you', 'neg'),
        ('I enjoyed you', 'pos'), ('I hate it', 'neg')]
train

[('I like you', 'pos'),
 ('I hate you', 'neg'),
 ('I enjoyed you', 'pos'),
 ('I hate it', 'neg')]

* **확률을 구하기 위한 학습 과정**
    - 1) 모든 단어 집합 만들기
    - 2) 각 문장을 단어가 있는지 없는지 여부로 표현
    - 3) 단어별 확률 계산

In [11]:
# train에 있는 문장들의 단어 set 만들기
# set()을 이용하여 집합으로 만들기

all_words = set()

for tup in train:
    sent, label = tup[0], tup[1]
    words = word_tokenize(sent)
    for word in words:
        all_words.add(word)   # 집합은 .add 사용
        
all_words

{'I', 'enjoyed', 'hate', 'it', 'like', 'you'}

In [14]:
# train에 있는 문장들의 단어 set 만들기
# set()을 이용하여 집합으로 만들기

train_features = []

for tup in train:
    sent, label = tup[0], tup[1]
    words = word_tokenize(sent)
    
    # 각 문장을 단어가 있는지 없는지 여부로 표현
    tmp = dict()
    for set_word in all_words:
        if set_word in words:
            tmp[set_word] = True
        else:
            tmp[set_word] = False
    sent_tup = (tmp, label)
    train_features.append(sent_tup)

# [('I like you', 'pos'), ('I hate you', 'neg'), ('I enjoyed you', 'pos'), ('I hate it', 'neg')]
# 단어의 등장 순서를 무시 -> 빈도만을 이용함
print(train_features[0])
print(train_features[1])
print(train_features[2])
print(train_features[3])

({'like': True, 'I': True, 'you': True, 'hate': False, 'it': False, 'enjoyed': False}, 'pos')
({'like': False, 'I': True, 'you': True, 'hate': True, 'it': False, 'enjoyed': False}, 'neg')
({'like': False, 'I': True, 'you': True, 'hate': False, 'it': False, 'enjoyed': True}, 'pos')
({'like': False, 'I': True, 'you': False, 'hate': True, 'it': True, 'enjoyed': False}, 'neg')


In [15]:
### 간략하게 작성하기 (1)

train_features = []

for tup in train:
    sent, label = tup[0], tup[1]
    words = word_tokenize(sent)
    tmp = dict()
    for set_word in all_words:
        tmp[set_word] = (set_word in words)  # set_word가 words에 있는지 여부 판별
    sent_tup = (tmp, label)
    train_features.append(sent_tup)

# [('I like you', 'pos'), ('I hate you', 'neg'), ('I enjoyed you', 'pos'), ('I hate it', 'neg')]
print(train_features[0])
print(train_features[1])
print(train_features[2])
print(train_features[3])

({'like': True, 'I': True, 'you': True, 'hate': False, 'it': False, 'enjoyed': False}, 'pos')
({'like': False, 'I': True, 'you': True, 'hate': True, 'it': False, 'enjoyed': False}, 'neg')
({'like': False, 'I': True, 'you': True, 'hate': False, 'it': False, 'enjoyed': True}, 'pos')
({'like': False, 'I': True, 'you': False, 'hate': True, 'it': True, 'enjoyed': False}, 'neg')


In [20]:
### 간략하게 작성하기 (2)

train_features = []

for tup in train:
    sent, label = tup[0], tup[1]
    words = word_tokenize(sent)
    tmp = {set_word: (set_word in words) for set_word in all_words}  # for문 다음에 오는 명령문을 1줄로 작성
    sent_tup = (tmp, label)
    train_features.append(sent_tup)

# [('I like you', 'pos'), ('I hate you', 'neg'), ('I enjoyed you', 'pos'), ('I hate it', 'neg')]
print(train_features[0])
print(train_features[1])
print(train_features[2])
print(train_features[3])

({'like': True, 'I': True, 'you': True, 'hate': False, 'it': False, 'enjoyed': False}, 'pos')
({'like': False, 'I': True, 'you': True, 'hate': True, 'it': False, 'enjoyed': False}, 'neg')
({'like': False, 'I': True, 'you': True, 'hate': False, 'it': False, 'enjoyed': True}, 'pos')
({'like': False, 'I': True, 'you': False, 'hate': True, 'it': True, 'enjoyed': False}, 'neg')


* 단어별 확률 계산

In [21]:
classifier = nltk.NaiveBayesClassifier.train(train_features)
classifier.show_most_informative_features()

Most Informative Features
                 enjoyed = False             neg : pos    =      1.7 : 1.0
                      it = False             pos : neg    =      1.7 : 1.0
                    like = False             neg : pos    =      1.7 : 1.0
                     you = True              pos : neg    =      1.7 : 1.0
                       I = True              neg : pos    =      1.0 : 1.0


`결과 해석: 'like'라는 단어가 문장에 없으면(False), neg:pos 비율이 1.7:1`

* 테스트하기
    - 문장에 사용딘 단어 중 한 개의 단어라도 학습 데이터에 없었다면? 전체 확률이 0이 되어버림
    - *라플라스 스무딩(Laplace smoothing)* 이용: 분모, 분자에 일정한 값을 더해서 분자가 0이 되는 것을 방지

In [22]:
test_sent = 'I like it'

words = word_tokenize(test_sent)
test_feature = {set_word: (set_word in words) for set_word in all_words}

print(test_feature)

{'like': True, 'I': True, 'you': False, 'hate': False, 'it': True, 'enjoyed': False}


In [24]:
classifier.classify(test_feature)

'pos'

### 데이터 입력하기 : 한국어 버전


* 이미 알고 잇는 정보를 튜플(tuple) 형태로 입력


* 어떤 단어가 긍정/부정을 결정하는지?
    - '사과가 좋아' -> 긍정
    - '밤에 먹는 사과가 비추야' - > 부정
    - '사과가 잘 익었어 맛있겠다' -> 긍정
    - '바나나는 맛있어' -> 긍정

In [29]:
# 데이터 입력해주기

train = [('사과가 좋아', 'pos'), ('밤에 먹는 사과는 비추야', 'neg'), 
         ('사과가 잘 익었어 맛있겠다', 'pos'), ('바나나는 맛있어', 'pos')]
train

[('사과가 좋아', 'pos'),
 ('밤에 먹는 사과는 비추야', 'neg'),
 ('사과가 잘 익었어 맛있겠다', 'pos'),
 ('바나나는 맛있어', 'pos')]

* 모든 단어 집합 만들기
* 각 문장을 단어가 있는지 없는지 여부로 표현

In [42]:
# train에 있는 문장들의 단어 set 만들기
# set()을 이용하여 집합으로 만들기

all_words = set()

for tup in train:
    sent, label = tup[0], tup[1]
    words = word_tokenize(sent)
    for word in words:
        all_words.add(word)

all_words

{'맛있겠다', '맛있어', '먹는', '바나나는', '밤에', '비추야', '사과가', '사과는', '익었어', '잘', '좋아'}

In [43]:
train_features = []

for tup in train:
    sent, label = tup[0], tup[1]
    words = word_tokenize(sent)
    tmp = {set_word: (set_word in words) for set_word in all_words}
    sent_tup = (tmp, label)
    train_features.append(sent_tup)
    
for i in range(len(train_features)):
    print(train_features[i])

({'먹는': False, '비추야': False, '잘': False, '맛있겠다': False, '좋아': True, '맛있어': False, '밤에': False, '바나나는': False, '익었어': False, '사과가': True, '사과는': False}, 'pos')
({'먹는': True, '비추야': True, '잘': False, '맛있겠다': False, '좋아': False, '맛있어': False, '밤에': True, '바나나는': False, '익었어': False, '사과가': False, '사과는': True}, 'neg')
({'먹는': False, '비추야': False, '잘': True, '맛있겠다': True, '좋아': False, '맛있어': False, '밤에': False, '바나나는': False, '익었어': True, '사과가': True, '사과는': False}, 'pos')
({'먹는': False, '비추야': False, '잘': False, '맛있겠다': False, '좋아': False, '맛있어': True, '밤에': False, '바나나는': True, '익었어': False, '사과가': False, '사과는': False}, 'pos')


* 단어별 확률 계산

In [44]:
classifier = nltk.NaiveBayesClassifier.train(train_features)
classifier.show_most_informative_features()

Most Informative Features
                     사과가 = False             neg : pos    =      2.0 : 1.0
                    맛있겠다 = False             neg : pos    =      1.2 : 1.0
                     맛있어 = False             neg : pos    =      1.2 : 1.0
                    바나나는 = False             neg : pos    =      1.2 : 1.0
                     익었어 = False             neg : pos    =      1.2 : 1.0
                       잘 = False             neg : pos    =      1.2 : 1.0
                      좋아 = False             neg : pos    =      1.2 : 1.0


* 테스트하기

In [45]:
test_sent = '사과는 맛있어'

words = word_tokenize(test_sent)
test_feature = {set_word: (set_word in words) for set_word in all_words}

print(test_feature)

{'먹는': False, '비추야': False, '잘': False, '맛있겠다': False, '좋아': False, '맛있어': True, '밤에': False, '바나나는': False, '익었어': False, '사과가': False, '사과는': True}


In [46]:
classifier.classify(test_feature)

'pos'

### 학습하기 (1) : 형태소 분석기 사용

### 함수 만들기

- 문장을 형태소 단위로 분리해주는 함수 작성

1) 처음 문장 (raw_sent): '사과가 좋아' <br>
2) 형태소 분석 결과 문장 (sent): [('사과', 'Noun'), ('가', 'Josa'), ('좋다', 'Adjective')] <br>
3) 리턴 문장 (''join(pos_sent): '사과/Noun 가/Josa 좋다/Adjective'

In [50]:
from konlpy.tag import Okt
okt = Okt()

In [51]:
def pos_tokenize(raw_sent):
    pos_sent = []
    
    # raw_sent = '사과가 좋아'
    sent = okt.pos(raw_sent, norm=True, stem=True)
    # sent: [('사과', 'Noun'), ('가', 'Josa'), ('좋다', 'Adjective')]
    
    for tup in sent:
        word, tag = tup[0], tup[1]    # tup: ('사과', 'Noun')
        word_tag = word + '/' + tag   # word_tag: '사과/Noun'
        pos_sent.append(word_tag)
        
    return ' '.join(pos_sent)

In [53]:
# train에 있는 문자들의 단어 set 만들기
# set()을 이용하여 집합으로 만들기

all_words = set()

for tup in train:
    sent, label = tup[0], tup[1]
    sent = pos_tokenize(sent)    # pos_tokenize 함수 추가
    words = word_tokenize(sent)
    for word in words:
        all_words.add(word)

print(all_words)

{'자다/Verb', '익다/Verb', '비추다/Verb', '사과/Noun', '에/Josa', '가/Josa', '먹다/Verb', '바나나/Noun', '밤/Noun', '맛있다/Adjective', '는/Josa', '좋다/Adjective'}


In [54]:
train_features = []

for tup in train:
    sent, label = tup[0], tup[1]
    sent = pos_tokenize(sent)    # pos_tokenize 함수 추가
    words = word_tokenize(sent)
    tmp = {set_word: (set_word in words) for set_word in all_words}
    sent_tup = (tmp, label)
    train_features.append(sent_tup)
    
for i in range(len(train_features)):
    print(train_features[i])

({'자다/Verb': False, '익다/Verb': False, '비추다/Verb': False, '사과/Noun': True, '에/Josa': False, '가/Josa': True, '먹다/Verb': False, '바나나/Noun': False, '밤/Noun': False, '맛있다/Adjective': False, '는/Josa': False, '좋다/Adjective': True}, 'pos')
({'자다/Verb': False, '익다/Verb': False, '비추다/Verb': True, '사과/Noun': True, '에/Josa': True, '가/Josa': False, '먹다/Verb': True, '바나나/Noun': False, '밤/Noun': True, '맛있다/Adjective': False, '는/Josa': True, '좋다/Adjective': False}, 'neg')
({'자다/Verb': True, '익다/Verb': True, '비추다/Verb': False, '사과/Noun': True, '에/Josa': False, '가/Josa': True, '먹다/Verb': False, '바나나/Noun': False, '밤/Noun': False, '맛있다/Adjective': True, '는/Josa': False, '좋다/Adjective': False}, 'pos')
({'자다/Verb': False, '익다/Verb': False, '비추다/Verb': False, '사과/Noun': False, '에/Josa': False, '가/Josa': False, '먹다/Verb': False, '바나나/Noun': True, '밤/Noun': False, '맛있다/Adjective': True, '는/Josa': True, '좋다/Adjective': False}, 'pos')


In [56]:
classifier = nltk.NaiveBayesClassifier.train(train_features)
classifier.show_most_informative_features()

Most Informative Features
                  가/Josa = False             neg : pos    =      2.0 : 1.0
                  는/Josa = True              neg : pos    =      2.0 : 1.0
           맛있다/Adjective = False             neg : pos    =      2.0 : 1.0
                바나나/Noun = False             neg : pos    =      1.2 : 1.0
                 사과/Noun = True              neg : pos    =      1.2 : 1.0
                 익다/Verb = False             neg : pos    =      1.2 : 1.0
                 자다/Verb = False             neg : pos    =      1.2 : 1.0
            좋다/Adjective = False             neg : pos    =      1.2 : 1.0


In [59]:
# 테스트하기
test_sent = '사과는 맛있어'

test_sent = pos_tokenize(test_sent)  # pos_tokenize 함수 추가
words = word_tokenize(test_sent)  
test_feature = {set_word: (set_word in words) for set_word in all_words}

print(test_feature)

{'자다/Verb': False, '익다/Verb': False, '비추다/Verb': False, '사과/Noun': True, '에/Josa': False, '가/Josa': False, '먹다/Verb': False, '바나나/Noun': False, '밤/Noun': False, '맛있다/Adjective': True, '는/Josa': True, '좋다/Adjective': False}


In [60]:
classifier.classify(test_feature)

'pos'