### 주제 특성상 머신러닝 사용

- Naive Bayes(나이브 베이즈) 분류법
- 머신러닝 > 지도학습
- 두 사건(pos,neg)은 독립적이다라고 가정
- 각각의 조건부 확률 존재

** 사이트에서 특정 단어 검색 **
- 텍스트 수집
- 수집된 데이터로 학습 -> 분류 -> 예측 -> 신호를 확인

In [67]:
from nltk.tokenize import word_tokenize
import nltk

In [9]:
# trainning data : 학습용 데이터
train = [('i like you','pos'),
         ('i hate you','neg'),
         ('you like me','neg'),
         ('i like her','pos')      
]

In [10]:
for sentence in train:
    for word in word_tokenize(sentence[0]):
        print(word.lower())
        # 중복 제거는 왜함?    

i
like
you
i
hate
you
you
like
me
i
like
her


In [11]:
words = set( word.lower() for sentence in train for word in word_tokenize(sentence[0]))

In [13]:
# 말 뭉치 => 각 말뭉치가 pos에 속에 있냐 neg에 속해 있나 계산
words

{'hate', 'her', 'i', 'like', 'me', 'you'}

In [20]:
# 훈련 데이터에 해당 말뭉치가 포함되어 있는지 아닌지를 판단하라.

# 훈련 데이터에서 한개씩 뽑아서 말뭉치 존재 여부를 체크하여 dict타입으로 구성 
for x in train:
    print({word: word in x[0] for word in words})

{'i': True, 'like': True, 'her': False, 'hate': False, 'me': False, 'you': True}
{'i': True, 'like': False, 'her': False, 'hate': True, 'me': False, 'you': True}
{'i': True, 'like': True, 'her': False, 'hate': False, 'me': True, 'you': True}
{'i': True, 'like': True, 'her': True, 'hate': False, 'me': False, 'you': False}


In [31]:
# 위에꺼 번역
for x in train:
    for word in words:
        # 말뭉치 데이터 하나하나가 훈련 데이터 문장에 포함되어 있는가?
        print(word,':',word in x[0], x[1])            

i : True pos
like : True pos
her : False pos
hate : False pos
me : False pos
you : True pos
i : True neg
like : False neg
her : False neg
hate : True neg
me : False neg
you : True neg
i : True neg
like : True neg
her : False neg
hate : False neg
me : True neg
you : True neg
i : True pos
like : True pos
her : True pos
hate : False pos
me : False pos
you : False pos


In [15]:
a = 'i like her'
# 문자열안에 들어 잇나 안들어 있나 찾기
'i' in a # collection에 해당 element가 있냐 없냐

True

In [26]:
# 훈련데이터 형태 맞추기
# [({},'pos'),(),(),()...]
train_list=[] 
for x in train:
    train_list.append(({word: word in x[0] for word in words},x[1]))
print(train_list)

[({'i': True, 'like': True, 'her': False, 'hate': False, 'me': False, 'you': True}, 'pos'), ({'i': True, 'like': False, 'her': False, 'hate': True, 'me': False, 'you': True}, 'neg'), ({'i': True, 'like': True, 'her': False, 'hate': False, 'me': True, 'you': True}, 'neg'), ({'i': True, 'like': True, 'her': True, 'hate': False, 'me': False, 'you': False}, 'pos')]


In [34]:
t = [({word: word in x[0] for word in words},x[1]) for x in train]
print(t)
# 훈련 데이터를 머신러닝(나이브 베이즈)에 적합한 형태

[({'i': True, 'like': True, 'her': False, 'hate': False, 'me': False, 'you': True}, 'pos'), ({'i': True, 'like': False, 'her': False, 'hate': True, 'me': False, 'you': True}, 'neg'), ({'i': True, 'like': True, 'her': False, 'hate': False, 'me': True, 'you': True}, 'neg'), ({'i': True, 'like': True, 'her': True, 'hate': False, 'me': False, 'you': False}, 'pos')]


In [35]:
# 머신러닝 사용
# 학습 
classifier = nltk.NaiveBayesClassifier.train(t)

In [36]:
classifier.show_most_informative_features() # 알고리즘 내용이 좀 궁금함, 아마 pos: neg 비율 차이가 많이 나는게 나오지 않을까 싶다.
# me라는 단어가 문장에 없을 경우 긍정의 비율이 1.7배이다.

Most Informative Features
                    hate = False             pos : neg    =      1.7 : 1.0
                     you = True              neg : pos    =      1.7 : 1.0
                     her = False             neg : pos    =      1.7 : 1.0
                      me = False             pos : neg    =      1.7 : 1.0
                    like = True              pos : neg    =      1.7 : 1.0
                       i = True              neg : pos    =      1.0 : 1.0


In [53]:
# 신규 데이터를 넣어서 => 예측 =>
test_sentence = 'i like MeRi'
# 테스트 데이터에 대해 형태그를 구성하여 판정
# 딕셔너리 형태로 구성{말뭉치 : True/False}
# test_sentence_feature = { element : element in words for element in word_tokenize(test_sentence)}
test_sentence_feature = {word: word in word_tokenize(test_sentence) for word in words}
test_sentence_feature

{'i': True,
 'like': True,
 'her': False,
 'hate': False,
 'me': False,
 'you': False}

In [54]:
classifier.classify(test_sentence_feature)

'pos'

#### 한글을 훈련 데이터 및 데이트 데이터로 사용하여 체크

In [55]:
from konlpy.tag import Okt
ok = Okt()

In [58]:
# 학습 데이터
train = [
    ('메리가 좋아','pos'),
    ('고양이도 좋아','pos'),
    ('난 운동이 지루해','neg'),
    ('메리는 이쁜 고양이야','pos'),
    ('난 마치고 메리랑 놀거야','pos')
]

In [59]:
# 말뭉치 생성
words = set( word for sentence in train for word in word_tokenize(sentence[0]))

In [62]:
len(words)

12

In [61]:
t = [({word: word in x[0] for word in words},x[1]) for x in train]
print(t)

[({'이쁜': False, '난': False, '고양이도': False, '좋아': True, '메리랑': False, '놀거야': False, '고양이야': False, '운동이': False, '지루해': False, '메리는': False, '마치고': False, '메리가': True}, 'pos'), ({'이쁜': False, '난': False, '고양이도': True, '좋아': True, '메리랑': False, '놀거야': False, '고양이야': False, '운동이': False, '지루해': False, '메리는': False, '마치고': False, '메리가': False}, 'pos'), ({'이쁜': False, '난': True, '고양이도': False, '좋아': False, '메리랑': False, '놀거야': False, '고양이야': False, '운동이': True, '지루해': True, '메리는': False, '마치고': False, '메리가': False}, 'neg'), ({'이쁜': True, '난': False, '고양이도': False, '좋아': False, '메리랑': False, '놀거야': False, '고양이야': True, '운동이': False, '지루해': False, '메리는': True, '마치고': False, '메리가': False}, 'pos'), ({'이쁜': False, '난': True, '고양이도': False, '좋아': False, '메리랑': True, '놀거야': True, '고양이야': False, '운동이': False, '지루해': False, '메리는': False, '마치고': True, '메리가': False}, 'pos')]


In [63]:
classifier = nltk.NaiveBayesClassifier.train(t)
classifier.show_most_informative_features()

Most Informative Features
                       난 = True              neg : pos    =      2.5 : 1.0
                      좋아 = False             neg : pos    =      1.5 : 1.0
                     마치고 = False             neg : pos    =      1.1 : 1.0
                     놀거야 = False             neg : pos    =      1.1 : 1.0
                     메리는 = False             neg : pos    =      1.1 : 1.0
                    고양이야 = False             neg : pos    =      1.1 : 1.0
                     메리랑 = False             neg : pos    =      1.1 : 1.0
                     메리가 = False             neg : pos    =      1.1 : 1.0
                      이쁜 = False             neg : pos    =      1.1 : 1.0
                    고양이도 = False             neg : pos    =      1.1 : 1.0


In [64]:
# 신규 데이터를 넣어서 => 예측 =>
test_sentence = '난 수업을 마치면 메리랑 놀거야'
# 테스트 데이터에 대해 형태그를 구성하여 판정
# 딕셔너리 형태로 구성{말뭉치 : True/False}
# test_sentence_feature = { element : element in words for element in word_tokenize(test_sentence)}
test_sentence_feature = {word: word in word_tokenize(test_sentence) for word in words}
test_sentence_feature


{'이쁜': False,
 '난': True,
 '고양이도': False,
 '좋아': False,
 '메리랑': True,
 '놀거야': True,
 '고양이야': False,
 '운동이': False,
 '지루해': False,
 '메리는': False,
 '마치고': False,
 '메리가': False}

In [65]:
# 판정
classifier.classify(test_sentence_feature)

'pos'

In [69]:
txt=('메리가좋아','pos')

## => 이상함.
- 한글은 단어 분석만으로는 정확하게 예측이 힘들다.
- 형태소 분석을 사용해야 한다.

In [70]:
# 형태소 처리 
# norm : 정규화 단어(normalize tokens)
# stem : 줄기 단어(stem tokens)
ok.pos(txt[0], norm=True, stem=True)
# 우리가 원하는 형태 : 메리/Noun
# [('메리', 'Noun'), ('가', 'Josa'), ('좋다', 'Adjective')] 명사,조사,형용사

[('메리', 'Noun'), ('가', 'Josa'), ('좋다', 'Adjective')]

In [74]:
['%s/%s' % (element[0],element[1]) for element in ok.pos(txt[0], norm=True, stem=True)]
# ['/'.join(element) for element in ok.pos(txt[0], norm=True, stem=True)]

['메리/Noun', '가/Josa', '좋다/Adjective']

In [77]:
# 표현이 복잡한데 반복해서 사용해야 하니 함수로 일단 대체
def okTokenize(txt):
    return ['/'.join(element) for element in ok.pos(txt, norm=True, stem=True)] #한줄짜리라 lambda로도 가능

In [78]:
okTokenize(txt[0])

['메리/Noun', '가/Josa', '좋다/Adjective']

In [79]:
# 훈련 데이터 교체
train

[('메리가 좋아', 'pos'),
 ('고양이도 좋아', 'pos'),
 ('난 운동이 지루해', 'neg'),
 ('메리는 이쁜 고양이야', 'pos'),
 ('난 마치고 메리랑 놀거야', 'pos')]

In [80]:
train = [(okTokenize(t[0]),t[1]) for t in train ]

In [81]:
train

[(['메리/Noun', '가/Josa', '좋다/Adjective'], 'pos'),
 (['고양이/Noun', '도/Josa', '좋다/Adjective'], 'pos'),
 (['난/Noun', '운동/Noun', '이/Josa', '지루하다/Adjective'], 'neg'),
 (['메리/Noun', '는/Josa', '이쁘다/Adjective', '고양이/Noun', '야/Josa'], 'pos'),
 (['난/Noun', '마치/Noun', '고/Josa', '메리/Noun', '랑/Josa', '놀다/Verb'], 'pos')]

In [103]:
# 말뭉치 생성
# 말 뭉치 생성
tokens = list(set(word for t in train for word in t[0]))
tokens


# word_list=[]
# for words in train :
#     for word in words[0]:
#         word_list.append(word)
# set(word_list)

['도/Josa',
 '메리/Noun',
 '고/Josa',
 '이/Josa',
 '마치/Noun',
 '야/Josa',
 '가/Josa',
 '지루하다/Adjective',
 '난/Noun',
 '랑/Josa',
 '좋다/Adjective',
 '놀다/Verb',
 '고양이/Noun',
 '운동/Noun',
 '는/Josa',
 '이쁘다/Adjective']

In [111]:
# 최종 훈련 데이터 모습
# ({'메리/Noun':True, '가/Josa':True, ...})
for doc in train:
    print({word : word in doc[0] for word in tokens} )    

{'도/Josa': False, '메리/Noun': True, '고/Josa': False, '이/Josa': False, '마치/Noun': False, '야/Josa': False, '가/Josa': True, '지루하다/Adjective': False, '난/Noun': False, '랑/Josa': False, '좋다/Adjective': True, '놀다/Verb': False, '고양이/Noun': False, '운동/Noun': False, '는/Josa': False, '이쁘다/Adjective': False}
{'도/Josa': True, '메리/Noun': False, '고/Josa': False, '이/Josa': False, '마치/Noun': False, '야/Josa': False, '가/Josa': False, '지루하다/Adjective': False, '난/Noun': False, '랑/Josa': False, '좋다/Adjective': True, '놀다/Verb': False, '고양이/Noun': True, '운동/Noun': False, '는/Josa': False, '이쁘다/Adjective': False}
{'도/Josa': False, '메리/Noun': False, '고/Josa': False, '이/Josa': True, '마치/Noun': False, '야/Josa': False, '가/Josa': False, '지루하다/Adjective': True, '난/Noun': True, '랑/Josa': False, '좋다/Adjective': False, '놀다/Verb': False, '고양이/Noun': False, '운동/Noun': True, '는/Josa': False, '이쁘다/Adjective': False}
{'도/Josa': False, '메리/Noun': True, '고/Josa': False, '이/Josa': False, '마치/Noun': False, '야/Josa': True, '가/Josa

In [107]:
## 강사님꺼
def makePosCheck(doc):
    return {word:(word in set(doc)) for word in tokens}

In [109]:
train_han = [(makePosCheck(sentence),pos_neg) for sentence, pos_neg in train]

In [110]:
train_han

[({'도/Josa': False,
   '메리/Noun': True,
   '고/Josa': False,
   '이/Josa': False,
   '마치/Noun': False,
   '야/Josa': False,
   '가/Josa': True,
   '지루하다/Adjective': False,
   '난/Noun': False,
   '랑/Josa': False,
   '좋다/Adjective': True,
   '놀다/Verb': False,
   '고양이/Noun': False,
   '운동/Noun': False,
   '는/Josa': False,
   '이쁘다/Adjective': False},
  'pos'),
 ({'도/Josa': True,
   '메리/Noun': False,
   '고/Josa': False,
   '이/Josa': False,
   '마치/Noun': False,
   '야/Josa': False,
   '가/Josa': False,
   '지루하다/Adjective': False,
   '난/Noun': False,
   '랑/Josa': False,
   '좋다/Adjective': True,
   '놀다/Verb': False,
   '고양이/Noun': True,
   '운동/Noun': False,
   '는/Josa': False,
   '이쁘다/Adjective': False},
  'pos'),
 ({'도/Josa': False,
   '메리/Noun': False,
   '고/Josa': False,
   '이/Josa': True,
   '마치/Noun': False,
   '야/Josa': False,
   '가/Josa': False,
   '지루하다/Adjective': True,
   '난/Noun': True,
   '랑/Josa': False,
   '좋다/Adjective': False,
   '놀다/Verb': False,
   '고양이/Noun': False,
   '운동/Noun': 

In [112]:
classifier = nltk.NaiveBayesClassifier.train(train_han)
classifier.show_most_informative_features()

Most Informative Features
                 메리/Noun = False             neg : pos    =      2.5 : 1.0
                  난/Noun = True              neg : pos    =      2.5 : 1.0
                고양이/Noun = False             neg : pos    =      1.5 : 1.0
            좋다/Adjective = False             neg : pos    =      1.5 : 1.0
                  가/Josa = False             neg : pos    =      1.1 : 1.0
                  고/Josa = False             neg : pos    =      1.1 : 1.0
                  는/Josa = False             neg : pos    =      1.1 : 1.0
                 놀다/Verb = False             neg : pos    =      1.1 : 1.0
                  랑/Josa = False             neg : pos    =      1.1 : 1.0
                  야/Josa = False             neg : pos    =      1.1 : 1.0


In [113]:
# 예측
test_sentence=[('난 운동이 끝나면 메리랑 놀거야')]

In [119]:
# 형태소 획득 
# test_pos = ok.pos(test_sentence)
# test_pos
test_pos = okTokenize(test_sentence[0])
test_pos


['난/Noun', '운동/Noun', '이/Josa', '끝나다/Verb', '메리/Noun', '랑/Josa', '놀다/Verb']

In [120]:
test_pos_feature = makePosCheck(test_pos)
test_pos_feature

{'도/Josa': False,
 '메리/Noun': True,
 '고/Josa': False,
 '이/Josa': True,
 '마치/Noun': False,
 '야/Josa': False,
 '가/Josa': False,
 '지루하다/Adjective': False,
 '난/Noun': True,
 '랑/Josa': True,
 '좋다/Adjective': False,
 '놀다/Verb': True,
 '고양이/Noun': False,
 '운동/Noun': True,
 '는/Josa': False,
 '이쁘다/Adjective': False}

In [121]:
classifier.classify(test_pos_feature)

'neg'