### 머신러닝의 지도학습(변수, 정담)의 한 알고리즘 사용
- 나이브 베이즈 분류 
- Naive Bayes Classifier
- 두 사건을 서로 독립적으로 가정, 각각의 조건부 확률을 계산
- 방식
 > 샘플 문장 제시 => 긍정/부정인지 답안제시
 > 이것을 통해서 학습(문자를 형태소 분해를 해서 학습용 데이터로 구성)을 진행
 > 학습후 모델이 생성이 되고, 이를 통해서 한번도 접하지 못한 문장을 받아서 예측!!

In [1]:
# tokenize, word_tokenize 땡기기
from nltk.tokenize import word_tokenize
import nltk

In [2]:
# pos : 긍정
# neg : 부정
# 연습용(학습용) 데이터 : 학습용과 테스트용( 두개의 비율은 75:25 ) 
train = [ ('i like you','pos'), 
          ('i hate you','neg'), 
          ('you like me','neg'), 
          ('i like her','pos') ] # 관련없는 두개를 묶어서 비교를 해야되서 튜플로 묶어준다

# i가 들어가면 긍정인가?라고 해석하기가 쉽지않다

In [16]:
for sentence in train:
    print(sentence)
    # word_tokenize() => 한글의 형태소 분해 과정 유사
    for word in word_tokenize(sentence[0]): # 영어 형태소 분석은 : word_tokenize
        # 알파벳은 대문자 혹은 소문자로 일치시킨다
        print( word.lower() ) # lower(): 소문자로 일치시킴

('i like you', 'pos')
i
like
you
('i hate you', 'neg')
i
hate
you
('you like me', 'neg')
you
like
me
('i like her', 'pos')
i
like
her


In [17]:
# 전체문장에서 형태소를 분해하여 중복을 제거하여 리스트로 담아라 한줄로
# all_words = 
all_words = list( set( [word.lower()
                     for sentence in train
                     for word in word_tokenize(sentence[0])] ) )
all_words

['i', 'me', 'her', 'you', 'like', 'hate']

In [18]:
# 훈련용 텍스트 문장에 all_words에 내용을 대비하여 해당 말뭉치가 있는지 없는지 체킹
for x in train:
    print( x[1], { word:( word in word_tokenize(x[0]) ) for word in all_words } ) # 말뭉치에서 word를 하나씩 뽑아내고

pos {'i': True, 'me': False, 'her': False, 'you': True, 'like': True, 'hate': False}
neg {'i': True, 'me': False, 'her': False, 'you': True, 'like': False, 'hate': True}
neg {'i': False, 'me': True, 'her': False, 'you': True, 'like': True, 'hate': False}
pos {'i': True, 'me': False, 'her': True, 'you': False, 'like': True, 'hate': False}


In [19]:
# 전형적인 리스트 내포
t = [ ( { word:( word in word_tokenize(x[0]) ) for word in all_words }, x[1] ) 
      for x in train]
t

[({'i': True,
   'me': False,
   'her': False,
   'you': True,
   'like': True,
   'hate': False},
  'pos'),
 ({'i': True,
   'me': False,
   'her': False,
   'you': True,
   'like': False,
   'hate': True},
  'neg'),
 ({'i': False,
   'me': True,
   'her': False,
   'you': True,
   'like': True,
   'hate': False},
  'neg'),
 ({'i': True,
   'me': False,
   'her': True,
   'you': False,
   'like': True,
   'hate': False},
  'pos')]

In [None]:
# t를 가지고 학습을 진행하겠다, (이전 단계까지는 재료를 준비하는 과정이었다)

In [20]:
# 학습
# 알고리즘 생성 및 학습을 한번에 진행
classifier = nltk.NaiveBayesClassifier.train( t )

In [21]:
classifier.show_most_informative_features()
# 학습 결과, 분류의 결과치

Most Informative Features
                     you = True              neg : pos    =      1.7 : 1.0
                       i = True              pos : neg    =      1.7 : 1.0
                    hate = False             pos : neg    =      1.7 : 1.0
                     her = False             neg : pos    =      1.7 : 1.0
                      me = False             pos : neg    =      1.7 : 1.0
                    like = True              pos : neg    =      1.7 : 1.0


In [30]:
# 새로운 단어 
text_sentence = 'i like MeRui' # 말뭉치에 대해서 MeRui는 없다

In [31]:
# 이(위의) 문장에 위의 표현처럼 구성( 예측에 관해서 위의 소스코드 출력처럼 구성 ) => {}
text_sentence_feature =  { word.lower(): ( word in word_tokenize(text_sentence) ) 
                           for word in all_words }
text_sentence_feature

{'i': True,
 'me': False,
 'her': False,
 'you': False,
 'like': True,
 'hate': False}

In [32]:
# 예측 
classifier.classify( text_sentence_feature ) # 정확도는 포함안되었다(머신러닝의 맛보기라서 나머지 추가되는 기능은 나중에 배운다)

'pos'

### 한글 데이터 구성

In [33]:
from konlpy.tag import Okt
pos_tagger = Okt()

-------------------------------------------------------------------------------
Deprecated: convertStrings was not specified when starting the JVM. The default
behavior in JPype will be False starting in JPype 0.8. The recommended setting
for new code is convertStrings=False.  The legacy value of True was assumed for
please file a ticket with the developer.
-------------------------------------------------------------------------------

  """)


In [34]:
# 학습 데이터
train = [('아웃백이 좋아','pos'),
         ('애슐리도 좋아','pos'),
         ('난 자연당이 싫어','neg'),
         ('아웃백은 아주 좋은 식당이야','pos'),
         ('난 수업 마치고 아웃백에 갈거야','pos')
        ]

In [36]:
# 말뭉치를 준비(사전 준비)
# 중복제거,
# nltk의 토큰나이저 사용시 공백기준으로 명사품사등을 쪼개지 않고 그대로 워드화 하였다
all_words = set(  word for sentence in train 
                  for word in word_tokenize( sentence[0] ) )
all_words
# 명사와 품사가 같이 나옴, 쪼갤때 공백을 기준으로 쪼갬

{'갈거야',
 '난',
 '마치고',
 '수업',
 '식당이야',
 '싫어',
 '아웃백에',
 '아웃백은',
 '아웃백이',
 '아주',
 '애슐리도',
 '자연당이',
 '좋아',
 '좋은'}

In [37]:
t = [ ( { word:( word in word_tokenize(x[0]) ) for word in all_words }, x[1] ) 
      for x in train]
t # 긍정상황과 부정상황이 나옴

[({'아웃백이': True,
   '난': False,
   '아웃백에': False,
   '아웃백은': False,
   '수업': False,
   '마치고': False,
   '갈거야': False,
   '좋아': True,
   '자연당이': False,
   '아주': False,
   '식당이야': False,
   '좋은': False,
   '애슐리도': False,
   '싫어': False},
  'pos'),
 ({'아웃백이': False,
   '난': False,
   '아웃백에': False,
   '아웃백은': False,
   '수업': False,
   '마치고': False,
   '갈거야': False,
   '좋아': True,
   '자연당이': False,
   '아주': False,
   '식당이야': False,
   '좋은': False,
   '애슐리도': True,
   '싫어': False},
  'pos'),
 ({'아웃백이': False,
   '난': True,
   '아웃백에': False,
   '아웃백은': False,
   '수업': False,
   '마치고': False,
   '갈거야': False,
   '좋아': False,
   '자연당이': True,
   '아주': False,
   '식당이야': False,
   '좋은': False,
   '애슐리도': False,
   '싫어': True},
  'neg'),
 ({'아웃백이': False,
   '난': False,
   '아웃백에': False,
   '아웃백은': True,
   '수업': False,
   '마치고': False,
   '갈거야': False,
   '좋아': False,
   '자연당이': False,
   '아주': True,
   '식당이야': True,
   '좋은': True,
   '애슐리도': False,
   '싫어': False},
  'pos'),
 ({'아웃백이': False,
 

In [38]:
# 학습
classifier = nltk.NaiveBayesClassifier.train( t )

In [39]:
classifier.show_most_informative_features() # 정확성이 많이 떨어지는 자료

Most Informative Features
                       난 = True              neg : pos    =      2.5 : 1.0
                      좋아 = False             neg : pos    =      1.5 : 1.0
                      좋은 = False             neg : pos    =      1.1 : 1.0
                    아웃백이 = False             neg : pos    =      1.1 : 1.0
                      아주 = False             neg : pos    =      1.1 : 1.0
                     갈거야 = False             neg : pos    =      1.1 : 1.0
                    식당이야 = False             neg : pos    =      1.1 : 1.0
                      수업 = False             neg : pos    =      1.1 : 1.0
                    아웃백에 = False             neg : pos    =      1.1 : 1.0
                     마치고 = False             neg : pos    =      1.1 : 1.0


In [40]:
# 예측할 문장
test_sentence = '난 수업을 마치고 자연당에 갈거야'

In [41]:
train

[('아웃백이 좋아', 'pos'),
 ('애슐리도 좋아', 'pos'),
 ('난 자연당이 싫어', 'neg'),
 ('아웃백은 아주 좋은 식당이야', 'pos'),
 ('난 수업 마치고 아웃백에 갈거야', 'pos')]

In [42]:
# 예측할 문장의 데이터화
text_sentence_feature =  { word.lower(): ( word in word_tokenize(text_sentence) ) 
                           for word in all_words }
text_sentence_feature

{'아웃백이': False,
 '난': False,
 '아웃백에': False,
 '아웃백은': False,
 '수업': False,
 '마치고': False,
 '갈거야': False,
 '좋아': False,
 '자연당이': False,
 '아주': False,
 '식당이야': False,
 '좋은': False,
 '애슐리도': False,
 '싫어': False}

In [43]:
# 예측
classifier.classify( text_sentence_feature ) # 잘못나온 결과(결과는 긍정인데 위에서의 자연당은 부정으로 학습을 해두었기 때문이다)

'pos'

In [None]:
# 위의 방식으로 진행을 해보면, 훈련에 필요한 다량의 데이터(문장, 상황) 필요하다
# 훈련량이 적거나, 데이터가 적거나, 부정확하다 => 정확도가 떨어진다
# 절차적인것만 체크, 한계적인 상황도 고려
# 지도학습은 정답을 알고 있어야 한다. 다양하게 구성할 수 있는 문장에 대한 판단이
# 쉽지않다. => 많은 문장과 문서중에서 유사한 문자를 찾아내고 =>
# 문장을 백터로 표현하여, 백터간의 거리를 구하여 해결 =-> 문장의 유사도
# 중점( 백터화하고, 거리를 구하는 것이 중점 포인트다 )

In [44]:
from sklearn.feature_extraction.text import CountVectorizer

In [45]:
# 1은 임시값 -> 이값들은 향후 하이퍼 파라미터 튜딩이라는 주제에서 값을 다변화하여
# 조합 테스트를 수행
vectorizer = CountVectorizer( min_df=1 ) # 생성자(): 에서 나오는 함수:하이퍼

In [46]:
# 많은 문장을 훈련시켜야 한다. 몇가지 샘플로 진행
contents = ['성건이랑 술마시고 싶지만 바쁜데 어떡하죠?',
            '성건이는 공원에서 산책하고 노는 것을 싫어해요',
            '성건이는 공원에서 노는 것도 싫어해요. 이상해요.',
            '먼 곳으로 여행을 떠나고 싶은데 너무 바빠서 그러질 못하고 있어요.'
           ]

In [47]:
X = vectorizer.fit_transform( contents )

In [48]:
tmp = vectorizer.get_feature_names()

In [55]:
# feature : 특징들 => 변수
len(tmp), tmp[:5]  # 이는, 이랑 등은 다른 단어로 인식하고 있다 (일단 그렇게 알고 있어라)

(22, ['것도', '것을', '곳으로', '공원에서', '그러질'])

In [54]:
# 각 feature에 대한 백터값
trans = X.toarray().transpose()
trans.shape, trans # 자료는 22개이고, 문장은 4개이다.
# '것도'라는 feature는 
# 훈련용 전체문장 4개중 3번째에 등장한다
# 그래서 0,0,1,0 이라는 백턱값을 가지게 된다 

((22, 4), array([[0, 0, 1, 0],
        [0, 1, 0, 0],
        [0, 0, 0, 1],
        [0, 1, 1, 0],
        [0, 0, 0, 1],
        [0, 0, 0, 1],
        [0, 1, 1, 0],
        [0, 0, 0, 1],
        [0, 0, 0, 1],
        [0, 0, 0, 1],
        [1, 0, 0, 0],
        [0, 1, 0, 0],
        [0, 1, 1, 0],
        [1, 0, 0, 0],
        [1, 0, 0, 0],
        [0, 1, 1, 0],
        [0, 0, 0, 1],
        [1, 0, 0, 0],
        [1, 0, 0, 0],
        [0, 0, 0, 1],
        [0, 0, 1, 0],
        [0, 0, 0, 1]], dtype=int64))

In [57]:
num_samples, num_features = X.shape # 문장 4개 텍스트 22개

In [58]:
# 문장이 4개
num_samples

4

In [59]:
# 문장 4개에서 추출한 말뭉치 22개
num_features

22

In [60]:
# 새로운 문장
new_post = ['성건이랑 공원에서 산책하고 놀고 싶어요']

In [61]:
# 백터화 시켜야한다
new_post_vec = vectorizer.transform( new_post )

In [63]:
tmp = new_post_vec.toarray()

In [64]:
# 문장의 백터화 
tmp # 문장 하나에 대한 2진 데이터가 완성됨( 문장의 수치화 ), 딕셔너리가 필요했다 

array([[0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0]],
      dtype=int64)

In [65]:
# 유사도 판단을 하기 위해서 거리 계산( 샘플들의 )
import scipy as sp

In [66]:
# 거리 계산
def dis_raw( v1, v2 ):
    delta = v1 - v2
    return sp.linalg.norm( delta.toarray() ) # 두개를 빼고 투어레이 시킴

In [72]:
# 샘플 문장을 반복하면서 이 문장과, 일일이 비교 -> 그 중에 거리가 가장 짧은 문장이 선택된다
# 그 문장이 가장 유사한 문장이다 
best_distance = 1000 # 임의값
best_index = None
for i in range( num_samples ): # 샘플 문장수는 4개다
    # 각 문장의 백터정보를 리턴
    post_vec = X.getrow( i )
    # 비교 문장 : new_post_vec
    # 거리계산
    d = dis_raw( post_vec, new_post_vec )
    #print( "%d %f" % (i, d) ): 잠시 막아둠  # 출력값은 두번째가 가장 가깝다
    # 거리가, best_distance보다 작으면 세팅 
    if d < best_distance:
        best_distance = d
        best_index = i

In [73]:
# 최소거리 :
best_distance

2.23606797749979

In [74]:
# 그때의 인덱스
best_index

1

In [75]:
# 그때의 문장은
contents[best_index]

'성건이는 공원에서 산책하고 노는 것을 싫어해요'

In [76]:
'성건이는 공원에서 산책하고 놀고 싶어요'

'성건이는 공원에서 산책하고 놀고 싶어요'

In [None]:
# -> nltk의 말뭉치는 한글과 딱히 맞지가 않다
# 한글 전용 형태소 분석기를 활용하여 보다 정확하고, 의미있게 작업을 진행 목표로 진행 