### 머신러닝의 지도학습(변수,정답)의 한 알고리즘 사용
- 나이브 베이즈 분류
- Naive Bayes Classifier
- 두 사건을 서로 독립적이라고 가정, 각각의 조건부 확률을 계산
- 방식
 > 샘플 문장 제시 => 긍정/부정인지 답안제시
 > 학습(문자를 형태소 분해를 해서 학습용 데이터로 구성)
 > 학습후 모델이 생성이 되고 이를 통해서 한번도 접하지 못한 문장을 받아서 예측!!

In [11]:
from nltk.tokenize import word_tokenize
import nltk

In [12]:
# pos : 긍정
# neg : 부정
# 연습용(학습용) 데이터 : 학습용과 테스트용 (75:25)
train = [ ('i like you','pos'), 
          ('i hate you','neg'), 
          ('you like me','neg'), 
          ('i like her','pos') ]
# i가 들어가면 긍정인가?

In [13]:
for sentence in train:
    print(  sentence )
    # word_tokenize() => 한글의 형태소 분해 과정 유사
    for word in word_tokenize(sentence[0]):
        # 알파벳은 대문자 혹은 소문자로 일치시킨다
        print( word.lower() )

('i like you', 'pos')
i
like
you
('i hate you', 'neg')
i
hate
you
('you like me', 'neg')
you
like
me
('i like her', 'pos')
i
like
her


In [14]:
# 전체 문장에서 형태소로 분해하여 중복을 제거하여 리스트로 담아라 한줄로
# all_words = 
all_words = list( set( [ word.lower() 
                         for sentence in train  
                         for word in word_tokenize(sentence[0]) ] ) )
all_words

['hate', 'you', 'her', 'me', 'i', 'like']

In [15]:
# 훈련용 텍스트 문장에 all_words에 내용을 대비하여 해당 말뭉치가 있는지 없는지 체킹
for x in train:
    print( x[1], { word:( word in word_tokenize(x[0]) ) for word in all_words  } )

pos {'hate': False, 'you': True, 'her': False, 'me': False, 'i': True, 'like': True}
neg {'hate': True, 'you': True, 'her': False, 'me': False, 'i': True, 'like': False}
neg {'hate': False, 'you': True, 'her': False, 'me': True, 'i': False, 'like': True}
pos {'hate': False, 'you': False, 'her': True, 'me': False, 'i': True, 'like': True}


In [16]:
t = [ ( { word:( word in word_tokenize(x[0]) ) for word in all_words  }, x[1] ) 
      for x in train ]
t

[({'hate': False,
   'you': True,
   'her': False,
   'me': False,
   'i': True,
   'like': True},
  'pos'),
 ({'hate': True,
   'you': True,
   'her': False,
   'me': False,
   'i': True,
   'like': False},
  'neg'),
 ({'hate': False,
   'you': True,
   'her': False,
   'me': True,
   'i': False,
   'like': True},
  'neg'),
 ({'hate': False,
   'you': False,
   'her': True,
   'me': False,
   'i': True,
   'like': True},
  'pos')]

In [17]:
# 학습
# 알고리즘 생성및 학습을 한번에 진행
classifier = nltk.NaiveBayesClassifier.train( t )

In [18]:
classifier.show_most_informative_features()
# 학습 결과, 분류의 결과치

Most Informative Features
                      me = False             pos : neg    =      1.7 : 1.0
                    hate = False             pos : neg    =      1.7 : 1.0
                       i = True              pos : neg    =      1.7 : 1.0
                     you = True              neg : pos    =      1.7 : 1.0
                     her = False             neg : pos    =      1.7 : 1.0
                    like = True              pos : neg    =      1.7 : 1.0


In [19]:
# 새로운 단어 
test_sentence = 'i like MeRui'

In [20]:
# 이 문장에 위의 표현처럼 구성 => {}
test_sentence_feature = { word.lower():( word in word_tokenize(test_sentence) ) 
                          for word in all_words  }
test_sentence_feature

{'hate': False,
 'you': False,
 'her': False,
 'me': False,
 'i': True,
 'like': True}

In [21]:
# 예측
classifier.classify( test_sentence_feature )

'pos'

### 한글 데이터 구성

In [22]:
from konlpy.tag import Okt
pos_tagger = Okt()

-------------------------------------------------------------------------------
Deprecated: convertStrings was not specified when starting the JVM. The default
behavior in JPype will be False starting in JPype 0.8. The recommended setting
for new code is convertStrings=False.  The legacy value of True was assumed for
please file a ticket with the developer.
-------------------------------------------------------------------------------

  """)


In [23]:
# 학습 데이터
train = [ ('아웃백이 좋아','pos'),
          ('애슐리도 좋아','pos'),
          ('난 자연당이 싫어','neg'),
          ('아웃백은 아주 좋은 식당이야','pos'),
          ('난 수업 마치고 아웃백에 갈거야','pos'),
]

In [24]:
# 말뭉치 준비
# 중복제거, 
# nltk의 토큰나이저 사용시 공백기준으로 명사품사등을 쪼개지 않고 그대로 워드화 하였다
all_words = set(  word for sentence in train
                  for word in  word_tokenize( sentence[0] ) )
all_words

{'갈거야',
 '난',
 '마치고',
 '수업',
 '식당이야',
 '싫어',
 '아웃백에',
 '아웃백은',
 '아웃백이',
 '아주',
 '애슐리도',
 '자연당이',
 '좋아',
 '좋은'}

In [25]:
t = [ ( { word:( word in word_tokenize(x[0]) ) for word in all_words  }, x[1] ) 
      for x in train ]
t

[({'자연당이': False,
   '싫어': False,
   '마치고': False,
   '식당이야': False,
   '좋은': False,
   '아웃백이': True,
   '수업': False,
   '좋아': True,
   '갈거야': False,
   '난': False,
   '아웃백은': False,
   '애슐리도': False,
   '아웃백에': False,
   '아주': False},
  'pos'),
 ({'자연당이': False,
   '싫어': False,
   '마치고': False,
   '식당이야': False,
   '좋은': False,
   '아웃백이': False,
   '수업': False,
   '좋아': True,
   '갈거야': False,
   '난': False,
   '아웃백은': False,
   '애슐리도': True,
   '아웃백에': False,
   '아주': False},
  'pos'),
 ({'자연당이': True,
   '싫어': True,
   '마치고': False,
   '식당이야': False,
   '좋은': False,
   '아웃백이': False,
   '수업': False,
   '좋아': False,
   '갈거야': False,
   '난': True,
   '아웃백은': False,
   '애슐리도': False,
   '아웃백에': False,
   '아주': False},
  'neg'),
 ({'자연당이': False,
   '싫어': False,
   '마치고': False,
   '식당이야': True,
   '좋은': True,
   '아웃백이': False,
   '수업': False,
   '좋아': False,
   '갈거야': False,
   '난': False,
   '아웃백은': True,
   '애슐리도': False,
   '아웃백에': False,
   '아주': True},
  'pos'),
 ({'자연당이': False,
 

In [26]:
# 학습
classifier = nltk.NaiveBayesClassifier.train( t )

In [27]:
classifier.show_most_informative_features()

Most Informative Features
                       난 = True              neg : pos    =      2.5 : 1.0
                      좋아 = False             neg : pos    =      1.5 : 1.0
                     마치고 = False             neg : pos    =      1.1 : 1.0
                    아웃백이 = False             neg : pos    =      1.1 : 1.0
                    애슐리도 = False             neg : pos    =      1.1 : 1.0
                      수업 = False             neg : pos    =      1.1 : 1.0
                      좋은 = False             neg : pos    =      1.1 : 1.0
                     갈거야 = False             neg : pos    =      1.1 : 1.0
                    식당이야 = False             neg : pos    =      1.1 : 1.0
                    아웃백은 = False             neg : pos    =      1.1 : 1.0


In [28]:
# 예측할 문장
test_sentence = '난 수업을 마치고 자연당에 갈거야'

In [29]:
train

[('아웃백이 좋아', 'pos'),
 ('애슐리도 좋아', 'pos'),
 ('난 자연당이 싫어', 'neg'),
 ('아웃백은 아주 좋은 식당이야', 'pos'),
 ('난 수업 마치고 아웃백에 갈거야', 'pos')]

In [30]:
# 예측할 문장의 데이터화 
test_sentence_feature = { word.lower():( word in word_tokenize(test_sentence) ) 
                          for word in all_words  }
test_sentence_feature

{'자연당이': False,
 '싫어': False,
 '마치고': True,
 '식당이야': False,
 '좋은': False,
 '아웃백이': False,
 '수업': False,
 '좋아': False,
 '갈거야': True,
 '난': True,
 '아웃백은': False,
 '애슐리도': False,
 '아웃백에': False,
 '아주': False}

In [31]:
# 예측
classifier.classify( test_sentence_feature )

'pos'

In [32]:
# 위의 방식으로 진행을 해보면, 훈련에 필요한 다량의 데이터(문장, 상황) 필요하다
# 훈련량이 적거나, 데이터가 적거나, 부정확하다 => 정확도가 떨어진다
# 절차적인것만 체크, 한계적인 상황도 고려
# 지도학습은 정답을 알고 있어야 한다. 다양하게 구성할수 있는 문장에 대한 판단이
# 쉽지않다. => 많은 문장과 문서중에서 유사한 문자을 찾아내고 => 
# 문장을 백터로 표현하여, 백터간의 거리를 구하여 해결 => 문장의 유사도

In [33]:
from sklearn.feature_extraction.text import CountVectorizer

In [34]:
# 1은 임시값 -> 이값들은 향후 하이퍼 파라미터 튜딩이라는 주제에서 값을 다변화하여
# 조합 테스트를 수행
vectorizer =  CountVectorizer(min_df=1)

In [35]:
# 많은 문장을 훈련시켜야 한다, 몇가지 샘플로 진행
contents = ['성건이랑 술마시고 싶지만 바쁜데 어떻하죠?',
            '성건이는 공원에서 산책하고 노는 것을 싫어해요',
            '성건이는 공원에서 노는 것도 싫어해요. 이상해요.',
            '먼 곳으로 여행을 떠나고 싶은데 너무 바빠서 그러질 못하고 있어요.'
           ]

In [36]:
X = vectorizer.fit_transform( contents )

In [37]:
tmp = vectorizer.get_feature_names()

In [38]:
# feature : 특징들 => 변수
len(tmp), tmp[:5]

(22, ['것도', '것을', '곳으로', '공원에서', '그러질'])

In [39]:
# 각 feature에 대한 백터값 
trans = X.toarray().transpose()
trans.shape, trans
# '것도' 라는 feature는
# 훈련용 전체문장 4개중 3번째에 등장한다
# 0, 0, 1, 0 이라는 백터값을 가지게 된다

((22, 4), array([[0, 0, 1, 0],
        [0, 1, 0, 0],
        [0, 0, 0, 1],
        [0, 1, 1, 0],
        [0, 0, 0, 1],
        [0, 0, 0, 1],
        [0, 1, 1, 0],
        [0, 0, 0, 1],
        [0, 0, 0, 1],
        [0, 0, 0, 1],
        [1, 0, 0, 0],
        [0, 1, 0, 0],
        [0, 1, 1, 0],
        [1, 0, 0, 0],
        [1, 0, 0, 0],
        [0, 1, 1, 0],
        [0, 0, 0, 1],
        [1, 0, 0, 0],
        [1, 0, 0, 0],
        [0, 0, 0, 1],
        [0, 0, 1, 0],
        [0, 0, 0, 1]], dtype=int64))

In [40]:
num_samples, num_features =  X.shape

In [41]:
# 문장이 4개
num_samples

4

In [42]:
# 문장 4개에서 추출한 말뭉치 22개
num_features

22

In [43]:
# 새로운 문장
new_post = ['성건이랑 공원에서 산책하고 놀고 싶어요']

In [44]:
new_post_vec = vectorizer.transform( new_post )

In [45]:
tmp = new_post_vec.toarray()

In [46]:
tmp.shape

(1, 22)

In [47]:
# 문장의 백터화
tmp

array([[0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0]],
      dtype=int64)

In [48]:
# 유사도 판단을 하기위해서 거리 계산
import scipy as sp

In [49]:
# 거리계산
def dis_raw( v1, v2 ):
    delta = v1 - v2
    return sp.linalg.norm( delta.toarray() )

In [50]:
# 샘플 문장을 반복하면서 이 문장과, 일일이 비교 -> 그중에 거리가 가장 짦은 문장이 선택
# 그 문장이 가장 유사한 문장이다
best_distance = 1000
best_index    = None
for i in range( num_samples ):
    # 각 문장의 백터 정보를 리턴 
    post_vec = X.getrow(i)  
    # 비교 문장 : new_post_vec
    # 거리 계산
    d = dis_raw( post_vec,  new_post_vec )
    #print( "%d %f" % (i, d) )
    # 거리가, best_distance보다 작으면 세팅
    if d < best_distance:
        best_distance = d
        best_index = i

In [51]:
# 최소거리 :
best_distance

2.23606797749979

In [52]:
# 그때의 인덱스
best_index

1

In [53]:
# 그때 문장은
contents[best_index]

'성건이는 공원에서 산책하고 노는 것을 싫어해요'

In [54]:
'성건이랑 공원에서 산책하고 놀고 싶어요'

'성건이랑 공원에서 산책하고 놀고 싶어요'

In [55]:
# -> nltk의 말뭉치는 한글과 딱히 맞지가 않다
# 한글 전용 형태소 분석기를 활용하여 보다 정확하고, 의미있게 작업을 진행 목표로 진행