In [2]:
# 필요 패키지 import
from sklearn.feature_extraction.text import CountVectorizer

In [3]:
# 최소 빈도 설정
vectorizer = CountVectorizer(min_df = 1)


In [4]:
# training 문장
contents = ['메리랑 놀러가고 싶지만 바쁜데 어떡하죠?',
            '메리는 공원에서 산책하고 노는 것을 싫어해요',
            '메리는 공원에서 노는 것도 싫어해요. 이상해요',
            '먼 곳으로 여행을 떠나고 싶은데 너무 바빠서 그러지 못합니다.']

In [5]:
# 단어들의 feature 분류
X = vectorizer.fit_transform(contents)
vectorizer.get_feature_names()

['것도',
 '것을',
 '곳으로',
 '공원에서',
 '그러지',
 '너무',
 '노는',
 '놀러가고',
 '떠나고',
 '메리는',
 '메리랑',
 '못합니다',
 '바빠서',
 '바쁜데',
 '산책하고',
 '싫어해요',
 '싶은데',
 '싶지만',
 '어떡하죠',
 '여행을',
 '이상해요']

In [7]:
from konlpy.tag import Twitter
t = Twitter()

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')
-------------------------------------------------------------------------------
Deprecated: convertStrings was not specified when starting the JVM. The default
behavior in JPype will be False starting in JPype 0.8. The recommended setting
for new code is convertStrings=False.  The legacy value of True was assumed for
please file a ticket with the developer.
-------------------------------------------------------------------------------

  """)


In [8]:
contents_token = [t.morphs(row) for row in contents]
contents_token

[['메리', '랑', '놀러', '가고', '싶지만', '바쁜데', '어떡하죠', '?'],
 ['메리', '는', '공원', '에서', '산책', '하고', '노', '는', '것', '을', '싫어해요'],
 ['메리', '는', '공원', '에서', '노', '는', '것', '도', '싫어해요', '.', '이상해요'],
 ['먼',
  '곳',
  '으로',
  '여행',
  '을',
  '떠나고',
  '싶은데',
  '너무',
  '바빠서',
  '그러지',
  '못',
  '합니다',
  '.']]

In [14]:
# 띄워져 있는 단어들을 공백을 사용하여 한 문장으로 길게 편집
contents_for_vectorize = []

for content in contents_token:
    sentence = ''
    for word in content:
        sentence = sentence + ' ' + word
    
    contents_for_vectorize.append(sentence)
    
contents_for_vectorize


[' 메리 랑 놀러 가고 싶지만 바쁜데 어떡하죠 ?',
 ' 메리 는 공원 에서 산책 하고 노 는 것 을 싫어해요',
 ' 메리 는 공원 에서 노 는 것 도 싫어해요 . 이상해요',
 ' 먼 곳 으로 여행 을 떠나고 싶은데 너무 바빠서 그러지 못 합니다 .']

In [15]:
# feature 찾기
X = vectorizer.fit_transform(contents_for_vectorize)
num_samples, num_features = X.shape
num_samples, num_features

(4, 20)

In [16]:
vectorizer.get_feature_names()

['가고',
 '공원',
 '그러지',
 '너무',
 '놀러',
 '떠나고',
 '메리',
 '바빠서',
 '바쁜데',
 '산책',
 '싫어해요',
 '싶은데',
 '싶지만',
 '어떡하죠',
 '에서',
 '여행',
 '으로',
 '이상해요',
 '하고',
 '합니다']

In [17]:
# 단어들을 벡터화
X.toarray().transpose()

array([[1, 0, 0, 0],
       [0, 1, 1, 0],
       [0, 0, 0, 1],
       [0, 0, 0, 1],
       [1, 0, 0, 0],
       [0, 0, 0, 1],
       [1, 1, 1, 0],
       [0, 0, 0, 1],
       [1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 1, 1, 0],
       [0, 0, 0, 1],
       [1, 0, 0, 0],
       [1, 0, 0, 0],
       [0, 1, 1, 0],
       [0, 0, 0, 1],
       [0, 0, 0, 1],
       [0, 0, 1, 0],
       [0, 1, 0, 0],
       [0, 0, 0, 1]], dtype=int64)

In [18]:
# 새로운 문장을 학습시키고 위에서 했었던 함수에 적용
new_post = ['메리랑 공원에서 산책하고 놀고 싶어요']
new_post_tokens = [t.morphs(row) for row in new_post]

new_post_for_vectorize = []

for content in new_post_tokens:
    sentence = ''
    for word in content:
        sentence = sentence + ' ' + word
        
    new_post_for_vectorize.append(sentence)
    
new_post_for_vectorize

[' 메리 랑 공원 에서 산책 하고 놀고 싶어요']

In [19]:
new_post_vec = vectorizer.transform(new_post_for_vectorize)


In [20]:
# 새로운 문장을 벡터화
new_post_vec.toarray()

array([[0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0]],
      dtype=int64)

In [22]:
import scipy as sp

def dist_raw(v1, v2):
    delta = v1 - v2
    return sp.linalg.norm(delta.toarray())

In [23]:
# 새로운 문장과 원래 문장 간의 거리를 구하는 함수
best_doc = None
best_dist = 65535
best_i  = None

for i in range(0, num_samples):
    post_vec = X.getrow(i)
    d = dist_raw(post_vec, new_post_vec)
    
    print("== Post %i with dist =%.2f   : %s" %(i, d, contents[i]))
    
    if d < best_dist:
        best_dist = d
        best_i = i
        
        

== Post 0 with dist =3.00   : 메리랑 놀러가고 싶지만 바쁜데 어떡하죠?
== Post 1 with dist =1.00   : 메리는 공원에서 산책하고 노는 것을 싫어해요
== Post 2 with dist =2.00   : 메리는 공원에서 노는 것도 싫어해요. 이상해요
== Post 3 with dist =3.61   : 먼 곳으로 여행을 떠나고 싶은데 너무 바빠서 그러지 못합니다.


In [24]:
# 새로운 문장과 가장 거리가 가까운 문장을 출력
print("Best post is %i, dist = %.2f" %(best_i, best_dist))
print('-->', new_post)
print('---->', contents[best_i])

Best post is 1, dist = 1.00
--> ['메리랑 공원에서 산책하고 놀고 싶어요']
----> 메리는 공원에서 산책하고 노는 것을 싫어해요


In [25]:
# 벡터화 시킨 것으로 문장비교
for i in range(0, len(contents)):
    print(X.getrow(i).toarray())
    
print('-------------')
print(new_post_vec.toarray())

[[1 0 0 0 1 0 1 0 1 0 0 0 1 1 0 0 0 0 0 0]]
[[0 1 0 0 0 0 1 0 0 1 1 0 0 0 1 0 0 0 1 0]]
[[0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 1 0 0]]
[[0 0 1 1 0 1 0 1 0 0 0 1 0 0 0 1 1 0 0 1]]
-------------
[[0 1 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 0 1 0]]


In [28]:
def dist_norm(v1, v2):
    v1_normalized = v1 / sp.linalg.norm(v1.toarray())
    v2_normalized = v2 / sp.linalg.norm(v2.toarray())
    
    delta = v1_normalized - v2_normalized
    
    return sp.linalg.norm(delta.toarray())

In [33]:
# 거리 구하기
best_doc = None
best_dist = 65535
best_i = None

for i in range(0, num_samples):
    post_vec = X.getrow(i)
    d = dist_norm(post_vec, new_post_vec)
    
    print("==Post %i with dist =%.2f : %s" %(i,d,contents[i]))
    
    if d < best_dist:
        best_dist = d
        best_i  = i

==Post 0 with dist =1.28 : 메리랑 놀러가고 싶지만 바쁜데 어떡하죠?
==Post 1 with dist =0.42 : 메리는 공원에서 산책하고 노는 것을 싫어해요
==Post 2 with dist =0.89 : 메리는 공원에서 노는 것도 싫어해요. 이상해요
==Post 3 with dist =1.41 : 먼 곳으로 여행을 떠나고 싶은데 너무 바빠서 그러지 못합니다.


In [34]:
# 거리가 가장 가까운 문장 출력
print("Best post is %i, dist = %.2f" % (best_i, best_dist))
print('-->', new_post)
print('---->', contents[best_i])

Best post is 1, dist = 0.42
--> ['근처 공원에서 메리랑 놀러가고 싶네요']
----> 메리는 공원에서 산책하고 노는 것을 싫어해요


In [35]:
# 벡터화 시킨 것으로 문장을 비교
for i in range(0,len(contents)):
    print(X.getrow(i).toarray())
    
print('---------------------')
print(new_post_vec.toarray())

[[1 0 0 0 1 0 1 0 1 0 0 0 1 1 0 0 0 0 0 0]]
[[0 1 0 0 0 0 1 0 0 1 1 0 0 0 1 0 0 0 1 0]]
[[0 1 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 1 0 0]]
[[0 0 1 1 0 1 0 1 0 0 0 1 0 0 0 1 1 0 0 1]]
---------------------
[[0 1 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 0 1 0]]


In [37]:
# 각 벡터를 일반화시키고 거리를 구하는 함수를 만든다.
def dist_norm(v1, v2):
    v1_normalized = v1 / sp.linalg.norm(v1.toarray())
    v2_normalized = v2 / sp.linalg.norm(v2.toarray())
    
    delta = v1_normalized - v2_normalized
    
    return sp.linalg.norm(delta.toarray())

In [38]:
# 거리를 구해보자
best_doc = None
best_dist = 65535
best_i = None

for i in range(0, num_samples):
    post_vec = X.getrow(i)
    d = dist_norm(post_vec, new_post_vec)
    
    print("== Post %i with dist=%.2f   : %s" %(i,d,contents[i]))
    
    if d<best_dist:
        best_dist = d
        best_i = i

== Post 0 with dist=1.28   : 메리랑 놀러가고 싶지만 바쁜데 어떡하죠?
== Post 1 with dist=0.42   : 메리는 공원에서 산책하고 노는 것을 싫어해요
== Post 2 with dist=0.89   : 메리는 공원에서 노는 것도 싫어해요. 이상해요
== Post 3 with dist=1.41   : 먼 곳으로 여행을 떠나고 싶은데 너무 바빠서 그러지 못합니다.


In [39]:
# tf = 단어의 빈도에 따른 중요도
# idf = 비교하는 문서에서 같은 단어가 있다면 핵심어휘일지 모르지만, 문서 내에서는 중요 단어가 아니라는 것으로 판별하는 것
def tfidf(t, d, D):
    tf = float(d.count(t)) / sum(d.count(w) for w in set(d))
    idf = sp.log( float(len(D))/(len([doc for doc in D if t in doc])) )
    return tf, idf

In [40]:
## tfidf에 training set을 넣어준다
a, abb, abc = ['a'], ['a', 'b', 'b'], ['a', 'b', 'c']
D =[a, abb, abc]

# a가 모든 set에 나왔기 때문에 1이라고 출력한다
print(tfidf('a', a, D))
print(tfidf('b', abb, D))
print(tfidf('a', abc, D))
print(tfidf('b', abc, D))
print(tfidf('c', abc, D))

(1.0, 0.0)
(0.6666666666666666, 0.4054651081081644)
(0.3333333333333333, 0.0)
(0.3333333333333333, 0.4054651081081644)
(0.3333333333333333, 1.0986122886681098)


In [41]:
# 필요 패키지 import
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(min_df=1, decode_error='ignore')

In [42]:
# 단어 형태소 분석
contents_token = [t.morphs(row) for row in contents]

contents_for_vectorize = []

# 띄어쓰기로 구분된 단어를 공백을 사용하여 길게 한줄로 출력
for content in contents_token:
    sentence = ''
    for word in content:
        sentence = sentence + ' ' + word
        
    contents_for_vectorize.append(sentence)
    
# 단어를 벡터화
X = vectorizer.fit_transform(contents_for_vectorize)
num_samples, num_features = X.shape
num_samples, num_features

(4, 20)

In [43]:
# 단어의 feature 출력
vectorizer.get_feature_names()

['가고',
 '공원',
 '그러지',
 '너무',
 '놀러',
 '떠나고',
 '메리',
 '바빠서',
 '바쁜데',
 '산책',
 '싫어해요',
 '싶은데',
 '싶지만',
 '어떡하죠',
 '에서',
 '여행',
 '으로',
 '이상해요',
 '하고',
 '합니다']

In [32]:
# 새로운 문장 학습
new_post = ['근처 공원에서 메리랑 놀러가고 싶네요']
new_post_tokens = [t.morphs(row) for row in new_post]

new_post_for_vectorize = []

# 띄어쓰기로 나누어진 단어를 공백을 사용하여 한 줄로 만들기
for content in new_post_tokens:
    sentence=  ''
    for word in content:
        sentence = sentence + ' ' + word
        
    new_post_for_vectorize.append(sentence)
    
new_post_for_vectorize

[' 근처 공원 에서 메리 랑 놀러 가고 싶네요']

In [44]:
# 벡터화
new_post_vec = vectorizer.transform(new_post_for_vectorize)


In [45]:
best_doc = None
best_dist = 65535
best_i = None

# 벡터화시킨 문장을 원래 문장과의 거리를 비교하여 거리를 계산하고 거리가 가까운 문장을 출력한다.
for i in range(0, num_samples):
    post_vec = X.getrow(i)
    d = dist_norm(post_vec, new_post_vec)
    
    print("== Post %i with dist=%.2f   : %s" %(i,d,contents[i]))
    
    if d<best_dist:
        best_dist = d
        best_i = i
        
print("Best post is %i, dist = %.2f" % (best_i, best_dist))
print('-->', new_post)
print('---->', contents[best_i])

== Post 0 with dist=0.96   : 메리랑 놀러가고 싶지만 바쁜데 어떡하죠?
== Post 1 with dist=1.08   : 메리는 공원에서 산책하고 노는 것을 싫어해요
== Post 2 with dist=1.02   : 메리는 공원에서 노는 것도 싫어해요. 이상해요
== Post 3 with dist=1.41   : 먼 곳으로 여행을 떠나고 싶은데 너무 바빠서 그러지 못합니다.
Best post is 0, dist = 0.96
--> ['근처 공원에서 메리랑 놀러가고 싶네요']
----> 메리랑 놀러가고 싶지만 바쁜데 어떡하죠?
