- 많은 문장과 문서중에서 유사한 문장을 찾는 방법
- 문장을 벡터로 표현, 백터간 거리를 구할 수 있다
- 벡터화 할 때 단어의 의미를 포함하여 벡터화 할 경우  
- 분포가설에 따라 가까운 거리일수록 의미적으로 가까운 텍스트
- 비슷한 내용을 가진 텍스트를 벡터화 해서 백터간 거리를 구해본다면 가까운 거리일수록 의미적으로 가까운 텍스트이다.

In [31]:
# 머신러닝 모듈
from sklearn.feature_extraction.text import CountVectorizer

### CountVectorizer
- 문서를 토큰 리스트로 변환
- 각 문서의 토큰 출현 빈도를 카운트
- 각 문서의 BOW(Bag of Words)를 벡터로 변환한다
- Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법

In [32]:
# min_df는 해당 값보다 빈도수가 낮은 단어는 무시하겠다는 뜻
# max_df는 해당 값보다 많이 나오는, 빈도수가 높은 단어는 무시하겠다는 뜻
vectorizer = CountVectorizer(min_df=1)

In [33]:
# 몇가지로 테스트
contents =['짱구랑 놀러가고 싶지만 바쁜데 어떻하죠?',
          '짱구는 공원에서 산책하고 노는 것을 싫어해요.',
          '짱구는 공원에서 노는 것도 싫어해요. 이상해요.',
          '먼 곳으로 여행을 떠나고 싶은데 너무 바빠서 여행을 가지 못하고 있어요']

In [34]:
# 벡터화
x = vectorizer.fit_transform(contents)
x.shape

(4, 22)

In [35]:
print(len(vectorizer.vocabulary_))
print(vectorizer.vocabulary_)

22
{'짱구랑': 21, '놀러가고': 7, '싶지만': 15, '바쁜데': 11, '어떻하죠': 16, '짱구는': 20, '공원에서': 4, '산책하고': 12, '노는': 6, '것을': 2, '싫어해요': 13, '것도': 1, '이상해요': 18, '곳으로': 3, '여행을': 17, '떠나고': 8, '싶은데': 14, '너무': 5, '바빠서': 10, '가지': 0, '못하고': 9, '있어요': 19}


In [36]:
# 특정 feature 이름을 확인
tmp = vectorizer.get_feature_names()

In [37]:
print(len(tmp))
print( tmp)

22
['가지', '것도', '것을', '곳으로', '공원에서', '너무', '노는', '놀러가고', '떠나고', '못하고', '바빠서', '바쁜데', '산책하고', '싫어해요', '싶은데', '싶지만', '어떻하죠', '여행을', '이상해요', '있어요', '짱구는', '짱구랑']


In [38]:
# 문장의 수
x.toarray()

array([[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1],
       [0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0],
       [0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0],
       [1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 2, 0, 1, 0, 0]],
      dtype=int64)

In [39]:
print(x)

  (0, 16)	1
  (0, 11)	1
  (0, 15)	1
  (0, 7)	1
  (0, 21)	1
  (1, 13)	1
  (1, 2)	1
  (1, 6)	1
  (1, 12)	1
  (1, 4)	1
  (1, 20)	1
  (2, 18)	1
  (2, 1)	1
  (2, 13)	1
  (2, 6)	1
  (2, 4)	1
  (2, 20)	1
  (3, 19)	1
  (3, 9)	1
  (3, 0)	1
  (3, 10)	1
  (3, 5)	1
  (3, 14)	1
  (3, 8)	1
  (3, 17)	2
  (3, 3)	1


In [40]:
# 각 feature(특성)에 대한 벡터값
x.toarray().transpose()
# 가지:0 -> 0,0,0,1 네번째 문장에 한번 나타남.

array([[0, 0, 0, 1],
       [0, 0, 1, 0],
       [0, 1, 0, 0],
       [0, 0, 0, 1],
       [0, 1, 1, 0],
       [0, 0, 0, 1],
       [0, 1, 1, 0],
       [1, 0, 0, 0],
       [0, 0, 0, 1],
       [0, 0, 0, 1],
       [0, 0, 0, 1],
       [1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 1, 1, 0],
       [0, 0, 0, 1],
       [1, 0, 0, 0],
       [1, 0, 0, 0],
       [0, 0, 0, 2],
       [0, 0, 1, 0],
       [0, 0, 0, 1],
       [0, 1, 1, 0],
       [1, 0, 0, 0]], dtype=int64)

In [41]:
# (4, 22) 언 패킹
# 훈련 할 샘플 수 (훈련데이터수), 특성 수
x.shape

(4, 22)

In [42]:
num_samples, num_features = x.shape
print(num_samples, num_features)

4 22


In [43]:
# 신규 데이터 문장을 벡터로 만들어서 유사도 체크
contents

['짱구랑 놀러가고 싶지만 바쁜데 어떻하죠?',
 '짱구는 공원에서 산책하고 노는 것을 싫어해요.',
 '짱구는 공원에서 노는 것도 싫어해요. 이상해요.',
 '먼 곳으로 여행을 떠나고 싶은데 너무 바빠서 여행을 가지 못하고 있어요']

In [44]:
new_texts = ['짱구랑 공원에서 산책하고 짱구랑 놀고 싶어요']
new_texts_vec = vectorizer.transform(new_texts)
tmp = new_texts_vec.toarray()
print(len(tmp), tmp.shape, tmp)
#특성이 문장안에 있으면 1, 없으면 0 해서 개수가 종 22개짜리

1 (1, 22) [[0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 2]]


In [45]:
# SciPy는 파이썬을 기반의 과학, 분석, 그리고 엔지니어링을 위한 과학(계산)적 컴퓨팅 영역의 여러 기본적인 작업을 위한 라이브러리(패키지 모음)
import scipy as sp

In [46]:
# 거리 계산 -> v1, v2를 각각 나름 정규화(sp.linalg.norm)를 통해 정리를 하고 다시 계산 (0~1사이의 값을 갖도록 할수도 있음. )
def distance_vec(v1, v2):
    delta = v1 - v2
    # 유클리드 거리 계산 사용되고 - 유클리드 노름
    # 일반적으로 두 점 사이에 거리를 계산 할 때 사용!!
    return sp.linalg.norm(delta.toarray())

In [47]:
# 테스트 데이터를 훈련 데이터와 거리를 계산 하면서 최소 거리에 있는 훈련 데이터를 찾는다
# 이것이 가장 유사도가 높은 문장이다
# 훈련데이터에서 벡터를 뽑는 방법

In [48]:
print(x.getrow(0))

  (0, 16)	1
  (0, 11)	1
  (0, 15)	1
  (0, 7)	1
  (0, 21)	1


In [49]:
print(x.getrow(0).toarray())

[[0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 1 0 0 0 0 1]]


In [50]:
print(new_texts_vec)

  (0, 4)	1
  (0, 12)	1
  (0, 21)	2


In [51]:
print(new_texts_vec.toarray())

[[0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 2]]


In [52]:
distance_vec(x.getrow(0), new_texts_vec)

2.6457513110645907

In [55]:
min_distance = 65536-1 
min_index = None
for i in range(len(contents)):
    dis = distance_vec(x.getrow(i), new_texts_vec)
    #print(dis, i, contents[i])
    if dis < min_distance:
        min_distance = dis
        min_index = i
else:  #for문이 중간에 break 등으로 끊기지 않고, 끝까지 수행 되었을 때 수행하는 코드
    print('최소거리 : ', min_distance, min_index, contents[min_index])

최소거리 :  2.6457513110645907 0 짱구랑 놀러가고 싶지만 바쁜데 어떻하죠?


In [56]:
type(min_distance)

numpy.float64

- **한글 벡터화의 합리적인 처리**

In [13]:
from konlpy.tag import Okt
t = Okt()

-------------------------------------------------------------------------------
Deprecated: convertStrings was not specified when starting the JVM. The default
behavior in JPype will be False starting in JPype 0.8. The recommended setting
for new code is convertStrings=False.  The legacy value of True was assumed for
please file a ticket with the developer.
-------------------------------------------------------------------------------

  """)


- nouns : 명사 추출
- morphs : 형태소 추출
- pos : 품사 부착

In [14]:
t.morphs(contents[0])

['짱구', '랑', '놀러', '가고', '싶지만', '바쁜데', '어떻하죠', '?']

In [15]:
contents

['짱구랑 놀러가고 싶지만 바쁜데 어떻하죠?',
 '짱구는 공원에서 산책하고 노는 것을 싫어해요.',
 '짱구는 공원에서 노는 것도 싫어해요. 이상해요.',
 '먼 곳으로 여행을 떠나고 싶은데 너무 바빠서 여행을 가지 못하고 있어요']

In [16]:
contents_ko_vectorize = [' '.join(t.morphs(content)) for content in contents]

In [17]:
contents_ko_vectorize

['짱구 랑 놀러 가고 싶지만 바쁜데 어떻하죠 ?',
 '짱구 는 공원 에서 산책 하고 노 는 것 을 싫어해요 .',
 '짱구 는 공원 에서 노 는 것 도 싫어해요 . 이상해요 .',
 '먼 곳 으로 여행 을 떠나고 싶은데 너무 바빠서 여행 을 가지 못 하고 있어요']

In [18]:
X = vectorizer.fit_transform(contents_ko_vectorize)
num_samples, num_features = X.shape
print(X.shape)

(4, 20)


In [19]:
print(vectorizer.get_feature_names())

['가고', '가지', '공원', '너무', '놀러', '떠나고', '바빠서', '바쁜데', '산책', '싫어해요', '싶은데', '싶지만', '어떻하죠', '에서', '여행', '으로', '이상해요', '있어요', '짱구', '하고']


In [20]:
# 신규데이터 '짱구랑 공원에서 산책하고 놀고 싶어요' 이것과 거리가 가장 가까운 문자를 찾으시오
new_texts = ['짱구랑 공원에서 산책하고 짱구랑 놀고 싶어요']

In [21]:
# 신규데이터를 -> 훈련데이터를 정제하던 과정 그대로 전처리 후 테스트 수행
new_texts = [' '.join(t.morphs(txt)) for txt in new_texts]

In [22]:
new_texts

['짱구 랑 공원 에서 산책 하고 짱구 랑 놀고 싶어요']

In [23]:
new_texts_vec = vectorizer.transform(new_texts)
new_texts_vec.toarray()

array([[0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 2, 1]],
      dtype=int64)

In [28]:
min_distance = 65536 - 1
min_index = None
for i in range(len(contents)):
    dis = distance_vec(X.getrow(i), new_texts_vec)
    print(dis, i, contents[i])
    if dis < min_distance:
        min_distance = dis
        min_index = i
else:
    print('최소거리 : ', min_distance, min_index, contents[min_index])

3.1622776601683795 0 짱구랑 놀러가고 싶지만 바쁜데 어떻하죠?
1.4142135623730951 1 짱구는 공원에서 산책하고 노는 것을 싫어해요.
2.23606797749979 2 짱구는 공원에서 노는 것도 싫어해요. 이상해요.
4.242640687119285 3 먼 곳으로 여행을 떠나고 싶은데 너무 바빠서 여행을 가지 못하고 있어요
최소거리 :  1.4142135623730951 1 짱구는 공원에서 산책하고 노는 것을 싫어해요.


In [29]:
# 문장의 벡터값을 확인해서 비교
for i in range(len(contents)):
    if i == min_index:
        print(contents[i])
        print(X.getrow(i).toarray())
print('-'*50)
print(new_texts)
print(new_texts_vec.toarray())

짱구는 공원에서 산책하고 노는 것을 싫어해요.
[[0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 1]]
--------------------------------------------------
['짱구 랑 공원 에서 산책 하고 짱구 랑 놀고 싶어요']
[[0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 2 1]]


In [36]:
# 거리 계산 -> v1, v2를 각각 나름 정규화(sp.linalg.norm)를 통해 정리를 하고 다시 계산
def distance_vec_normalized(v1, v2):
    v1.normalized = v1 / sp.linalg.norm(v1.toarray())
    v2.normalized = v2 / sp.linalg.norm(v2.toarray())
    delta = v1 - v2
    # 유클리드 거리 계산 사용되고 - 유클리드 노름
    # 일반적으로 두 점 사이에 거리를 계산 할 때 사용!!
    return sp.linalg.norm(delta.toarray())

In [37]:
min_distance = 65536 - 1
min_index = None
for i in range(len(contents)):
    dis = distance_vec_normalized(X.getrow(i), new_texts_vec)
    print(dis, i, contents[i])
    if dis < min_distance:
        min_distance = dis
        min_index = i
else:
    print('최소거리 : ', min_distance, min_index, contents[min_index])

3.1622776601683795 0 짱구랑 놀러가고 싶지만 바쁜데 어떻하죠?
1.4142135623730951 1 짱구는 공원에서 산책하고 노는 것을 싫어해요.
2.23606797749979 2 짱구는 공원에서 노는 것도 싫어해요. 이상해요.
4.242640687119285 3 먼 곳으로 여행을 떠나고 싶은데 너무 바빠서 여행을 가지 못하고 있어요
최소거리 :  1.4142135623730951 1 짱구는 공원에서 산책하고 노는 것을 싫어해요.
