In [1]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
# CountVectorizer
    # 문서를 토큰 리스트로 변환
    # 각 문서의 토큰 출현 빈도를 카운트
    # 각 문서의 BOW(Bag Of Words:단어들의 순서를 고려하지 않고, 출현 빈도에만 집중)를 벡터로 변환

In [2]:
# min_df : 해당 값보다 빈도수가 낮은 단어는 무시
# max_df : 해당 값보다 빈도수가 높은 단어는 무시
vectorize = CountVectorizer(min_df=1)

In [3]:
# 몇 가지 테스트
contents = ['지은이랑 놀러가고 싶지만 바쁜데 어떡하죠?',
            '지은이는 공원에서 산책하고 노는 것을 싫어해요.',
            '지은이는 공원에서 노는 것도 싫어해요. 이상해요.',
            '먼 곳으로 여행을 떠나고 싶은데 너무 바빠서 여행을 가지 못하고 있어요.']

In [4]:
# 벡터화
x = vectorize.fit_transform(contents)
x.shape
    # 결과 (4, 22)는 4행 22열을 뜻함

(4, 22)

In [5]:
print(len(vectorize.vocabulary_))   # 사전화
print(vectorize.vocabulary_)

22
{'지은이랑': 21, '놀러가고': 7, '싶지만': 15, '바쁜데': 11, '어떡하죠': 16, '지은이는': 20, '공원에서': 4, '산책하고': 12, '노는': 6, '것을': 2, '싫어해요': 13, '것도': 1, '이상해요': 18, '곳으로': 3, '여행을': 17, '떠나고': 8, '싶은데': 14, '너무': 5, '바빠서': 10, '가지': 0, '못하고': 9, '있어요': 19}


In [6]:
# 특정 feature 이름 확인
tmp = vectorize.get_feature_names()   # 리스트로 리턴

In [7]:
print(len(tmp))
print(tmp)

22
['가지', '것도', '것을', '곳으로', '공원에서', '너무', '노는', '놀러가고', '떠나고', '못하고', '바빠서', '바쁜데', '산책하고', '싫어해요', '싶은데', '싶지만', '어떡하죠', '여행을', '이상해요', '있어요', '지은이는', '지은이랑']


In [8]:
# 문장의 수
x.toarray()

array([[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1],
       [0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0],
       [0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0],
       [1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 2, 0, 1, 0, 0]],
      dtype=int64)

In [12]:
print(x)

  (0, 16)	1
  (0, 11)	1
  (0, 15)	1
  (0, 7)	1
  (0, 21)	1
  (1, 13)	1
  (1, 2)	1
  (1, 6)	1
  (1, 12)	1
  (1, 4)	1
  (1, 20)	1
  (2, 18)	1
  (2, 1)	1
  (2, 13)	1
  (2, 6)	1
  (2, 4)	1
  (2, 20)	1
  (3, 19)	1
  (3, 9)	1
  (3, 0)	1
  (3, 10)	1
  (3, 5)	1
  (3, 14)	1
  (3, 8)	1
  (3, 17)	2
  (3, 3)	1


In [9]:
# 각 feature에 대한 벡터값
x.toarray().transpose()    # 가지 : 인덱스0 -> [0, 0, 0, 1] 네 번째 문장에 한 번 나타남 (0이면 나타나지 않음, 1이면 나타남 표시)
                           # 여행을 : 인덱스17 - > [0, 0, 0, 2] 네 번째 문장에 두 번 나타남

array([[0, 0, 0, 1],
       [0, 0, 1, 0],
       [0, 1, 0, 0],
       [0, 0, 0, 1],
       [0, 1, 1, 0],
       [0, 0, 0, 1],
       [0, 1, 1, 0],
       [1, 0, 0, 0],
       [0, 0, 0, 1],
       [0, 0, 0, 1],
       [0, 0, 0, 1],
       [1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 1, 1, 0],
       [0, 0, 0, 1],
       [1, 0, 0, 0],
       [1, 0, 0, 0],
       [0, 0, 0, 2],
       [0, 0, 1, 0],
       [0, 0, 0, 1],
       [0, 1, 1, 0],
       [1, 0, 0, 0]], dtype=int64)

In [10]:
# (4, 22) 언패킹
x.shape
    # 나중에 분리해서 써야할 경우 -> num_samples, num_features = x.shape 처럼 사용할 수 있음

(4, 22)

In [11]:
# 신규 데이터 문장을 벡터로 만들어서 유사도 체크
new_texts = ['지은이랑 공원에서 산책하고 지은이랑 놀고 싶어요.']
new_texts_vec = vectorize.transform(new_texts)   # 벡터화 / .fit_transform은 사전화같은 다른 기능도 사용할 때
tmp = new_texts_vec.toarray()
print(len(tmp), tmp.shape, tmp)   # toarray - 특성이 문장 안에 있으면 1, 없으면 0

1 (1, 22) [[0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 2]]


In [13]:
# Scipy
import scipy as sp

In [23]:
def distance_vec(v1, v2):
    delta = v1 - v2
    return sp.linalg.norm(delta.toarray())    # 유클리드 노름 : 일반적으로 두 점 사이의 거리를 계산할 때 사용

In [24]:
print(x.getrow(0))  # 문장 4개(인덱스 0-3) 중에서 첫 번째 문장(인덱스0)을 빼냄

  (0, 16)	1
  (0, 11)	1
  (0, 15)	1
  (0, 7)	1
  (0, 21)	1


In [25]:
print(x.getrow(0).toarray())

[[0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 1 0 0 0 0 1]]


In [26]:
print(new_texts_vec)

  (0, 4)	1
  (0, 12)	1
  (0, 21)	2


In [27]:
print(new_texts_vec.toarray())

[[0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 2]]


In [28]:
distance_vec(x.getrow(0), new_texts_vec)

2.6457513110645907

In [29]:
min_distance = 65536 - 1
min_index = None
for i in range(len(contents)):
    dis = distance_vec(x.getrow(i), new_texts_vec)
    if dis < min_distance:
        min_distance = dis
        min_index = i
else:    # for문이 중간에 break등으로 끊기지 않고, 끝까지 수행되었을 때 실행하는 코드
    print('최소거리 : ', min_distance, min_index, contents[min_index])

최소거리 :  2.6457513110645907 0 지은이랑 놀러가고 싶지만 바쁜데 어떡하죠?


In [31]:
import warnings
warnings.filterwarnings('ignore')

from konlpy.tag import Okt
t = Okt()

In [32]:
t.morphs(contents[0])

['지은', '이랑', '놀러', '가고', '싶지만', '바쁜데', '어떡하죠', '?']

In [33]:
contents

['지은이랑 놀러가고 싶지만 바쁜데 어떡하죠?',
 '지은이는 공원에서 산책하고 노는 것을 싫어해요.',
 '지은이는 공원에서 노는 것도 싫어해요. 이상해요.',
 '먼 곳으로 여행을 떠나고 싶은데 너무 바빠서 여행을 가지 못하고 있어요.']

In [35]:
contents_ko_vectorize = [' '.join(t.morphs(content)) for content in contents]
contents_ko_vectorize

['지은 이랑 놀러 가고 싶지만 바쁜데 어떡하죠 ?',
 '지은이 는 공원 에서 산책 하고 노 는 것 을 싫어해요 .',
 '지은이 는 공원 에서 노 는 것 도 싫어해요 . 이상해요 .',
 '먼 곳 으로 여행 을 떠나고 싶은데 너무 바빠서 여행 을 가지 못 하고 있어요 .']

In [36]:
X = vectorize.fit_transform(contents_ko_vectorize)
num_samples, num_features = X.shape
print(X.shape)

(4, 22)


In [37]:
print(vectorize.get_feature_names())

['가고', '가지', '공원', '너무', '놀러', '떠나고', '바빠서', '바쁜데', '산책', '싫어해요', '싶은데', '싶지만', '어떡하죠', '에서', '여행', '으로', '이랑', '이상해요', '있어요', '지은', '지은이', '하고']


In [38]:
new_texts

['지은이랑 공원에서 산책하고 지은이랑 놀고 싶어요.']

In [39]:
new_texts_vectorize = [' '.join(t.morphs(txt)) for txt in new_texts]
new_texts_vectorize

['지은 이랑 공원 에서 산책 하고 지은 이랑 놀고 싶어요 .']