### CountVectorizer

In [1]:
import re
from sklearn.feature_extraction.text import CountVectorizer

In [34]:
regex = re.compile('[^a-z ]')
# 리뷰 데이터
with open("text.txt", 'r',encoding='UTF-8') as f:
    documents = []
    for line in f:
        # doucments 리스트에 리뷰 데이터를 저장
        doc = regex.sub('',line.rstrip())
       # doc = re.sub(regex,'',line)
        documents.append(doc)

In [35]:
# CountVectorizer() 객체를 이용해 Bag of words 문서 벡터를 생성하여 변수 X에 저장 
cv = CountVectorizer()
X = cv.fit_transform(documents)

In [36]:
X

<454x12640 sparse matrix of type '<class 'numpy.int64'>'
	with 64161 stored elements in Compressed Sparse Row format>

In [37]:
# 변수 X의 차원을 변수 dim에 저장 
dim = X.shape

print(dim)

(454, 12640)


In [38]:
# 위에서 생성한 CountVectorizer() 객체에서 첫 10개의 칼럼이 의미하는 단어를 words_feature 변수에 저장 
words_feature = cv.get_feature_names()[:10]

print(words_feature)

['aal', 'aba', 'abandon', 'abandoned', 'abbot', 'abducted', 'abets', 'abilities', 'ability', 'abilitytalent']


In [39]:
# 단어 "comedy"를 의미하는 칼럼의 인덱스 값을 idx 변수에 저장 
idx = cv.vocabulary_['comedy']
# 단어 "comedy"의 인덱스를 확인 
print(idx)

2129


In [40]:
# 첫 번째 문서의 Bag of words 벡터를 vec1 변수에 저장 
vec1 = X[0]

print(vec1)

  (0, 9686)	4
  (0, 5525)	4
  (0, 6010)	4
  (0, 1761)	1
  (0, 2129)	1
  (0, 9081)	1
  (0, 948)	2
  (0, 11184)	8
  (0, 9829)	1
  (0, 11321)	1
  (0, 870)	2
  (0, 10446)	1
  (0, 8064)	1
  (0, 8847)	1
  (0, 16)	1
  (0, 9910)	2
  (0, 6444)	1
  (0, 10842)	1
  (0, 3245)	2
  (0, 12582)	1
  (0, 5689)	2
  (0, 11070)	1
  (0, 8837)	1
  (0, 6343)	1
  (0, 6826)	2
  :	:
  (0, 9400)	1
  (0, 11527)	1
  (0, 1635)	1
  (0, 3144)	1
  (0, 5633)	1
  (0, 9213)	1
  (0, 2012)	1
  (0, 6479)	1
  (0, 5126)	1
  (0, 9794)	1
  (0, 7803)	1
  (0, 12607)	1
  (0, 3420)	1
  (0, 3978)	1
  (0, 6750)	1
  (0, 196)	1
  (0, 7185)	1
  (0, 257)	1
  (0, 11237)	1
  (0, 4134)	1
  (0, 4212)	1
  (0, 4996)	1
  (0, 8519)	1
  (0, 6046)	1
  (0, 6028)	1


---

### TF-IDF

In [24]:
import re
from sklearn.feature_extraction.text import TfidfVectorizer

In [26]:
regex = re.compile('[^a-z ]')

# 리뷰 데이터
with open("text.txt", 'r',encoding='UTF-8') as f:
    documents = []
    for line in f:
        lowered_sent = line.rstrip().lower()
        filtered_sent = regex.sub('', lowered_sent)
        documents.append(filtered_sent)

In [28]:
# TfidfVectorizer() 객체를 이용해 TF-IDF Bag of words 문서 벡터를 생성하여 변수 X에 저장 
tfidf = TfidfVectorizer()
X = tfidf.fit_transform(documents)
X

<454x12136 sparse matrix of type '<class 'numpy.float64'>'
	with 63927 stored elements in Compressed Sparse Row format>

In [29]:
# 변수 X의 차원을 변수 dim1에 저장 
dim1 = X.shape

print(dim1)

(454, 12136)


In [30]:
# 첫 번째 문서의 TF-IDF Bag of words를 vec1 변수에 저장
vec1 = X[0]

print(vec1)

  (0, 5679)	0.058640619958889736
  (0, 8003)	0.10821800789540346
  (0, 11827)	0.03351360629176965
  (0, 3976)	0.10821800789540346
  (0, 3885)	0.056559253324120214
  (0, 10825)	0.040897765011371726
  (0, 228)	0.07670128660443204
  (0, 173)	0.08289290212342751
  (0, 6546)	0.043212451333837304
  (0, 3731)	0.06944792122696908
  (0, 11793)	0.08712444266241767
  (0, 12103)	0.05368632319734369
  (0, 7470)	0.025687260438575044
  (0, 9189)	0.10821800789540346
  (0, 4994)	0.04450120519256354
  (0, 5326)	0.05241495461089306
  (0, 5538)	0.09654704887371249
  (0, 6240)	0.05908965016142883
  (0, 1896)	0.06002531501567428
  (0, 8681)	0.10139093452026096
  (0, 5344)	0.08289290212342751
  (0, 3162)	0.05211156559734475
  (0, 1438)	0.09278983927035103
  (0, 11136)	0.07804901647687901
  (0, 8858)	0.09654704887371249
  :	:
  (0, 8333)	0.09654704887371249
  (0, 10655)	0.10821800789540346
  (0, 5394)	0.036855273761029705
  (0, 12074)	0.045486142952180335
  (0, 7080)	0.06950749415600704
  (0, 10653)	0.4328720

In [31]:
# 위에서 생성한 TfidfVectorizer() 객체를 이용해 TF-IDF 기반 Bag of N-grams 문서 벡터 생성 
vectorizer = TfidfVectorizer(ngram_range=(1, 2))
unibigram_X = vectorizer.fit_transform(documents)
# sorted(vectorizer.vocabulary_.items())

In [32]:
unibigram_X

<454x74358 sparse matrix of type '<class 'numpy.float64'>'
	with 161735 stored elements in Compressed Sparse Row format>

In [33]:
# 생성한 TF-IDF 기반 Bag of N-grams 문서 벡터의 차원을 변수 dim2에 저장
dim2 = unibigram_X.shape

print(dim2)

(454, 74358)


### Bag of words 기반 문서 유사도 측정
TF-IDF 기반 Bag of words 모델을 사용하여 주어진 문서의 유사도를 코사인 유사도를 사용하여 계산

In [41]:
import warnings
warnings.filterwarnings(action='ignore')

import pickle
from sklearn.metrics.pairwise import cosine_similarity

In [42]:
sent1 = ["I first saw this movie when I was a little kid and fell in love with it at once."]
sent2 = ["Despite having 6 different directors, this fantasy hangs together remarkably well."]

with open('bow_models.pkl', 'rb') as f:
    # 저장된 모델을 불러와 객체와 벡터를 각각vectorizer와 X에 저장 
    vectorizer, X = pickle.load(f)

# sent1, sent2 문장을 vectorizer 객체의 transform() 함수를 이용해 변수 vec1, vec2에 저장 
vec1 = vectorizer.transform(sent1)
vec2 = vectorizer.transform(sent2)

In [43]:
vec1

<1x12136 sparse matrix of type '<class 'numpy.float64'>'
	with 16 stored elements in Compressed Sparse Row format>

In [44]:
#  vec1과 vec2의 코사인 유사도를 변수 sim1에 저장
sim1 = cosine_similarity(vec1,vec2)

print(sim1)

# vec1과 행렬 X의 첫 번째 문서 벡터 간 코사인 유사도를 변수 sim2에 저장
sim2 = cosine_similarity(X[0], vec1)

print(sim2)

[[0.00936629]]
[[0.04116601]]
