이번 실습에서는 scikit-learn의 TfidfVectorizer를 사용하여, TF-IDF 기반 bag of words 문서 벡터를 만들어 보는 실습을 진행하겠습니다. TfidfVectorizer의 사용법은 CountVectorizer의 사용법과 동일합니다.

영화 리뷰 데이터인 text.txt에 저장되어 있는 IMDB dataset을 사용하여 각 리뷰별 문서 벡터를 만들어 보세요.

In [3]:
import re
from sklearn.feature_extraction.text import TfidfVectorizer

regex = re.compile('[^a-z ]')

# 리뷰 데이터
with open("text.txt", 'r', encoding='utf8') as f:
    
    documents = []
    for line in f:
        lowered_sent = line.rstrip().lower()
        filtered_sent = regex.sub('', lowered_sent)
        documents.append(filtered_sent)

# TfidfVectorizer() 객체를 이용해 TF-IDF Bag of words 문서 벡터를 생성
tfv = TfidfVectorizer()
X = tfv.fit_transform(documents)

print(f'X의 차원\n{X.shape}\n')

# 첫 번째 문서의 TF-IDF Bag of words를 vec1 변수에 저장하세요.
vec1 = None
# 첫 번째 문서의 TF-IDF Bag of words를 확인합니다.
print(f'첫 번째 문서의 TF-IDF Bag of words\n{X[0]}\n')

'''
TF-IDF 기반 Bag of N-grams 문서 벡터 생성
ngram_range=(1, 2)는 데이터 내 unigram과 bigram을 사용하여 문서 벡터를 생성한다는 의미를 갖고 있습니다.
'''
tfvn = TfidfVectorizer(ngram_range=(1, 2))
unibigram_X = tfvn.fit_transform(documents)


print(f'TF-IDF 기반 Bag of N-grams 문서 벡터의 차원\n{unibigram_X.shape}')



X의 차원
(454, 12136)

첫 번째 문서의 TF-IDF Bag of words
  (0, 5679)	0.058640619958889736
  (0, 8003)	0.10821800789540346
  (0, 11827)	0.03351360629176965
  (0, 3976)	0.10821800789540346
  (0, 3885)	0.056559253324120214
  (0, 10825)	0.040897765011371726
  (0, 228)	0.07670128660443204
  (0, 173)	0.08289290212342751
  (0, 6546)	0.043212451333837304
  (0, 3731)	0.06944792122696908
  (0, 11793)	0.08712444266241767
  (0, 12103)	0.05368632319734369
  (0, 7470)	0.025687260438575044
  (0, 9189)	0.10821800789540346
  (0, 4994)	0.04450120519256354
  (0, 5326)	0.05241495461089306
  (0, 5538)	0.09654704887371249
  (0, 6240)	0.05908965016142883
  (0, 1896)	0.06002531501567428
  (0, 8681)	0.10139093452026096
  (0, 5344)	0.08289290212342751
  (0, 3162)	0.05211156559734475
  (0, 1438)	0.09278983927035103
  (0, 11136)	0.07804901647687901
  (0, 8858)	0.09654704887371249
  :	:
  (0, 8333)	0.09654704887371249
  (0, 10655)	0.10821800789540346
  (0, 5394)	0.036855273761029705
  (0, 12074)	0.045486142952180335
  (0,