#### 단어 수치화 BOW 방식
- 문장 리스트에서 단어들을 추출한 후 빈도순으로 번호를 부여 ===> 단어 사전
- 생성된 단어 사전을 기준으로 문장을 수치화 변환

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

# 텍스트 데이터 준비
corpus = ['This is the first document.', 
          'This document is the second document.', 
          'And this is the third one.',
          'Is this the first document?']

In [8]:
# 카운트 기반 단어 벡터화 인스턴스 생성
# 문장에 단어들을 나타난 빈도에 따라서 정수 인코딩
vectorizer = CountVectorizer(stop_words = ['and', 'is', 'the', 'this'])
vectorizer.fit(raw_documents = corpus)

print(f'단어사전 : {vectorizer.vocabulary_}')

단어사전 : {'first': 1, 'document': 0, 'second': 3, 'third': 4, 'one': 2}


In [10]:
print(vectorizer.get_feature_names_out())
X = vectorizer.transform(corpus)
print(X.toarray())

['document' 'first' 'one' 'second' 'third']
[[1 1 0 0 0]
 [2 0 0 1 0]
 [0 0 1 0 1]
 [1 1 0 0 0]]


In [11]:
# 단어사전 기반으로 문장을 수치화
result = vectorizer.transform(corpus)
print(result, result.toarray(), sep = '\n')

  (0, 0)	1
  (0, 1)	1
  (1, 0)	2
  (1, 3)	1
  (2, 2)	1
  (2, 4)	1
  (3, 0)	1
  (3, 1)	1
[[1 1 0 0 0]
 [2 0 0 1 0]
 [0 0 1 0 1]
 [1 1 0 0 0]]


- TF-IDF 방식 수치화

In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [13]:
# TFIDF 인스턴스 생성
vectorizer = TfidfVectorizer()
vectorizer.fit(corpus)

In [18]:
# 단어사전 확인
print(f'[단어 : 인덱스] \n{vectorizer.vocabulary_}')
print(f'[단어 : IDF] \n{vectorizer.idf_}')
    

[단어 : 인덱스] 
{'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4}
[단어 : IDF] 
[1.91629073 1.22314355 1.51082562 1.         1.91629073 1.91629073
 1.         1.91629073 1.        ]


In [19]:
vectorizer.transform(corpus).toarray()

array([[0.        , 0.46979139, 0.58028582, 0.38408524, 0.        ,
        0.        , 0.38408524, 0.        , 0.38408524],
       [0.        , 0.6876236 , 0.        , 0.28108867, 0.        ,
        0.53864762, 0.28108867, 0.        , 0.28108867],
       [0.51184851, 0.        , 0.        , 0.26710379, 0.51184851,
        0.        , 0.26710379, 0.51184851, 0.26710379],
       [0.        , 0.46979139, 0.58028582, 0.38408524, 0.        ,
        0.        , 0.38408524, 0.        , 0.38408524]])

In [21]:
doc_list = ['if you take the blue pill, the story ends',
            'if you take the red pill, you stay in Wondenland',
            'if you take the red pill, I show you how deep the rabbit hole goes']
tfidf_vect = TfidfVectorizer()
feature_vect = tfidf_vect.fit_transform(doc_list)

In [23]:
from sklearn.metrics.pairwise import cosine_similarity
reslut = cosine_similarity(feature_vect[0], feature_vect)
print(result)

  (0, 0)	1
  (0, 1)	1
  (1, 0)	2
  (1, 3)	1
  (2, 2)	1
  (2, 4)	1
  (3, 0)	1
  (3, 1)	1
