# 단어 수치화 BOW 방식
- 문장 리스트에서 단어들을 추출 후 빈도순으로 번호를 부여 => 단어 사전, 단어 집합
- 생성된 단어 사전을 기준으로 문장을 수치화 변환

In [20]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

# 텍스트 데이터 준비
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]

In [34]:
# 문장의 단어들을 나타난 빈도수에 따라서 정수 인코딩

vectorizer = CountVectorizer() # 카운트기반 단어 벡터화 인스턴스 생성 
# vectorizer = CountVectorizer(stop_words=["and", "is", "the"]) # 불용어 지정 가능 
vectorizer.fit(corpus)
print(f"단어사전 [단어 : 번호] : {vectorizer.vocabulary_}") # _있어야함

단어사전 [단어 : 번호] : {'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4}


In [40]:
# 단어 사전 기반으로 문장 수치화
result = vectorizer.transform(corpus)

print(result, result.toarray())

  (0, 1)	1
  (0, 2)	1
  (0, 3)	1
  (0, 6)	1
  (0, 8)	1
  (1, 1)	2
  (1, 3)	1
  (1, 5)	1
  (1, 6)	1
  (1, 8)	1
  (2, 0)	1
  (2, 3)	1
  (2, 4)	1
  (2, 6)	1
  (2, 7)	1
  (2, 8)	1
  (3, 1)	1
  (3, 2)	1
  (3, 3)	1
  (3, 6)	1
  (3, 8)	1 [[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]


In [39]:
import pandas as pd
'''
0번 행 -> 'This is the first document.'
1번 행 -> 'This document is the second document.'
2번 행 -> 'And this is the third one.'
3번 행 -> 'Is this the first document?'
'''
pd.DataFrame(result.toarray(), columns=vectorizer.get_feature_names_out())

Unnamed: 0,and,document,first,is,one,second,the,third,this
0,0,1,1,1,0,0,1,0,1
1,0,2,0,1,0,1,1,0,1
2,1,0,0,1,1,0,1,1,1
3,0,1,1,1,0,0,1,0,1


In [37]:
vectorizer.get_feature_names_out() # abc순으로 단어만 추출

array(['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third',
       'this'], dtype=object)

In [41]:
vectorizer2 = CountVectorizer(analyzer='word', ngram_range=(2, 2))
X2 = vectorizer2.fit_transform(corpus)
vectorizer2.get_feature_names_out()

array(['and this', 'document is', 'first document', 'is the', 'is this',
       'second document', 'the first', 'the second', 'the third',
       'third one', 'this document', 'this is', 'this the'], dtype=object)

- TF-IDF 방식 수치화

In [45]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [46]:
# TFIDF 인스턴스 생성 
vectorizer = TfidfVectorizer()
vectorizer.fit(corpus)

In [48]:
# 단어사전 확인
print(f"[단어사전 단어 : 인덱스]\n{vectorizer.vocabulary_}")
print()
print(f"[단어사전 단어 : IDF]\n{vectorizer.idf_}")

[단어사전 단어 : 인덱스]
{'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4}

[단어사전 단어 : IDF]
[1.91629073 1.22314355 1.51082562 1.         1.91629073 1.91629073
 1.         1.91629073 1.        ]


In [49]:
vectorizer.transform(corpus).toarray()

array([[0.        , 0.46979139, 0.58028582, 0.38408524, 0.        ,
        0.        , 0.38408524, 0.        , 0.38408524],
       [0.        , 0.6876236 , 0.        , 0.28108867, 0.        ,
        0.53864762, 0.28108867, 0.        , 0.28108867],
       [0.51184851, 0.        , 0.        , 0.26710379, 0.51184851,
        0.        , 0.26710379, 0.51184851, 0.26710379],
       [0.        , 0.46979139, 0.58028582, 0.38408524, 0.        ,
        0.        , 0.38408524, 0.        , 0.38408524]])

In [51]:
from sklearn.feature_extraction.text import TfidfVectorizer

doc_list = ["if you take the blue pill, the story end",
            "if you take the red pill, the stay in Wonderland",
            "if you take the red pill, I show you how deep the rabbit hole goes"]

tfidf_vect = TfidfVectorizer()
features_vect = tfidf_vect.fit_transform(doc_list)

In [53]:
# 코사인 유사도
from sklearn.metrics.pairwise import cosine_similarity

result = cosine_similarity(features_vect[0], features_vect)
# 0번 문장과 모든 문장의 유사도를 비교한 것
print(result)

[[1.         0.45951724 0.40425045]]
