### 단어 수치화 BOW 방식

-   문장 리스트에서 단어들을 추출 후 빈도순으로 번호를 부여 ==> 단어 사전
-   -   생서성된단어 사전을 기준으로 문장을 수치화 변환


In [1]:
from sklearn.feature_extraction.text import CountVectorizer

# 텍스트 데이터 준비
corpus = [
    "This is the first document.",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?",
]


In [15]:
### ==> 카운트 기반 단어 벡터화 인스턴스 생성
### ==> 문장의 단어들을 나타난 빈도수에 따라서 정수 인코딩
vectorizer = CountVectorizer(stop_words=["and", "is", "the", "this"])
vectorizer.fit(corpus)

print(f"단어사전 [단어: 번호] : {vectorizer.vocabulary_}")


단어사전 [단어: 번호] : {'first': 1, 'document': 0, 'second': 3, 'third': 4, 'one': 2}


In [16]:
### 단어사전에서 단어만 추출
vectorizer.get_feature_names_out()


array(['document', 'first', 'one', 'second', 'third'], dtype=object)

In [17]:
### 단어사전 기반으로 문장 ===> 수치화
result = vectorizer.transform(corpus)

print(vectorizer.get_feature_names_out())
print(result.toarray(), sep="\n")


['document' 'first' 'one' 'second' 'third']
[[1 1 0 0 0]
 [2 0 0 1 0]
 [0 0 1 0 1]
 [1 1 0 0 0]]


In [18]:
vectorizer2 = CountVectorizer(analyzer="word", ngram_range=(2, 2))
X2 = vectorizer2.fit_transform(corpus)
vectorizer2.get_feature_names_out()


array(['and this', 'document is', 'first document', 'is the', 'is this',
       'second document', 'the first', 'the second', 'the third',
       'third one', 'this document', 'this is', 'this the'], dtype=object)

-   TF-IDF 방식 수치화


In [20]:
from sklearn.feature_extraction.text import TfidfVectorizer


In [21]:
# 텍스트 데이터 준비
corpus = [
    "This is the first document.",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?",
]


In [22]:
## TFIDF 인스턴스 생성
vectorizer = TfidfVectorizer()
vectorizer.fit(corpus)


In [28]:
### 단어 사전 확인
print(f"[단어사전 단어: 인덱스] \n{vectorizer.vocabulary_}")

print(f"[단어사전 단어: IDF] \n{vectorizer.idf_}")


[단어사전 단어: 인덱스] 
{'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4}
[단어사전 단어: IDF] 
[1.91629073 1.22314355 1.51082562 1.         1.91629073 1.91629073
 1.         1.91629073 1.        ]


In [29]:
vectorizer.transform(corpus).toarray()


array([[0.        , 0.46979139, 0.58028582, 0.38408524, 0.        ,
        0.        , 0.38408524, 0.        , 0.38408524],
       [0.        , 0.6876236 , 0.        , 0.28108867, 0.        ,
        0.53864762, 0.28108867, 0.        , 0.28108867],
       [0.51184851, 0.        , 0.        , 0.26710379, 0.51184851,
        0.        , 0.26710379, 0.51184851, 0.26710379],
       [0.        , 0.46979139, 0.58028582, 0.38408524, 0.        ,
        0.        , 0.38408524, 0.        , 0.38408524]])

In [30]:
doc_list = [
    "if you take the blue pill, the story ends",
    "if you take the red pill, you stay in Wonderland",
    "if you take the red pill, I show you how deep the rabbit hole goes",
]

tfidf_vect = TfidfVectorizer()
feature_vect = tfidf_vect.fit_transform(doc_list)


In [31]:
from sklearn.metrics.pairwise import cosine_similarity

## cosine_similarity(X, y)
# - X : 비교 기준이 되는 문서의 피처 행렬
# - y : 비교하고자 하는 문서의 피처 행렬
result = cosine_similarity(feature_vect[0], feature_vect)
print(result)


[[1.         0.40207758 0.40425045]]
