## CountVectorize vs TF-IDF

- 벡터화

In [11]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

text1 = '나는 강아지를 좋아한다.'
text2 = '나는 고양이를 좋아한다.'
text3 = '나는 강아지를 좋아하고 고양이를 좋아한다.'
text4 = '나는 강아지를 좋아한다 나는 강아지를 좋아한다.'

sentences = [text1, text2, text3, text4]

# CountVectorizer 벡터화
count_vectorizer = CountVectorizer()
count_vectors = count_vectorizer.fit_transform(sentences)

# TF-IDF 벡터화
tfidf_vectorizer = TfidfVectorizer()
tfidf_vectors = tfidf_vectorizer.fit_transform(sentences)

# 각각의 단어에 대한 인덱스 확인
print("CountVectorizer를 사용하여 벡터화한 결과:")
print(count_vectors.toarray())
print("CountVectorizer에서의 각 단어 인덱스:", count_vectorizer.vocabulary_)
print("\nTF-IDF를 사용하여 벡터화한 결과:")
print(tfidf_vectors.toarray())
print("TF-IDF에서의 각 단어 인덱스:", tfidf_vectorizer.vocabulary_)


CountVectorizer를 사용하여 벡터화한 결과:
[[1 0 1 0 1]
 [0 1 1 0 1]
 [1 1 1 1 1]
 [2 0 2 0 2]]
CountVectorizer에서의 각 단어 인덱스: {'나는': 2, '강아지를': 0, '좋아한다': 4, '고양이를': 1, '좋아하고': 3}

TF-IDF를 사용하여 벡터화한 결과:
[[0.65416415 0.         0.53482206 0.         0.53482206]
 [0.         0.73006392 0.48322183 0.         0.48322183]
 [0.39787085 0.49144966 0.32528549 0.62334157 0.32528549]
 [0.65416415 0.         0.53482206 0.         0.53482206]]
TF-IDF에서의 각 단어 인덱스: {'나는': 2, '강아지를': 0, '좋아한다': 4, '고양이를': 1, '좋아하고': 3}


In [12]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# CountVectorizer를 사용하여 벡터화
count_vectorizer = CountVectorizer()
count_vectors = count_vectorizer.fit_transform(texts)

# TF-IDF 벡터화
tfidf_vectorizer = TfidfVectorizer()
tfidf_vectors = tfidf_vectorizer.fit_transform(texts)

# 코사인 유사도 계산
cosine_sim_count = cosine_similarity(count_vectors, count_vectors)
cosine_sim_tfidf = cosine_similarity(tfidf_vectors, tfidf_vectors)

print("CountVectorizer를 사용한 코사인 유사도:")
print(cosine_sim_count)
print("\nTF-IDF를 사용한 코사인 유사도:")
print(cosine_sim_tfidf)


CountVectorizer를 사용한 코사인 유사도:
[[1.         0.66666667 0.77459667 1.        ]
 [0.66666667 1.         0.77459667 0.66666667]
 [0.77459667 0.77459667 1.         0.77459667]
 [1.         0.66666667 0.77459667 1.        ]]

TF-IDF를 사용한 코사인 유사도:
[[1.         0.51687538 0.60821256 1.        ]
 [0.51687538 1.         0.67315976 0.51687538]
 [0.60821256 0.67315976 1.         0.60821256]
 [1.         0.51687538 0.60821256 1.        ]]


In [10]:
import numpy as np

# text1을 제외한 나머지 문장들
texts_except_text1 = [text2, text3, text4]

# text1과 나머지 문장들 간의 코사인 유사도 계산
cosine_sim_text1 = cosine_similarity(tfidf_vectors[0], tfidf_vectorizer.transform(texts_except_text1)).flatten()

# 가장 유사한 문장의 인덱스 찾기
most_similar_text_index = np.argmax(cosine_sim_text1)  # 가장 높은 유사도를 가진 인덱스

# 주어진 텍스트에서 가장 유사한 문장 출력
most_similar_text_to_text1 = texts_except_text1[most_similar_text_index]

print("text1 기준으로 가장 유사한 문장:", most_similar_text_to_text1)

# 해당 문장과 text1 간의 코사인 유사도 출력
cosine_sim_between_texts = cosine_similarity(tfidf_vectorizer.transform([text1]), tfidf_vectorizer.transform([most_similar_text_to_text1]))
print("text1과 가장 유사한 문장 간의 코사인 유사도:", cosine_sim_between_texts)


text1 기준으로 가장 유사한 문장: 나는 강아지를 좋아한다 나는 강아지를 좋아한다.
text1과 가장 유사한 문장 간의 코사인 유사도: [[1.]]
