## TF-IDF 사용 문장 유사도 작성

In [4]:
it_sentences = [
    "인공지능 기술이 사회의 다양한 분야에 점점 더 널리 적용되고 있다.",
    "클라우드 컴퓨팅은 데이터 저장과 처리를 더욱 효율적으로 만들어 주며, 기업의 IT 인프라를 혁신하고 있다.",
    "머신러닝과 딥러닝 알고리즘은 데이터 분석과 예측 모델링에 혁명을 일으키고 있다.",
    "블록체인 기술은 금융 거래의 투명성과 보안성을 향상시키는데 기여하고 있다.",
#     "사이버 보안은 디지털 시대의 중요한 이슈로 부상하고 있으며, 지속적인 관심과 개선이 요구된다.",
#     "소프트웨어 개발에서의 애자일 방법론은 빠른 시장 변화에 효과적으로 대응할 수 있게 해준다.",
#     "데이터 과학과 분석은 비즈니스 의사 결정 과정에서 중요한 역할을 하며, 기업의 경쟁력을 강화시킨다.",
#     "사물인터넷(IoT) 기술은 일상 생활을 더욱 편리하고 연결된 공간으로 변화시키고 있다.",
#     "가상현실(VR)과 증강현실(AR) 기술은 엔터테인먼트, 교육, 의료 등 다양한 분야에서 새로운 경험을 제공한다.",
#     "파이썬은 데이터 과학, 웹 개발, 자동화 스크립트 작성 등 다양한 프로그래밍 작업에 널리 사용되는 언어이다."
]

# '''
# 이 코드는 텍스트 데이터를 분석하여 TF-IDF(문서-역문서 빈도) 스코어를 계산한 뒤, 
# WordCloud로 상위 단어들을 시각화하는 과정을 보여줍니다. 아래에 각 단계별로 자세한 설명을 제공

# 1. 데이터 준비
# '''

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer # word embedding
tfidfVectorizer = TfidfVectorizer()
tfidfVectorizer.fit(it_sentences)   # 학습용
result_vectors = tfidfVectorizer.transform(it_sentences) # 서비스용

# '''
# 2. TF-IDF 벡터화

# TF-IDF란?
# 텍스트 데이터를 분석할 때, 단어의 중요도를 평가하기 위한 방법입니다.
# TF(문서 내 단어 빈도)와 IDF(전체 문서에서의 역빈도)를 조합하여 계산합니다.

# 작업 과정:
# fit() 메서드로 텍스트 데이터를 학습시켜 단어의 사전(어휘)을 만듭니다.
# transform() 메서드로 각 문장에 대해 TF-IDF 값을 계산하여 벡터로 변환합니다.
# '''

In [6]:
result_vectors.toarray().shape, tfidfVectorizer.get_feature_names_out().shape

# '''
# 3. TF-IDF 결과 확인

# result_vectors.toarray()는 TF-IDF 결과를 배열 형태로 반환합니다.
# .shape를 사용해 데이터의 크기를 확인합니다.
# 각 문장별로 단어가 어떤 TF-IDF 값을 가지는지 나타냅니다.
# get_feature_names_out()는 모델이 학습한 단어의 리스트(어휘)를 반환합니다.
# '''

((4, 38), (38,))

In [10]:
## 문장간 유사도 측정
from sklearn.metrics.pairwise import cosine_similarity
df_similarity = cosine_similarity(result_vectors, result_vectors)
df_similarity

array([[1.        , 0.02636764, 0.03174806, 0.03291925],
       [0.02636764, 1.        , 0.08347485, 0.02636764],
       [0.03174806, 0.08347485, 1.        , 0.03174806],
       [0.03291925, 0.02636764, 0.03174806, 1.        ]])

In [11]:
import pandas as pd
pd.DataFrame(data = df_similarity
             , index = it_sentences
             , columns = it_sentences)

Unnamed: 0,인공지능 기술이 사회의 다양한 분야에 점점 더 널리 적용되고 있다.,"클라우드 컴퓨팅은 데이터 저장과 처리를 더욱 효율적으로 만들어 주며, 기업의 IT 인프라를 혁신하고 있다.",머신러닝과 딥러닝 알고리즘은 데이터 분석과 예측 모델링에 혁명을 일으키고 있다.,블록체인 기술은 금융 거래의 투명성과 보안성을 향상시키는데 기여하고 있다.
인공지능 기술이 사회의 다양한 분야에 점점 더 널리 적용되고 있다.,1.0,0.026368,0.031748,0.032919
"클라우드 컴퓨팅은 데이터 저장과 처리를 더욱 효율적으로 만들어 주며, 기업의 IT 인프라를 혁신하고 있다.",0.026368,1.0,0.083475,0.026368
머신러닝과 딥러닝 알고리즘은 데이터 분석과 예측 모델링에 혁명을 일으키고 있다.,0.031748,0.083475,1.0,0.031748
블록체인 기술은 금융 거래의 투명성과 보안성을 향상시키는데 기여하고 있다.,0.032919,0.026368,0.031748,1.0


In [16]:
# new_sentence = '사이버 보안은 디지털 시대의 중요한 이슈로 부상하고 있으며, 지속적인 관심과 개선이 요구된다.'
new_sentence = '클라우드 컴퓨팅은 데이터 저장과 처리를 더욱 효율적이다.'
new_tfidfVectorizer = tfidfVectorizer.transform([new_sentence]) # vocabulary 기준 임베딩 변환
new_tfidfVectorizer

<1x38 sparse matrix of type '<class 'numpy.float64'>'
	with 6 stored elements in Compressed Sparse Row format>

In [18]:
similarity_array = cosine_similarity(new_tfidfVectorizer, result_vectors)
similarity_array

array([[0.        , 0.660294  , 0.08790828, 0.        ]])

In [21]:
argmax_similarity = similarity_array.argmax()
it_sentences[argmax_similarity]

'클라우드 컴퓨팅은 데이터 저장과 처리를 더욱 효율적으로 만들어 주며, 기업의 IT 인프라를 혁신하고 있다.'