## TF-IDF 사용 문장 유사도 작성

In [1]:
it_sentences = [
    "인공지능 기술이 사회의 다양한 분야에 점점 더 널리 적용되고 있다.",
    "클라우드 컴퓨팅은 데이터 저장과 처리를 더욱 효율적으로 만들어 주며, 기업의 IT 인프라를 혁신하고 있다.",
    "머신러닝과 딥러닝 알고리즘은 데이터 분석과 예측 모델링에 혁명을 일으키고 있다.",
    "블록체인 기술은 금융 거래의 투명성과 보안성을 향상시키는데 기여하고 있다.",
    # "사이버 보안은 디지털 시대의 중요한 이슈로 부상하고 있으며, 지속적인 관심과 개선이 요구된다.",
    # "소프트웨어 개발에서의 애자일 방법론은 빠른 시장 변화에 효과적으로 대응할 수 있게 해준다.",
    # "데이터 과학과 분석은 비즈니스 의사 결정 과정에서 중요한 역할을 하며, 기업의 경쟁력을 강화시킨다.",
    # "사물인터넷(IoT) 기술은 일상 생활을 더욱 편리하고 연결된 공간으로 변화시키고 있다.",
    # "가상현실(VR)과 증강현실(AR) 기술은 엔터테인먼트, 교육, 의료 등 다양한 분야에서 새로운 경험을 제공한다.",
    # "파이썬은 데이터 과학, 웹 개발, 자동화 스크립트 작성 등 다양한 프로그래밍 작업에 널리 사용되는 언어이다."
]

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer # word embedding
tfidfVectorizer = TfidfVectorizer()
tfidfVectorizer.fit(it_sentences)   # 학습용
result_vectors = tfidfVectorizer.transform(it_sentences) # 서비스용

In [3]:
result_vectors.toarray().shape, tfidfVectorizer.get_feature_names_out().shape

((4, 38), (38,))

In [5]:
## 문장간 유사도 측정
from sklearn.metrics.pairwise import cosine_similarity
df_similarity = cosine_similarity(result_vectors, result_vectors)
df_similarity

array([[1.        , 0.02636764, 0.03174806, 0.03291925],
       [0.02636764, 1.        , 0.08347485, 0.02636764],
       [0.03174806, 0.08347485, 1.        , 0.03174806],
       [0.03291925, 0.02636764, 0.03174806, 1.        ]])

In [6]:
import pandas as pd
pd.DataFrame(data=df_similarity
             , index=it_sentences
             , columns=it_sentences)

Unnamed: 0,인공지능 기술이 사회의 다양한 분야에 점점 더 널리 적용되고 있다.,"클라우드 컴퓨팅은 데이터 저장과 처리를 더욱 효율적으로 만들어 주며, 기업의 IT 인프라를 혁신하고 있다.",머신러닝과 딥러닝 알고리즘은 데이터 분석과 예측 모델링에 혁명을 일으키고 있다.,블록체인 기술은 금융 거래의 투명성과 보안성을 향상시키는데 기여하고 있다.
인공지능 기술이 사회의 다양한 분야에 점점 더 널리 적용되고 있다.,1.0,0.026368,0.031748,0.032919
"클라우드 컴퓨팅은 데이터 저장과 처리를 더욱 효율적으로 만들어 주며, 기업의 IT 인프라를 혁신하고 있다.",0.026368,1.0,0.083475,0.026368
머신러닝과 딥러닝 알고리즘은 데이터 분석과 예측 모델링에 혁명을 일으키고 있다.,0.031748,0.083475,1.0,0.031748
블록체인 기술은 금융 거래의 투명성과 보안성을 향상시키는데 기여하고 있다.,0.032919,0.026368,0.031748,1.0


In [10]:
# new_sentence = '사이버 보안은 디지털 시대의 중요한 이슈로 부상하고 있으며, 지속적인 관심과 개선이 요구된다.'
new_sentence = '클라우드 컴퓨팅은 데이터 저장과 처리를 더욱 효율적이다.'

new_tfidfVectorizer = tfidfVectorizer.transform([new_sentence]) # vocablary 기준 임베팅 변환
new_tfidfVectorizer

<1x38 sparse matrix of type '<class 'numpy.float64'>'
	with 6 stored elements in Compressed Sparse Row format>

In [12]:
similarity_array = cosine_similarity(new_tfidfVectorizer, result_vectors)
similarity_array

array([[0.        , 0.660294  , 0.08790828, 0.        ]])

In [14]:
argmax_similarity = similarity_array.argmax()
it_sentences[argmax_similarity]

'클라우드 컴퓨팅은 데이터 저장과 처리를 더욱 효율적으로 만들어 주며, 기업의 IT 인프라를 혁신하고 있다.'