In [9]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity


In [10]:
def load_text_file(file_path):
    """텍스트 파일을 읽어 문장 리스트로 반환"""
    with open(file_path, 'r', encoding='utf-8') as file:
        sentences = file.readlines()
    return [sentence.strip() for sentence in sentences if sentence.strip()]

In [11]:
def find_most_similar_sentence(input_text, sentences):
    """사용자 입력과 문장들 중 코사인 유사도가 가장 높은 문장을 반환"""
    # 입력 문장과 파일 문장을 합쳐서 TF-IDF 벡터화
    vectorizer = TfidfVectorizer()
    all_sentences = [input_text] + sentences
    tfidf_matrix = vectorizer.fit_transform(all_sentences)
    
    # 코사인 유사도 계산 (첫 번째 문장 vs 나머지 문장)
    cosine_sim = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:])
    
    # 가장 높은 유사도를 가진 문장 찾기
    max_index = cosine_sim[0].argmax()
    max_similarity = cosine_sim[0][max_index]
    most_similar_sentence = sentences[max_index]
    
    return most_similar_sentence, max_similarity

In [12]:
# 파일 경로 및 사용자 입력
file_path = 'AI 도입효과2.txt'  # 텍스트 파일 경로
sentences = load_text_file(file_path)

In [14]:
# 사용자 INPUT 받기
input_text = input("처리 시간 60% 단축")

# 가장 유사한 문장 찾기

most_similar_sentence, similarity = find_most_similar_sentence(input_text, sentences)

# 결과 출력
print(f"\nMost similar sentence: \"{most_similar_sentence}\"")
print(f"Cosine Similarity: {similarity:.4f}")



Most similar sentence: "﻿2. 타기관 AI 도입 성과 분석"
Cosine Similarity: 0.0000
