In [1]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [2]:
def load_text_file(file_path):
    """
    텍스트 파일을 읽어 문장 리스트로 반환
    """
    with open(file_path, 'r', encoding='utf-8') as file:
        sentences = file.readlines()
    return [sentence.strip() for sentence in sentences if sentence.strip()]

In [3]:
def recommend_similar_sentences(input_text, sentences, top_n=3):
    """
    입력값과 코사인 유사도를 비교하여 상위 n개의 문장을 추천
    """
    # TfidfVectorizer로 문장 벡터화
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(sentences + [input_text])
    
    # 코사인 유사도 계산
    cosine_similarities = cosine_similarity(tfidf_matrix[-1], tfidf_matrix[:-1]).flatten()
    
    # 유사도가 높은 상위 n개의 인덱스
    similar_indices = cosine_similarities.argsort()[-top_n:][::-1]
    
    # 추천 문장과 유사도 반환
    recommendations = [(sentences[i], cosine_similarities[i]) for i in similar_indices]
    return recommendations

In [6]:
if __name__ == "__main__":
    # 대용량 텍스트 파일 경로
    file_path = "복무Q&A.txt"  
    
    # 텍스트 파일에서 문장 로드
    sentences = load_text_file(file_path)
    
    # 사용자 입력
    user_input = input("문장을 입력하세요: ")
    
    # 유사한 문장 추천
    recommendations = recommend_similar_sentences(user_input, sentences)
    
    print("\n유사도가 높은 문장 추천:")
    for idx, (sentence, similarity) in enumerate(recommendations, 1):
        print(f"{idx}. {sentence} (유사도: {similarity:.4f})")


유사도가 높은 문장 추천:
1. Q) 부여된 대체휴무를 분할하여 사용가능한지? (유사도: 0.3690)
2. ① 4시간 초과근무에 따라 6시간 대체휴무 발생시 6시간으로 부여 및 사용하고 3시간 + 3시간으로 분할 부여 및 사용 불가 (유사도: 0.1698)
3. ② 8시간 초과근무에 따라 12시간 대체휴무 발생시 8시간 + 4시간으로 부여 및 사용하고 6시간 + 6시간으로 분할 부여 및 사용 불가 (유사도: 0.1561)
