# 자연어세미나 과제: 코사인 유사도 실습

## 1. 이론 요약

- 코사인 유사도란 무엇인가요?
- 왜 자연어 처리(NLP)에서 코사인 유사도를 사용하는지 서술하세요.

답변 :두 벡터 간 코사인 각도가 작을수록 유사도가 높은 것으로 간주하며, 검색 키워드와 코사인 유사도가 높을수록 연관성 높은 키워드를 포함한 문서를 추천해줌.

## 2. 코사인 유사도 적용하기

In [2]:
# 예제 문장
sentence_a = "나는 파이썬을 좋아합니다."
sentence_b = "나는 파이썬과 자바를 공부합니다."

# 단어 집합 만들기
vocab = ["나는", "파이썬", "좋아합니다", "자바", "공부합니다"]

# 벡터화
vec_a = [1, 1, 1, 0, 0]
vec_b = [1, 1, 0, 1, 1]

import numpy as np

# 코사인 유사도 직접 계산
dot_product = np.dot(vec_a, vec_b)
norm_a = np.linalg.norm(vec_a)
norm_b = np.linalg.norm(vec_b)
cosine_similarity = dot_product/(norm_a*norm_b)
print("코사인 유사도(직접 계산):", cosine_similarity)


코사인 유사도(직접 계산): 0.5773502691896258


## 3. 문장 유사도를 활용한 텍스트 분류 시스템 돌려보기
입력 예시) 딥러닝 인공신경망

In [5]:
# 필요한 라이브러리 import
import numpy as np

# 1. 참조 문장 정의 (A, B, C, D) - 조사 제거하고 띄어쓰기 단위로 정리
reference_sentences = {
    'A': "파이썬 프로그래밍 언어 입니다",
    'B': "자연어 처리 컴퓨터 인간 언어 이해 기술 입니다",
    'C': "머신러닝 데이터 기반 학습 알고리즘 입니다",
    'D': "딥러닝 인공신경망 사용 기계학습 방법 입니다"
}

# 2. 문장을 벡터로 변환하는 함수 (단순 띄어쓰기 분리)
def sentence_to_vector(sentence, vocab):
    tokens = sentence.split()
    vector = [1 if token in tokens else 0 for token in vocab]
    return vector

# 3. 코사인 유사도를 직접 계산하는 함수
def calculate_cosine_similarity(vec_a, vec_b):
    # 내적 계산
    dot_product = np.dot(vec_a, vec_b)
    # 각 벡터의 크기(norm) 계산
    norm_a = np.linalg.norm(vec_a)
    norm_b = np.linalg.norm(vec_b)
    # 코사인 유사도 계산
    cosine_similarity = dot_product / (norm_a * norm_b)
    return cosine_similarity

# 4. 메인 함수: 사용자 입력과 참조 문장들 간의 유사도 계산
def find_most_similar_sentence(user_input):
    # 모든 문장 모으기
    all_sentences = list(reference_sentences.values()) + [user_input]

    # 토큰화 (단순 띄어쓰기)
    all_tokens = []
    for sentence in all_sentences:
        all_tokens.extend(sentence.split())

    # 단어장 만들기
    vocab = list(set(all_tokens))
    print("생성된 단어장:", vocab)

    # 모든 문장을 벡터로 변환
    vectors = []
    for sentence in all_sentences:
        vector = sentence_to_vector(sentence, vocab)
        vectors.append(vector)

    # 마지막 벡터가 사용자 입력 벡터
    user_vector = vectors[-1]
    reference_vectors = vectors[:-1]

    # 유사도 계산 (numpy 직접 사용)
    similarities = {}
    for idx, (label, sentence) in enumerate(reference_sentences.items()):
        # 직접 계산 함수 사용
        sim = calculate_cosine_similarity(user_vector, reference_vectors[idx])
        similarities[label] = sim

    # 결과 정렬 및 출력
    sorted_similarities = sorted(similarities.items(), key=lambda x: x[1], reverse=True)

    print("\n========= 유사도 결과 =========")
    for label, sim in sorted_similarities:
        print(f"문장 {label}: {sim:.4f} - '{reference_sentences[label]}'")

    # 가장 유사한 문장 찾기
    most_similar_label = sorted_similarities[0][0]

    return most_similar_label, sorted_similarities[0][1]

# 5. 사용자 입력 받기 및 결과 출력
def classify_text():
    print("===== 문장 분류 시스템 =====")
    print("다음 중 가장 유사한 문장을 찾습니다:")
    for label, sentence in reference_sentences.items():
        print(f"문장 {label}: {sentence}")

    user_input = input("\n분류할 문장을 입력하세요: ")

    most_similar_label, similarity = find_most_similar_sentence(user_input)

    print("\n========= 최종 결과 =========")
    print(f"입력 문장: '{user_input}'")
    print(f"가장 유사한 문장: 문장 {most_similar_label} (유사도: {similarity:.4f})")
    print(f"'{reference_sentences[most_similar_label]}'")

# 실행
classify_text()

===== 문장 분류 시스템 =====
다음 중 가장 유사한 문장을 찾습니다:
문장 A: 파이썬 프로그래밍 언어 입니다
문장 B: 자연어 처리 컴퓨터 인간 언어 이해 기술 입니다
문장 C: 머신러닝 데이터 기반 학습 알고리즘 입니다
문장 D: 딥러닝 인공신경망 사용 기계학습 방법 입니다

분류할 문장을 입력하세요: 자연스러운 기계학습
생성된 단어장: ['데이터', '인공신경망', '파이썬', '알고리즘', '처리', '기계학습', '기술', '기반', '방법', '자연어', '사용', '컴퓨터', '인간', '딥러닝', '언어', '학습', '입니다', '프로그래밍', '머신러닝', '자연스러운', '이해']

문장 D: 0.2887 - '딥러닝 인공신경망 사용 기계학습 방법 입니다'
문장 A: 0.0000 - '파이썬 프로그래밍 언어 입니다'
문장 B: 0.0000 - '자연어 처리 컴퓨터 인간 언어 이해 기술 입니다'
문장 C: 0.0000 - '머신러닝 데이터 기반 학습 알고리즘 입니다'

입력 문장: '자연스러운 기계학습'
가장 유사한 문장: 문장 D (유사도: 0.2887)
'딥러닝 인공신경망 사용 기계학습 방법 입니다'
