In [12]:
# AI 개발 실무 2차 레포트
# 레벤슈타인 거리를 이용한 챗봇 구현

# 코랩에서 레벤슈타인 거리 계산 라이브러리 설치
!pip install python-Levenshtein  # 레벤슈타인 라이브러리 설치

# 필요한 라이브러리들을 import
import pandas as pd  # CSV 파일 처리용
from sklearn.feature_extraction.text import TfidfVectorizer  # TF-IDF 벡터화
from sklearn.metrics.pairwise import cosine_similarity  # 코사인 유사도 계산
import Levenshtein  # 레벤슈타인 거리 계산

class SimpleChatBot:  # 챗봇 클래스 정의
    def __init__(self, filepath):  # 초기화 함수
        self.questions, self.answers = self.load_data(filepath)  # 데이터 로드
        self.vectorizer = TfidfVectorizer()  # TF-IDF 벡터화기 생성
        self.question_vectors = self.vectorizer.fit_transform(self.questions)  # 질문을 벡터로 변환

    def load_data(self, filepath):  # 데이터 로드 함수
        data = pd.read_csv(filepath)  # CSV 파일 읽기
        questions = data['Q'].tolist()  # 질문 컬럼을 리스트로 변환
        answers = data['A'].tolist()  # 답변 컬럼을 리스트로 변환
        return questions, answers  # 질문과 답변 리스트 반환

    def find_best_answer(self, input_sentence):  # 코사인 유사도 기반 답변 찾기
        input_vector = self.vectorizer.transform([input_sentence])  # 입력을 벡터로 변환
        similarities = cosine_similarity(input_vector, self.question_vectors)  # 유사도 계산
        best_match_index = similarities.argmax()  # 가장 유사한 인덱스 찾기
        return self.answers[best_match_index]  # 해당 답변 반환

    def find_best_answer_levenshtein(self, input_sentence):  # 레벤슈타인 거리 기반 답변 찾기
        min_distance = float('inf')  # 최소 거리 초기화
        best_match_index = 0  # 최적 인덱스 초기화

        for i, question in enumerate(self.questions):  # 모든 질문에 대해 반복
            distance = Levenshtein.distance(input_sentence, question)  # 레벤슈타인 거리 계산
            if distance < min_distance:  # 더 작은 거리 발견시
                min_distance = distance  # 최소 거리 업데이트
                best_match_index = i  # 최적 인덱스 업데이트

        return self.answers[best_match_index]  # 최적 답변 반환

# 업로드된 CSV 파일의 경로 설정
filepath = '/content/sample_data/ChatbotData.csv'  # 파일 경로 설정

# SimpleChatBot 인스턴스 생성 및 초기화
print("=== 레벤슈타인 거리 기반 챗봇 (코랩 버전) ===")  # 시작 메시지 출력
chatbot = SimpleChatBot(filepath)  # 챗봇 객체 생성

def find_most_similar_question_index(input_sentence, questions_list):  # 가장 유사한 질문 인덱스 찾기 함수
    min_distance = float('inf')  # 최소 거리 초기화
    most_similar_index = 0  # 가장 유사한 인덱스 초기화

    print(f"\n 입력 문장: '{input_sentence}'")  # 입력 문장 출력
    print("=" * 60)  # 구분선 출력

    for i, question in enumerate(questions_list):  # 모든 질문에 대해 반복
        distance = Levenshtein.distance(input_sentence, question)  # 거리 계산
        print(f"인덱스 {i}: '{question}' → 거리: {distance}")  # 각 질문별 거리 출력

        if distance < min_distance:  # 더 작은 거리 발견시
            min_distance = distance  # 최소 거리 업데이트
            most_similar_index = i  # 가장 유사한 인덱스 업데이트

    print("=" * 60)  # 구분선 출력
    print(f" 가장 유사한 질문 인덱스: {most_similar_index}")  # 결과 인덱스 출력
    print(f" 가장 유사한 질문: '{questions_list[most_similar_index]}'")  # 결과 질문 출력
    print(f" 최소 레벤슈타인 거리: {min_distance}")  # 최소 거리 출력

    return most_similar_index  # 가장 유사한 인덱스 반환

# 분석 테스트 실행
data = pd.read_csv(filepath)  # CSV 파일 읽기
questions = data['Q'].tolist()  # 질문 리스트 추출
test_input = "안녕"  # 테스트 입력 설정
result_index = find_most_similar_question_index(test_input, questions)  # 가장 유사한 질문 찾기

print("\n🎉 코랩에서 레벤슈타인 챗봇이 성공적으로 실행되었습니다!")  # 완료 메시지

[1;30;43m스트리밍 출력 내용이 길어서 마지막 5000줄이 삭제되었습니다.[0m
인덱스 6829: '아따 엿먹일 방법 없나' → 거리: 12
인덱스 6830: '아련하게 조금씩 잊게 되나보네' → 거리: 16
인덱스 6831: '아름다운 사랑도 아니고 이건 뭐.' → 거리: 18
인덱스 6832: '아름다운 이별은 없는걸까 ㅠ' → 거리: 15
인덱스 6833: '아름답게 헤어지고 회사 그만둔 전남친' → 거리: 20
인덱스 6834: '아무 것도 할 수 없는' → 거리: 12
인덱스 6835: '아무것도 아닌 글에 화가 치밀어 오르네' → 거리: 21
인덱스 6836: '아무것도 아닌 일이 될 수 있을까' → 거리: 18
인덱스 6837: '아무것도 안되네' → 거리: 7
인덱스 6838: '아무것도 하기싫어' → 거리: 9
인덱스 6839: '아무도 안 놀아줘' → 거리: 8
인덱스 6840: '아무래도 헤어져야 할까 봐' → 거리: 14
인덱스 6841: '아무리 기다려도 이젠 안돌아오나봐' → 거리: 17
인덱스 6842: '아무리 꽉 붙들어도 무너지는건 한순간' → 거리: 20
인덱스 6843: '아무리 매달려도' → 거리: 8
인덱스 6844: '아무리 미친놈 욕을해도' → 거리: 12
인덱스 6845: '아무리 생각 안하려 해도' → 거리: 12
인덱스 6846: '아무리 힘들어도, 밥은 먹히더라구' → 거리: 18
인덱스 6847: '아무일도 없었던 것처럼 살고 싶어' → 거리: 18
인덱스 6848: '아오 그놈에 꿈' → 거리: 8
인덱스 6849: '아이디 생각 안나' → 거리: 8
인덱스 6850: '아직 그리운 그대' → 거리: 9
인덱스 6851: '아직 멀었나봐' → 거리: 7
인덱스 6852: '아직 아주 많이 사랑하는데 나는 말야' → 거리: 20
인덱스 6853: '아직 준비가 안됐는데.' → 거리: 11
인덱스 6854: '아직도 가슴이 아프고 눈물이 나네' → 거리: 18
인덱스 6855: '아직도 그대로인걸' → 