In [None]:
# 라이브러리 가져오기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics.pairwise import euclidean_distances, manhattan_distances, cosine_similarity

# 한글 폰트 설정 (한글 깨짐 방지)
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False

# 그래프 스타일 설정
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("husl")

print("🎉 라이브러리 로드 완료!")
print("이제 포켓몬 데이터로 거리를 배워봅시다!")


In [None]:
# 포켓몬 데이터 불러오기
df = pd.read_csv('../1일차/data/pokemon.csv')

print("📊 포켓몬 데이터 기본 정보")
print("="*40)
print(f"총 포켓몬 수: {len(df)}")
print(f"컬럼 수: {len(df.columns)}")
print()

# 주요 능력치 컬럼 확인
ability_columns = ['name', 'hp', 'attack', 'defense', 'sp_attack', 'sp_defense', 'speed']
print("주요 능력치 컬럼:")
for col in ability_columns:
    if col in df.columns:
        print(f"✅ {col}")
    else:
        print(f"❌ {col} - 없음")
        
print()
print("📋 처음 5마리 포켓몬 데이터:")
print(df[ability_columns].head())


In [None]:
# 포켓몬 3마리 선택해서 유클리드 거리 계산해보기
print("⚡ 전기 타입 포켓몬들로 유클리드 거리 실습!")
print("="*50)

# 유명한 포켓몬 3마리 직접 찾기
pokemon_names = ['Pikachu', 'Raichu', 'Charmander']
selected_pokemon = []

for name in pokemon_names:
    pokemon = df[df['name'] == name]
    if len(pokemon) > 0:
        selected_pokemon.append(pokemon.iloc[0])
        print(f"✅ {name} 발견!")
    else:
        print(f"❌ {name} 없음")

# 능력치 2차원으로 표현 (공격력, 방어력)
pokemon_stats = []
for pokemon in selected_pokemon:
    stats = [pokemon['attack'], pokemon['defense']]
    pokemon_stats.append(stats)
    print(f"{pokemon['name']:12} - 공격력: {pokemon['attack']:3}, 방어력: {pokemon['defense']:3}")

print()
print("📊 2차원 좌표로 표현:")
for i, (name, stats) in enumerate(zip(pokemon_names[:len(selected_pokemon)], pokemon_stats)):
    print(f"{name:12} = ({stats[0]}, {stats[1]})")


In [None]:
# 수동으로 유클리드 거리 계산 (공식 직접 적용)
print("🧮 유클리드 거리 직접 계산해보기!")
print("="*45)

if len(pokemon_stats) >= 2:
    # 피카츄와 라이츄 비교
    pikachu_stats = np.array(pokemon_stats[0])  # [공격력, 방어력]
    raichu_stats = np.array(pokemon_stats[1])
    
    print(f"피카츄 좌표: {pikachu_stats}")
    print(f"라이츄 좌표: {raichu_stats}")
    print()
    
    # 공식 단계별 계산
    diff = raichu_stats - pikachu_stats
    print(f"차이 계산: {raichu_stats} - {pikachu_stats} = {diff}")
    
    squared_diff = diff ** 2
    print(f"제곱 계산: {diff}² = {squared_diff}")
    
    sum_squared = np.sum(squared_diff)
    print(f"합계: {squared_diff[0]} + {squared_diff[1]} = {sum_squared}")
    
    distance = np.sqrt(sum_squared)
    print(f"거리 = √{sum_squared} = {distance:.2f}")
    
    print()
    print(f"🎯 결론: 피카츄와 라이츄의 유클리드 거리 = {distance:.2f}")
    
    # numpy를 사용한 검증
    distance_numpy = np.linalg.norm(pikachu_stats - raichu_stats)
    print(f"🔍 numpy 검증: {distance_numpy:.2f}")
else:
    print("❌ 포켓몬 데이터가 부족합니다.")


In [None]:
# 포켓몬들을 2차원 그래프에 시각화
print("🎨 포켓몬 능력치 시각화!")

if len(pokemon_stats) >= 2:
    fig, ax = plt.subplots(figsize=(12, 10))
    
    # 포켓몬들을 점으로 표시
    colors = ['gold', 'orange', 'red']
    for i, (name, stats) in enumerate(zip(pokemon_names[:len(pokemon_stats)], pokemon_stats)):
        ax.scatter(stats[0], stats[1], s=300, c=colors[i], 
                  alpha=0.8, edgecolors='black', linewidth=2)
        ax.annotate(name, (stats[0], stats[1]), 
                   xytext=(10, 10), textcoords='offset points',
                   fontsize=14, fontweight='bold',
                   bbox=dict(boxstyle="round,pad=0.3", facecolor=colors[i], alpha=0.7))
    
    # 피카츄와 라이츄 사이에 선 그리기
    if len(pokemon_stats) >= 2:
        ax.plot([pokemon_stats[0][0], pokemon_stats[1][0]], 
                [pokemon_stats[0][1], pokemon_stats[1][1]], 
                'r--', linewidth=3, alpha=0.7, label=f'유클리드 거리: {distance:.1f}')
    
    ax.set_xlabel('공격력 (Attack)', fontsize=14, fontweight='bold')
    ax.set_ylabel('방어력 (Defense)', fontsize=14, fontweight='bold') 
    ax.set_title('🎮 포켓몬 능력치 비교 - 유클리드 거리', fontsize=16, fontweight='bold')
    ax.grid(True, alpha=0.3)
    ax.legend(fontsize=12)
    
    # 축 범위 설정
    all_attacks = [stats[0] for stats in pokemon_stats]
    all_defenses = [stats[1] for stats in pokemon_stats]
    ax.set_xlim(min(all_attacks) - 10, max(all_attacks) + 10)
    ax.set_ylim(min(all_defenses) - 10, max(all_defenses) + 10)
    
    plt.tight_layout()
    plt.show()
    
    print(f"💡 해석: 빨간 점선이 짧을수록 두 포켓몬이 비슷한 능력치를 가져요!")
else:
    print("❌ 그래프를 그릴 데이터가 부족합니다.")


In [None]:
# 맨하탄 거리 직접 계산해보기
print("🏙️ 맨하탄 거리 직접 계산!")
print("="*40)

if len(pokemon_stats) >= 2:
    pikachu_stats = np.array(pokemon_stats[0])
    raichu_stats = np.array(pokemon_stats[1])
    
    print(f"피카츄 좌표: {pikachu_stats}")
    print(f"라이츄 좌표: {raichu_stats}")
    print()
    
    # 맨하탄 거리 단계별 계산
    diff = np.abs(raichu_stats - pikachu_stats)
    print(f"절댓값 차이: |{raichu_stats} - {pikachu_stats}| = {diff}")
    
    manhattan_distance = np.sum(diff)
    print(f"맨하탄 거리 = {diff[0]} + {diff[1]} = {manhattan_distance}")
    
    print()
    print(f"🎯 피카츄 vs 라이츄:")
    print(f"   유클리드 거리: {distance:.2f}")
    print(f"   맨하탄 거리: {manhattan_distance}")
    print(f"   차이: {manhattan_distance - distance:.2f}")
    
    # sklearn으로 검증
    from sklearn.metrics.pairwise import manhattan_distances
    manhattan_sklearn = manhattan_distances([pikachu_stats], [raichu_stats])[0][0]
    print(f"🔍 sklearn 검증: {manhattan_sklearn}")
    
    # 전체 포켓몬 쌍별 거리 계산
    if len(pokemon_stats) >= 3:
        print("\n📊 모든 포켓몬 쌍별 거리 비교:")
        for i in range(len(pokemon_stats)):
            for j in range(i+1, len(pokemon_stats)):
                stats1 = np.array(pokemon_stats[i])
                stats2 = np.array(pokemon_stats[j])
                
                euclidean = np.linalg.norm(stats1 - stats2)
                manhattan = np.sum(np.abs(stats1 - stats2))
                
                print(f"{pokemon_names[i]:12} vs {pokemon_names[j]:12} - 유클리드: {euclidean:5.1f}, 맨하탄: {manhattan:5.1f}")
else:
    print("❌ 포켓몬 데이터가 부족합니다.")


In [None]:
# 코사인 유사도 직접 계산해보기
print("📐 코사인 유사도 직접 계산!")
print("="*40)

if len(pokemon_stats) >= 2:
    pikachu_stats = np.array(pokemon_stats[0], dtype=float)
    raichu_stats = np.array(pokemon_stats[1], dtype=float)
    
    print(f"피카츄 벡터: {pikachu_stats}")
    print(f"라이츄 벡터: {raichu_stats}")
    print()
    
    # 단계별 계산
    print("1단계: 내적 계산")
    dot_product = np.dot(pikachu_stats, raichu_stats)
    print(f"내적 = {pikachu_stats[0]}×{raichu_stats[0]} + {pikachu_stats[1]}×{raichu_stats[1]}")
    print(f"내적 = {pikachu_stats[0]*raichu_stats[0]} + {pikachu_stats[1]*raichu_stats[1]} = {dot_product}")
    
    print("\n2단계: 벡터 크기 계산")
    norm_pikachu = np.linalg.norm(pikachu_stats)
    norm_raichu = np.linalg.norm(raichu_stats)
    print(f"||피카츄|| = √({pikachu_stats[0]}² + {pikachu_stats[1]}²) = √{pikachu_stats[0]**2 + pikachu_stats[1]**2} = {norm_pikachu:.2f}")
    print(f"||라이츄|| = √({raichu_stats[0]}² + {raichu_stats[1]}²) = √{raichu_stats[0]**2 + raichu_stats[1]**2} = {norm_raichu:.2f}")
    
    print("\n3단계: 코사인 유사도 계산")
    cosine_similarity_manual = dot_product / (norm_pikachu * norm_raichu)
    print(f"코사인 유사도 = {dot_product} / ({norm_pikachu:.2f} × {norm_raichu:.2f})")
    print(f"코사인 유사도 = {dot_product} / {norm_pikachu * norm_raichu:.2f} = {cosine_similarity_manual:.4f}")
    
    # 각도 계산
    angle_radians = np.arccos(np.clip(cosine_similarity_manual, -1, 1))
    angle_degrees = np.degrees(angle_radians)
    print(f"\n📐 두 벡터 사이의 각도: {angle_degrees:.1f}도")
    
    # sklearn으로 검증
    from sklearn.metrics.pairwise import cosine_similarity
    cosine_sklearn = cosine_similarity([pikachu_stats], [raichu_stats])[0][0]
    print(f"🔍 sklearn 검증: {cosine_sklearn:.4f}")
    
    print(f"\n🎯 결과 비교:")
    print(f"   유클리드 거리: {distance:.2f}")
    print(f"   맨하탄 거리: {manhattan_distance}")
    print(f"   코사인 유사도: {cosine_similarity_manual:.4f} (높을수록 유사)")
else:
    print("❌ 포켓몬 데이터가 부족합니다.")


In [None]:
# 크기가 다른 포켓몬으로 코사인 유사도의 장점 보여주기
print("🌟 코사인 유사도의 특별한 점 - 크기에 무관!")
print("="*50)

# 피카츄와 강화된 피카츄 (비율은 같지만 크기 다름)
normal_pikachu = np.array([55, 40])
strong_pikachu = np.array([110, 80])  # 2배 강화!
different_pokemon = np.array([80, 30])  # 다른 타입

print("포켓몬 능력치:")
print(f"일반 피카츄:   {normal_pikachu}")
print(f"강화 피카츄:   {strong_pikachu} (2배 강화)")
print(f"다른 포켓몬:   {different_pokemon}")
print()

# 유클리드 거리로 비교
euclidean_same = np.linalg.norm(normal_pikachu - strong_pikachu)
euclidean_diff = np.linalg.norm(normal_pikachu - different_pokemon)

print("📏 유클리드 거리:")
print(f"일반 vs 강화 피카츄: {euclidean_same:.1f}")
print(f"일반 피카츄 vs 다른 포켓몬: {euclidean_diff:.1f}")
print("→ 강화 피카츄가 더 멀다고 판단! (잘못된 결과)")

# 코사인 유사도로 비교
from sklearn.metrics.pairwise import cosine_similarity
cosine_same = cosine_similarity([normal_pikachu], [strong_pikachu])[0][0]
cosine_diff = cosine_similarity([normal_pikachu], [different_pokemon])[0][0]

print("\n📐 코사인 유사도:")
print(f"일반 vs 강화 피카츄: {cosine_same:.4f}")
print(f"일반 피카츄 vs 다른 포켓몬: {cosine_diff:.4f}")
print("→ 강화 피카츄가 더 유사하다고 판단! (올바른 결과)")

print("\n💡 결론:")
print("코사인 유사도는 크기가 달라도 '비율'이 같으면 유사하다고 판단!")
print("이것이 RAG에서 코사인 유사도를 선호하는 이유입니다!")


In [None]:
# 간단한 포켓몬 RAG 시스템 구축
print("🎯 포켓몬 RAG 시스템 구축!")
print("="*40)

# 1단계: 포켓몬 데이터베이스 구축 (능력치만 사용)
print("1단계: 포켓몬 데이터베이스 구축")

# 상위 10마리 포켓몬 선택 (결측값 제거)
pokemon_db = df[['name', 'hp', 'attack', 'defense', 'speed']].dropna().head(10)
print(f"총 {len(pokemon_db)}마리 포켓몬 데이터베이스 구축 완료")
print()

# 2단계: 능력치 벡터 준비
print("2단계: 능력치 벡터화")
pokemon_vectors = pokemon_db[['hp', 'attack', 'defense', 'speed']].values
pokemon_names = pokemon_db['name'].values

print("포켓몬별 능력치 벡터:")
for i, name in enumerate(pokemon_names):
    print(f"{name:12}: HP={pokemon_vectors[i][0]:3.0f}, 공격={pokemon_vectors[i][1]:3.0f}, 방어={pokemon_vectors[i][2]:3.0f}, 스피드={pokemon_vectors[i][3]:3.0f}")

print()
print("벡터 형태:", pokemon_vectors.shape)


In [None]:
# 3단계: 질문을 벡터로 변환하는 함수 
def query_to_vector(query_text):
    """
    간단한 질문 해석 함수
    실제 RAG에서는 BERT나 다른 임베딩 모델을 사용하지만,
    여기서는 키워드 기반으로 간단히 구현
    """
    # 기본 벡터 [HP, 공격력, 방어력, 스피드]
    query_vector = [0, 0, 0, 0]
    
    query_lower = query_text.lower()
    
    # 키워드별 가중치 설정
    if any(word in query_lower for word in ['hp', '체력', '생명력']):
        query_vector[0] = 100
    if any(word in query_lower for word in ['attack', '공격', '공격력', '강한', '센']):
        query_vector[1] = 100  
    if any(word in query_lower for word in ['defense', '방어', '방어력', '단단한', '튼튼한']):
        query_vector[2] = 100
    if any(word in query_lower for word in ['speed', '스피드', '빠른', '속도']):
        query_vector[3] = 100
        
    # 균형잡힌 요청 처리
    if any(word in query_lower for word in ['균형', '밸런스', '고른']):
        query_vector = [75, 75, 75, 75]
    
    return np.array(query_vector, dtype=float)

# 테스트
print("3단계: 질문 벡터화 테스트")
print("="*30)

test_queries = [
    "공격력이 높은 포켓몬",
    "빠른 포켓몬", 
    "방어력이 좋은 포켓몬",
    "균형잡힌 포켓몬"
]

for query in test_queries:
    vector = query_to_vector(query)
    print(f"'{query}' → {vector}")


In [None]:
# 4단계: RAG 검색 함수
def pokemon_rag_search(query_text, top_k=3):
    """
    포켓몬 RAG 검색 함수
    """
    print(f"🔍 질문: '{query_text}'")
    print("-" * 50)
    
    # 질문을 벡터로 변환
    query_vector = query_to_vector(query_text)
    print(f"질문 벡터: {query_vector}")
    
    # 모든 포켓몬과의 코사인 유사도 계산
    similarities = cosine_similarity([query_vector], pokemon_vectors)[0]
    
    # 상위 k개 포켓몬 선택
    top_indices = np.argsort(similarities)[::-1][:top_k]
    
    print(f"\n🎯 검색 결과 (상위 {top_k}개):")
    print("랭킹  포켓몬     유사도   HP  공격 방어 스피드")
    print("-" * 45)
    
    results = []
    for rank, idx in enumerate(top_indices, 1):
        name = pokemon_names[idx]
        similarity = similarities[idx]
        stats = pokemon_vectors[idx]
        
        print(f"{rank:2d}   {name:10} {similarity:6.3f}  {stats[0]:3.0f} {stats[1]:3.0f}  {stats[2]:3.0f}   {stats[3]:3.0f}")
        
        results.append({
            'rank': rank,
            'name': name, 
            'similarity': similarity,
            'stats': stats
        })
    
    return results

# 5단계: 실제 질문으로 테스트
print("\n" + "="*60)
print("🎮 포켓몬 RAG 시스템 테스트!")
print("="*60)

# 여러 질문으로 테스트
test_questions = [
    "공격력이 높은 포켓몬 추천해줘",
    "빠른 포켓몬이 필요해",
    "방어력이 좋은 포켓몬은?"
]

for i, question in enumerate(test_questions, 1):
    print(f"\n【테스트 {i}】")
    results = pokemon_rag_search(question, top_k=3)
    print()


In [None]:
# 6단계: 세 가지 거리 방법 성능 비교
print("📊 거리 방법별 성능 비교 실험!")
print("="*50)

# 테스트 질문
test_query = "공격력이 높은 포켓몬"
query_vector = query_to_vector(test_query)

print(f"테스트 질문: '{test_query}'")
print(f"질문 벡터: {query_vector}")
print()

# 1. 코사인 유사도
cosine_similarities = cosine_similarity([query_vector], pokemon_vectors)[0]
cosine_top3 = np.argsort(cosine_similarities)[::-1][:3]

# 2. 유클리드 거리 (거리이므로 작을수록 좋음)
euclidean_distances = euclidean_distances([query_vector], pokemon_vectors)[0]
euclidean_top3 = np.argsort(euclidean_distances)[:3]  # 오름차순 정렬

# 3. 맨하탄 거리 (거리이므로 작을수록 좋음)  
manhattan_dists = manhattan_distances([query_vector], pokemon_vectors)[0]
manhattan_top3 = np.argsort(manhattan_dists)[:3]  # 오름차순 정렬

print("🔍 각 방법별 Top 3 결과:")
print()

methods = [
    ("코사인 유사도", cosine_top3, cosine_similarities, "높음"),
    ("유클리드 거리", euclidean_top3, euclidean_distances, "낮음"), 
    ("맨하탄 거리", manhattan_top3, manhattan_dists, "낮음")
]

for method_name, top_indices, scores, direction in methods:
    print(f"📐 {method_name} (점수 {direction}은 더 좋음):")
    print("순위  포켓몬        점수     HP  공격 방어 스피드")
    print("-" * 48)
    
    for rank, idx in enumerate(top_indices, 1):
        name = pokemon_names[idx]
        score = scores[idx]
        stats = pokemon_vectors[idx]
        print(f"{rank:2d}   {name:12} {score:7.3f}  {stats[0]:3.0f} {stats[1]:3.0f}  {stats[2]:3.0f}   {stats[3]:3.0f}")
    print()

print("💡 관찰:")
print("- 코사인 유사도: 비율을 중요하게 생각")
print("- 유클리드 거리: 절대적 차이를 중요하게 생각")  
print("- 맨하탄 거리: 각 차원을 독립적으로 생각")
