# 🎯 Cobee 매칭 모델 성능 대시보드

이 노트북은 LightGBM 추천 모델의 성능을 시각적으로 분석합니다.

## 📊 분석 내용
- 모델 성능 트렌드 (AUC, PR-AUC, Precision@10)
- 학습 데이터 통계
- 모델 비교 분석
- 추천 결과 분석

In [3]:
# 필요한 라이브러리 설치 및 임포트
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import pymongo
from pymongo import MongoClient
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')


print("📦 라이브러리 로드 완료!")

📦 라이브러리 로드 완료!


In [None]:
# MongoDB 연결 설정
def connect_to_mongodb():
    """
    MongoDB Atlas 또는 로컬 MongoDB에 연결하고 데이터를 가져옵니다.
    """
    try:
        # 환경 변수에서 MongoDB 연결 정보 로드
        from dotenv import load_dotenv
        import os
        
        # 프로젝트 루트의 .env 파일 로드
        load_dotenv(dotenv_path='../.env')
        
        username = os.getenv("MONGO_ROOT_USERNAME", "admin")
        password = os.getenv("MONGO_ROOT_PASSWORD", "")
        db_name = os.getenv("MONGODB_DB_NAME", "roommate_matching")
        mongodb_url = os.getenv("MONGODB_URL", "")
        
        # MONGODB_URL이 설정되어 있으면 그것을 사용 (Atlas 또는 커스텀)
        if mongodb_url:
            # 환경 변수 치환
            mongodb_url = mongodb_url.replace("${MONGO_ROOT_USERNAME}", username)
            mongodb_url = mongodb_url.replace("${MONGO_ROOT_PASSWORD}", password)
            mongodb_url = mongodb_url.replace("${MONGODB_DB_NAME}", db_name)
        else:
            # 기본 로컬 연결 (fallback)
            mongodb_url = f"mongodb://{username}:{password}@localhost:27018/{db_name}?authSource=admin"
        
        print(f"MongoDB 연결 시도: {mongodb_url.replace(password, '***')}")
        
        client = MongoClient(mongodb_url)
        db = client[db_name]
        
        # 연결 테스트
        client.admin.command('ping')
        print("✅ MongoDB 연결 성공!")
        
        return db
    except Exception as e:
        print(f"❌ MongoDB 연결 실패: {e}")
        return None

# MongoDB 연결
db = connect_to_mongodb()

In [6]:
# 데이터 로드 함수들
def load_training_logs(db):
    """
    훈련 로그 데이터를 로드합니다.
    """
    if db is None:
        return pd.DataFrame()
    
    try:
        # training_logs 컬렉션에서 데이터 조회
        logs = list(db.training_logs.find().sort('training_start', 1))
        
        if not logs:
            print("⚠️  훈련 로그가 없습니다.")
            return pd.DataFrame()
        
        # DataFrame으로 변환
        df = pd.DataFrame(logs)
        
        # 메트릭 컬럼들을 분리
        metrics_df = pd.json_normalize(df['metrics'])
        data_info_df = pd.json_normalize(df['data_info'])
        
        # 컬럼명 변경
        metrics_df.columns = [f'metrics_{col}' for col in metrics_df.columns]
        data_info_df.columns = [f'data_{col}' for col in data_info_df.columns]
        
        # 합치기
        result = pd.concat([df.drop(['metrics', 'data_info'], axis=1), metrics_df, data_info_df], axis=1)
        
        # 시간 컬럼 변환
        result['training_start'] = pd.to_datetime(result['training_start'])
        result['training_end'] = pd.to_datetime(result['training_end'])
        result['training_duration'] = (result['training_end'] - result['training_start']).dt.total_seconds()
        
        print(f"📊 훈련 로그 {len(result)}개 로드 완료")
        return result
        
    except Exception as e:
        print(f"❌ 훈련 로그 로드 실패: {e}")
        return pd.DataFrame()

def load_recommendation_stats(db):
    """
    추천 결과 통계를 로드합니다.
    """
    if db is None:
        return {}
    
    try:
        # 기본 통계
        total_users = db.recommendations.count_documents({})
        total_history = db.recommendation_history.count_documents({})
        
        # 최신 추천 정보
        latest_rec = db.recommendations.find_one({}, sort=[('created_at', -1)])
        
        stats = {
            'total_users_with_recommendations': total_users,
            'total_recommendation_history': total_history,
            'latest_model_version': latest_rec.get('model_version', 'N/A') if latest_rec else 'N/A',
            'latest_recommendation_time': latest_rec.get('created_at', 'N/A') if latest_rec else 'N/A'
        }
        
        print(f"📈 추천 통계 로드 완료")
        return stats
        
    except Exception as e:
        print(f"❌ 추천 통계 로드 실패: {e}")
        return {}

# 데이터 로드
training_df = load_training_logs(db)
recommendation_stats = load_recommendation_stats(db)

📊 훈련 로그 2개 로드 완료
📈 추천 통계 로드 완료


In [7]:
# 기본 정보 출력
print("🎯 Cobee 모델 성능 대시보드")
print("=" * 50)

if not training_df.empty:
    print(f"📊 총 훈련 횟수: {len(training_df)}회")
    print(f"🤖 최신 모델: {training_df['model_version'].iloc[-1]}")
    print(f"⏰ 마지막 훈련: {training_df['training_start'].iloc[-1].strftime('%Y-%m-%d %H:%M:%S')}")
    print(f"📈 최신 AUC: {training_df['metrics_auc'].iloc[-1]:.4f}")
    print(f"🎯 최신 P@10: {training_df['metrics_precision_at_10'].iloc[-1]:.4f}")
else:
    print("⚠️  훈련 데이터가 없습니다.")

print("\n🔍 추천 시스템 현황")
print("-" * 30)
for key, value in recommendation_stats.items():
    print(f"{key}: {value}")

🎯 Cobee 모델 성능 대시보드
📊 총 훈련 횟수: 2회
🤖 최신 모델: v20250921_134610
⏰ 마지막 훈련: 2025-09-21 13:46:10
📈 최신 AUC: 0.9614
🎯 최신 P@10: 1.0000

🔍 추천 시스템 현황
------------------------------
total_users_with_recommendations: 404
total_recommendation_history: 60853
latest_model_version: v20250921_134610
latest_recommendation_time: 2025-09-21T13:46:10.852151


In [8]:
# 1. 모델 성능 트렌드 차트
if not training_df.empty:
    # 서브플롯 생성
    fig = make_subplots(
        rows=2, cols=2,
        subplot_titles=('AUC 성능 트렌드', 'PR-AUC 성능 트렌드', 
                       'Precision@10 트렌드', '학습 시간 트렌드'),
        specs=[[{"secondary_y": False}, {"secondary_y": False}],
               [{"secondary_y": False}, {"secondary_y": False}]]
    )
    
    # AUC 트렌드
    fig.add_trace(
        go.Scatter(
            x=training_df['training_start'],
            y=training_df['metrics_auc'],
            mode='lines+markers',
            name='AUC',
            line=dict(color='#1f77b4', width=3),
            marker=dict(size=8)
        ),
        row=1, col=1
    )
    
    # PR-AUC 트렌드
    fig.add_trace(
        go.Scatter(
            x=training_df['training_start'],
            y=training_df['metrics_pr_auc'],
            mode='lines+markers',
            name='PR-AUC',
            line=dict(color='#ff7f0e', width=3),
            marker=dict(size=8)
        ),
        row=1, col=2
    )
    
    # Precision@10 트렌드
    fig.add_trace(
        go.Scatter(
            x=training_df['training_start'],
            y=training_df['metrics_precision_at_10'],
            mode='lines+markers',
            name='Precision@10',
            line=dict(color='#2ca02c', width=3),
            marker=dict(size=8)
        ),
        row=2, col=1
    )
    
    # 학습 시간 트렌드
    fig.add_trace(
        go.Scatter(
            x=training_df['training_start'],
            y=training_df['training_duration'],
            mode='lines+markers',
            name='Training Time (s)',
            line=dict(color='#d62728', width=3),
            marker=dict(size=8)
        ),
        row=2, col=2
    )
    
    # 레이아웃 업데이트
    fig.update_layout(
        height=800,
        title_text="🎯 Cobee 모델 성능 트렌드 대시보드",
        title_x=0.5,
        font=dict(size=12),
        showlegend=False
    )
    
    # Y축 라벨 설정
    fig.update_yaxes(title_text="AUC", row=1, col=1)
    fig.update_yaxes(title_text="PR-AUC", row=1, col=2)
    fig.update_yaxes(title_text="Precision@10", row=2, col=1)
    fig.update_yaxes(title_text="초", row=2, col=2)
    
    fig.show()
else:
    print("📊 시각화할 데이터가 없습니다.")

In [9]:
# 2. 모델 성능 상세 분석
if not training_df.empty:
    # 성능 지표 박스플롯
    fig = make_subplots(
        rows=1, cols=3,
        subplot_titles=('AUC 분포', 'PR-AUC 분포', 'Precision@10 분포')
    )
    
    # AUC 박스플롯
    fig.add_trace(
        go.Box(
            y=training_df['metrics_auc'],
            name='AUC',
            boxpoints='all',
            marker_color='#1f77b4'
        ),
        row=1, col=1
    )
    
    # PR-AUC 박스플롯
    fig.add_trace(
        go.Box(
            y=training_df['metrics_pr_auc'],
            name='PR-AUC',
            boxpoints='all',
            marker_color='#ff7f0e'
        ),
        row=1, col=2
    )
    
    # Precision@10 박스플롯
    fig.add_trace(
        go.Box(
            y=training_df['metrics_precision_at_10'],
            name='Precision@10',
            boxpoints='all',
            marker_color='#2ca02c'
        ),
        row=1, col=3
    )
    
    fig.update_layout(
        height=500,
        title_text="📊 모델 성능 지표 분포",
        title_x=0.5,
        showlegend=False
    )
    
    fig.show()
    
    # 성능 통계 출력
    print("📈 성능 지표 통계")
    print("=" * 50)
    stats = training_df[['metrics_auc', 'metrics_pr_auc', 'metrics_precision_at_10']].describe()
    print(stats.round(4))

📈 성능 지표 통계
       metrics_auc  metrics_pr_auc  metrics_precision_at_10
count       2.0000          2.0000                      2.0
mean        0.9612          0.5765                      1.0
std         0.0003          0.0096                      0.0
min         0.9610          0.5697                      1.0
25%         0.9611          0.5731                      1.0
50%         0.9612          0.5765                      1.0
75%         0.9613          0.5799                      1.0
max         0.9614          0.5833                      1.0


In [10]:
# 3. 데이터 볼륨 트렌드
if not training_df.empty:
    fig = make_subplots(
        rows=2, cols=2,
        subplot_titles=('총 상호작용 수', '훈련 샘플 수', '검증 샘플 수', '긍정 샘플 비율'),
        specs=[[{"secondary_y": False}, {"secondary_y": False}],
               [{"secondary_y": False}, {"secondary_y": False}]]
    )
    
    # 총 상호작용 수
    fig.add_trace(
        go.Scatter(
            x=training_df['training_start'],
            y=training_df['data_total_interactions'],
            mode='lines+markers',
            name='Total Interactions',
            line=dict(color='#9467bd', width=3)
        ),
        row=1, col=1
    )
    
    # 훈련 샘플 수
    fig.add_trace(
        go.Scatter(
            x=training_df['training_start'],
            y=training_df['data_training_samples'],
            mode='lines+markers',
            name='Training Samples',
            line=dict(color='#8c564b', width=3)
        ),
        row=1, col=2
    )
    
    # 검증 샘플 수
    fig.add_trace(
        go.Scatter(
            x=training_df['training_start'],
            y=training_df['data_validation_samples'],
            mode='lines+markers',
            name='Validation Samples',
            line=dict(color='#e377c2', width=3)
        ),
        row=2, col=1
    )
    
    # 긍정 샘플 비율 계산
    training_df['positive_rate'] = training_df['metrics_positive_samples'] / training_df['metrics_total_samples']
    
    fig.add_trace(
        go.Scatter(
            x=training_df['training_start'],
            y=training_df['positive_rate'] * 100,
            mode='lines+markers',
            name='Positive Rate (%)',
            line=dict(color='#17becf', width=3)
        ),
        row=2, col=2
    )
    
    fig.update_layout(
        height=800,
        title_text="📊 데이터 볼륨 및 품질 트렌드",
        title_x=0.5,
        showlegend=False
    )
    
    fig.show()

In [11]:
# 4. 최신 성능 요약 대시보드
if not training_df.empty:
    latest = training_df.iloc[-1]
    
    # 게이지 차트들 생성
    fig = make_subplots(
        rows=1, cols=3,
        specs=[[{"type": "indicator"}, {"type": "indicator"}, {"type": "indicator"}]],
        subplot_titles=('AUC 성능', 'PR-AUC 성능', 'Precision@10')
    )
    
    # AUC 게이지
    fig.add_trace(
        go.Indicator(
            mode="gauge+number+delta",
            value=latest['metrics_auc'],
            domain={'x': [0, 1], 'y': [0, 1]},
            title={'text': "AUC"},
            delta={'reference': 0.5},
            gauge={
                'axis': {'range': [None, 1]},
                'bar': {'color': "darkblue"},
                'steps': [
                    {'range': [0, 0.7], 'color': "lightgray"},
                    {'range': [0.7, 0.9], 'color': "yellow"},
                    {'range': [0.9, 1], 'color': "green"}
                ],
                'threshold': {
                    'line': {'color': "red", 'width': 4},
                    'thickness': 0.75,
                    'value': 0.95
                }
            }
        ),
        row=1, col=1
    )
    
    # PR-AUC 게이지
    fig.add_trace(
        go.Indicator(
            mode="gauge+number+delta",
            value=latest['metrics_pr_auc'],
            domain={'x': [0, 1], 'y': [0, 1]},
            title={'text': "PR-AUC"},
            delta={'reference': 0.3},
            gauge={
                'axis': {'range': [None, 1]},
                'bar': {'color': "darkorange"},
                'steps': [
                    {'range': [0, 0.3], 'color': "lightgray"},
                    {'range': [0.3, 0.6], 'color': "yellow"},
                    {'range': [0.6, 1], 'color': "green"}
                ]
            }
        ),
        row=1, col=2
    )
    
    # Precision@10 게이지
    fig.add_trace(
        go.Indicator(
            mode="gauge+number+delta",
            value=latest['metrics_precision_at_10'],
            domain={'x': [0, 1], 'y': [0, 1]},
            title={'text': "Precision@10"},
            delta={'reference': 0.5},
            gauge={
                'axis': {'range': [None, 1]},
                'bar': {'color': "darkgreen"},
                'steps': [
                    {'range': [0, 0.5], 'color': "lightgray"},
                    {'range': [0.5, 0.8], 'color': "yellow"},
                    {'range': [0.8, 1], 'color': "green"}
                ]
            }
        ),
        row=1, col=3
    )
    
    fig.update_layout(
        height=400,
        title_text=f"🎯 최신 모델 성능 ({latest['model_version']})",
        title_x=0.5
    )
    
    fig.show()
    
    # 상세 정보 출력
    print(f"\n🤖 모델 정보: {latest['model_version']}")
    print(f"⏰ 훈련 시간: {latest['training_start'].strftime('%Y-%m-%d %H:%M:%S')}")
    print(f"📊 총 데이터: {latest['data_total_interactions']:,}개")
    print(f"🎯 훈련 샘플: {latest['data_training_samples']:,}개")
    print(f"✅ 검증 샘플: {latest['data_validation_samples']:,}개")
    print(f"💫 긍정 비율: {latest['positive_rate']*100:.2f}%")


🤖 모델 정보: v20250921_134610
⏰ 훈련 시간: 2025-09-21 13:46:10
📊 총 데이터: 61,004개
🎯 훈련 샘플: 48,803개
✅ 검증 샘플: 12,201개
💫 긍정 비율: 5.40%


In [12]:
# 5. 모델 개선 추이 분석
if len(training_df) > 1:
    # 이전 모델 대비 개선도 계산
    training_df['auc_improvement'] = training_df['metrics_auc'].diff()
    training_df['pr_auc_improvement'] = training_df['metrics_pr_auc'].diff()
    training_df['p10_improvement'] = training_df['metrics_precision_at_10'].diff()
    
    # 개선도 시각화
    fig = make_subplots(
        rows=3, cols=1,
        subplot_titles=('AUC 개선도', 'PR-AUC 개선도', 'Precision@10 개선도'),
        vertical_spacing=0.1
    )
    
    # AUC 개선도
    colors_auc = ['green' if x > 0 else 'red' for x in training_df['auc_improvement'].fillna(0)]
    fig.add_trace(
        go.Bar(
            x=training_df['model_version'],
            y=training_df['auc_improvement'],
            marker_color=colors_auc,
            name='AUC 개선도'
        ),
        row=1, col=1
    )
    
    # PR-AUC 개선도
    colors_pr = ['green' if x > 0 else 'red' for x in training_df['pr_auc_improvement'].fillna(0)]
    fig.add_trace(
        go.Bar(
            x=training_df['model_version'],
            y=training_df['pr_auc_improvement'],
            marker_color=colors_pr,
            name='PR-AUC 개선도'
        ),
        row=2, col=1
    )
    
    # Precision@10 개선도
    colors_p10 = ['green' if x > 0 else 'red' for x in training_df['p10_improvement'].fillna(0)]
    fig.add_trace(
        go.Bar(
            x=training_df['model_version'],
            y=training_df['p10_improvement'],
            marker_color=colors_p10,
            name='P@10 개선도'
        ),
        row=3, col=1
    )
    
    fig.update_layout(
        height=900,
        title_text="📈 모델별 성능 개선도 분석",
        title_x=0.5,
        showlegend=False
    )
    
    fig.update_xaxes(tickangle=45)
    
    fig.show()
    
    # 개선도 통계
    print("\n📊 모델 개선도 통계")
    print("=" * 50)
    improvement_stats = training_df[['auc_improvement', 'pr_auc_improvement', 'p10_improvement']].describe()
    print(improvement_stats.round(6))
else:
    print("📊 개선도 분석을 위해서는 최소 2개 이상의 모델이 필요합니다.")


📊 모델 개선도 통계
       auc_improvement  pr_auc_improvement  p10_improvement
count         1.000000            1.000000              1.0
mean          0.000375            0.013635              0.0
std                NaN                 NaN              NaN
min           0.000375            0.013635              0.0
25%           0.000375            0.013635              0.0
50%           0.000375            0.013635              0.0
75%           0.000375            0.013635              0.0
max           0.000375            0.013635              0.0


In [13]:
# 6. 종합 리포트 생성
print("\n🎯 Cobee 추천 시스템 성능 리포트")
print("=" * 60)

if not training_df.empty:
    latest = training_df.iloc[-1]
    
    print(f"📅 리포트 생성 시간: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
    print(f"🤖 최신 모델: {latest['model_version']}")
    print(f"📊 총 훈련 횟수: {len(training_df)}회")
    
    print("\n🏆 최고 성능 기록:")
    print(f"  • 최고 AUC: {training_df['metrics_auc'].max():.4f}")
    print(f"  • 최고 PR-AUC: {training_df['metrics_pr_auc'].max():.4f}")
    print(f"  • 최고 P@10: {training_df['metrics_precision_at_10'].max():.4f}")
    
    print("\n📈 현재 성능:")
    print(f"  • AUC: {latest['metrics_auc']:.4f}")
    print(f"  • PR-AUC: {latest['metrics_pr_auc']:.4f}")
    print(f"  • Precision@10: {latest['metrics_precision_at_10']:.4f}")
    
    print("\n💾 데이터 현황:")
    print(f"  • 총 회원: {latest['data_total_members']:,}명")
    print(f"  • 총 구인글: {latest['data_total_posts']:,}개")
    print(f"  • 총 상호작용: {latest['data_total_interactions']:,}개")
    print(f"  • 긍정 비율: {latest['positive_rate']*100:.2f}%")
    
    # 성능 등급 판정
    def get_performance_grade(auc, pr_auc, p10):
        if auc >= 0.95 and pr_auc >= 0.7 and p10 >= 0.9:
            return "🥇 우수 (Excellent)"
        elif auc >= 0.9 and pr_auc >= 0.5 and p10 >= 0.7:
            return "🥈 양호 (Good)"
        elif auc >= 0.8 and pr_auc >= 0.3 and p10 >= 0.5:
            return "🥉 보통 (Fair)"
        else:
            return "❌ 개선 필요 (Needs Improvement)"
    
    grade = get_performance_grade(
        latest['metrics_auc'],
        latest['metrics_pr_auc'],
        latest['metrics_precision_at_10']
    )
    
    print(f"\n🎖️ 현재 성능 등급: {grade}")
    
    # 권장사항
    print("\n💡 권장사항:")
    if latest['metrics_auc'] < 0.9:
        print("  • AUC 개선을 위해 더 많은 특성 엔지니어링을 고려해보세요")
    if latest['metrics_pr_auc'] < 0.6:
        print("  • 불균형 데이터 처리 방법을 개선해보세요")
    if latest['metrics_precision_at_10'] < 0.8:
        print("  • 상위 추천의 정확도 향상을 위해 랭킹 최적화를 고려해보세요")
    if latest['positive_rate'] < 0.05:
        print("  • 긍정 샘플이 부족합니다. 더 많은 상호작용 데이터 수집을 권장합니다")
    
    if (latest['metrics_auc'] >= 0.95 and 
        latest['metrics_pr_auc'] >= 0.6 and 
        latest['metrics_precision_at_10'] >= 0.9):
        print("  • 🎉 현재 모델 성능이 매우 우수합니다!")
        
else:
    print("⚠️ 분석할 데이터가 없습니다. 모델을 먼저 훈련시켜주세요.")

print("\n" + "=" * 60)
print("🎯 End of Report")


🎯 Cobee 추천 시스템 성능 리포트
📅 리포트 생성 시간: 2025-09-21 16:54:03
🤖 최신 모델: v20250921_134610
📊 총 훈련 횟수: 2회

🏆 최고 성능 기록:
  • 최고 AUC: 0.9614
  • 최고 PR-AUC: 0.5833
  • 최고 P@10: 1.0000

📈 현재 성능:
  • AUC: 0.9614
  • PR-AUC: 0.5833
  • Precision@10: 1.0000

💾 데이터 현황:
  • 총 회원: 404명
  • 총 구인글: 151개
  • 총 상호작용: 61,004개
  • 긍정 비율: 5.40%

🎖️ 현재 성능 등급: 🥈 양호 (Good)

💡 권장사항:
  • 불균형 데이터 처리 방법을 개선해보세요

🎯 End of Report
