# Model Comparison Analysis

Bu notebook, farklı model kategorilerinin (Generalist, Domain-Adaptive, Specialist) karşılaştırmalı analizini sunar.

In [None]:
import json
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Stil ayarları
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette('husl')

## 1. Sonuçları Yükle

In [None]:
# Deney sonuçlarını yükle
results_path = Path('../results/comparison_results.json')

if results_path.exists():
    with open(results_path) as f:
        results = json.load(f)
    print('Sonuçlar yüklendi!')
else:
    print('Sonuç dosyası bulunamadı. Önce deneyi çalıştırın.')
    results = None

## 2. Metrik Karşılaştırması

In [None]:
if results:
    # DataFrame oluştur
    df = pd.DataFrame(results['model_results']).T
    display(df)
    
    # Görselleştirme
    fig, axes = plt.subplots(1, 2, figsize=(14, 5))
    
    # RadGraph F1
    if 'radgraph_f1' in df.columns:
        df['radgraph_f1'].plot(kind='bar', ax=axes[0], color='steelblue')
        axes[0].set_title('RadGraph F1 Score', fontsize=14)
        axes[0].set_ylabel('F1 Score')
        axes[0].set_ylim(0, 1)
    
    # Hallucination Rate
    if 'hallucination_rate' in df.columns:
        df['hallucination_rate'].plot(kind='bar', ax=axes[1], color='coral')
        axes[1].set_title('Hallucination Rate', fontsize=14)
        axes[1].set_ylabel('Rate')
    
    plt.tight_layout()
    plt.savefig('../results/figures/metric_comparison.png', dpi=150)
    plt.show()

## 3. İstatistiksel Analiz

In [None]:
if results and 'statistical_comparisons' in results:
    for comp in results['statistical_comparisons']:
        print(f"\n{comp['comparison']}")
        print(f"  Mean difference: {comp['difference']:.4f}")
        print(f"  p-value (t-test): {comp['paired_t_test']['p_value']:.4f}")
        print(f"  Significant: {comp['paired_t_test']['significant']}")