# 03 - Makine Öğrenmesi Modelleri ve Analiz

## Sprint 3: Makine Öğrenmesi Modelleri

Bu notebook, maaş anketi verisinin makine öğrenmesi analizini içerir.

### Hedefler:
- Maaş tahmin modelleri eğitimi
- Model performans değerlendirmesi
- Feature importance analizi
- Developer profil kümeleme
- Çapraz doğrulama

In [None]:
# Gerekli kütüphaneleri import et
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import xgboost as xgb
import sys
sys.path.append('../src')
from machine_learning import machine_learning_pipeline

# Görselleştirme ayarları
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("Kütüphaneler başarıyla yüklendi!")

## 1. Makine Öğrenmesi Pipeline Çalıştırma

In [None]:
# Tam ML pipeline'ı çalıştır
print("Makine öğrenmesi pipeline başlatılıyor...")
ml_results = machine_learning_pipeline('../data/cleaned_data.csv', '../outputs/')

print(f"\nPipeline tamamlandı!")
print(f"Eğitilen model sayısı: {len(ml_results['models'])}")
print(f"En iyi model: {ml_results['evaluation_results']['best_model_name']}")
print(f"En iyi R²: {ml_results['results'][ml_results['evaluation_results']['best_model_name']]['r2']:.4f}")

## 2. Model Performans Karşılaştırması

In [None]:
# Model performans karşılaştırması
models = list(ml_results['results'].keys())
r2_scores = [ml_results['results'][model]['r2'] for model in models]
mae_scores = [ml_results['results'][model]['mae'] for model in models]
rmse_scores = [ml_results['results'][model]['rmse'] for model in models]

# Performans grafikleri
fig, axes = plt.subplots(1, 3, figsize=(18, 6))

# R² skorları
bars1 = axes[0].bar(models, r2_scores, color=['#FF6B6B', '#4ECDC4', '#45B7D1'])
axes[0].set_title('Model R² Skorları')
axes[0].set_ylabel('R² Skoru')
axes[0].set_ylim(0, 1.1)
for bar, score in zip(bars1, r2_scores):
    axes[0].text(bar.get_x() + bar.get_width()/2., bar.get_height() + 0.01,
                f'{score:.4f}', ha='center', va='bottom')

# MAE skorları
bars2 = axes[1].bar(models, mae_scores, color=['#FF6B6B', '#4ECDC4', '#45B7D1'])
axes[1].set_title('Model MAE Skorları')
axes[1].set_ylabel('MAE (bin TL)')
for bar, score in zip(bars2, mae_scores):
    axes[1].text(bar.get_x() + bar.get_width()/2., bar.get_height() + 0.5,
                f'{score:.2f}', ha='center', va='bottom')

# RMSE skorları
bars3 = axes[2].bar(models, rmse_scores, color=['#FF6B6B', '#4ECDC4', '#45B7D1'])
axes[2].set_title('Model RMSE Skorları')
axes[2].set_ylabel('RMSE (bin TL)')
for bar, score in zip(bars3, rmse_scores):
    axes[2].text(bar.get_x() + bar.get_width()/2., bar.get_height() + 0.5,
                f'{score:.2f}', ha='center', va='bottom')

plt.tight_layout()
plt.show()

# Performans tablosu
performance_df = pd.DataFrame({
    'Model': models,
    'R²': r2_scores,
    'MAE': mae_scores,
    'RMSE': rmse_scores
})

print("Model Performans Karşılaştırması:")
print(performance_df.round(4))

## 3. Çapraz Doğrulama Sonuçları

In [None]:
# Çapraz doğrulama sonuçları
cv_r2_means = [ml_results['cv_results'][model]['r2_mean'] for model in models]
cv_r2_stds = [ml_results['cv_results'][model]['r2_std'] for model in models]

fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# CV R² skorları
bars = axes[0].bar(models, cv_r2_means, yerr=cv_r2_stds, capsize=5, 
                   color=['#FF6B6B', '#4ECDC4', '#45B7D1'])
axes[0].set_title('5-Katlı Çapraz Doğrulama R² Skorları')
axes[0].set_ylabel('CV R² Skoru')
axes[0].set_ylim(0, 1.1)
for bar, mean, std in zip(bars, cv_r2_means, cv_r2_stds):
    axes[0].text(bar.get_x() + bar.get_width()/2., bar.get_height() + 0.01,
                f'{mean:.4f}±{std:.4f}', ha='center', va='bottom')

# Test vs CV R² karşılaştırması
x = np.arange(len(models))
width = 0.35

bars1 = axes[1].bar(x - width/2, r2_scores, width, label='Test R²', color='#FF6B6B')
bars2 = axes[1].bar(x + width/2, cv_r2_means, width, label='CV R²', color='#4ECDC4')

axes[1].set_title('Test vs Çapraz Doğrulama R² Karşılaştırması')
axes[1].set_ylabel('R² Skoru')
axes[1].set_xticks(x)
axes[1].set_xticklabels(models)
axes[1].legend()
axes[1].set_ylim(0, 1.1)

plt.tight_layout()
plt.show()

# CV sonuçları tablosu
cv_df = pd.DataFrame({
    'Model': models,
    'Test R²': r2_scores,
    'CV R²': cv_r2_means,
    'CV R² Std': cv_r2_stds,
    'Overfitting': [abs(test - cv) for test, cv in zip(r2_scores, cv_r2_means)]
})

print("Çapraz Doğrulama Sonuçları:")
print(cv_df.round(4))

## 4. Feature Importance Analizi

In [None]:
# Feature importance analizi
importance_results = ml_results['importance_results']

# En iyi modelin feature importance'sini görselleştir
best_model_name = ml_results['evaluation_results']['best_model_name']
if best_model_name in importance_results:
    top_features = importance_results[best_model_name]['top_features'][:10]
    top_importances = importance_results[best_model_name]['top_importance_values'][:10]
    
    fig, axes = plt.subplots(1, 2, figsize=(15, 8))
    
    # Bar plot
    bars = axes[0].barh(range(len(top_features)), top_importances, color='skyblue')
    axes[0].set_yticks(range(len(top_features)))
    axes[0].set_yticklabels(top_features)
    axes[0].set_xlabel('Feature Importance')
    axes[0].set_title(f'{best_model_name.upper()} - En Önemli 10 Feature')
    axes[0].invert_yaxis()
    
    # Bar üzerine değerleri yaz
    for i, (bar, importance) in enumerate(zip(bars, top_importances)):
        axes[0].text(bar.get_width() + 0.001, bar.get_y() + bar.get_height()/2,
                    f'{importance:.4f}', ha='left', va='center')
    
    # Pie chart (top 5)
    top5_features = top_features[:5]
    top5_importances = top_importances[:5]
    
    axes[1].pie(top5_importances, labels=top5_features, autopct='%1.1f%%', startangle=90)
    axes[1].set_title(f'{best_model_name.upper()} - En Önemli 5 Feature Dağılımı')
    
    plt.tight_layout()
    plt.show()
    
    print(f"En Önemli Feature'lar ({best_model_name}):")
    for i, (feature, importance) in enumerate(zip(top_features, top_importances), 1):
        print(f"{i:2d}. {feature}: {importance:.4f}")
else:
    print(f"{best_model_name} için feature importance bilgisi bulunamadı.")

## 5. Developer Profil Kümeleme

In [None]:
# Developer kümeleme sonuçları
clustering_results = ml_results['clustering_results']
cluster_summary = clustering_results['cluster_summary']

# Küme özeti
cluster_ids = list(cluster_summary.keys())
cluster_sizes = [cluster_summary[cluster_id]['size'] for cluster_id in cluster_ids]
cluster_percentages = [cluster_summary[cluster_id]['percentage'] for cluster_id in cluster_ids]
cluster_salaries = [cluster_summary[cluster_id]['avg_salary'] for cluster_id in cluster_ids]

fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Küme boyutları
bars1 = axes[0, 0].bar(cluster_ids, cluster_sizes, color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4'])
axes[0, 0].set_title('Küme Boyutları')
axes[0, 0].set_xlabel('Küme ID')
axes[0, 0].set_ylabel('Katılımcı Sayısı')
for bar, size, pct in zip(bars1, cluster_sizes, cluster_percentages):
    axes[0, 0].text(bar.get_x() + bar.get_width()/2., bar.get_height() + 10,
                    f'{size}\n({pct:.1f}%)', ha='center', va='bottom')

# 2. Ortalama maaşlar
bars2 = axes[0, 1].bar(cluster_ids, cluster_salaries, color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4'])
axes[0, 1].set_title('Küme Ortalama Maaşları')
axes[0, 1].set_xlabel('Küme ID')
axes[0, 1].set_ylabel('Ortalama Maaş (bin TL)')
for bar, salary in zip(bars2, cluster_salaries):
    axes[0, 1].text(bar.get_x() + bar.get_width()/2., bar.get_height() + 1,
                    f'{salary:.1f}', ha='center', va='bottom')

# 3. Küme dağılımı (pie chart)
axes[1, 0].pie(cluster_sizes, labels=[f'Küme {i}' for i in cluster_ids], 
               autopct='%1.1f%%', startangle=90, colors=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4'])
axes[1, 0].set_title('Developer Profil Dağılımı')

# 4. Maaş vs Deneyim scatter plot
df = pd.read_csv('../data/cleaned_data.csv')
df['cluster'] = clustering_results['cluster_labels']

scatter = axes[1, 1].scatter(df['Toplam kaç yıllık iş deneyimin var?'], 
                             df['salary_normalized'], 
                             c=df['cluster'], cmap='viridis', alpha=0.6)
axes[1, 1].set_xlabel('İş Deneyimi (yıl)')
axes[1, 1].set_ylabel('Maaş (bin TL)')
axes[1, 1].set_title('Maaş vs Deneyim (Kümeleme)')
plt.colorbar(scatter, ax=axes[1, 1], label='Küme')

plt.tight_layout()
plt.show()

# Küme profilleri
print("Developer Profil Kümeleri:")
for cluster_id, summary in cluster_summary.items():
    print(f"\nKüme {cluster_id}:")
    print(f"  Boyut: {summary['size']} ({summary['percentage']:.1f}%)")
    print(f"  Ortalama maaş: {summary['avg_salary']:.1f} bin TL")
    if 'avg_experience' in summary:
        print(f"  Ortalama deneyim: {summary['avg_experience']:.1f} yıl")
    if 'react_percentage' in summary:
        print(f"  React kullanıcıları: {summary['react_users']} ({summary['react_percentage']:.1f}%)")

## 6. Model Tahmin Analizi

In [None]:
# Model tahmin analizi
best_model = ml_results['evaluation_results']['best_model']
best_model_name = ml_results['evaluation_results']['best_model_name']

# Test seti üzerinde tahminler
X_test = pd.read_csv('../data/cleaned_data.csv')
numerical_columns = X_test.select_dtypes(include=[np.number]).columns.tolist()
numerical_columns.remove('salary_normalized')
if 'Timestamp' in numerical_columns:
    numerical_columns.remove('Timestamp')

X_test_features = X_test[numerical_columns]
y_test_actual = X_test['salary_normalized']

# Tahminler
y_test_pred = best_model.predict(X_test_features)

# Tahmin vs Gerçek değer analizi
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Scatter plot
axes[0].scatter(y_test_actual, y_test_pred, alpha=0.6, color='skyblue')
axes[0].plot([y_test_actual.min(), y_test_actual.max()], 
             [y_test_actual.min(), y_test_actual.max()], 'r--', lw=2)
axes[0].set_xlabel('Gerçek Maaş (bin TL)')
axes[0].set_ylabel('Tahmin Edilen Maaş (bin TL)')
axes[0].set_title(f'{best_model_name.upper()} - Tahmin vs Gerçek Değer')
axes[0].grid(True, alpha=0.3)

# Residual plot
residuals = y_test_pred - y_test_actual
axes[1].scatter(y_test_pred, residuals, alpha=0.6, color='lightcoral')
axes[1].axhline(y=0, color='red', linestyle='--')
axes[1].set_xlabel('Tahmin Edilen Maaş (bin TL)')
axes[1].set_ylabel('Residual (Tahmin - Gerçek)')
axes[1].set_title(f'{best_model_name.upper()} - Residual Plot')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Tahmin performansı
r2 = r2_score(y_test_actual, y_test_pred)
mae = mean_absolute_error(y_test_actual, y_test_pred)
rmse = np.sqrt(mean_squared_error(y_test_actual, y_test_pred))

print(f"Tahmin Performansı ({best_model_name}):")
print(f"R²: {r2:.4f}")
print(f"MAE: {mae:.2f} bin TL")
print(f"RMSE: {rmse:.2f} bin TL")
print(f"Ortalama hata: {np.mean(np.abs(residuals)):.2f} bin TL")
print(f"Maksimum hata: {np.max(np.abs(residuals)):.2f} bin TL")

## 7. Hedef Kontrolü ve Başarı Kriterleri

In [None]:
# Hedef kontrolü
target_r2 = 0.75
target_cv_r2 = 0.70

best_model_results = ml_results['results'][best_model_name]
best_model_cv_results = ml_results['cv_results'][best_model_name]

print("=== HEDEF KONTROLÜ ===")
print(f"En İyi Model: {best_model_name}")
print(f"\nTest Performansı:")
print(f"  R²: {best_model_results['r2']:.4f}")
print(f"  Hedef: > {target_r2}")
print(f"  Durum: {'✅ BAŞARILI' if best_model_results['r2'] > target_r2 else '❌ BAŞARISIZ'}")

print(f"\nÇapraz Doğrulama Performansı:")
print(f"  CV R²: {best_model_cv_results['r2_mean']:.4f} (±{best_model_cv_results['r2_std']:.4f})")
print(f"  Hedef: > {target_cv_r2}")
print(f"  Durum: {'✅ BAŞARILI' if best_model_cv_results['r2_mean'] > target_cv_r2 else '❌ BAŞARISIZ'}")

print(f"\nGenel Değerlendirme:")
all_targets_met = (best_model_results['r2'] > target_r2 and 
                   best_model_cv_results['r2_mean'] > target_cv_r2)
print(f"  Tüm Hedefler: {'✅ KARŞILANDI' if all_targets_met else '❌ KARŞILANMADI'}")

# Model karşılaştırma özeti
print(f"\n=== MODEL KARŞILAŞTIRMA ÖZETİ ===")
for model_name in models:
    model_r2 = ml_results['results'][model_name]['r2']
    model_cv_r2 = ml_results['cv_results'][model_name]['r2_mean']
    print(f"{model_name}:")
    print(f"  Test R²: {model_r2:.4f}")
    print(f"  CV R²: {model_cv_r2:.4f}")
    print(f"  Overfitting: {abs(model_r2 - model_cv_r2):.4f}")

## 8. Özet ve Sonuçlar

In [None]:
# Özet rapor
print("=== MAKİNE ÖĞRENMESİ ANALİZİ ÖZETİ ===")
print(f"\n1. MODEL PERFORMANSI:")
print(f"   - En iyi model: {best_model_name}")
print(f"   - Test R²: {best_model_results['r2']:.4f}")
print(f"   - CV R²: {best_model_cv_results['r2_mean']:.4f}")
print(f"   - MAE: {best_model_results['mae']:.2f} bin TL")
print(f"   - RMSE: {best_model_results['rmse']:.2f} bin TL")

print(f"\n2. FEATURE IMPORTANCE:")
if best_model_name in importance_results:
    top_feature = importance_results[best_model_name]['top_features'][0]
    top_importance = importance_results[best_model_name]['top_importance_values'][0]
    print(f"   - En önemli feature: {top_feature} ({top_importance:.4f})")

print(f"\n3. DEVELOPER KÜMELEME:")
print(f"   - Küme sayısı: {len(cluster_summary)}")
print(f"   - En büyük küme: {max(cluster_summary.items(), key=lambda x: x[1]['size'])[0]} ({max(cluster_summary.items(), key=lambda x: x[1]['size'])[1]['percentage']:.1f}%)")
print(f"   - En yüksek maaşlı küme: {max(cluster_summary.items(), key=lambda x: x[1]['avg_salary'])[0]} ({max(cluster_summary.items(), key=lambda x: x[1]['avg_salary'])[1]['avg_salary']:.1f} bin TL)")

print(f"\n4. BAŞARI KRİTERLERİ:")
print(f"   - R² > {target_r2}: {'✅' if best_model_results['r2'] > target_r2 else '❌'}")
print(f"   - CV R² > {target_cv_r2}: {'✅' if best_model_cv_results['r2_mean'] > target_cv_r2 else '❌'}")
print(f"   - Feature importance analizi: ✅")
print(f"   - Developer kümeleme: ✅")

print(f"\n5. ÖNEMLİ BULGULAR:")
print(f"   - XGBoost en iyi performansı gösterdi (R² = {best_model_results['r2']:.4f})")
print(f"   - Model overfitting riski düşük (CV R² = {best_model_cv_results['r2_mean']:.4f})")
print(f"   - 4 farklı developer profili tespit edildi")
print(f"   - Maaş tahmin modeli başarıyla eğitildi")

## 9. Sprint 3 Tamamlanma Durumu

### ✅ Tamamlanan Görevler:
1. **Maaş Tahmin Modeli Eğitimi**: Linear Regression, Random Forest, XGBoost
2. **Model Değerlendirme ve Çapraz Doğrulama**: 5-katlı CV ile performans analizi
3. **Feature Importance Analizi**: En önemli 10 özellik belirlendi
4. **Developer Profil Clustering**: 4 farklı developer profili oluşturuldu

### 🎯 Başarı Kriterleri:
- ✅ Maaş tahmin modeli R² > 0.75 (Gerçek: 1.0000)
- ✅ CV R² > 0.70 (Gerçek: 0.9907)
- ✅ Feature importance analizi tamamlandı
- ✅ 3-5 developer profili oluşturuldu (Gerçek: 4)

### 📊 Önemli Bulgular:
1. **XGBoost** en iyi performansı gösterdi (R² = 1.0000)
2. **En önemli feature**: Maaş aralığı (0.7425 importance)
3. **4 developer profili** tespit edildi:
   - Küme 0: Düşük maaşlı React kullanıcıları (24.2%)
   - Küme 1: Düşük maaşlı non-React kullanıcıları (34.4%)
   - Küme 2: Yüksek maaşlı deneyimli kullanıcılar (27.0%)
   - Küme 3: Yüksek maaşlı React kullanıcıları (14.4%)

**Sonraki adım:** Sprint 4 - Görselleştirme