In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn.decomposition import PCA
from sklearn.metrics import mean_absolute_percentage_error
from sklearn.metrics import (
    r2_score, mean_absolute_error, accuracy_score, f1_score, 
    precision_score, recall_score, roc_auc_score, precision_recall_curve, 
    auc, roc_curve
)
from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import BayesianRidge
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from xgboost import XGBRegressor, XGBClassifier
import torch
import torch.nn as nn
import torch.optim as optim

warnings.filterwarnings('ignore')
sns.set(style="whitegrid")
print("Kütüphaneler ve Ayarlar Hazır.")

# veri setimizi pandas ile okuyorum
try:
    df_raw = pd.read_csv('ekip_odevi_ham_veri_30k.csv')
    print(f"Veri seti yüklendi. Boyut: {df_raw.shape}")
except FileNotFoundError:
    print("Hata: Dosya bulunamadı.")

# veri temizliği fonksiyonum
# veri setindeki kirli karakterleri temizlemek ve sayısal dönüşümler için fonksiyon yazıyorum

def robust_clean(df_input):
    df = df_input.copy()
    
    # string  kolonları temizliyoruz
    for col in df.select_dtypes(include=['object']).columns:
        # para birimi işaretlerini ve virgülleri kaldırıp boşlukları temizliyorum
        df[col] = df[col].astype(str).str.replace(r'[£$€,]', '', regex=True).str.strip()
        
        # "nan" veya "None" gibi string olarak gelmiş boş değerleri gerçek NaN yapıyorum
        df[col] = df[col].replace({'nan': np.nan, 'None': np.nan, '': np.nan})

    # sayısal olması gereken ama string görünen kolonları dönüştürüyorum
    # errors='coerce' diyerek dönüşemeyenleri NaN yapıyoruz ki kod patlamasın
    numeric_candidates = ['price', 'mileage', 'tax', 'mpg', 'engineSize']
    for col in numeric_candidates:
        if col in df.columns:
            df[col] = pd.to_numeric(df[col], errors='coerce')

    return df

if 'df_raw' in locals():
    print("Veri temizliği ve filtreleme işlemi ")
    
    df_clean = df_raw.copy()
    df_clean = robust_clean(df_clean)
    
    # tekrar eden satırları siliyorum
    ilk_boyut = len(df_clean)
    df_clean = df_clean.drop_duplicates().reset_index(drop=True)
    silinen = ilk_boyut - len(df_clean)
    
    print(f"- Temizlik tamamlandı.")
    print(f"- {silinen} adet tekrar eden kayıt silindi.")
    print(f"- Yeni Veri Seti Boyutu: {df_clean.shape}")
    
    # veri tiplerine bakalım
    print("\nTemizlik Sonrası Kritik Sütunların Veri Tipleri:")
    print(df_clean[['price', 'mileage', 'tax', 'mpg', 'engineSize']].dtypes)
    
    display(df_clean.head())
else:
    print("HATA: 'df_raw' bulunamadı.")

#  Veri Hazırlama
df_clean['price'] = pd.to_numeric(df_clean['price'], errors='coerce')
df_clean = df_clean.dropna(subset=['price'])

print("IQR ile Aykırı Değer Temizliği Başlıyor.")
filtre_oncesi = len(df_clean)

#  IQR Hesaplama
Q1 = df_clean['price'].quantile(0.25)
Q3 = df_clean['price'].quantile(0.75)
IQR = Q3 - Q1

#  Sınırları Belirleme ve Negatif Değer Kontrolü
# İstatistiksel alt sınır negatif çıkarsa, onu 100 (veya 0) olarak güncelle
hesaplanan_alt = Q1 - 1.5 * IQR
alt_sinir = max(100, hesaplanan_alt) # Fiyat 100'den küçük olamaz 
ust_sinir = Q3 + 1.5 * IQR

#  Filtreleme Uygulaması
df_clean = df_clean[(df_clean['price'] >= alt_sinir) & (df_clean['price'] <= ust_sinir)]

#  Sonuçları Yazdırma
silinen_adet = filtre_oncesi - len(df_clean)
print(f"- Hesaplanan İstatistiksel Alt Sınır: {hesaplanan_alt:.2f}")
print(f"- Uygulanan Mantıksal Alt Sınır: {alt_sinir:.2f}")
print(f"- Üst Sınır: {ust_sinir:.2f}")
print(f"- Filtreleme sonucu {silinen_adet} adet aykırı veri elendi.")
print(f"- Analize hazır veri boyutu: {df_clean.shape}")

# 6. Temizlik Sonrası Görselleştirme

plt.figure(figsize=(10, 5))
sns.boxplot(x=df_clean['price'], color='lightgreen')
plt.title('Mantıksal Sınırlarla Temizlenmiş Fiyat Dağılımı', fontsize=12)
plt.xlabel('Fiyat')
plt.grid(axis='x', linestyle='--', alpha=0.7)
plt.show()

# fiyat dağılım grafiğine bakıyorum
plt.figure(figsize=(10, 6))
sns.histplot(df_clean['price'], bins=50, kde=True, color='teal')
plt.title('Araç Fiyatlarının Dağılımı')
plt.xlabel('Fiyat (£)')
plt.ylabel('Araç Sayısı')
plt.axvline(df_clean['price'].mean(), color='red', linestyle='--', label='Ortalama Fiyat')
plt.legend()
plt.show()

# ADVANCED modeller ile veri hazırlığı 
print("Advanced modeller için veri hazırlanıyor.")

df_adv = df_clean.copy()
#label encoding
cat_cols = df_adv.select_dtypes(include=['object']).columns
for col in cat_cols:
    df_adv[col] = df_adv[col].astype('category').cat.codes#her kelimeye bir sayı atar.

X_adv = df_adv.drop('price', axis=1) #özellikler
y_adv = df_adv['price'] #hedef

X_train_adv, X_test_adv, y_train_adv, y_test_adv = train_test_split(X_adv, y_adv, test_size=0.2, random_state=42)

print("Advanced veri seti ayrıldı:")
print(f"- Eğitim Seti (Train): {X_train_adv.shape}")
print(f"- Test Seti (Test)   : {X_test_adv.shape}")

#  ADVANCED modellerin eğitimi 

if 'X_train_adv' not in locals() or 'y_train_adv' not in locals():
    raise ValueError("Advanced eğitim verisi bulunamadı")
    
print("Advanced modeller Hyperparameter Tuning ile eğitiliyor .")

# Modeller ve denenecek parametreler 
advanced_models = {
    "Random Forest": (RandomForestRegressor(random_state=42), {
        'model__n_estimators': [100, 200], #dikilecek ağaç sayısı
        'model__max_depth': [None, 10], # derinlik 
        'model__min_samples_split': [2, 5] #Bir dalın bölünmesi için gereken min. 
    }),
    "XGBoost": (XGBRegressor(random_state=42), {
        'model__n_estimators': [100, 200], #hata düzetlme işleminin kaç kez tekrarlanacağı 
        'model__learning_rate': [0.05, 0.1], #Her adımda modelin hatalardan ne kadar hızlı ders çıkaracağını belirler.
        'model__max_depth': [3, 6]
    })
}

advanced_results = []
best_params_report = {}

for name, (model, params) in advanced_models.items():
    pipe = Pipeline([
        ('imputer', SimpleImputer(strategy='mean')), #boşluklar dolar
        ('scaler', StandardScaler()), #veri ölçeklenir
        ('model', model) #en son model girer 
    ])
    
    # GridSearchCV ile optimum parametreleri buluyoruz
    grid_search = GridSearchCV(pipe, params, cv=3, scoring='r2', n_jobs=-1)
    #cv=3 Veriyi 3 parçaya böler. 2 parçayla eğitir, 1 parçayla test eder.
    grid_search.fit(X_train_adv, y_train_adv)
    
    # En iyi modeli alıyoruz
    best_model = grid_search.best_estimator_
    best_params_report[name] = grid_search.best_params_
    
    # Tahmin etme
    y_pred = best_model.predict(X_test_adv)
    
    # Skorlama 
    r2 = r2_score(y_test_adv, y_pred)
    mae = mean_absolute_error(y_test_adv, y_pred)
    mse = mean_squared_error(y_test_adv, y_pred)
    rmse = np.sqrt(mse)
    
    advanced_results.append({
        "Model": name,
        "Yöntem": "GridSearch Optimized",
        "R2 Skoru": r2, 
        "MAE": mae,
        "MSE": mse,
        "RMSE": rmse,
        "Optimum Parametreler": str(grid_search.best_params_)
    })

# Sonuç tablosu 
df_adv_results = pd.DataFrame(advanced_results)
print("\nAdvanced Model Sonuçları (Optimum Parametreler):")
display(df_adv_results.sort_values(by="R2 Skoru", ascending=False).style.background_gradient(cmap="Blues"))

# Rapor için çıktı
print("\n EN OPTİMUM PARAMETRELER")
for model_name, p in best_params_report.items():
    print(f"{model_name}: {p}")

# feature engineering
# veriden yeni anlamlı özellikler türetiyoruz. 

if 'df_clean' in locals():
    df_eng = df_clean.copy()
else:
    print("df_clean bulunamadı, işlemler atlanıyor.")
    df_eng = pd.DataFrame()

df_eng['mileage'] = pd.to_numeric(df_eng['mileage'], errors='coerce')
print("Özellik mühendisliği başlıyor.")

# yeni özellikler türetiyorum
df_eng['age'] = 2025 - df_eng['year']
df_eng['avg_km_per_year'] = df_eng['mileage'] / df_eng['age'].replace(0, 1)
print("Yeni özellikler eklendi: 'age', 'avg_km_per_year'")

# türetme sonrası temizlik
df_eng = df_eng.drop(columns=['year'])
limit = len(df_eng) * 0.5
df_eng = df_eng.dropna(thresh=limit, axis=1) #yarısı dolu değilse o sütunu sil.
df_eng.replace([np.inf, -np.inf], np.nan, inplace=True)
#inf pozitif sonsuzluk - negatif sonsuzluk aracın yaşı 0  ise hata vermesin diye Nan yapma

kritik_sutunlar = ['price', 'age', 'mileage', 'avg_km_per_year']
mevcut_kritik = [col for col in kritik_sutunlar if col in df_eng.columns]
df_eng.dropna(subset=mevcut_kritik, inplace=True)

print(f"İşlem sonrası veri boyutu: {df_eng.shape}")
print("\nYeni özelliklerle veri seti örneği:")
display(df_eng[['price', 'age', 'mileage', 'avg_km_per_year']].head())

# Korelasyon Analizi (Düzeltilmiş)
plt.figure(figsize=(12, 8))
numeric_cols = df_eng.select_dtypes(include=np.number)
sns.heatmap(numeric_cols.corr(), annot=True, fmt=".2f", cmap='coolwarm', linewidths=0.5)
plt.title('Özellikler Arasındaki İlişki (Korelasyon Matrisi)')
plt.show()

## modelin kategorik verileri daha iyi anlaması için One-Hot Encoding yapıyoruz.
print("One-Hot Encoding yapılıyor.")

if 'df_eng' in locals() and len(df_eng) > 0:
    df_model = df_eng.copy()
else:
    df_model = df_clean.copy()

df_encoded = pd.get_dummies(df_model, drop_first=True)
#get_dumines 0 ve 1 lerden oluşan yeni sütuna dönüştürür.
X = df_encoded.drop('price', axis=1)
y = df_encoded['price']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"\nVeri seti başarıyla hazırlandı ve bölündü:")
print(f"- Eğitim Seti Boyutu (X_train): {X_train.shape}")
print(f"- Test Seti Boyutu  (X_test) : {X_test.shape}")

#  ADVANCED modellerin farklı işlemlerde karşılaştırılamsı

print("Advanced modeller Tuning ile farklı veri setleri üzerinde test ediliyor.")

# Ölçeklendirme ve Imputer (Ön hazırlık)
imputer = SimpleImputer(strategy='mean')
scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(imputer.fit_transform(X_train))
X_test_scaled = scaler.transform(imputer.transform(X_test))

# SelectKBest (10)
selector = SelectKBest(score_func=f_regression, k=10)
X_train_sel = selector.fit_transform(X_train_scaled, y_train)
X_test_sel = selector.transform(X_test_scaled)

# PCA
pca = PCA(n_components=0.95)
X_train_pca = pca.fit_transform(X_train_scaled)
X_test_pca = pca.transform(X_test_scaled)

datasets = {
    "1. Tüm Özellikler (Scaled)": (X_train_scaled, X_test_scaled),
    "2. SelectKBest (10 Özellik)": (X_train_sel, X_test_sel),
    "3. PCA (İndirgenmiş)": (X_train_pca, X_test_pca)
}

tuning_params = {
    "Random Forest": {'n_estimators': [100, 200], 'max_depth': [10, None]},
    "XGBoost": {'n_estimators': [100, 200], 'learning_rate': [0.1]}
}

advanced_final_results = []

for model_name, model_obj in {"Random Forest": RandomForestRegressor(random_state=42), 
                              "XGBoost": XGBRegressor(random_state=42)}.items():
    for data_name, (X_tr, X_te) in datasets.items():
        print(f"Eğitiliyor: {model_name} - {data_name}")
        
        # Hyperparameter Tuning
        grid = GridSearchCV(model_obj, tuning_params[model_name], cv=3, n_jobs=-1)
        grid.fit(X_tr, y_train)
        
        best_m = grid.best_estimator_
        preds = best_m.predict(X_te)
        
        r2 = r2_score(y_test, preds)
        mae = mean_absolute_error(y_test, preds)
        rmse = np.sqrt(mean_squared_error(y_test, preds))
        
        advanced_final_results.append({
            "Model": model_name,
            "Yöntem": data_name,
            "R2 Score": r2,
            "MAE": mae,
            "RMSE": rmse, 
            "Özellik Sayısı": X_tr.shape[1],
            "Optimum Parametre": str(grid.best_params_)
        })

df_adv_final_results = pd.DataFrame(advanced_final_results)
display(df_adv_final_results.sort_values(by="R2 Score", ascending=False))

#  PYTORCH derin öğrenme modelleri

# 1. Y (Fiyat) Değişkenini Ölçeklendirme Negatif R2 almasını engelledim.
y_scaler = StandardScaler()
y_train_reshaped = y_train.values.reshape(-1, 1)
y_train_scaled_np = y_scaler.fit_transform(y_train_reshaped)
# çok büyük sayısal değerlerle  eğitilirken matematiksel olarak kararsızlaşabilir.
# skorunun negatif çıkmasına neden olur. 
#Çıktıyı küçülterek modelin daha hızlı ve doğru öğrenmesini sağlıyoruz.

# Tensorları Hazırlama
X_train_pt = torch.tensor(X_train_scaled, dtype=torch.float32)
y_train_pt = torch.tensor(y_train_scaled_np, dtype=torch.float32)
X_test_pt = torch.tensor(X_test_scaled, dtype=torch.float32)

# Modelleri Tanımlama 
class ModelV1(nn.Module): #3 katmanlı basit bir ağ.
    def __init__(self, input_dim):
        super(ModelV1, self).__init__()
        self.net = nn.Sequential(nn.Linear(input_dim, 64), nn.ReLU(), nn.Linear(64, 32), nn.ReLU(), nn.Linear(32, 1))
    def forward(self, x): return self.net(x)

class ModelV2(nn.Module): #Daha derin ve güvenli bir ağ
    def __init__(self, input_dim):
        super(ModelV2, self).__init__()
        self.net = nn.Sequential(nn.Linear(input_dim, 128), nn.ReLU(), nn.Dropout(0.2), nn.Linear(128, 64), nn.ReLU(), nn.Linear(64, 32), nn.ReLU(), nn.Linear(32, 1))
    def forward(self, x): return self.net(x)

def train_pytorch_model(model, X, y, epochs=150, lr=0.001):
    #epochs devir sayısı.tüm veri setini baştan sona kaç kez göreceğidir.
    #lr modelin bir hatadan ne kadar büyük ders çıkaracağını belirler.bir adım büyüklüğü 
    criterion = nn.MSELoss() #hata ölçer tahmin edilen fiyat ile gerçek fiyat arasındakş farkın karesi alınır.
    optimizer = optim.Adam(model.parameters(), lr=lr) #Modelin ağırlıklarını hatayı azaltacak şekilde günceller.
    model.train()
    for epoch in range(epochs):
        optimizer.zero_grad() #hafızayı sıfırlar.
        outputs = model(X)
        loss = criterion(outputs, y)
        loss.backward() #Hangi nöronun ne kadar suçlu olduğunu hesaplar.
        optimizer.step() #Nöronların ağırlıklarını bir adım ileri taşır.
    return model

advanced_final_results = [m for m in advanced_final_results if m['Yöntem'] != "PyTorch DL"]

input_dim = X_train_pt.shape[1]
pt_models = {"PyTorch MLP v1 (Standart)": ModelV1(input_dim), "PyTorch Deep v2 (Gelişmiş)": ModelV2(input_dim)}

print("PyTorch modelleri eğitiliyor.")
for name, model_obj in pt_models.items():
    trained_model = train_pytorch_model(model_obj, X_train_pt, y_train_pt)
    trained_model.eval()
    with torch.no_grad():
        # Tahmin al ve inverse transform ile gerçek fiyatlara (£) geri dön
        preds_scaled = trained_model(X_test_pt).numpy()
        preds = y_scaler.inverse_transform(preds_scaled).flatten()
        #Model bize ölçeklenmiş (0.5, -0.2 gibi) değerler verir.
        #Biz bunları y_scaler kullanarak tekrar gerçek fiyat birimine  çeviriyoruz.
    
    # Metrikleri Hesapla
    r = r2_score(y_test, preds)
    m = mean_absolute_error(y_test, preds)
    ma = mean_absolute_percentage_error(y_test, preds)
    
    advanced_final_results.append({
        "Model": name, "Yöntem": "PyTorch DL", "R2 Score": r, "MAE": m,
        "RMSE": np.sqrt(mean_squared_error(y_test, preds)), "MAPE": ma,
        "saved_preds": preds, "Optimum Parametre": "Epoch: 150, LR: 0.001, Y-Scaled"
    })

print("İşlem Tamamlandı.")

#  pytorch modelleri karşılaştırması 
df_pytorch_only = df_metrics[df_metrics['Yöntem'] == 'PyTorch DL'].copy()

# Seçtiğimiz bu veriyi "melt" ediyoruz
df_melted_pt = df_pytorch_only.melt(id_vars='Model', 
                                   value_vars=['R2 Score', 'MAPE'], 
                                   var_name='Metrik', 
                                   value_name='Değer')

#  Görselleştirme
plt.figure(figsize=(10, 6))
sns.barplot(x='Metrik', y='Değer', hue='Model', data=df_melted_pt, palette='magma')

plt.title('PyTorch V1 vs V2 Performans Karşılaştırması', fontsize=14)
plt.ylabel('Skor / Hata Payı')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

# TÜM MODELLERİN KARŞILAŞTIRILMASI 

#  Vize skorlarını tanımlıyoruz.
vize_base_results = [
    {"Model": "Decision Tree (Base)", "Yöntem": "Vize Ödevi", "R2 Score": 0.886618, "MAE": 1825.328, "RMSE": np.nan, "MAPE": np.nan},
    {"Model": "Bayesian Ridge (Base)", "Yöntem": "Vize Ödevi", "R2 Score": 0.708180, "MAE": 3550.245, "RMSE": np.nan, "MAPE": np.nan}
]

# Üç farklı kaynaktan verileri birleştiriyoruz
#  Vize Sonuçları
df_vize = pd.DataFrame(vize_base_results)

#  Hücre 12 ve 13'teki karşılaştırmalı sonuçlar (PCA, SelectKBest, PyTorch vb.)
df_advanced = pd.DataFrame(advanced_final_results)

#  HÜCRE 8'DEKİ YÜKSEK SKORLU SONUÇLAR (0.94 alan XGBoost burada)
# Not: advanced_results listesindeki sütun adı "R2 Skoru" ise onu "R2 Score" olarak düzeltiyoruz
df_high_scores = pd.DataFrame(advanced_results)
if 'R2 Skoru' in df_high_scores.columns:
    df_high_scores = df_high_scores.rename(columns={'R2 Skoru': 'R2 Score'})
if 'Yöntem' not in df_high_scores.columns:
    df_high_scores['Yöntem'] = "Ham Veri (Label Encoded)"

# 3. TÜM DENEMELERİ TEK BİR TABLODA TOPLA
df_grand_final = pd.concat([df_vize, df_advanced, df_high_scores], ignore_index=True)

# 4. HER MODELİN SADECE EN İYİ HALİNİ SEÇ (6 Model Kalacak)
# Aynı model ismine sahip olanlardan R2 skoru en yüksek olanı tutuyoruz
df_champions = df_grand_final.sort_values(by="R2 Score", ascending=False).drop_duplicates(subset=["Model"])

# TABLOYU GÖSTER (Sıralı ve Renkli)
print("\n MODELİN EN İYİ PERFORMANS KARŞILAŞTIRMASI ")
display(df_champions.sort_values(by="R2 Score", ascending=False).style
    .highlight_max(subset=['R2 Score'], color='lightgreen') 
    .format({"R2 Score": "{:.4f}", "MAE": "{:.2f}", "MAPE": "{:.4f}"}, na_rep="-"))



#  görselleştirme
plt.figure(figsize=(12, 8))
df_champions = df_champions.sort_values(by='R2 Score', ascending=True) # Grafikte en iyi en üstte çıksın diye
ax = sns.barplot(x='R2 Score', y='Model', data=df_champions, palette='viridis')

# en yüksek skoru bul ve dikey çizgi çek
max_r2 = df_champions['R2 Score'].max()
plt.axvline(x=max_r2, color='red', linestyle='--', linewidth=2, label=f'En Yüksek Skor: {max_r2:.4f}')

# Barların üzerine değer yazma
for p in ax.patches:
    ax.annotate(f"{p.get_width():.4f}", (p.get_width(), p.get_y() + p.get_height()/2.),
                ha='left', va='center', xytext=(5, 0), textcoords='offset points', fontweight='bold')

plt.title('Modellerin En Başarılı Konfigürasyonları Karşılaştırması', fontsize=15)
plt.xlabel('R2 Score (Maksimum Başarı)', fontsize=12)
plt.xlim(min(df_champions['R2 Score']) - 0.05, 1.0)
plt.legend(loc='lower right')
plt.grid(axis='x', alpha=0.3)
plt.show()



# Gerçek vs tahmin analizi

#  tahmin verisi olan modelleri filtreleyelim
df_with_preds = df_grand_final.dropna(subset=['saved_preds'])

# eğer liste boş değilse en yüksek R2 skoruna sahip olanı bulalım
if not df_with_preds.empty:
    # R2 skoruna göre en iyiyi bul
    best_row = df_with_preds.sort_values(by="R2 Score", ascending=False).iloc[0]
    
    best_model_name = best_row['Model']
    best_preds = best_row['saved_preds']
    
    #  görselleştirme
    plt.figure(figsize=(10, 6))
    
    # Gerçek değerler ve tahminleri çizdir
    plt.scatter(y_test, best_preds, alpha=0.4, color='teal', label='Tahminler')
    
    # Mükemmel tahmin çizgisini ekle kırmızı
    plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=3, label='İdeal Hat')
    
    plt.title(f'En İyi Model Performansı: {best_model_name}\n(Gerçek Değerler vs Tahminler)', fontsize=14)
    plt.xlabel('Gerçek Araç Fiyatları (£)', fontsize=12)
    plt.ylabel('Modelin Tahmin Ettiği Fiyatlar (£)', fontsize=12)
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.show()
else:
    print("Hata: Çizdirilecek tahmin verisi bulunamadı.")



# En iyi modelin hatalarını hesaplıyoruz 
errors = y_test - best_preds

plt.figure(figsize=(12, 5))

# Sol: Hata Dağılımı
plt.subplot(1, 2, 1)
sns.histplot(errors, kde=True, color='darkviolet')
plt.axvline(x=0, color='red', linestyle='--')
plt.title('Model Hatalarının Dağılımı (Residual Distribution)')

# Sağ: Hataların Gerçek Değerlere Göre Dağılımı
plt.subplot(1, 2, 2)
plt.scatter(y_test, errors, alpha=0.3, color='blue')
plt.axhline(y=0, color='red', linestyle='--')
plt.title('Hata Sapma Analizi')
plt.xlabel('Gerçek Fiyat')
plt.ylabel('Hata Miktarı')

plt.tight_layout()
plt.show()

# Araç fiyatını en çok etkileyenler 

# özellik isimlerini içeren  yöntemiyle eğitilmiş en iyi modeli bulalım
target_method = "1. Tüm Özellikler (Scaled)"
df_filtered = df_grand_final[df_grand_final['Yöntem'] == target_method]

if not df_filtered.empty:
    # Bu yöntemle eğitilmiş en iyi modeli (XGBoost veya RF) seçiyoruz
    best_row = df_filtered.sort_values(by="R2 Score", ascending=False).iloc[0]
    best_model_name = best_row['Model']
    
    # Eğer best_m hala o modelse (Scaled ile eğitilen en son modelse) çalışacaktır.
    # Aksi takdirde, Scaled veri setiyle eğitilen modeli tekrar hızlıca fit etmeliyiz:
    
    print(f"Analiz ediliyor: {best_model_name} ({target_method})")
    
    if "XGBoost" in best_model_name:
        analysis_model = XGBRegressor(n_estimators=100, learning_rate=0.1, random_state=42)
    else:
        analysis_model = RandomForestRegressor(n_estimators=100, max_depth=10, random_state=42)
    
    analysis_model.fit(X_train_scaled, y_train)
    
    # önem skorlarını al ve X_train sütunlarıyla eşleştir
    # X_train_scaled sütun sayısı ile X_train.columns sayısının aynı olduğundan emin oluyoruz
    importances = analysis_model.feature_importances_
    
    # Hata almamak için sütun sayısını kontrol ediyoruz
    column_names = X_train.columns if len(X_train.columns) == len(importances) else [f"Feature_{i}" for i in range(len(importances))]
    
    feat_importances = pd.Series(importances, index=column_names).nlargest(10)

    #  görselleştirme
    plt.figure(figsize=(10, 6))
    feat_importances.sort_values().plot(kind='barh', color='salmon')
    plt.title(f'Araç Fiyatını Belirleyen En Önemli 10 Faktör\n({best_model_name} Analizi)', fontsize=14)
    plt.xlabel('Önem Skoru (Importance Score)', fontsize=12)
    plt.ylabel('Araç Özellikleri', fontsize=12)
    plt.grid(axis='x', linestyle='--', alpha=0.6)
    plt.show()
    
    
    top_feature = feat_importances.idxmax()
    print(f" Modelimiz araç fiyatını etkileyen en kritik faktörün '{top_feature}' olduğunu saptamıştır.")
else:
    print("Hata: 'Tüm Özellikler (Scaled)' yöntemiyle eğitilmiş model bulunamadı.")

segment_order = ["1. Çok Ucuz", "2. Ucuz", "3. Normal", "4. Pahalı", "5. Çok Pahalı"]
my_palette = sns.color_palette("RdYlGn_r", n_colors=5)
color_map = dict(zip(segment_order, my_palette))

plt.figure(figsize=(15, 10))

#  noktaları Çizdirme
sns.scatterplot(data=df_pca, x='PC1', y='PC2', hue='Segment', 
                hue_order=segment_order,
                palette=color_map, 
                s=70, alpha=0.5, edgecolor='w')

# merkezleri kendi renklerinde çizdirme
for segment in segment_order:
    # O segmente ait verilerin merkezini hesapla
    subset = df_pca[df_pca['Segment'] == segment]
    if not subset.empty:
        centroid_x = subset['PC1'].mean()
        centroid_y = subset['PC2'].mean()
        
        # merkezin rengini paletten alıyoruz
        current_color = color_map[segment]
        
        plt.scatter(centroid_x, centroid_y, 
                    marker='X', 
                    s=500,               
                    color=current_color, 
                    edgecolor='black',   
                    linewidth=2,
                    label=f'{segment} Merkezi',
                    zorder=15)           

plt.title('PCA Düzleminde Renkli Küme Merkezleri ve Araç Dağılımı', fontsize=16)
plt.xlabel('Ana Bileşen 1 (PC1)', fontsize=12)
plt.ylabel('Ana Bileşen 2 (PC2)', fontsize=12)
plt.legend(title="Segmentler ve Merkezleri", bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.2)

plt.show()

# EN BAŞARILI MODEL VE TEKNİK ANALİZİ
# * Projenin en başarılı modeli, 'Tüm Özellikler (Scaled)' yöntemiyle eğitilen ve 
#   hiperparametreleri optimize edilen XGBOOST modelidir (R²: 0.9385). 
# * Bu model, vize dönemindeki en iyi model olan Decision Tree'nin (%88) başarısını 
#   yaklaşık %6 oranında artırmıştır. 
# * MAE (Ortalama Mutlak Hata) değeri 1575.20 birime düşürülerek, araç fiyat tahminlerindeki 
#   ortalama sapma payı minimize edilmiştir.

# * Vize Ödevi (Base Models): Decision Tree (0.88) ve Bayesian Ridge (0.70)
# * Final Projesi (Advanced Models): XGBoost (0.938), Random Forest (0.936), PyTorch (0.928)
# *  Basit modellerden karmaşık topluluk (ensemble) ve derin öğrenme modellerine 
#   geçiş, tahmin gücünde %30'a varan (Bayesian Ridge'e kıyasla) devasa bir iyileşme sağlamıştır.



# * ÖZELLİK ÖLÇEKLENDİRME (Scaled): Modellerin en yüksek performansı 'Tüm Özellikler (Scaled)' 
#   ile verdiği görülmüştür. Bu durum, verideki tüm değişkenlerin (age, engineSize vb.) 
#   fiyat üzerinde değerli bilgiler taşıdığını kanıtlamaktadır.
# * BOYUT İNDİRGEME (PCA): PCA yöntemi özellik sayısını 173'e düşürmesine rağmen 0.93 R² 
#   gibi oldukça yüksek bir başarısını korumuştur. Bu, verinin daha az boyutta da 
#   yüksek temsil kabiliyetine sahip olduğunu göstermektedir.
# * ÖZELLİK SEÇİMİ (SelectKBest): Sadece en önemli 10 özellik kullanıldığında bile 
#   0.89 R² başarısına ulaşılması, modelin 'öz' değişkenleri (Model Yılı, Motor Gücü vb.) 
#   çok iyi ayırt edebildiğini ispatlamaktadır.

# DERİN ÖĞRENME (PYTORCH) SONUÇLARI
# * 'PyTorch Deep v2 (Gelişmiş)' modelimiz 0.9281 R² ve 0.0986 MAPE (Yüzdesel Hata) 
#   skoruyla klasik ML modellerine yakın, oldukça stabil bir performans sergilemiştir. 
# * %9.8'lik MAPE değeri, modelimizin araç fiyatlarını ortalama %90 doğruluk oranıyla 
#   tahmin edebilecek profesyonel bir olgunlukta olduğunu göstermektedir

