In [None]:
#!pip install tensorflow
import warnings
warnings.filterwarnings('ignore')

In [None]:
import numpy as np
import pandas as pd
import time
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

def preprocess_dataset_train(file_path):
    """
    Train veri setini hazırlar: Eksik değerleri doldurur, kategorik değişkenleri işler,
    log dönüşümü uygular, düşük korelasyonlu sütunları temizler ve IQR yöntemiyle aykırı
    değerleri sınırlar.
    """
    # 📌 1. CSV dosyasını oku
    df = pd.read_csv(file_path)
    print(f"✅ Veri yüklendi: {df.shape}")

    # 🟢 2. Log dönüşümünü uygula (ÖNEMLİ!)
    df["SalePrice"] = np.log1p(df["SalePrice"])
    print("✅ Log dönüşümü uygulandı!")

    # 🟢 3. Eksik değerleri doldur
    df["GarageYrBlt"].fillna(0, inplace=True)
    df["LotFrontage"] = df.groupby("Neighborhood")["LotFrontage"].transform(lambda x: x.fillna(x.median()))
    df["MasVnrArea"].fillna(0, inplace=True)
    print("✅ Eksik değerler dolduruldu!")

    # 🟢 4. Ordinal Encoding Uygula
    ordinal_features = {
        "ExterQual": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "Po": 1},
        "ExterCond": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "Po": 1},
        "BsmtQual": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "Po": 1, "NA": 0},
        "BsmtCond": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "Po": 1, "NA": 0},
        "KitchenQual": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "Po": 1},
        "FireplaceQu": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "Po": 1, "NA": 0},
        "GarageQual": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "Po": 1, "NA": 0},
        "GarageCond": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "Po": 1, "NA": 0},
        "PoolQC": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "NA": 0},
        "Fence": {"GdPrv": 4, "MnPrv": 3, "GdWo": 2, "MnWw": 1, "NA": 0}
    }
    
    for col, mapping in ordinal_features.items():
        df[col] = df[col].map(mapping)

    print("✅ Ordinal Encoding tamamlandı!")

    # 🟢 5. One-Hot Encoding
    categorical_cols = df.select_dtypes(include=['object']).columns
    df = pd.get_dummies(df, columns=categorical_cols, drop_first=True)
    print("✅ One-Hot Encoding tamamlandı!")

    # 🟢 6. SalePrice ile düşük korelasyonlu sütunları kaldır
    correlation_threshold = 0.05
    corr_with_saleprice = df.corr()["SalePrice"].abs()
    low_corr_features = corr_with_saleprice[corr_with_saleprice < correlation_threshold].index
    df.drop(columns=low_corr_features, inplace=True)
    print(f"✅ Düşük korelasyonlu {len(low_corr_features)} sütun kaldırıldı!")

    # 🟢 7. Sayısal değişkenlerdeki eksik değerleri MEDIAN ile doldur
    numerical_cols = df.select_dtypes(include=['int64', 'float64']).columns
    missing_before = df[numerical_cols].isna().sum().sum()
    df[numerical_cols] = df[numerical_cols].apply(lambda x: x.fillna(x.median()))
    print(f"✅ Sayısal eksik değerler median ile dolduruldu! Toplam değiştirilen hücre sayısı: {missing_before}")

    # 🟢 8. Aykırı Değerleri IQR ile Kırp
    def remove_outliers_iqr(df, columns):
        for col in columns:
            Q1 = df[col].quantile(0.25)
            Q3 = df[col].quantile(0.75)
            IQR = Q3 - Q1
            lower_bound = Q1 - 1.5 * IQR
            upper_bound = Q3 + 1.5 * IQR
            df[col] = np.clip(df[col], lower_bound, upper_bound)
        return df

    df = remove_outliers_iqr(df, numerical_cols)
    print("✅ Aykırı değerler IQR yöntemiyle kırpıldı!")

    return df

In [None]:
# Train veri setini işle
train_prepared = preprocess_dataset_train("train.csv")

In [None]:
from sklearn.linear_model import BayesianRidge, ARDRegression
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RationalQuadratic
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

def train_cnn(train_df):
    """
    Bayesian Ridge, ARD Regression ve Gaussian Process Regression kullanarak eğitim yapar.
    """
    y = train_df["SalePrice"]
    X = train_df.drop(columns=["SalePrice"])

    # Train-Test Ayırma
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=42)

    # Sayısal veriyi ölçeklendir
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)

    # 📌 **1. Bayesian Ridge Regression**
    bayesian_ridge = BayesianRidge()
    bayesian_ridge.fit(X_train_scaled, y_train)

    # 📌 **2. ARD Regression**
    ard_regression = ARDRegression()
    ard_regression.fit(X_train_scaled, y_train)

    # 📌 **3. Gaussian Process Regression (GPR)**
    kernel = RationalQuadratic()  # GPR için uygun kernel seçimi
    gpr = GaussianProcessRegressor(kernel=kernel, random_state=42)
    gpr.fit(X_train_scaled, y_train)

    # 📌 **Model Tahminleri (Averaging)**
    y_pred_ridge = bayesian_ridge.predict(X_test_scaled)
    y_pred_ard = ard_regression.predict(X_test_scaled)
    y_pred_gpr = gpr.predict(X_test_scaled)

    # 3 modelin ortalamasını alarak ensembled tahmin yapalım
    final_preds = (y_pred_ridge + y_pred_ard + y_pred_gpr) / 3

    # R^2 skorlarını yazdır
    r2_ridge = r2_score(y_test, y_pred_ridge)
    r2_ard = r2_score(y_test, y_pred_ard)
    r2_gpr = r2_score(y_test, y_pred_gpr)
    r2_final = r2_score(y_test, final_preds)

    print(f"✅ Bayesian Ridge R²: {r2_ridge:.4f}")
    print(f"✅ ARD Regression R²: {r2_ard:.4f}")
    print(f"✅ Gaussian Process Regression R²: {r2_gpr:.4f}")
    print(f"✅ Ensemble Model R²: {r2_final:.4f}")

    # Modeli döndür
    return {
        "bayesian_ridge": bayesian_ridge,
        "ard_regression": ard_regression,
        "gpr": gpr,
        "scaler": scaler
    }


In [None]:
import numpy as np
import pandas as pd

def preprocess_dataset_test(file_path, train_columns):
    """
    Test veri setini işler ve train setindeki sütunlarla uyumlu hale getirir.
    - Eksik değerleri doldurur.
    - Kategorik değişkenleri işler.
    - One-Hot Encoding uygular.
    - Eksik sütunları sıfır ile doldurur.
    """
    # 📌 1. CSV dosyasını oku
    df = pd.read_csv(file_path)
    print(f"✅ Test verisi yüklendi: {df.shape}")

    # 🟢 2. GarageYrBlt, LotFrontage ve MasVnrArea eksik değerlerini doldur
    df["GarageYrBlt"].fillna(0, inplace=True)
    df["LotFrontage"] = df.groupby("Neighborhood")["LotFrontage"].transform(lambda x: x.fillna(x.median()))
    df["MasVnrArea"].fillna(0, inplace=True)

    print("✅ Eksik değerler dolduruldu!")

    # 🟢 3. Ordinal Encoding Uygula
    ordinal_features = {
        "ExterQual": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "Po": 1},
        "ExterCond": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "Po": 1},
        "BsmtQual": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "Po": 1, "NA": 0},
        "BsmtCond": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "Po": 1, "NA": 0},
        "KitchenQual": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "Po": 1},
        "FireplaceQu": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "Po": 1, "NA": 0},
        "GarageQual": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "Po": 1, "NA": 0},
        "GarageCond": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "Po": 1, "NA": 0},
        "PoolQC": {"Ex": 5, "Gd": 4, "TA": 3, "Fa": 2, "NA": 0},
        "Fence": {"GdPrv": 4, "MnPrv": 3, "GdWo": 2, "MnWw": 1, "NA": 0}
    }
    
    for col, mapping in ordinal_features.items():
        if col in df.columns:
            df[col] = df[col].map(mapping)

    print("✅ Ordinal Encoding tamamlandı!")

    # 🟢 4. One-Hot Encoding Uygula
    categorical_cols = df.select_dtypes(include=['object']).columns
    df = pd.get_dummies(df, columns=categorical_cols, drop_first=True)
    print("✅ One-Hot Encoding tamamlandı!")

    # 🟢 5. Train veri setindeki sütunlarla test verisini uyumlu hale getir
    missing_cols = set(train_columns) - set(df.columns)
    for col in missing_cols:
        df[col] = 0  # Eksik sütunları sıfır ile doldur
    
    df = df[train_columns]  # Fazla olan sütunları kaldır

    print(f"✅ Test seti, train setiyle uyumlu hale getirildi! Yeni şekil: {df.shape}")

    # 🟢 6. Eksik Sayısal Değerleri Median ile Doldur
    numerical_cols = df.select_dtypes(include=['int64', 'float64']).columns
    missing_before = df[numerical_cols].isna().sum().sum()
    df[numerical_cols] = df[numerical_cols].apply(lambda x: x.fillna(x.median()))
    print(f"✅ Sayısal eksik değerler median ile dolduruldu! Toplam değiştirilen hücre sayısı: {missing_before}")

    return df

In [None]:
import numpy as np
import pandas as pd

def test_cnn(models, test_df, test_csv_path, output_csv="bayesian-submission.csv"):
    """
    Bayesian model kombinasyonları ile test verisini tahmin eder.
    Log dönüşümünü ters çevirerek gerçek değerleri verir ve aşırı büyük değerleri sınırlayarak `inf` hatasını engeller.
    """
    # 📌 1. Test verisini yükle
    test_raw = pd.read_csv(test_csv_path)
    test_ids = test_raw["Id"]  # Orijinal test setindeki ID'leri al

    # 📌 2. Veriyi ölçeklendir
    test_df_scaled = models["scaler"].transform(test_df)

    # 📌 3. Modeller ile tahmin yap
    pred_ridge = models["bayesian_ridge"].predict(test_df_scaled)
    pred_ard = models["ard_regression"].predict(test_df_scaled)
    pred_gpr = models["gpr"].predict(test_df_scaled)

    # 📌 4. 3 modelin ortalama tahminini hesapla
    predictions_log = (pred_ridge + pred_ard + pred_gpr) / 3

    # 📌 5. Log dönüşümünü geri al
    predictions = np.expm1(predictions_log)

    # 📌 6. `inf` hatasını önlemek için tahminleri sınırlı aralığa çek
    predictions = np.nan_to_num(predictions, nan=0.0, posinf=700000, neginf=0.0)

    # 📌 7. Tahminleri kaydet
    submission = pd.DataFrame({"Id": test_ids, "SalePrice": predictions})
    submission.to_csv(output_csv, index=False)

    print(f"✅ Tahminler {output_csv} dosyasına kaydedildi! (İçerik Kontrolü: {submission.describe()})")


In [None]:
train_cnn_model = train_cnn(train_prepared)

In [None]:
# 📌 1. Test veri setini işle (train veri setiyle uyumlu hale getir)
test_prepared = preprocess_dataset_test("test.csv", train_prepared.drop(columns=["SalePrice"]).columns)

In [None]:
# 📌 1. Test verisini hazırla ve modeli test et
test_cnn(train_cnn_model, test_prepared, "test.csv")