In [9]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import DBSCAN
from sklearn.model_selection import train_test_split
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

df = pd.read_csv('BirlesikVeriSeti.csv', encoding='utf-8')


In [10]:
df.isnull().sum()

Price (TL)         0
Room               0
Size (m²)          0
Building Age    1211
IL                 0
ILCE               0
Neighborhood       0
dtype: int64

In [11]:
def detect_outliers_dbscan(df, columns, eps=1.0, min_samples=10):
    df_subset = df[columns].dropna()
    scaler = StandardScaler()
    scaled_data = scaler.fit_transform(df_subset)
    dbscan = DBSCAN(eps=eps, min_samples=min_samples)
    clusters = dbscan.fit_predict(scaled_data)
    outlier_mask = clusters == -1
    outliers = df_subset[outlier_mask]
    return outliers, df_subset.index[outlier_mask]

In [12]:

dbscan_columns = ['Price (TL)', 'Size (m²)', 'Building Age']
dbscan_outliers, dbscan_indices = detect_outliers_dbscan(df, dbscan_columns, eps=1.0, min_samples=10)

print(f"DBSCAN ile tespit edilen aykırı değer sayısı: {len(dbscan_outliers)}")
if len(dbscan_outliers) > 0:
    print("\nDBSCAN Aykırı Değer Örnekleri:")
    print(dbscan_outliers)

df_clean = df.drop(index=dbscan_indices)
print(f"\nOrijinal veri seti boyutu: {df.shape}")
print(f"Temizlenmiş veri seti boyutu: {df_clean.shape}")
print(f"Çıkarılan aykırı değer sayısı: {len(dbscan_indices)}")

df_clean.to_csv('emlak_veri_temiz_outliers_removed.csv', index=False)
print("\nAykırı değerleri temizlenmiş veri seti kaydedildi: emlak_veri_temiz_outliers_removed.csv")

DBSCAN ile tespit edilen aykırı değer sayısı: 13

DBSCAN Aykırı Değer Örnekleri:
      Price (TL)  Size (m²)  Building Age
395        19000        125         530.0
470       120000        750          15.0
658       525000        155          35.0
671        65000        412           4.0
1206       65000        425          16.0
1385      100000        300          40.0
1455       36000        190         121.0
1529      120000        450          20.0
1555     2450000        135          39.0
1916       92000        450          15.0
2087       15000         90         235.0
2210       75000        375          16.0
2293       47500        245          45.0

Orijinal veri seti boyutu: (3406, 7)
Temizlenmiş veri seti boyutu: (3393, 7)
Çıkarılan aykırı değer sayısı: 13

Aykırı değerleri temizlenmiş veri seti kaydedildi: emlak_veri_temiz_outliers_removed.csv


In [13]:
df.isnull().sum()

Price (TL)         0
Room               0
Size (m²)          0
Building Age    1211
IL                 0
ILCE               0
Neighborhood       0
dtype: int64