In [508]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
from scipy import stats

In [509]:
df = pd.read_csv('home_price_original.csv')
df.isnull().sum()

Net_Metrekare             0
Brüt_Metrekare            0
Oda_Sayısı              260
Bulunduğu_Kat          2297
Eşya_Durumu            7398
Binanın_Yaşı              0
Isıtma_Tipi               0
Fiyat                     0
Şehir                     0
Binanın_Kat_Sayısı        0
Kullanım_Durumu           0
Yatırıma_Uygunluk      5576
Takas                  5895
Tapu_Durumu           10566
Banyo_Sayısı             46
dtype: int64

After seeing how many null values exist I thought of removing any rows with 4+ null values

In [510]:
import pandas as pd

df = pd.read_csv('home_price_original.csv')
# Nulls per column
df.dropna()
print(df.isnull().sum())

# Count nulls per row
nulls_per_row = df.isnull().sum(axis=1)

# Count rows before deletion
rows_before = len(df)

# Keep only rows with less than 4 nulls
df = df[nulls_per_row <= 4]

# Count rows after deletion
rows_after = len(df)
rows_deleted = rows_before - rows_after

# Stats
rows_with_nulls = df.isnull().any(axis=1).sum()
rows_with_2_nulls = (nulls_per_row == 2).sum()
rows_with_3_nulls = (nulls_per_row == 3).sum()

print(f"Rows before cleaning: {rows_before}")
print(f"Rows after cleaning: {rows_after}")
print(f"Rows deleted (>=4 nulls): {rows_deleted}")
print(f"Rows with at least one null (remaining): {rows_with_nulls}")
print(f"Rows with exactly 2 nulls (original): {rows_with_2_nulls}")
print(f"Rows with exactly 3 nulls (original): {rows_with_3_nulls}")

# Optional: save cleaned dataset
df.to_csv('home_price_cleaned.csv', index=False)


Net_Metrekare             0
Brüt_Metrekare            0
Oda_Sayısı              260
Bulunduğu_Kat          2297
Eşya_Durumu            7398
Binanın_Yaşı              0
Isıtma_Tipi               0
Fiyat                     0
Şehir                     0
Binanın_Kat_Sayısı        0
Kullanım_Durumu           0
Yatırıma_Uygunluk      5576
Takas                  5895
Tapu_Durumu           10566
Banyo_Sayısı             46
dtype: int64
Rows before cleaning: 20326
Rows after cleaning: 19936
Rows deleted (>=4 nulls): 390
Rows with at least one null (remaining): 14745
Rows with exactly 2 nulls (original): 2904
Rows with exactly 3 nulls (original): 1441


visualization of the data and null values after making the change

In [511]:
df = pd.read_csv('home_price_cleaned.csv') 
print(df.isnull().sum())
rows_with_nulls = df.isnull().any(axis=1).sum()
print(f"Number of rows with null values: {rows_with_nulls}")
df.shape
df.info()

Net_Metrekare             0
Brüt_Metrekare            0
Oda_Sayısı              211
Bulunduğu_Kat          1983
Eşya_Durumu            7008
Binanın_Yaşı              0
Isıtma_Tipi               0
Fiyat                     0
Şehir                     0
Binanın_Kat_Sayısı        0
Kullanım_Durumu           0
Yatırıma_Uygunluk      5186
Takas                  5508
Tapu_Durumu           10178
Banyo_Sayısı              0
dtype: int64
Number of rows with null values: 14745
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19936 entries, 0 to 19935
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Net_Metrekare       19936 non-null  int64  
 1   Brüt_Metrekare      19936 non-null  float64
 2   Oda_Sayısı          19725 non-null  float64
 3   Bulunduğu_Kat       17953 non-null  object 
 4   Eşya_Durumu         12928 non-null  object 
 5   Binanın_Yaşı        19936 non-null  object 
 6   Isıtma_Tipi         19

set Null room values to banyo + 1

In [512]:

df = pd.read_csv('home_price_cleaned.csv')
df.loc[df.Oda_Sayısı.isnull(), 'Oda_Sayısı'] = df.Banyo_Sayısı + 1
df.to_csv('home_price_cleaned.csv', index=False)
print(df.isnull().sum())
print(df['Oda_Sayısı'].unique())


Net_Metrekare             0
Brüt_Metrekare            0
Oda_Sayısı                0
Bulunduğu_Kat          1983
Eşya_Durumu            7008
Binanın_Yaşı              0
Isıtma_Tipi               0
Fiyat                     0
Şehir                     0
Binanın_Kat_Sayısı        0
Kullanım_Durumu           0
Yatırıma_Uygunluk      5186
Takas                  5508
Tapu_Durumu           10178
Banyo_Sayısı              0
dtype: int64
[ 4.   3.   2.   5.   6.   4.5 11.   8.   5.5  7.   3.5  9.   1.  10.
  2.5 12. ]


set all takas to Yok (setting Takas to bilinmiyor was also tested but was observed to make the model overfit so I settled with setting it to Yok)

In [513]:
df.loc[df.Takas.isnull(), 'Takas'] = 'Yok'
df.to_csv('home_price_cleaned.csv', index=False)
df = pd.read_csv('home_price_cleaned.csv')
print(df.isnull().sum())
print(df['Takas'].unique())

Net_Metrekare             0
Brüt_Metrekare            0
Oda_Sayısı                0
Bulunduğu_Kat          1983
Eşya_Durumu            7008
Binanın_Yaşı              0
Isıtma_Tipi               0
Fiyat                     0
Şehir                     0
Binanın_Kat_Sayısı        0
Kullanım_Durumu           0
Yatırıma_Uygunluk      5186
Takas                     0
Tapu_Durumu           10178
Banyo_Sayısı              0
dtype: int64
['Var' 'Yok']


set all the rest of the null values to Bilinmiyor

In [514]:
df.loc[df.Eşya_Durumu.isnull(), 'Eşya_Durumu'] = 'Bilinmiyor'
df.to_csv('home_price_cleaned.csv', index=False)
df = pd.read_csv('home_price_cleaned.csv')
print(df.isnull().sum())
print(df['Eşya_Durumu'].unique())


Net_Metrekare             0
Brüt_Metrekare            0
Oda_Sayısı                0
Bulunduğu_Kat          1983
Eşya_Durumu               0
Binanın_Yaşı              0
Isıtma_Tipi               0
Fiyat                     0
Şehir                     0
Binanın_Kat_Sayısı        0
Kullanım_Durumu           0
Yatırıma_Uygunluk      5186
Takas                     0
Tapu_Durumu           10178
Banyo_Sayısı              0
dtype: int64
['Eşyalı' 'Boş' 'Bilinmiyor']


In [515]:
df.loc[df.Yatırıma_Uygunluk.isnull(), 'Yatırıma_Uygunluk'] = 'Bilinmiyor'
df.to_csv('home_price_cleaned.csv', index=False)
df = pd.read_csv('home_price_cleaned.csv')
print(df.isnull().sum())
print(df['Yatırıma_Uygunluk'].unique())


Net_Metrekare             0
Brüt_Metrekare            0
Oda_Sayısı                0
Bulunduğu_Kat          1983
Eşya_Durumu               0
Binanın_Yaşı              0
Isıtma_Tipi               0
Fiyat                     0
Şehir                     0
Binanın_Kat_Sayısı        0
Kullanım_Durumu           0
Yatırıma_Uygunluk         0
Takas                     0
Tapu_Durumu           10178
Banyo_Sayısı              0
dtype: int64
['Bilinmiyor' 'Uygun']


In [516]:
df.loc[df.Tapu_Durumu.isnull(), 'Tapu_Durumu'] = 'Bilinmiyor'
df.to_csv('home_price_cleaned.csv', index=False)
df = pd.read_csv('home_price_cleaned.csv')
print(df.isnull().sum())
print(df['Tapu_Durumu'].unique())


Net_Metrekare            0
Brüt_Metrekare           0
Oda_Sayısı               0
Bulunduğu_Kat         1983
Eşya_Durumu              0
Binanın_Yaşı             0
Isıtma_Tipi              0
Fiyat                    0
Şehir                    0
Binanın_Kat_Sayısı       0
Kullanım_Durumu          0
Yatırıma_Uygunluk        0
Takas                    0
Tapu_Durumu              0
Banyo_Sayısı             0
dtype: int64
['Kat Mülkiyeti' 'Bilinmiyor' 'Kat İrtifakı' 'Müstakil Tapulu'
 'Arsa Tapulu' 'Hisseli Tapu']


In [517]:
df.loc[df.Bulunduğu_Kat.isnull(), 'Bulunduğu_Kat'] = 'Bilinmiyor'
df.to_csv('home_price_cleaned.csv', index=False)
df = pd.read_csv('home_price_cleaned.csv')
print(df.isnull().sum())
print(df['Bulunduğu_Kat'].unique())


Net_Metrekare         0
Brüt_Metrekare        0
Oda_Sayısı            0
Bulunduğu_Kat         0
Eşya_Durumu           0
Binanın_Yaşı          0
Isıtma_Tipi           0
Fiyat                 0
Şehir                 0
Binanın_Kat_Sayısı    0
Kullanım_Durumu       0
Yatırıma_Uygunluk     0
Takas                 0
Tapu_Durumu           0
Banyo_Sayısı          0
dtype: int64
['4.Kat' '3.Kat' '6.Kat' 'Düz Giriş (Zemin)' '12.Kat' '2.Kat' 'Bilinmiyor'
 '8.Kat' '5.Kat' '14.Kat' '16.Kat' '1.Kat' '17.Kat' '9.Kat' 'Yüksek Giriş'
 '7.Kat' '11.Kat' 'Müstakil' 'Bahçe Katı' '10.Kat' '15.Kat' 'Bahçe Dublex'
 '13.Kat' 'Kot 3 (-3).Kat' 'Villa Tipi' '18.Kat' 'Çatı Dubleks' '21.Kat'
 'Kot 2 (-2).Kat' 'Bodrum Kat' 'Çatı Katı' '26.Kat' 'Kot 1 (-1).Kat'
 'Kot 4 (-4).Kat' '40+.Kat' '19.Kat' '30.Kat' '22.Kat']


remove extreme and impossible outliers from the data being careful not to delete legitimate house data which would lead to overfitting

In [518]:


def review_and_optionally_delete(df, condition, description):


    outliers = df[condition]

    if outliers.empty:
        print(f"\nNo outliers found for: {description}")
        return df
    
    print(f"\n==============================")
    print(f"OUTLIERS FOUND: {description}")
    print(f"Count: {len(outliers)}")
    print(outliers.head(10))  # show first 10 outliers
    print("==============================")

    choice = input("Delete these rows? (y/n): ").strip().lower()
    
    if choice == "y":
        print("Deleting rows...\n")
        df = df[~condition]
    else:
        print("Keeping all rows.\n")

    return df

# Make a working copy
clean_df = pd.read_csv("home_price_cleaned.csv")


condition = ~clean_df["Net_Metrekare"].between(10, 2000)
clean_df = review_and_optionally_delete(clean_df, condition,
                                        "Unrealistic Net_Metrekare (<10 or >2000)")


condition = ~clean_df["Brüt_Metrekare"].between(20, 4000)
clean_df = review_and_optionally_delete(clean_df, condition,
                                        "Unrealistic Brüt_Metrekare (<20 or >4000)")


condition = clean_df["Net_Metrekare"] > clean_df["Brüt_Metrekare"]
clean_df = review_and_optionally_delete(clean_df, condition,
                                        "Net_Metrekare greater than Brüt_Metrekare")


condition = ~clean_df["Oda_Sayısı"].between(0.5, 15)
clean_df = review_and_optionally_delete(clean_df, condition,
                                        "Unrealistic Oda_Sayısı (not between 0.5 and 15)")

condition = ~clean_df["Banyo_Sayısı"].between(0, 10)
clean_df = review_and_optionally_delete(clean_df, condition,
                                        "Unrealistic Banyo_Sayısı (not between 0 and 10)")

condition = clean_df["Banyo_Sayısı"] > clean_df["Oda_Sayısı"] + 2
clean_df = review_and_optionally_delete(clean_df, condition,
                                        "Banyo_Sayısı > Oda_Sayısı + 2")

# Negative or too small price
condition = clean_df["Fiyat"] <= 300000
clean_df = review_and_optionally_delete(clean_df, condition,
                                        "Fiyat ≤ 300000 TL (incorrect low price)")

condition = clean_df["Fiyat"] >= 500_000_000
clean_df = review_and_optionally_delete(clean_df, condition,
                                        "Fiyat ≥ 500M TL (unrealistic high price)")


condition = ~clean_df["Binanın_Kat_Sayısı"].between(1, 200)
clean_df = review_and_optionally_delete(clean_df, condition,
                                        "Unrealistic Binanın_Kat_Sayısı (not between 1 and 200)")

# =============================================
# IMPROVED STATISTICAL OUTLIERS (Less Aggressive)
# =============================================

if len(clean_df) > 10:
    # Calculate price per m2
    price_per_m2 = clean_df["Fiyat"] / clean_df["Net_Metrekare"]
    
    # Use IQR method instead of Z-score (less sensitive to outliers)
    Q1 = price_per_m2.quantile(0.25)
    Q3 = price_per_m2.quantile(0.75)
    IQR = Q3 - Q1
    
    # Conservative outlier boundaries (1.5x IQR is standard, 3x is very conservative)
    lower_bound = Q1 - (3 * IQR)
    upper_bound = Q3 + (3 * IQR)
    
    # Alternative: Use Z-score with higher threshold OR log transformation
    z_scores = np.abs((price_per_m2 - price_per_m2.mean()) / price_per_m2.std())
    
    # Only flag EXTREME outliers (z-score > 10 instead of 5)
    extreme_z_outliers = z_scores > 10
    
    # Flag IQR outliers
    iqr_outliers = (price_per_m2 < lower_bound) | (price_per_m2 > upper_bound)
    
    # Combine: Only remove if BOTH methods agree it's an outlier
    # This is very conservative - only removes clear errors
    combined_outliers = extreme_z_outliers & iqr_outliers
    
    # OR: Use percentile-based approach (remove top/bottom 0.1%)
    percentile_lower = price_per_m2.quantile(0.001)
    percentile_upper = price_per_m2.quantile(0.999)
    percentile_outliers = (price_per_m2 < percentile_lower) | (price_per_m2 > percentile_upper)
    
    print(f"\nPrice per m² statistics:")
    print(f"  Mean: {price_per_m2.mean():,.0f} TL/m²")
    print(f"  Std: {price_per_m2.std():,.0f} TL/m²")
    print(f"  Q1 (25th percentile): {Q1:,.0f} TL/m²")
    print(f"  Q3 (75th percentile): {Q3:,.0f} TL/m²")
    print(f"  IQR bounds (Q1-3IQR to Q3+3IQR): {lower_bound:,.0f} to {upper_bound:,.0f} TL/m²")
    print(f"  0.1% to 99.9% range: {percentile_lower:,.0f} to {percentile_upper:,.0f} TL/m²")
    
    # Choose the most appropriate method (I recommend IQR with 3x multiplier)
    outliers_to_remove = iqr_outliers  # or combined_outliers or percentile_outliers
    
    if outliers_to_remove.any():
        outlier_count = outliers_to_remove.sum()
        percentage = (outlier_count / len(clean_df)) * 100
        
        print(f"\nFound {outlier_count} statistical outliers ({percentage:.2f}% of data)")
        
        # Show distribution before deciding
        print("\nOutlier price per m² range:")
        outlier_prices = price_per_m2[outliers_to_remove]
        print(f"  Min: {outlier_prices.min():,.0f} TL/m²")
        print(f"  Max: {outlier_prices.max():,.0f} TL/m²")
        print(f"  Avg: {outlier_prices.mean():,.0f} TL/m²")
        
        choice = input(f"\nReview these {outlier_count} outliers? (y/n): ").strip().lower()
        
        if choice == "y":
            # Show the outliers
            outlier_df = clean_df[outliers_to_remove].copy()
            outlier_df["Price_per_m2"] = outlier_df["Fiyat"] / outlier_df["Net_Metrekare"]
            
            # Calculate how extreme they are
            outlier_df["Deviation_pct"] = ((outlier_df["Price_per_m2"] - price_per_m2.mean()) / price_per_m2.mean()) * 100
            
            print(outlier_df[["Fiyat", "Net_Metrekare", "Price_per_m2", "Deviation_pct"]]
                  .sort_values("Price_per_m2", ascending=False)
                  .head(20))
            
            print(f"\nThese are {outlier_count} most extreme values:")
            print(f"  - Above: {(price_per_m2[outliers_to_remove] > upper_bound).sum()} above upper bound")
            print(f"  - Below: {(price_per_m2[outliers_to_remove] < lower_bound).sum()} below lower bound")
            
            delete_choice = input(f"\nDelete {outlier_count} outliers? (y/n): ").strip().lower()
            
            if delete_choice == "y":
                # Keep a copy of outliers for analysis
                outliers_removed = clean_df[outliers_to_remove].copy()
                
                # Remove outliers
                clean_df = clean_df[~outliers_to_remove]
                
                print(f"Removed {outlier_count} outliers ({percentage:.2f}% of data)")
                
                # Optional: Save removed outliers for analysis
                if input("Save removed outliers to separate file? (y/n): ").lower() == "y":
                    outliers_removed.to_csv("removed_outliers_analysis.csv", index=False, encoding='utf-8-sig')
                    print("Outliers saved to 'removed_outliers_analysis.csv'")
output_filename = "home_price_encoded_outlier.csv"
clean_df.to_csv(output_filename, index=False, encoding='utf-8-sig')
print(f"\n✓ Cleaned data saved to: {output_filename}")
print(f"✓ File contains {len(clean_df)} rows and {len(clean_df.columns)} columns")


print("\n" + "="*50)
print("CLEANING COMPLETE - SUMMARY")
print("="*50)
print(f"Original dataset rows: {len(df)}")
print(f"Cleaned dataset rows:  {len(clean_df)}")
print(f"Total rows removed:    {len(df) - len(clean_df)}")
print(f"Removal percentage:    {(len(df) - len(clean_df)) / len(df) * 100:.2f}%")
print("="*50)

# Optional: Show first few rows of cleaned data
if input("\nShow first 5 rows of cleaned data? (y/n): ").lower() == "y":
    print("\nFirst 5 rows of cleaned data:")
    print(clean_df.head())


OUTLIERS FOUND: Unrealistic Net_Metrekare (<10 or >2000)
Count: 35
      Net_Metrekare  Brüt_Metrekare  Oda_Sayısı Bulunduğu_Kat Eşya_Durumu  \
192            3698          3700.0         4.0    Bilinmiyor         Boş   
1035              1             2.0         5.0  Yüksek Giriş         Boş   
1050              2             3.0         3.0        12.Kat  Bilinmiyor   
1880           2661          2665.0         3.0    Bilinmiyor  Bilinmiyor   
1981          12500         25000.0         5.5    Bilinmiyor      Eşyalı   
1994          11308         11310.0         7.0    Bilinmiyor  Bilinmiyor   
2065              5            40.0         2.0         1.Kat  Bilinmiyor   
2324           4499          4500.0         8.0    Bilinmiyor  Bilinmiyor   
3379          16500         17000.0         7.0    Bilinmiyor      Eşyalı   
3540              2            45.0         2.0         2.Kat  Bilinmiyor   

     Binanın_Yaşı       Isıtma_Tipi        Fiyat           Şehir  \
192          5-1

One-Hot Encoding the data 

In [519]:
import pandas as pd

# 1. Load your dataset
# Replace 'your_dataset.csv' with your actual file name
input_file = 'home_price_encoded_outlier.csv'
output_file = 'home_price_cleaned_OHE.csv' 

df = pd.read_csv(input_file)

# 2. Define the categorical columns to encode
# These are selected based on the 'object' type in your info list
categorical_cols = [
    'Bulunduğu_Kat',
    'Eşya_Durumu',
    'Binanın_Yaşı', 
    'Isıtma_Tipi',
    'Şehir',
    'Kullanım_Durumu',
    'Yatırıma_Uygunluk',
    'Takas',
    'Tapu_Durumu'
]

# 3. Apply One-Hot Encoding
# dtype=int ensures the output is 0 and 1 instead of True and False
df_encoded = pd.get_dummies(df, columns=categorical_cols, dtype=int,drop_first=True)

# 4. Save the changes to a file
# index=False ensures we don't save the row numbers as a separate column
df_encoded.to_csv(output_file, index=False)

print(f"Encoding complete. Data saved to {output_file}")
print(f"Original shape: {df.shape}")
print(f"New shape: {df_encoded.shape}")
df = pd.read_csv('home_price_cleaned_OHE.csv')
df.info(verbose=True, show_counts=True)


Encoding complete. Data saved to home_price_cleaned_OHE.csv
Original shape: (19161, 15)
New shape: (19161, 124)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19161 entries, 0 to 19160
Data columns (total 124 columns):
 #    Column                                Non-Null Count  Dtype  
---   ------                                --------------  -----  
 0    Net_Metrekare                         19161 non-null  int64  
 1    Brüt_Metrekare                        19161 non-null  float64
 2    Oda_Sayısı                            19161 non-null  float64
 3    Fiyat                                 19161 non-null  float64
 4    Binanın_Kat_Sayısı                    19161 non-null  int64  
 5    Banyo_Sayısı                          19161 non-null  float64
 6    Bulunduğu_Kat_10.Kat                  19161 non-null  int64  
 7    Bulunduğu_Kat_11.Kat                  19161 non-null  int64  
 8    Bulunduğu_Kat_12.Kat                  19161 non-null  int64  
 9    Bulunduğu_Kat_13.Kat    