# Data Cleaning

We will prepare data for modeling

<img src="https://miro.medium.com/v2/resize:fit:1400/1*aDiW2KddpHmTF3uAiibTCQ.png">

### libraries

In [1]:
import pandas as pd
import seaborn as sns
import numpy as np
import pickle
from sklearn.impute import KNNImputer
import matplotlib.pyplot as plt
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

### Load Data

In [2]:
df=pd.read_csv("rent_houses.csv")

## EDA - Explatory Data Analysis

### Data Shape

In [3]:
df.shape

(898, 42)

### See First 5 Cels

In [4]:
df.head()

Unnamed: 0,Location,Price,İlan Tarihi,İlan no,Net m²,Brüt m²,Oda Sayısı,Banyo Sayısı,Binadaki Kat Sayısı,Bulunduğu Kat,Krediye Uygun,Isıtma Tipi,Bina Yaşı,Görüntülü Ev Gezintisi\n?,Mobilya Durumu,Kullanım Durumu,Yapının Durumu,Depozito,Aidat,Kimden,Konut Şekli,Hayvan Dostu Patili Evler,Tapu Durumu,m²,Bölüm/Oda Sayısı,Kapalı Alan,Yapı Tipi,Dış Cephe,Zemin Etüdlü,Ada,Parsel,Otopark,Devren,Tavan Yüksekliği,Arsa Alanı,Takasa Uygun,Kat Yüksekliği,Yıldız Sayısı,Kapasite,Kiralama Süresi,İmar Durumu,Parselli
0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,"Fevzi Çakmak, Esenler\n, İstanbul",30.000 TL,21 Haziran 2024,5085994.0,130.0,135m²,3+1,2.0,5,5.0,Hayır,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,"Soğanlı, Bahçelievler\n, İstanbul",11.000 TL,21 Haziran 2024,5074431.0,70.0,75m²,2+1,1.0,5,5.0,Hayır,Kombi (Doğalgaz),31-35 arası,?,Eşyasız,Boş,İkinci El,13.000 TL undefined,0 TL (aylık),Danışman,,,,,,,,,,,,,,,,,,,,,,
3,"Göztepe, Kadıköy\n, İstanbul",50.000 TL,20 Haziran 2024,5085833.0,70.0,95m²,2+1,1.0,10-20 arası,4.0,Hayır,Kombi (Doğalgaz),0,?,Eşyasız,Boş,Sıfır,,,Danışman,Ara Kat,Evet,Kat Mülkiyeti,,,,,,,,,,,,,,,,,,,
4,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


### Data İnfo

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 898 entries, 0 to 897
Data columns (total 42 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Location                   579 non-null    object 
 1   Price                      579 non-null    object 
 2   İlan Tarihi                579 non-null    object 
 3   İlan no                    579 non-null    float64
 4   Net m²                     425 non-null    object 
 5   Brüt m²                    352 non-null    object 
 6   Oda Sayısı                 336 non-null    object 
 7   Banyo Sayısı               338 non-null    object 
 8   Binadaki Kat Sayısı        457 non-null    object 
 9   Bulunduğu Kat              412 non-null    object 
 10  Krediye Uygun              579 non-null    object 
 11  Isıtma Tipi                495 non-null    object 
 12  Bina Yaşı                  497 non-null    object 
 13  Görüntülü Ev Gezintisi
?   118 non-null    object 

### Corelations

In [6]:
df.corr(numeric_only=True)

Unnamed: 0,İlan no,Ada,Parsel,Yıldız Sayısı
İlan no,1.0,0.48371,0.363262,
Ada,0.48371,1.0,-0.192723,
Parsel,0.363262,-0.192723,1.0,
Yıldız Sayısı,,,,


### Statistics

In [7]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
İlan no,579.0,4956341.0,397537.272143,415910.0,5003521.0,5042345.0,5072973.0,5086429.0
Ada,8.0,2926.75,5336.217862,54.0,640.25,1038.5,2069.0,16004.0
Parsel,8.0,34.125,54.401779,3.0,9.25,17.5,24.25,167.0
Yıldız Sayısı,1.0,5.0,,5.0,5.0,5.0,5.0,5.0


### Mising Values

In [8]:
df.isnull().sum()

Location                     319
Price                        319
İlan Tarihi                  319
İlan no                      319
Net m²                       473
Brüt m²                      546
Oda Sayısı                   562
Banyo Sayısı                 560
Binadaki Kat Sayısı          441
Bulunduğu Kat                486
Krediye Uygun                319
Isıtma Tipi                  403
Bina Yaşı                    401
Görüntülü Ev Gezintisi\n?    780
Mobilya Durumu               613
Kullanım Durumu              473
Yapının Durumu               631
Depozito                     462
Aidat                        518
Kimden                       690
Konut Şekli                  731
Hayvan Dostu Patili Evler    865
Tapu Durumu                  750
m²                           671
Bölüm/Oda Sayısı             800
Kapalı Alan                  887
Yapı Tipi                    892
Dış Cephe                    895
Zemin Etüdlü                 875
Ada                          890
Parsel    

## Preprocesing

We delete columns which %80 of  mising

In [9]:
898*.80

718.4000000000001

In [10]:
df=df[['Location', 'Price', 'İlan Tarihi', 'İlan no', 'Net m²', 'Brüt m²', 'Oda Sayısı', 'Banyo Sayısı', 'Binadaki Kat Sayısı', 'Bulunduğu Kat', 'Krediye Uygun', 'Isıtma Tipi', 'Bina Yaşı', 'Mobilya Durumu', 'Kullanım Durumu', 'Yapının Durumu', 'Depozito', 'Aidat', 'Kimden', 'm²']]

### Control all column fill,fix and prepare

In [11]:
df.head()

Unnamed: 0,Location,Price,İlan Tarihi,İlan no,Net m²,Brüt m²,Oda Sayısı,Banyo Sayısı,Binadaki Kat Sayısı,Bulunduğu Kat,Krediye Uygun,Isıtma Tipi,Bina Yaşı,Mobilya Durumu,Kullanım Durumu,Yapının Durumu,Depozito,Aidat,Kimden,m²
0,,,,,,,,,,,,,,,,,,,,
1,"Fevzi Çakmak, Esenler\n, İstanbul",30.000 TL,21 Haziran 2024,5085994.0,130.0,135m²,3+1,2.0,5,5.0,Hayır,,,,,,,,,
2,"Soğanlı, Bahçelievler\n, İstanbul",11.000 TL,21 Haziran 2024,5074431.0,70.0,75m²,2+1,1.0,5,5.0,Hayır,Kombi (Doğalgaz),31-35 arası,Eşyasız,Boş,İkinci El,13.000 TL undefined,0 TL (aylık),Danışman,
3,"Göztepe, Kadıköy\n, İstanbul",50.000 TL,20 Haziran 2024,5085833.0,70.0,95m²,2+1,1.0,10-20 arası,4.0,Hayır,Kombi (Doğalgaz),0,Eşyasız,Boş,Sıfır,,,Danışman,
4,,,,,,,,,,,,,,,,,,,,


In [12]:
df["Location"].unique()

array([nan, 'Fevzi Çakmak, Esenler\n, İstanbul',
       'Soğanlı, Bahçelievler\n, İstanbul',
       'Göztepe, Kadıköy\n, İstanbul', 'Pınar, Sarıyer\n, İstanbul',
       'Teşvikiye, Şişli\n, İstanbul', 'Hobyar, Fatih\n, İstanbul',
       'Çeliktepe, Kağıthane\n, İstanbul', 'Yukarı, Kartal\n, İstanbul',
       'Esentepe, Kartal\n, İstanbul', 'Ferahevler, Sarıyer\n, İstanbul',
       'İçmeler, Tuzla\n, İstanbul',
       'Siyavuşpaşa, Bahçelievler\n, İstanbul',
       'Balat, Fatih\n, İstanbul', 'İstinye, Sarıyer\n, İstanbul',
       'Cumhuriyet, Bahçelievler\n, İstanbul',
       'Barbaros, Bağcılar\n, İstanbul', 'Süleymaniye, Fatih\n, İstanbul',
       'Gürsel, Kağıthane\n, İstanbul',
       'Kartaltepe, Bakırköy\n, İstanbul', 'Alemdar, Fatih\n, İstanbul',
       'Zekeriyaköy, Sarıyer\n, İstanbul',
       'Uskumruköy, Sarıyer\n, İstanbul', 'Kumköy, Sarıyer\n, İstanbul',
       'Demirciköy, Sarıyer\n, İstanbul',
       '15 Temmuz, Bağcılar\n, İstanbul', 'Aksaray, Fatih\n, İstanbul',
      

In [13]:
df['Location'] = df['Location'].apply(lambda x: str(x).replace("\n", "") if pd.notnull(x) else x)# delete unwanted icons

In [14]:
df["Price"][2]

'11.000 TL'

In [15]:
df["Price"] = df["Price"].apply(lambda x: ''.join(filter(str.isdigit, str(x))) if pd.notna(x) else x)# delete str and turn integer

In [16]:
df['Price'] = pd.to_numeric(df['Price'], errors='coerce').astype('Int32')

In [17]:
df["Price"][2]

11000

In [18]:
del df["İlan Tarihi"]# delete useless

In [19]:
del df["İlan no"]

In [20]:
df['Net m²'] = pd.to_numeric(df['Net m²'], errors='coerce').astype('Int32')# turn to integer 

In [21]:
del df["Brüt m²"]

In [22]:
df["Oda Sayısı"].unique()

array([nan, '3+1', '2+1', '1+1', '4+1', '1+0 (Stüdyo)', '6+2', '5+2',
       '4+2', '6+1', '3+2', '5+1', '4+3', '8+2', '7+1', '7+3', '8+3',
       '5+3', '7+2', '8+1'], dtype=object)

In [23]:
def convert_room_count(room):# rewrite room counts
    if pd.isna(room):
        return np.nan
    try:
        parts = room.split('+')
        return sum(int(part) for part in parts)
    except ValueError:
        return np.nan

df['Oda Sayısı'] = df['Oda Sayısı'].apply(convert_room_count)


In [24]:
df['Banyo Sayısı'] = pd.to_numeric(df['Banyo Sayısı'], errors='coerce').astype('Int32')

In [25]:
del df["Binadaki Kat Sayısı"]

In [26]:
del df["Krediye Uygun"]

In [27]:
df["Isıtma Tipi"].unique()

array([nan, 'Kombi (Doğalgaz)', 'Klima', 'Yok',
       'Merkezi Sistem (Isı Payı Ölçer)', 'Kombi (Elektrikli)',
       'Yerden Isıtma', 'Kalorifer (Doğalgaz)', 'Fancoil',
       'Merkezi Sistem', 'Soba (Doğalgaz)', 'Combi Boiler (Natural Gas)',
       'Soba (Kömür)', 'Central System (Heat Share Meter)',
       'Kat Kaloriferi'], dtype=object)

In [28]:
df['Isıtma Tipi'] = df['Isıtma Tipi'].replace({
    "Merkezi Sistem (Isı Payı Ölçer)": "Central System (Heat Share Meter)",
    "Kombi (Doğalgaz)": "Combi Boiler (Natural Gas)"
})
# convert the same values

In [29]:
df["Bina Yaşı"] = df["Bina Yaşı"].apply(lambda x: ''.join(filter(str.isdigit, str(x))) if pd.notna(x) else x)

In [30]:
df['Bina Yaşı'] = df['Bina Yaşı'].replace({
    "3135": "33",
    "1115": "13",
    "2630": "28",
    "2125": "23",
    "3640": "38",
    "1620": "18",
    "610":"8"
})

In [31]:
df['Bina Yaşı'] = pd.to_numeric(df['Bina Yaşı'], errors='coerce').astype('Int32')

In [32]:
df['Mobilya Durumu'].unique()

array([nan, 'Eşyasız', 'Eşyalı (Mobilyalı)', 'Sadece Beyaz Eşya',
       'Sadece Mutfak', 'Unfurnished', 'Furnished'], dtype=object)

In [33]:
df['Mobilya Durumu'] = df['Mobilya Durumu'].replace({
    "Furnished": "Eşyalı (Mobilyalı)",
    "Unfurnished": "Eşyasız"
})

In [34]:
df['Bulunduğu Kat'].unique()

array([nan, '5', '4', '3', '2', '1', 'Zemin Kat', '9', '11', '12',
       'Kot 1', 'Bahçe katı', 'Yüksek Giriş', '14', 'Giriş Katı',
       'Müstakil', '7', 'Teras Kat', '18', '20 ve üzeri', '15', '6',
       'En Üst Kat', '10', 'Bodrum Kat', 'Çatı Katı', '17', 'Komple', '8',
       'Kot 2', '16', '13', '19'], dtype=object)

In [35]:
df["Bulunduğu Kat"] = df["Bulunduğu Kat"].replace({
    'Giriş Katı': '1',
    'Kot 1': '1',
    'Zemin Kat': '0',
    'Bahçe katı': '0',  
    'En Üst Kat': '20 ve üzeri',
    '20+': '20 ve üzeri',
    'Teras Kat': '20 ve üzeri',
    'Çatı Katı': '20 ve üzeri',
    'Yüksek Giriş': '3',
    'Kot 2': '2',
    "Komple":"4",
    "Müstakil":"2",
    "20 ve üzeri":"22",
    "Bodrum Kat":"-1"
})


In [36]:
df["Bina Yaşı"].unique()

<IntegerArray>
[<NA>, 33, 0, 13, 28, 8, 23, 4, 5, 38, 40, 1, 18, 3, 2]
Length: 15, dtype: Int32

In [43]:
df["Bina Yaşı"] = df["Bina Yaşı"].replace({
    'Between 6-10': '6-10 arası',
    'Between 11-15': '11-15 arası',
    'Between 21-25': '21-25 arası',
    'Between 26-30': '26-30 arası',
    'Between 31-35': '31-35 arası',
})

In [38]:
df = df.drop(['Kullanım Durumu', 'Yapının Durumu', 'Depozito', 'Aidat', 'Kimden', 'm²'], axis=1)

In [39]:
# fill mising values
imputer = KNNImputer(n_neighbors=2)
numeric_cols = df.select_dtypes(include=[np.number]).columns
df[numeric_cols] = imputer.fit_transform(df[numeric_cols])

categorical_cols = df.select_dtypes(include=[object]).columns
for col in categorical_cols:
    df[col].fillna(df[col].mode()[0], inplace=True)

In [45]:
#returning to integer
df['Price'] = df['Price'].astype("int")
df['Net m²'] = df['Net m²'].astype("int")
df['Oda Sayısı'] = df['Oda Sayısı'].astype("int")
df['Banyo Sayısı'] = df['Banyo Sayısı'].astype("int")

In [46]:
df.isnull().sum()

Location          0
Price             0
Net m²            0
Oda Sayısı        0
Banyo Sayısı      0
Bulunduğu Kat     0
Isıtma Tipi       0
Bina Yaşı         0
Mobilya Durumu    0
dtype: int64

In [47]:
df.head()

Unnamed: 0,Location,Price,Net m²,Oda Sayısı,Banyo Sayısı,Bulunduğu Kat,Isıtma Tipi,Bina Yaşı,Mobilya Durumu
0,"Maslak, Sarıyer, İstanbul",218046,157,3,1,1,Combi Boiler (Natural Gas),14.637827,Eşyasız
1,"Fevzi Çakmak, Esenler, İstanbul",30000,130,4,2,5,Combi Boiler (Natural Gas),33.0,Eşyasız
2,"Soğanlı, Bahçelievler, İstanbul",11000,70,3,1,5,Combi Boiler (Natural Gas),33.0,Eşyasız
3,"Göztepe, Kadıköy, İstanbul",50000,70,3,1,4,Combi Boiler (Natural Gas),0.0,Eşyasız
4,"Maslak, Sarıyer, İstanbul",218046,157,3,1,1,Combi Boiler (Natural Gas),14.637827,Eşyasız


### Save clean data

In [48]:
with open("clean_data.pickle", 'wb') as file:
    pickle.dump(df, file)

-Zafer Acar Notes<br> -[https://poe.com/chat/2rhcfi4djoj4u359vfr]