<h1 style="color: rgb(0, 136, 204);font-family: times;font-size: 50px;"><center>House Price Prediction</center></h1>

### -------------------------------------------------------------------------------------------------------------------------------------------------------------------

### This data set is obtained from a Turkish real estate website. Therefore, all data are in Turkish. However, the data analysis process will continue in English completely. Due to the privacy policy, we cannot tell from which site we obtained the data. So let's start.

<img src="Photos/notebook_header_photo.jpg">

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv("Datasets/property.csv")
df.head()

Unnamed: 0,fiyat,il,ilce,ilan_tarihi,emlak_tipi,m²_(brüt),m²_(net),oda_sayısı,bina_yaşı,bulunduğu_kat,...,banyo_sayısı,balkon,eşyalı,kullanım_durumu,site_içerisinde,aidat_(tl),krediye_uygun,kimden,görüntülü_arama_ile_gezilebilir,takas
0,319000,istanbul,beylikdüzü,20 ocak 2021,satılık daire,120,112,2+1,3,15,...,2,yok,hayır,boş,evet,belirtilmemiş,evet,emlak ofisinden,hayır,hayır
1,163000,istanbul,esenyurt,20 ocak 2021,satılık daire,115,100,2+1,5-10 arası,1,...,1,var,hayır,boş,hayır,15,evet,emlak ofisinden,evet,evet
2,273000,istanbul,başakşehir,20 ocak 2021,satılık daire,80,70,2+1,2,yüksek giriş,...,1,yok,hayır,boş,hayır,20,evet,emlak ofisinden,evet,hayır
3,299000,istanbul,esenyurt,20 ocak 2021,satılık daire,110,90,2+1,4,4,...,1,var,hayır,boş,hayır,25,evet,emlak ofisinden,hayır,evet
4,469000,istanbul,beylikdüzü,20 ocak 2021,satılık daire,125,115,2+1,2,1,...,2,var,hayır,boş,hayır,belirtilmemiş,evet,inşaat firmasından,evet,evet


In [3]:
df.shape

(6895, 22)

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6895 entries, 0 to 6894
Data columns (total 22 columns):
 #   Column                           Non-Null Count  Dtype 
---  ------                           --------------  ----- 
 0   fiyat                            6895 non-null   object
 1   il                               6895 non-null   object
 2   ilce                             6895 non-null   object
 3   ilan_tarihi                      6895 non-null   object
 4   emlak_tipi                       6895 non-null   object
 5   m²_(brüt)                        6895 non-null   object
 6   m²_(net)                         6895 non-null   object
 7   oda_sayısı                       6895 non-null   object
 8   bina_yaşı                        6895 non-null   object
 9   bulunduğu_kat                    6895 non-null   object
 10  kat_sayısı                       6895 non-null   object
 11  isıtma                           6895 non-null   object
 12  banyo_sayısı                     6

## Rename Columns

### Features

* fiyat : House price
* il : City
* ilce : District
* ilan_tarihi : Listing date
* emlak_tipi : Property type
* m2_brut: Square meter gross
* m2_net : Square meter net
* oda : The number of rooms in the apartment
* bina_yasi : Building age
* bulundugu_kat : Floor of the apartment
* kat_sayisi : The number of floors in the building
* isitma : Heating system of the apartment
* banyo : The number of bathroom in the apartment
* balkon : Whether the apartment has a balcony
* esyali : Whether the apartment is sold as furnished or not
* kullanim_durumu : Whether there is anyone (tenant, property owner) currently using the apartment
* site_icerisinde : Whether the apartment is in the site or not
* aidat : Monthly dues for the apartment (corrupted data)
* krediye_uygun : Whether the apartment is suitable for credit or not
* kimden : By whom the apartment was sold
* goruntulu_arama_ile_gezilebilir : Can the apartment be visited by video call?
* takas : Does the seller accept the exchange?

In [5]:
df.rename(columns={"m²_(brüt)":"m2_brut","m²_(net)":"m2_net","oda_sayısı":"oda","bina_yaşı":"bina_yasi",
                   "bulunduğu_kat":"bulundugu_kat","kat_sayısı":"kat_sayisi","isıtma":"isitma","banyo_sayısı":"banyo",
                  "eşyalı":"esyali","kullanım_durumu":"kullanim_durumu","site_içerisinde":"site_icerisinde","aidat_(tl)":"aidat",
                  "görüntülü_arama_ile_gezilebilir":"goruntulu_arama_ile_gezilebilir"}, inplace=True)
df.head(2)

Unnamed: 0,fiyat,il,ilce,ilan_tarihi,emlak_tipi,m2_brut,m2_net,oda,bina_yasi,bulundugu_kat,...,banyo,balkon,esyali,kullanim_durumu,site_icerisinde,aidat,krediye_uygun,kimden,goruntulu_arama_ile_gezilebilir,takas
0,319000,istanbul,beylikdüzü,20 ocak 2021,satılık daire,120,112,2+1,3,15,...,2,yok,hayır,boş,evet,belirtilmemiş,evet,emlak ofisinden,hayır,hayır
1,163000,istanbul,esenyurt,20 ocak 2021,satılık daire,115,100,2+1,5-10 arası,1,...,1,var,hayır,boş,hayır,15,evet,emlak ofisinden,evet,evet


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6895 entries, 0 to 6894
Data columns (total 22 columns):
 #   Column                           Non-Null Count  Dtype 
---  ------                           --------------  ----- 
 0   fiyat                            6895 non-null   object
 1   il                               6895 non-null   object
 2   ilce                             6895 non-null   object
 3   ilan_tarihi                      6895 non-null   object
 4   emlak_tipi                       6895 non-null   object
 5   m2_brut                          6895 non-null   object
 6   m2_net                           6895 non-null   object
 7   oda                              6895 non-null   object
 8   bina_yasi                        6895 non-null   object
 9   bulundugu_kat                    6895 non-null   object
 10  kat_sayisi                       6895 non-null   object
 11  isitma                           6895 non-null   object
 12  banyo                            6

# Drop Unnecessary Features

* The variables "ilan_tarihi" and "goruntulu_arama_ile_gezilebilir" have been removed because they will not be functional in estimating a house price.


* Due to an error while extracting data from the website, the "aidat" variable was removed from the data set because it was corrupted.

In [7]:
df.drop(["ilan_tarihi","goruntulu_arama_ile_gezilebilir","aidat"], axis=1, inplace=True)

In [8]:
df.head(2)

Unnamed: 0,fiyat,il,ilce,emlak_tipi,m2_brut,m2_net,oda,bina_yasi,bulundugu_kat,kat_sayisi,isitma,banyo,balkon,esyali,kullanim_durumu,site_icerisinde,krediye_uygun,kimden,takas
0,319000,istanbul,beylikdüzü,satılık daire,120,112,2+1,3,15,18,merkezi (pay ölçer),2,yok,hayır,boş,evet,evet,emlak ofisinden,hayır
1,163000,istanbul,esenyurt,satılık daire,115,100,2+1,5-10 arası,1,4,doğalgaz (kombi),1,var,hayır,boş,hayır,evet,emlak ofisinden,evet


# Analyzing Data

In [9]:
df.emlak_tipi.value_counts()

   daire                6153
  satılık daire          518
   yazlık                 93
emlak_tipi                59
   residence              52
  satılık residence       15
   kooperatif              4
  satılık yazlık           1
Name: emlak_tipi, dtype: int64

* As can be seen in the code above, there are spaces to the right and left of the data in the variables. The following loop was used to eliminate these gaps. This loop goes into all columns, respectively, and removes the spaces to the right and left of the values there with the strip() function.

In [10]:
columns = df.columns
for col in columns:
    liste = list(df[col])
    for i in range(len(liste)):
        liste[i] = liste[i].strip()
    df[col] = liste

In [11]:
df.emlak_tipi.value_counts()

daire                6153
satılık daire         518
yazlık                 93
emlak_tipi             59
residence              52
satılık residence      15
kooperatif              4
satılık yazlık          1
Name: emlak_tipi, dtype: int64

In [12]:
df.il.value_counts()

mersin       869
konya        846
gaziantep    840
istanbul     534
trabzon      527
ankara       520
şanlıurfa    516
antalya      508
van          477
bursa        475
izmir        457
muğla        267
il            59
Name: il, dtype: int64

In [13]:
df[df.il == "il"].head()

Unnamed: 0,fiyat,il,ilce,emlak_tipi,m2_brut,m2_net,oda,bina_yasi,bulundugu_kat,kat_sayisi,isitma,banyo,balkon,esyali,kullanim_durumu,site_icerisinde,krediye_uygun,kimden,takas
108,fiyat,il,ilce,emlak_tipi,m²_(brüt),m²_(net),oda_sayısı,bina_yaşı,bulunduğu_kat,kat_sayısı,isıtma,banyo_sayısı,balkon,eşyalı,kullanım_durumu,site_içerisinde,krediye_uygun,kimden,takas
216,fiyat,il,ilce,emlak_tipi,m²_(brüt),m²_(net),oda_sayısı,bina_yaşı,bulunduğu_kat,kat_sayısı,isıtma,banyo_sayısı,balkon,eşyalı,kullanım_durumu,site_içerisinde,krediye_uygun,kimden,takas
322,fiyat,il,ilce,emlak_tipi,m²_(brüt),m²_(net),oda_sayısı,bina_yaşı,bulunduğu_kat,kat_sayısı,isıtma,banyo_sayısı,balkon,eşyalı,kullanım_durumu,site_içerisinde,krediye_uygun,kimden,takas
429,fiyat,il,ilce,emlak_tipi,m²_(brüt),m²_(net),oda_sayısı,bina_yaşı,bulunduğu_kat,kat_sayısı,isıtma,banyo_sayısı,balkon,eşyalı,kullanım_durumu,site_içerisinde,krediye_uygun,kimden,takas
538,fiyat,il,ilce,emlak_tipi,m²_(brüt),m²_(net),oda_sayısı,bina_yaşı,bulunduğu_kat,kat_sayısı,isıtma,banyo_sayısı,balkon,eşyalı,kullanım_durumu,aidat_(tl),krediye_uygun,kimden,takas


* An error occurred on some pages while performing data extraction. Therefore, the data came in the same with the variable names to which it belongs. In order to correct this situation, a row-based drop operation has been applied in the "il" variable. In this way, corrupt data in other variables were also deleted.

In [14]:
df.drop(df[df.il == "il"].index, axis=0, inplace=True)

In [15]:
df["ilce"].value_counts()

selçuklu      484
şahinbey      434
ipekyolu      410
karaköprü     393
şehitkamil    377
             ... 
akseki          1
şalpazarı       1
suruç           1
karapınar       1
köyceğiz        1
Name: ilce, Length: 178, dtype: int64

## Examining the "emlak_tipi" variable

In [16]:
df["emlak_tipi"].value_counts()

daire                6153
satılık daire         518
yazlık                 93
residence              52
satılık residence      15
kooperatif              4
satılık yazlık          1
Name: emlak_tipi, dtype: int64

* daire : apartment
* satılık daire : apartment for sale
* yazlık : summerhouse
* residence : residence
* satılık residence : residence for sale
* kooperatif : cooperative
* satılık yazlık : summerhouse for sale


Since the datas of "daire" and "satılık daire", "residence" and "residence for sale", "yazlık" and "satılık yazlık" mean the same, the "satılık" part has been removed. In addition, "kooperatif" data was turned into "daire" because there was very little.

In [17]:
df["emlak_tipi"] = df["emlak_tipi"].replace(["satılık daire","satılık residence","kooperatif","satılık yazlık"],
                                            ["daire","residence","daire","yazlık"])

## Examining the "oda" variable

In [18]:
df.oda.value_counts()

3+1             2999
2+1             2329
4+1              897
1+1              317
5+1              138
35+1              27
25+1              24
6+1               23
3+2               11
5+2               11
4+2                9
2+0                8
6+2                8
stüdyo (1+0)       8
45+1               7
7+1                7
2+2                5
15+1               2
5+3                1
10 üzeri           1
8+2                1
7+2                1
8+4                1
9+3                1
Name: oda, dtype: int64

* Normally, while the number of rooms is "3.5+1" on the website, this data came as "35+1" during the data extraction process. Because this is inaccurate, this and similar data has been corrected.


* One house has a value of "10 üzeri", which means "over 10". Since there is only one of this value, it was considered unnecessary and deleted from the data set.

In [19]:
df["oda"] = df["oda"].replace(["35+1","25+1","stüdyo (1+0)","45+1","15+1"],["3+1","2+1","1+0","4+1","1+1"])

In [20]:
df.drop(df[df.oda == "10 üzeri"].index, axis = 0, inplace=True)

## Examining the "bina_yasi" variable

In [21]:
df["bina_yasi"].value_counts()

0              2146
5-10 arası     1270
11-15 arası     560
4               533
16-20 arası     457
2               410
1               400
3               374
21-25 arası     365
26-30 arası     216
31 ve üzeri     104
Name: bina_yasi, dtype: int64

* Some data is given intermittently in the "bina_yasi" variable. These intermittent values   were replaced by the mean.

In [22]:
df["bina_yasi"] = df["bina_yasi"].replace(["5-10 arası","11-15 arası","16-20 arası","21-25 arası","26-30 arası","31 ve üzeri"],
                                         ["7","13","18","23","28","31"])

## Examining the "bulundugu_kat" variable

In [23]:
df["bulundugu_kat"].value_counts()

2               1363
3                962
1                905
4                665
5                528
yüksek giriş     347
6                315
7                226
bahçe katı       185
8                180
giriş katı       152
9                142
zemin kat        110
kot 2            101
kot 1             83
10                80
11                76
kot 3             74
kot 4             57
12                49
villa tipi        33
14                32
çatı katı         31
13                30
müstakil          28
15                21
bodrum kat        12
16                 9
20                 9
17                 9
18                 5
30 ve üzeri        4
26                 2
24                 2
21                 2
22                 2
23                 1
19                 1
27                 1
25                 1
Name: bulundugu_kat, dtype: int64

* yüksek giriş : high enterance
* bahçe katı : garden floor
* giriş katı : enterance floor
* zemin kat : ground floor
* kot 2 : -2. floor
* kot 1 : -1. floor
* kot 3 : -3. floor
* kot 4 : -4. floor
* villa tipi : villa
* çatı katı : penthouse
* müstakil : detached house
* bodrum kat : basement 
* 30 ve üzeri : 30 and over

## Examining the "kat_sayisi" variable

In [24]:
df["kat_sayisi"].value_counts()

4              1258
5              1171
3               833
6               733
7               525
8               362
2               317
10              314
9               285
11              218
12              180
14              134
13              130
15              121
16               59
1                32
18               27
17               25
30 ve üzeri      21
20               16
21               15
23               12
22               12
25                9
24                7
26                5
19                4
27                4
28                3
29                3
Name: kat_sayisi, dtype: int64

* 30 ve üzeri : 30 and over

In [25]:
df["kat_sayisi"] = df["kat_sayisi"].replace("30 ve üzeri","30")

## Examining the "isitma" variable

In [26]:
df["isitma"].value_counts()

doğalgaz (kombi)       4140
klima                   940
merkezi (pay ölçer)     583
merkezi                 462
yerden isıtma           296
soba                    146
yok                     127
kat kaloriferi           47
doğalgaz sobası          45
güneş enerjisi           14
jeotermal                13
isı pompası               9
vrv                       8
şömine                    3
fancoil ünitesi           2
Name: isitma, dtype: int64

* doğalgaz (kombi) : naturalgas(combi)
* klima : air conditioning
* merkezi (pay ölçer) : central (share meter)
* merkezi : central
* yerden isıtma : underfloor heating
* soba : stove
* yok : none
* kat kaloriferi : floor heater
* doğalgaz sobası : gas stove
* güneş enerjisi : solar energy
* jeotermal : geothermal
* isı pompası : heat pump
* şömine : fireplace
* fancoil ünitesi : fancoil unit


Since the datas of "merkezi (pay ölçer)" and "merkezi", "doğalgaz (kombi)" and "doğalgaz" mean the same, parentheses parts deleted.

In [27]:
df["isitma"] = df["isitma"].replace(["merkezi (pay ölçer)","doğalgaz (kombi)"],["merkezi","doğalgaz"])

## Examining the "banyo" variable

In [28]:
df["banyo"].value_counts()

1      3734
2      2936
3       132
4        25
yok       4
5         4
Name: banyo, dtype: int64

* The "yok" data in the bathroom variable means that there is no bathroom in the apartment. This data was deleted because it was not needed.

In [29]:
df.drop(df[df.banyo == "yok"].index, axis=0, inplace=True)

## Examining the "balkon" variable

In [30]:
df["balkon"].value_counts()

var    6483
yok     348
Name: balkon, dtype: int64

* var : There is balcony
* yok : There is not balcony

## Examining the "esyali" variable

In [31]:
df["esyali"].value_counts()

hayır            6075
evet              486
belirtilmemiş     270
Name: esyali, dtype: int64

* evet : Sold as furnished
* hayır : Sold unfurnished
* belirtilmemiş :  Unspecified

## Examining the "kullanim_durumu" variable

In [32]:
df["kullanim_durumu"].value_counts()

boş            4214
mülk sahibi    1583
kiracılı       1034
Name: kullanim_durumu, dtype: int64

* boş : empty
* mülk sahibi : property owner
* kiracılı : tenant

## Examining the "site_icerisinde" variable

In [33]:
df["site_icerisinde"].value_counts()

hayır            4397
evet             1448
belirtilmemiş     405
100                78
150                40
                 ... 
650                 1
718                 1
397                 1
155                 1
530                 1
Name: site_icerisinde, Length: 114, dtype: int64

* hayır : Not in the site
* evet : Within the site
* belirtilmemiş : unspecified


While extracting the data, some of the data in the "aidat" variable has been mixed with the "site_icerisinde" variable. Therefore, the interfering data was converted to the value of "NaN", leaving only the data of the variable "site_icerisinde".

In [34]:
liste = list(df["site_icerisinde"].unique())
liste.remove("evet")
liste.remove("hayır")
liste.remove("belirtilmemiş")
df["site_icerisinde"] = df["site_icerisinde"].replace(liste, np.nan)

## Examining the "krediye_uygun" variable

In [35]:
df["krediye_uygun"].value_counts()

evet             6017
hayır             578
belirtilmemiş     236
Name: krediye_uygun, dtype: int64

* evet : Available for loan
* hayır : Not available fot loan
* belirtilmemiş : unspecified

## Examining the "kimden" variable

In [36]:
df["kimden"].value_counts()

emlak ofisinden       5808
sahibinden             673
inşaat firmasından     342
bankadan                 8
Name: kimden, dtype: int64

* emlak ofisinden : real estate agent
* sahibinden : from the owner
* inşaat firmasından : from construction company 
* bankadan : from the bank

## Examining the "takas" variable

In [37]:
df["takas"].value_counts()

hayır    5367
evet     1464
Name: takas, dtype: int64

* hayır : not suitable for swap 
* evet : suitable for swap

All variables were checked one by one and errors that occurred while data were extracted were corrected. The corrected data set was then saved as a new csv file.

In [38]:
df.to_csv(r"Datasets/data_analyzed.csv",encoding="utf-8",index=False,mode="w")