In [1]:
# Reading an excel file using Python
import numpy as np
import pandas as pd
import json

## Disable warning

In [2]:
pd.options.mode.chained_assignment = None  # default='warn'
import warnings
warnings.filterwarnings('ignore')

### Objective: 
#### dataset shape 
df_names = ["year", "month", "city", "district", "price_riyals", "area_m2", "no_deals", "status", "realstate_cls", "realstate_type"]

### Filling:
- fill district in case of madina with "المدينة المنورة"
- fill realstate_cls and realstate_type in case of madina with forward and then backward
- fill realstate_cls and realstate_type in case of all other cities with "Not Available "

- then Case #1 all with mean of each years , if no mean values in years then fill using foraward and backward 
- Case #2 all with median of each years , if no mean values in years then fill using foraward and backward 
- Case #3 all with foraward and backward 
- Case #4 all with backward and foraward 

In [3]:
# read excel file
df = pd.read_excel("data/xlsx/all.xlsx")

In [4]:
# check the size of new data
df.shape

(41256, 10)

In [5]:
# check for first five rows
df.head()

Unnamed: 0,year,month,city,district,price_riyals,area_m2,no_deals,status,realstate_cls,realstate_type
0,2018,مايو,الدمام,حي/1048/ ش د,1055000,2871.08,1,معتمدة,,
1,2018,يناير,الدمام,حي/1093 ش د,0,0.0,0,معتمدة,,
2,2018,مارس,الدمام,حي/1093 ش د,0,0.0,0,معتمدة,,
3,2018,مايو,الدمام,حي/1093 ش د,0,0.0,0,معتمدة,,
4,2018,يونيو,الدمام,حي/1093 ش د,0,0.0,0,معتمدة,,


In [6]:
# current statistics of data 
df.describe(include="all")

Unnamed: 0,year,month,city,district,price_riyals,area_m2,no_deals,status,realstate_cls,realstate_type
count,41256.0,41256,41256,40404,41256.0,41256.0,41256.0,41256,804,660
unique,,12,5,1659,,,,1,3,10
top,,فبراير,مكة المكرمة,حي/الفيحاء,,,,معتمدة,سكني,قطعة أرض
freq,,3800,19496,192,,,,41256,376,144
mean,2019.5,,,,10391690.0,13163.92,10.487808,,,
std,1.118048,,,,55599050.0,148133.3,57.15513,,,
min,2018.0,,,,0.0,0.0,0.0,,,
25%,2018.75,,,,0.0,0.0,0.0,,,
50%,2019.5,,,,280000.0,251.235,1.0,,,
75%,2020.25,,,,3452188.0,2237.617,4.0,,,


In [7]:
# current datatype of data 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41256 entries, 0 to 41255
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   year            41256 non-null  int64  
 1   month           41256 non-null  object 
 2   city            41256 non-null  object 
 3   district        40404 non-null  object 
 4   price_riyals    41256 non-null  int64  
 5   area_m2         41256 non-null  float64
 6   no_deals        41256 non-null  int64  
 7   status          41256 non-null  object 
 8   realstate_cls   804 non-null    object 
 9   realstate_type  660 non-null    object 
dtypes: float64(1), int64(3), object(6)
memory usage: 3.1+ MB


In [8]:
df = df.replace(0, np.nan)
#df.district = df.district.str.replace('\/', ' ')

In [9]:
# check for first five rows
df.head()

Unnamed: 0,year,month,city,district,price_riyals,area_m2,no_deals,status,realstate_cls,realstate_type
0,2018,مايو,الدمام,حي/1048/ ش د,1055000.0,2871.08,1.0,معتمدة,,
1,2018,يناير,الدمام,حي/1093 ش د,,,,معتمدة,,
2,2018,مارس,الدمام,حي/1093 ش د,,,,معتمدة,,
3,2018,مايو,الدمام,حي/1093 ش د,,,,معتمدة,,
4,2018,يونيو,الدمام,حي/1093 ش د,,,,معتمدة,,


### Replace month name from arabic to number
list_month = [1, 'January', 31,
              2, 'February', 28,
              3,'March',31,
              4,'April',30,
              5,'May',31,
              6,'June',30,
              7,'July',31,
              8,'August',31,
              9,'September',30,
              10,'October',31,
              11,'November',30,
              12,'December',31]

In [10]:
# list of arabic months
months_names = [
    'يناير',
    'فبراير',
    'مارس',
    'ابريل',
    'مايو',
    'يونيو',
    'يوليو',
    'اوغسطس',
    'سبتمبر',
    'اكتوبر',
    'نوفمبر',
    'ديسمبر'
]

In [11]:
# set counter to 1
i = 1
df['month_order'] = df.month

In [12]:
df.head()

Unnamed: 0,year,month,city,district,price_riyals,area_m2,no_deals,status,realstate_cls,realstate_type,month_order
0,2018,مايو,الدمام,حي/1048/ ش د,1055000.0,2871.08,1.0,معتمدة,,,مايو
1,2018,يناير,الدمام,حي/1093 ش د,,,,معتمدة,,,يناير
2,2018,مارس,الدمام,حي/1093 ش د,,,,معتمدة,,,مارس
3,2018,مايو,الدمام,حي/1093 ش د,,,,معتمدة,,,مايو
4,2018,يونيو,الدمام,حي/1093 ش د,,,,معتمدة,,,يونيو


In [13]:
# loop for each month and create a new column month_order to corresponding month order
for month in months_names: 
    if i > 12: break 
    #if (df_fill.month_order[df_fill.month_order == month] != None):
    df.month_order[df.month_order == month] = i       
    i = i + 1    

In [14]:
#check for result
df.month_order.unique()

array([5, 1, 3, 6, 7, 8, 9, 10, 12, 2, 4, 11], dtype=object)

In [15]:
df.head()

Unnamed: 0,year,month,city,district,price_riyals,area_m2,no_deals,status,realstate_cls,realstate_type,month_order
0,2018,مايو,الدمام,حي/1048/ ش د,1055000.0,2871.08,1.0,معتمدة,,,5
1,2018,يناير,الدمام,حي/1093 ش د,,,,معتمدة,,,1
2,2018,مارس,الدمام,حي/1093 ش د,,,,معتمدة,,,3
3,2018,مايو,الدمام,حي/1093 ش د,,,,معتمدة,,,5
4,2018,يونيو,الدمام,حي/1093 ش د,,,,معتمدة,,,6


In [16]:
df.sort_values(
    by=['realstate_cls', 'realstate_type','city', 'district', 'year', 'month_order'], 
    axis=0, 
    ascending=True, 
    inplace=True, 
    kind='quicksort', 
    na_position='last', 
    ignore_index=True, 
    key=None
)

In [17]:
df

Unnamed: 0,year,month,city,district,price_riyals,area_m2,no_deals,status,realstate_cls,realstate_type,month_order
0,2018,مارس,المدينة المنورة,,,,,معتمدة,تجاري,أرض زراعية,3
1,2018,اوغسطس,المدينة المنورة,,,,,معتمدة,تجاري,أرض زراعية,8
2,2018,سبتمبر,المدينة المنورة,,,,,معتمدة,تجاري,أرض زراعية,9
3,2018,اكتوبر,المدينة المنورة,,,,,معتمدة,تجاري,أرض زراعية,10
4,2018,نوفمبر,المدينة المنورة,,68000000.0,221080.20,2.0,معتمدة,تجاري,أرض زراعية,11
...,...,...,...,...,...,...,...,...,...,...,...
41251,2021,ديسمبر,مكة المكرمة,حي/ولى العهد للمنح رقم2,,,,معتمدة,,,12
41252,2018,يوليو,مكة المكرمة,حي/يمين الذاهب الى الليث بمكة المكرمة بطريق ال...,1000000.0,58029.51,1.0,معتمدة,,,7
41253,2019,يوليو,مكة المكرمة,حي/يمين الذاهب الى الليث بمكة المكرمة بطريق ال...,,,,معتمدة,,,7
41254,2020,يوليو,مكة المكرمة,حي/يمين الذاهب الى الليث بمكة المكرمة بطريق ال...,,,,معتمدة,,,7


In [18]:
# current datatype of data 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41256 entries, 0 to 41255
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   year            41256 non-null  int64  
 1   month           41256 non-null  object 
 2   city            41256 non-null  object 
 3   district        40404 non-null  object 
 4   price_riyals    22371 non-null  float64
 5   area_m2         22371 non-null  float64
 6   no_deals        22371 non-null  float64
 7   status          41256 non-null  object 
 8   realstate_cls   804 non-null    object 
 9   realstate_type  660 non-null    object 
 10  month_order     41256 non-null  object 
dtypes: float64(3), int64(1), object(7)
memory usage: 3.5+ MB


In [19]:
unique_district = df.district.unique()
len(unique_district)

1660

In [20]:
unique_district[0:10]

array([nan, 'حي/1048/ ش د', 'حي/1093 ش د', 'حي/1145/ ش د', 'حي/1168/ ش د',
       'حي/125/ 1', 'حي/2/ 183', 'حي/211/ 1', 'حي/245/ 1', 'حي/249/ 1'],
      dtype=object)

In [21]:
unique_district = unique_district[unique_district != "المدينة المنورة"]
len(unique_district)

1660

In [22]:
df.head()

Unnamed: 0,year,month,city,district,price_riyals,area_m2,no_deals,status,realstate_cls,realstate_type,month_order
0,2018,مارس,المدينة المنورة,,,,,معتمدة,تجاري,أرض زراعية,3
1,2018,اوغسطس,المدينة المنورة,,,,,معتمدة,تجاري,أرض زراعية,8
2,2018,سبتمبر,المدينة المنورة,,,,,معتمدة,تجاري,أرض زراعية,9
3,2018,اكتوبر,المدينة المنورة,,,,,معتمدة,تجاري,أرض زراعية,10
4,2018,نوفمبر,المدينة المنورة,,68000000.0,221080.2,2.0,معتمدة,تجاري,أرض زراعية,11


In [23]:
df_1 = df[(df.city == "المدينة المنورة")] 

In [24]:
df_1.district = df_1.district.replace(np.nan, "المدينة المنورة")

In [25]:
df_1

Unnamed: 0,year,month,city,district,price_riyals,area_m2,no_deals,status,realstate_cls,realstate_type,month_order
0,2018,مارس,المدينة المنورة,المدينة المنورة,,,,معتمدة,تجاري,أرض زراعية,3
1,2018,اوغسطس,المدينة المنورة,المدينة المنورة,,,,معتمدة,تجاري,أرض زراعية,8
2,2018,سبتمبر,المدينة المنورة,المدينة المنورة,,,,معتمدة,تجاري,أرض زراعية,9
3,2018,اكتوبر,المدينة المنورة,المدينة المنورة,,,,معتمدة,تجاري,أرض زراعية,10
4,2018,نوفمبر,المدينة المنورة,المدينة المنورة,68000000.0,221080.2,2.0,معتمدة,تجاري,أرض زراعية,11
...,...,...,...,...,...,...,...,...,...,...,...
14199,2021,اوغسطس,المدينة المنورة,المدينة المنورة,,,,معتمدة,,,8
14200,2021,سبتمبر,المدينة المنورة,المدينة المنورة,,,,معتمدة,,,9
14201,2021,اكتوبر,المدينة المنورة,المدينة المنورة,,,,معتمدة,,,10
14202,2021,نوفمبر,المدينة المنورة,المدينة المنورة,,,,معتمدة,,,11


In [26]:
df_1.realstate_cls = df_1.realstate_cls.ffill(axis ='rows')
df_1.realstate_cls = df_1.realstate_cls.bfill(axis ='rows')

In [27]:
df_1.realstate_type = df_1.realstate_type.ffill(axis ='rows')
df_1.realstate_type = df_1.realstate_type.bfill(axis ='rows')

In [28]:
df_1

Unnamed: 0,year,month,city,district,price_riyals,area_m2,no_deals,status,realstate_cls,realstate_type,month_order
0,2018,مارس,المدينة المنورة,المدينة المنورة,,,,معتمدة,تجاري,أرض زراعية,3
1,2018,اوغسطس,المدينة المنورة,المدينة المنورة,,,,معتمدة,تجاري,أرض زراعية,8
2,2018,سبتمبر,المدينة المنورة,المدينة المنورة,,,,معتمدة,تجاري,أرض زراعية,9
3,2018,اكتوبر,المدينة المنورة,المدينة المنورة,,,,معتمدة,تجاري,أرض زراعية,10
4,2018,نوفمبر,المدينة المنورة,المدينة المنورة,68000000.0,221080.2,2.0,معتمدة,تجاري,أرض زراعية,11
...,...,...,...,...,...,...,...,...,...,...,...
14199,2021,اوغسطس,المدينة المنورة,المدينة المنورة,,,,معتمدة,سكني,معرض/محل,8
14200,2021,سبتمبر,المدينة المنورة,المدينة المنورة,,,,معتمدة,سكني,معرض/محل,9
14201,2021,اكتوبر,المدينة المنورة,المدينة المنورة,,,,معتمدة,سكني,معرض/محل,10
14202,2021,نوفمبر,المدينة المنورة,المدينة المنورة,,,,معتمدة,سكني,معرض/محل,11


In [29]:
df_1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 852 entries, 0 to 14203
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   year            852 non-null    int64  
 1   month           852 non-null    object 
 2   city            852 non-null    object 
 3   district        852 non-null    object 
 4   price_riyals    513 non-null    float64
 5   area_m2         513 non-null    float64
 6   no_deals        513 non-null    float64
 7   status          852 non-null    object 
 8   realstate_cls   852 non-null    object 
 9   realstate_type  852 non-null    object 
 10  month_order     852 non-null    object 
dtypes: float64(3), int64(1), object(7)
memory usage: 79.9+ KB


In [30]:
df[(df.city == "المدينة المنورة")] = df_1

In [31]:
df

Unnamed: 0,year,month,city,district,price_riyals,area_m2,no_deals,status,realstate_cls,realstate_type,month_order
0,2018,مارس,المدينة المنورة,المدينة المنورة,,,,معتمدة,تجاري,أرض زراعية,3
1,2018,اوغسطس,المدينة المنورة,المدينة المنورة,,,,معتمدة,تجاري,أرض زراعية,8
2,2018,سبتمبر,المدينة المنورة,المدينة المنورة,,,,معتمدة,تجاري,أرض زراعية,9
3,2018,اكتوبر,المدينة المنورة,المدينة المنورة,,,,معتمدة,تجاري,أرض زراعية,10
4,2018,نوفمبر,المدينة المنورة,المدينة المنورة,68000000.0,221080.20,2.0,معتمدة,تجاري,أرض زراعية,11
...,...,...,...,...,...,...,...,...,...,...,...
41251,2021,ديسمبر,مكة المكرمة,حي/ولى العهد للمنح رقم2,,,,معتمدة,,,12
41252,2018,يوليو,مكة المكرمة,حي/يمين الذاهب الى الليث بمكة المكرمة بطريق ال...,1000000.0,58029.51,1.0,معتمدة,,,7
41253,2019,يوليو,مكة المكرمة,حي/يمين الذاهب الى الليث بمكة المكرمة بطريق ال...,,,,معتمدة,,,7
41254,2020,يوليو,مكة المكرمة,حي/يمين الذاهب الى الليث بمكة المكرمة بطريق ال...,,,,معتمدة,,,7


In [32]:
df_1 = df[~(df.city == "المدينة المنورة")] 

In [33]:
df_1

Unnamed: 0,year,month,city,district,price_riyals,area_m2,no_deals,status,realstate_cls,realstate_type,month_order
804,2018,مايو,الدمام,حي/1048/ ش د,1055000.0,2871.08,1.0,معتمدة,,,5
805,2019,مايو,الدمام,حي/1048/ ش د,,,,معتمدة,,,5
806,2020,مايو,الدمام,حي/1048/ ش د,,,,معتمدة,,,5
807,2021,مايو,الدمام,حي/1048/ ش د,,,,معتمدة,,,5
808,2018,يناير,الدمام,حي/1093 ش د,,,,معتمدة,,,1
...,...,...,...,...,...,...,...,...,...,...,...
41251,2021,ديسمبر,مكة المكرمة,حي/ولى العهد للمنح رقم2,,,,معتمدة,,,12
41252,2018,يوليو,مكة المكرمة,حي/يمين الذاهب الى الليث بمكة المكرمة بطريق ال...,1000000.0,58029.51,1.0,معتمدة,,,7
41253,2019,يوليو,مكة المكرمة,حي/يمين الذاهب الى الليث بمكة المكرمة بطريق ال...,,,,معتمدة,,,7
41254,2020,يوليو,مكة المكرمة,حي/يمين الذاهب الى الليث بمكة المكرمة بطريق ال...,,,,معتمدة,,,7


In [34]:
df_1.realstate_cls = df_1.realstate_cls.replace(np.nan, "Not Available")
df_1.realstate_type = df_1.realstate_type.replace(np.nan, "Not Available")

In [35]:
df_1

Unnamed: 0,year,month,city,district,price_riyals,area_m2,no_deals,status,realstate_cls,realstate_type,month_order
804,2018,مايو,الدمام,حي/1048/ ش د,1055000.0,2871.08,1.0,معتمدة,Not Available,Not Available,5
805,2019,مايو,الدمام,حي/1048/ ش د,,,,معتمدة,Not Available,Not Available,5
806,2020,مايو,الدمام,حي/1048/ ش د,,,,معتمدة,Not Available,Not Available,5
807,2021,مايو,الدمام,حي/1048/ ش د,,,,معتمدة,Not Available,Not Available,5
808,2018,يناير,الدمام,حي/1093 ش د,,,,معتمدة,Not Available,Not Available,1
...,...,...,...,...,...,...,...,...,...,...,...
41251,2021,ديسمبر,مكة المكرمة,حي/ولى العهد للمنح رقم2,,,,معتمدة,Not Available,Not Available,12
41252,2018,يوليو,مكة المكرمة,حي/يمين الذاهب الى الليث بمكة المكرمة بطريق ال...,1000000.0,58029.51,1.0,معتمدة,Not Available,Not Available,7
41253,2019,يوليو,مكة المكرمة,حي/يمين الذاهب الى الليث بمكة المكرمة بطريق ال...,,,,معتمدة,Not Available,Not Available,7
41254,2020,يوليو,مكة المكرمة,حي/يمين الذاهب الى الليث بمكة المكرمة بطريق ال...,,,,معتمدة,Not Available,Not Available,7


In [36]:
df[~(df.city == "المدينة المنورة")] = df_1

In [37]:
df

Unnamed: 0,year,month,city,district,price_riyals,area_m2,no_deals,status,realstate_cls,realstate_type,month_order
0,2018,مارس,المدينة المنورة,المدينة المنورة,,,,معتمدة,تجاري,أرض زراعية,3
1,2018,اوغسطس,المدينة المنورة,المدينة المنورة,,,,معتمدة,تجاري,أرض زراعية,8
2,2018,سبتمبر,المدينة المنورة,المدينة المنورة,,,,معتمدة,تجاري,أرض زراعية,9
3,2018,اكتوبر,المدينة المنورة,المدينة المنورة,,,,معتمدة,تجاري,أرض زراعية,10
4,2018,نوفمبر,المدينة المنورة,المدينة المنورة,68000000.0,221080.20,2.0,معتمدة,تجاري,أرض زراعية,11
...,...,...,...,...,...,...,...,...,...,...,...
41251,2021,ديسمبر,مكة المكرمة,حي/ولى العهد للمنح رقم2,,,,معتمدة,Not Available,Not Available,12
41252,2018,يوليو,مكة المكرمة,حي/يمين الذاهب الى الليث بمكة المكرمة بطريق ال...,1000000.0,58029.51,1.0,معتمدة,Not Available,Not Available,7
41253,2019,يوليو,مكة المكرمة,حي/يمين الذاهب الى الليث بمكة المكرمة بطريق ال...,,,,معتمدة,Not Available,Not Available,7
41254,2020,يوليو,مكة المكرمة,حي/يمين الذاهب الى الليث بمكة المكرمة بطريق ال...,,,,معتمدة,Not Available,Not Available,7


### Fill empty with Mean

In [38]:
df_fill = df.copy()

In [None]:
for district in unique_district: 
    df_u = df_fill[(df_fill.district == district)]
    unique_year = df_u.year.unique()
    for year in unique_year: 
        df_y = df_u[(df_u.year == year)]
        price_fill = df_y.price_riyals.mean(skipna=True) 
        df_y.price_riyals = df_y.price_riyals.fillna(value = price_fill, method=None)
        #print(district, year, price_fill)
        area_fill = df_y.area_m2[(df_u.year == year)].mean(skipna=True) 
        df_y.area_m2 = df_y.area_m2.fillna(value = area_fill, method=None)
        #print(district, year, area_fill)
        no_deals_fill = df_y.no_deals.mean(skipna=True) 
        df_y.no_deals = df_y.no_deals.fillna(value = no_deals_fill, method=None)
        #print(district, year, no_deals_fill)
        df_u[(df_u.year == year)] = df_y
    df_fill[(df_fill.district == district)] = df_u

In [None]:
df_fill[df_fill.price_riyals.isna()]

In [None]:
df_fill.info()

In [None]:
for district in unique_district: 
    df_u = df_fill[(df_fill.district == district)] 
    df_u.price_riyals = df_u.price_riyals.ffill(axis ='rows')
    df_u.price_riyals = df_u.price_riyals.bfill(axis ='rows')
    #print(district, year, price_fill)
    df_u.area_m2 = df_u.area_m2.ffill(axis ='rows')
    df_u.area_m2 = df_u.area_m2.bfill(axis ='rows')
    #print(district, year, area_fill)
    df_u.no_deals = df_u.no_deals.ffill(axis ='rows')
    df_u.no_deals = df_u.no_deals.bfill(axis ='rows')
    #print(district, year, no_deals_fill)
    df_fill[(df_fill.district == district)] = df_u

In [None]:
df_fill[df_fill.price_riyals.isna()]

In [None]:
df_fill.info()

In [None]:
df_u1 = df_fill[(df_fill.city == "المدينة المنورة")]
df_u1.shape

In [None]:
unique_realstate_cls = df_u1['realstate_cls'].unique()
for realstate_cls in unique_realstate_cls: 
    df_u = df_u1[(df_u1.realstate_cls == realstate_cls)]
    unique_year = df_u.year.unique()
    for year in unique_year: 
        df_y = df_u[(df_u.year == year)]
        price_fill = df_y.price_riyals.mean(skipna=True) 
        df_y.price_riyals = df_y.price_riyals.fillna(value = price_fill, method=None)
        #print(district, year, price_fill)
        area_fill = df_y.area_m2[(df_u.year == year)].mean(skipna=True) 
        df_y.area_m2 = df_y.area_m2.fillna(value = area_fill, method=None)
        #print(district, year, area_fill)
        no_deals_fill = df_y.no_deals.mean(skipna=True) 
        df_y.no_deals = df_y.no_deals.fillna(value = no_deals_fill, method=None)
        #print(district, year, no_deals_fill)
        df_u[(df_u.year == year)] = df_y
    df_u1[(df_u1.realstate_cls == realstate_cls)] = df_u

In [None]:
df_u1.info()

In [None]:
df_u1.price_riyals = df_u1.price_riyals.ffill(axis ='rows')
df_u1.price_riyals = df_u1.price_riyals.bfill(axis ='rows')

df_u1.area_m2 = df_u1.area_m2.ffill(axis ='rows')
df_u1.area_m2 = df_u1.area_m2.bfill(axis ='rows')

df_u1.no_deals = df_u1.no_deals.ffill(axis ='rows')
df_u1.no_deals = df_u1.no_deals.bfill(axis ='rows')

In [None]:
df_u1.info()

In [None]:
df_fill[(df_fill.city == "المدينة المنورة")] = df_u1 

In [None]:
df_fill.info()

In [None]:
df_fill.head()

In [None]:
df_fill['no_deals'] = df_fill['no_deals'].round(decimals = 0)

In [None]:
df_fill.head()

In [None]:
df_fill[df_fill.price_riyals.isna()]

In [None]:
df_fill.info()

## Saving the filling data with mean in other format:

In [None]:
# 1- saving complete dataset with missing values as excel file
df_fill.to_excel(excel_writer = "data/xlsx/all_mean.xlsx", sheet_name='all', index=False)

In [None]:
# 2- saving complete dataset with missing values as csv file
df_fill.to_csv("data/csv/all_mean.csv", header=True, index=False, encoding='utf_8_sig')

In [None]:
# 3- saving complete dataset with missing values as json file
with open("data/json/all_mean.json", "w") as write_file:
    json.dump(df_fill.to_dict('records'), write_file)  

### Fill empty with fill medain

In [None]:
df_fill = df.copy()

In [None]:
df_fill.info()

In [None]:
for district in unique_district: 
    df_u = df_fill[(df_fill.district == district)]
    unique_year = df_u.year.unique()
    for year in unique_year: 
        df_y = df_u[(df_u.year == year)]
        price_fill = df_y.price_riyals.median(skipna=True) 
        df_y.price_riyals = df_y.price_riyals.fillna(value = price_fill, method=None)
        #print(district, year, price_fill)
        area_fill = df_y.area_m2[(df_u.year == year)].median(skipna=True) 
        df_y.area_m2 = df_y.area_m2.fillna(value = area_fill, method=None)
        #print(district, year, area_fill)
        no_deals_fill = df_y.no_deals.median(skipna=True) 
        df_y.no_deals = df_y.no_deals.fillna(value = no_deals_fill, method=None)
        #print(district, year, no_deals_fill)
        df_u[(df_u.year == year)] = df_y
    df_fill[(df_fill.district == district)] = df_u

In [None]:
df_fill.info()

In [None]:
for district in unique_district: 
    df_u = df_fill[(df_fill.district == district)] 
    df_u.price_riyals = df_u.price_riyals.ffill(axis ='rows')
    df_u.price_riyals = df_u.price_riyals.bfill(axis ='rows')
    #print(district, year, price_fill)
    df_u.area_m2 = df_u.area_m2.ffill(axis ='rows')
    df_u.area_m2 = df_u.area_m2.bfill(axis ='rows')
    #print(district, year, area_fill)
    df_u.no_deals = df_u.no_deals.ffill(axis ='rows')
    df_u.no_deals = df_u.no_deals.bfill(axis ='rows')
    #print(district, year, no_deals_fill)
    df_fill[(df_fill.district == district)] = df_u

In [None]:
df_fill.info()

In [None]:
df_u1 = df_fill[(df_fill.city == "المدينة المنورة")]
df_u1.shape

In [None]:
unique_realstate_cls = df_u1['realstate_cls'].unique()
for realstate_cls in unique_realstate_cls: 
    df_u = df_u1[(df_u1.realstate_cls == realstate_cls)]
    unique_year = df_u.year.unique()
    for year in unique_year: 
        df_y = df_u[(df_u.year == year)]
        price_fill = df_y.price_riyals.median(skipna=True) 
        df_y.price_riyals = df_y.price_riyals.fillna(value = price_fill, method=None)
        #print(district, year, price_fill)
        area_fill = df_y.area_m2[(df_u.year == year)].median(skipna=True) 
        df_y.area_m2 = df_y.area_m2.fillna(value = area_fill, method=None)
        #print(district, year, area_fill)
        no_deals_fill = df_y.no_deals.median(skipna=True) 
        df_y.no_deals = df_y.no_deals.fillna(value = no_deals_fill, method=None)
        #print(district, year, no_deals_fill)
        df_u[(df_u.year == year)] = df_y
    df_u1[(df_u1.realstate_cls == realstate_cls)] = df_u

In [None]:
df_u1.info()

In [None]:
df_u1.price_riyals = df_u1.price_riyals.ffill(axis ='rows')
df_u1.price_riyals = df_u1.price_riyals.bfill(axis ='rows')

df_u1.area_m2 = df_u1.area_m2.ffill(axis ='rows')
df_u1.area_m2 = df_u1.area_m2.bfill(axis ='rows')

df_u1.no_deals = df_u1.no_deals.ffill(axis ='rows')
df_u1.no_deals = df_u1.no_deals.bfill(axis ='rows')

In [None]:
df_u1.info()

In [None]:
df_fill[(df_fill.city == "المدينة المنورة")] = df_u1 

In [None]:
df_fill.info()

In [None]:
df_fill.head()

In [None]:
df_fill['no_deals'] = df_fill['no_deals'].round(decimals = 0)

In [None]:
df_fill.head()

## Saving the filling data with mean in other format:

In [None]:
# 1- saving complete dataset with missing values as excel file
df_fill.to_excel(excel_writer = "data/xlsx/all_median.xlsx", sheet_name='all', index=False)

In [None]:
# 2- saving complete dataset with missing values as csv file
df_fill.to_csv("data/csv/all_median.csv", header=True, index=False, encoding='utf_8_sig')

In [None]:
# 3- saving complete dataset with missing values as json file
with open("data/json/all_median.json", "w") as write_file:
    json.dump(df_fill.to_dict('records'), write_file)  
    )

### Fill empty with fill forward and backward

### Fill empty with fill forward

In [None]:
df_fill = df.copy()

In [None]:
for district in unique_district: 
    df_u = df_fill[(df_fill.district == district)] 
    df_u.price_riyals = df_u.price_riyals.ffill(axis ='rows')
    df_u.price_riyals = df_u.price_riyals.bfill(axis ='rows')
    #print(district, year, price_fill)
    df_u.area_m2 = df_u.area_m2.ffill(axis ='rows')
    df_u.area_m2 = df_u.area_m2.bfill(axis ='rows')
    #print(district, year, area_fill)
    df_u.no_deals = df_u.no_deals.ffill(axis ='rows')
    df_u.no_deals = df_u.no_deals.bfill(axis ='rows')
    #print(district, year, no_deals_fill)
    df_fill[(df_fill.district == district)] = df_u

In [None]:
df_fill.info()

In [None]:
df_u1 = df_fill[(df_fill.city == "المدينة المنورة")]
df_u1.shape

In [None]:
df_u1.price_riyals = df_u1.price_riyals.ffill(axis ='rows')
df_u1.price_riyals = df_u1.price_riyals.bfill(axis ='rows')

df_u1.area_m2 = df_u1.area_m2.ffill(axis ='rows')
df_u1.area_m2 = df_u1.area_m2.bfill(axis ='rows')

df_u1.no_deals = df_u1.no_deals.ffill(axis ='rows')
df_u1.no_deals = df_u1.no_deals.bfill(axis ='rows')

In [None]:
df_u1.info()

In [None]:
df_fill[(df_fill.city == "المدينة المنورة")] = df_u1 

In [None]:
df_fill.info()

In [None]:
df_fill.head()

## Saving the filling data with mean in other format:

In [None]:
# 1- saving complete dataset with missing values as excel file
df_fill.to_excel(excel_writer = "data/xlsx/all_forward.xlsx", sheet_name='all', index=False)

In [None]:
# 2- saving complete dataset with missing values as csv file
df_fill.to_csv("data/csv/all_forward.csv", header=True, index=False, encoding='utf_8_sig')

In [None]:
# 3- saving complete dataset with missing values as json file
with open("data/json/all_forward.json", "w") as write_file:
    json.dump(df_fill.to_dict('records'), write_file)  

### Fill empty with fill forward and backward

### Fill empty with fill backward

In [None]:
df_fill = df.copy()

In [None]:
for district in unique_district: 
    df_u = df_fill[(df_fill.district == district)] 
    df_u.price_riyals = df_u.price_riyals.bfill(axis ='rows')
    df_u.price_riyals = df_u.price_riyals.ffill(axis ='rows')
    #print(district, year, price_fill)    
    df_u.area_m2 = df_u.area_m2.bfill(axis ='rows')
    df_u.area_m2 = df_u.area_m2.ffill(axis ='rows')
    #print(district, year, area_fill)    
    df_u.no_deals = df_u.no_deals.bfill(axis ='rows')
    df_u.no_deals = df_u.no_deals.ffill(axis ='rows')
    #print(district, year, no_deals_fill)
    df_fill[(df_fill.district == district)] = df_u

In [None]:
df_fill.info()

In [None]:
df_u1 = df_fill[(df_fill.city == "المدينة المنورة")]
df_u1.shape

In [None]:
df_u1.price_riyals = df_u1.price_riyals.bfill(axis ='rows')
df_u1.price_riyals = df_u1.price_riyals.ffill(axis ='rows')    

df_u1.area_m2 = df_u1.area_m2.bfill(axis ='rows')
df_u1.area_m2 = df_u1.area_m2.ffill(axis ='rows')    

df_u1.no_deals = df_u1.no_deals.bfill(axis ='rows')
df_u1.no_deals = df_u1.no_deals.ffill(axis ='rows')

In [None]:
df_u1.info()

In [None]:
df_fill[(df_fill.city == "المدينة المنورة")] = df_u1 

In [None]:
df_fill.info()

In [None]:
df_fill.head()

## Saving the filling data with mean in other format:

In [None]:
# 1- saving complete dataset with missing values as excel file
df_fill.to_excel(excel_writer = "data/xlsx/all_backward.xlsx", sheet_name='all', index=False)

In [None]:
# 2- saving complete dataset with missing values as csv file
df_fill.to_csv("data/csv/all_backward.csv", header=True, index=False, encoding='utf_8_sig')

In [None]:
# 3- saving complete dataset with missing values as json file
with open("data/json/all_backward.json", "w") as write_file:
    json.dump(df_fill.to_dict('records'), write_file)        