# Import Libraries

In [19]:
import pandas as pd
import numpy as np
from ydata_profiling import  ProfileReport
from IPython.display import display, Markdown
from sklearn.preprocessing import LabelEncoder
%matplotlib inline

# Load Data

In [20]:
df = pd.read_excel('real_estate_rental_prices.xlsx')

# Analyze DataSet function

In [21]:
def analyzeDataSet(DataSet,state):
    display(Markdown('### Display data'))
    display(Markdown(DataSet.head().to_markdown()))
    display(Markdown('### Data Info'))
    display(Markdown(DataSet.info()))
    display(Markdown('### Describe Data'))
    display(Markdown(DataSet.describe().round(2).to_markdown()))
    display(Markdown('### DataFrame for Information about Dataset'))
    information_DataSet = pd.DataFrame({"name": DataSet.columns,
                     "non-nulls": len(DataSet)-DataSet.isnull().sum().values,
                     "nulls": DataSet.isnull().sum().values,
                     "type": DataSet.dtypes.values})
    display(Markdown(information_DataSet.to_markdown()))
    # Construct rows
    info_list=[]
    for column in DataSet.columns:
        row = [column,
               min(df[column]),
               max(df[column]),
               df[column].nunique(),
               df[column].isna().sum(),
               df.duplicated().sum()
              ]
        info_list.append(row)
    display(Markdown('### DataFrame for information about Dataset Values'))
    # Convert List to DataFrame
    info_df = pd.DataFrame(data = info_list,
                            columns=['Column_name',
                                     'Minimum_value',
                                     'Maximum_value',
                                     'Number_of_unique_records',
                                     'Number_of_null_records',
                                     'Number_of_duplicated_records'
                                    ])
    display(Markdown(info_df.to_markdown()))
    display(Markdown('### show data types'))
    print(info_df.dtypes)
    display(Markdown('### Remove comment character if you want to proceed Running Ydata Report'))
    pf = ProfileReport(df)
    if state == 'pre':
        pf.to_file('ReatEstateRental_BEFORE_pre_process.html')
    elif state == 'post':
        pf.to_file('ReatEstateRental_AFTER_pre_process.html')
    else :
        print('for state of analysis, use "pre" or "post"')

# Data pre processing

## Date Processing

## Categorization

### Neighbourhood Categories

In [22]:
le =LabelEncoder()

In [23]:
df['Neighbourhood_code'] = le.fit_transform(df['Neighbourhood'])
print(df.head())

   Serial  Evaluation  Residence  Area                     RsDescription  \
0       0        10.0          7    40          استديو بسرير ماستر وجلسة   
1       1         9.2          6  3000  استديو بسريرين فردية وبأثاث بسيط   
2       2        10.0         43  1000       شقة بغرفة معيشة وغرفتين نوم   
3       3         9.4          4   400    استراحة بصالة جلوس وغرفتين نوم   
4       4         9.6         29  3000          شقة بغرفة جلوس وغرفة نوم   

   Neighbourhood OneNightPrice   City RsCategory  Neighbourhood_code  
0    حي العزيزية           250  العلا     استديو                 589  
1         العذيب           280  العلا     استديو                 291  
2    حي العزيزية           400  العلا        شقة                 589  
3     حي المعتدل           799  العلا    استراحة                 681  
4  جنوب المستشفى           550  العلا        شقة                 342  


### City Categories

In [24]:
df['City_code'] = le.fit_transform(df['City'])
print(df.head())

   Serial  Evaluation  Residence  Area                     RsDescription  \
0       0        10.0          7    40          استديو بسرير ماستر وجلسة   
1       1         9.2          6  3000  استديو بسريرين فردية وبأثاث بسيط   
2       2        10.0         43  1000       شقة بغرفة معيشة وغرفتين نوم   
3       3         9.4          4   400    استراحة بصالة جلوس وغرفتين نوم   
4       4         9.6         29  3000          شقة بغرفة جلوس وغرفة نوم   

   Neighbourhood OneNightPrice   City RsCategory  Neighbourhood_code  \
0    حي العزيزية           250  العلا     استديو                 589   
1         العذيب           280  العلا     استديو                 291   
2    حي العزيزية           400  العلا        شقة                 589   
3     حي المعتدل           799  العلا    استراحة                 681   
4  جنوب المستشفى           550  العلا        شقة                 342   

   City_code  
0         10  
1         10  
2         10  
3         10  
4         10  


### Realestate Categories

In [25]:
df['RsCategory_code'] = le.fit_transform(df['RsCategory'])
print(df.head())

   Serial  Evaluation  Residence  Area                     RsDescription  \
0       0        10.0          7    40          استديو بسرير ماستر وجلسة   
1       1         9.2          6  3000  استديو بسريرين فردية وبأثاث بسيط   
2       2        10.0         43  1000       شقة بغرفة معيشة وغرفتين نوم   
3       3         9.4          4   400    استراحة بصالة جلوس وغرفتين نوم   
4       4         9.6         29  3000          شقة بغرفة جلوس وغرفة نوم   

   Neighbourhood OneNightPrice   City RsCategory  Neighbourhood_code  \
0    حي العزيزية           250  العلا     استديو                 589   
1         العذيب           280  العلا     استديو                 291   
2    حي العزيزية           400  العلا        شقة                 589   
3     حي المعتدل           799  العلا    استراحة                 681   
4  جنوب المستشفى           550  العلا        شقة                 342   

   City_code  RsCategory_code  
0         10                0  
1         10                0  
2         10  

# Analyze DataSet Post processing

In [26]:
analyzeDataSet(df,'post')

### Display data

|    |   Serial |   Evaluation |   Residence |   Area | RsDescription                    | Neighbourhood   |   OneNightPrice | City   | RsCategory   |   Neighbourhood_code |   City_code |   RsCategory_code |
|---:|---------:|-------------:|------------:|-------:|:---------------------------------|:----------------|----------------:|:-------|:-------------|---------------------:|------------:|------------------:|
|  0 |        0 |         10   |           7 |     40 | استديو بسرير ماستر وجلسة         | حي العزيزية     |             250 | العلا  | استديو       |                  589 |          10 |                 0 |
|  1 |        1 |          9.2 |           6 |   3000 | استديو بسريرين فردية وبأثاث بسيط | العذيب          |             280 | العلا  | استديو       |                  291 |          10 |                 0 |
|  2 |        2 |         10   |          43 |   1000 | شقة بغرفة معيشة وغرفتين نوم      | حي العزيزية     |             400 | العلا  | شقة          |                  589 |          10 |                 4 |
|  3 |        3 |          9.4 |           4 |    400 | استراحة بصالة جلوس وغرفتين نوم   | حي المعتدل      |             799 | العلا  | استراحة      |                  681 |          10 |                 1 |
|  4 |        4 |          9.6 |          29 |   3000 | شقة بغرفة جلوس وغرفة نوم         | جنوب المستشفى   |             550 | العلا  | شقة          |                  342 |          10 |                 4 |

### Data Info

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16913 entries, 0 to 16912
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Serial              16913 non-null  int64  
 1   Evaluation          16913 non-null  float64
 2   Residence           16913 non-null  int64  
 3   Area                16913 non-null  int64  
 4   RsDescription       16913 non-null  object 
 5   Neighbourhood       16913 non-null  object 
 6   OneNightPrice       16913 non-null  object 
 7   City                16913 non-null  object 
 8   RsCategory          16913 non-null  object 
 9   Neighbourhood_code  16913 non-null  int32  
 10  City_code           16913 non-null  int32  
 11  RsCategory_code     16913 non-null  int32  
dtypes: float64(1), int32(3), int64(3), object(5)
memory usage: 1.4+ MB


<IPython.core.display.Markdown object>

### Describe Data

|       |   Serial |   Evaluation |   Residence |      Area |   Neighbourhood_code |   City_code |   RsCategory_code |
|:------|---------:|-------------:|------------:|----------:|---------------------:|------------:|------------------:|
| count | 16913    |     16913    |    16913    |  16913    |             16913    |    16913    |          16913    |
| mean  |   732.86 |         7.63 |       21.41 |    564.24 |               510.09 |        9.45 |              3.14 |
| std   |   647.15 |         3.58 |       35.3  |   3880    |               251.1  |        5.57 |              2.49 |
| min   |     0    |         0    |        0    |     10    |                 0    |        0    |              0    |
| 25%   |   197    |         7.8  |        1    |     35    |               320    |        7    |              1    |
| 50%   |   540    |         9.3  |        8    |     60    |               523    |        7    |              3    |
| 75%   |  1090    |         9.9  |       25    |    300    |               716    |       14    |              4    |
| max   |  2387    |        10    |      443    | 110000    |               968    |       23    |             13    |

### DataFrame for Information about Dataset

|    | name               |   non-nulls |   nulls | type    |
|---:|:-------------------|------------:|--------:|:--------|
|  0 | Serial             |       16913 |       0 | int64   |
|  1 | Evaluation         |       16913 |       0 | float64 |
|  2 | Residence          |       16913 |       0 | int64   |
|  3 | Area               |       16913 |       0 | int64   |
|  4 | RsDescription      |       16913 |       0 | object  |
|  5 | Neighbourhood      |       16913 |       0 | object  |
|  6 | OneNightPrice      |       16913 |       0 | object  |
|  7 | City               |       16913 |       0 | object  |
|  8 | RsCategory         |       16913 |       0 | object  |
|  9 | Neighbourhood_code |       16913 |       0 | int32   |
| 10 | City_code          |       16913 |       0 | int32   |
| 11 | RsCategory_code    |       16913 |       0 | int32   |

### DataFrame for information about Dataset Values

|    | Column_name        | Minimum_value                    | Maximum_value            |   Number_of_unique_records |   Number_of_null_records |   Number_of_duplicated_records |
|---:|:-------------------|:---------------------------------|:-------------------------|---------------------------:|-------------------------:|-------------------------------:|
|  0 | Serial             | 0                                | 2387                     |                       2388 |                        0 |                              0 |
|  1 | Evaluation         | 0.0                              | 10.0                     |                         84 |                        0 |                              0 |
|  2 | Residence          | 0                                | 443                      |                        258 |                        0 |                              0 |
|  3 | Area               | 10                               | 110000                   |                        275 |                        0 |                              0 |
|  4 | RsDescription      | ,شاليه بجلسة خارجية  ومسبح خارجي | وحده بيت شعر  هادئ ومريح |                       3820 |                        0 |                              0 |
|  5 | Neighbourhood      | حي المروة                        | وشي                      |                        969 |                        0 |                              0 |
|  6 | OneNightPrice      | 1,000                            | 999                      |                        815 |                        0 |                              0 |
|  7 | City               | ابها                             | ينبع                     |                         24 |                        0 |                              0 |
|  8 | RsCategory         | استديو                           | منتجع                    |                         14 |                        0 |                              0 |
|  9 | Neighbourhood_code | 0                                | 968                      |                        969 |                        0 |                              0 |
| 10 | City_code          | 0                                | 23                       |                         24 |                        0 |                              0 |
| 11 | RsCategory_code    | 0                                | 13                       |                         14 |                        0 |                              0 |

### show data types

Column_name                     object
Minimum_value                   object
Maximum_value                   object
Number_of_unique_records         int64
Number_of_null_records           int64
Number_of_duplicated_records     int64
dtype: object


### Remove comment character if you want to proceed Running Ydata Report

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

# Save DataSet post processing to new Excel file

In [27]:
df.to_excel('real_estate_rental_prices_extended.xlsx')
print('File Created')

File Created
