In [346]:
!pip install ipyvizzu; ydata_profiling



In [347]:
#Import all relevant libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import zscore
from ydata_profiling import ProfileReport
 
## This statement allows the visuals to render within your Jupyter Notebook.
%matplotlib inline

## Loading the data
We can now load the dataset into pandas using the read_csv() function. This converts the CSV file into a Pandas dataframe.

In [290]:
import kagglehub

# Download latest version
#riyadh_appart_folder = kagglehub.dataset_download("abdulmalikm/apartments-in-riyadh")

riyadh_aqqar_folder = kagglehub.dataset_download("myfaisal/riyadh-aqaar-dataset")

#riyadh_housing_folder = kagglehub.dataset_download("salmanshir/riyadhhousingdata")

In [291]:
import os
riyadh_aqqar_file =  os.listdir(riyadh_aqqar_folder)

In [292]:
#riyadh_housing_df =  pd.read_excel(f"{riyadh_aqqar_folder}/{riyadh_aqqar_file[0]}")
riyadh_aqqar_df =  pd.read_excel(f"{riyadh_aqqar_folder}/{riyadh_aqqar_file[0]}")

In [293]:
riyadh_aqqar_df.shape

(2155, 8)

In [294]:
#Read in the csv file and convert to a Pandas dataframe

### Viewing the dataframe
We can get a quick sense of the size of our dataset by using the shape method. This returns a tuple with the number of rows and columns in the dataset.

## 1. Data Profiling:
Data profiling is a comprehensive process of examining the data available in an existing dataset and collecting statistics and information about that data. 

In [295]:
riyadh_aqqar_df.head()

Unnamed: 0,نوع العقار,الغرض,المدينة,الحي,الواجهة,المساحة,سعر المتر,السعر الإجمالي
0,أرض,,امارة منطقة الرياض,الرياض,غربية,375,2900.0,1087500
1,أرض,,الرياض,حي غرناطة,شمالية,800,4800.0,3840000
2,أرض,سكني,الرياض,حي غرناطة,ثلاث شوارع,1650,4800.0,7920000
3,أرض,سكني,الرياض,حي اليرموك,ثلاث شوارع,1650,4800.0,7920000
4,أرض,سكني,الرياض,حي النسيم الغربي,غربية,750,3200.0,2400000


In [348]:
# Generate a profile report using ydata_profiling
profile = ProfileReport(riyadh_aqqar_df, title="Pandas Profiling Report", explorative=True)

# Display the report
profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

#### 1. Reliability:
Evaluate the data's source and collection process to determine its trustworthiness.

In [296]:
# no source mentioned in the dataset

#### 2. Timeliness: 
Ensure the data is up-to-date and reflective of the current situation or the period of interest for the analysis.

In [297]:
# the data is updated since 2023

#### 3. Consistency: 

Confirm that the data is consistent within the dataset and across multiple data sources. For example, the same data point should not have different values in different places.


In [298]:
# only one dataset is used, consistency is not applied

#### 4. Relevance: 


In [299]:
# all columns are relevant of riyadh aqqar

#### 5. Uniqueness: 
Check for and remove duplicate records to prevent skewed analysis results.


In [300]:
riyadh_aqqar_df.duplicated().sum()

259

In [301]:
# go to delete duplicates columns

#### 6. Completeness: 

In [302]:
#Display number missing values per column
riyadh_aqqar_df.isnull().sum()

نوع العقار         0
الغرض             49
المدينة            0
الحي               0
الواجهة            0
المساحة            0
سعر المتر          0
السعر الإجمالي     0
dtype: int64

In [303]:
# go to clean them 

#### 7. Check Accuracy:

In [304]:
# check columns types 
riyadh_aqqar_df.dtypes

نوع العقار         object
الغرض              object
المدينة            object
الحي               object
الواجهة            object
المساحة             int64
سعر المتر         float64
السعر الإجمالي      int64
dtype: object

In [305]:
riyadh_aqqar_df.head()

Unnamed: 0,نوع العقار,الغرض,المدينة,الحي,الواجهة,المساحة,سعر المتر,السعر الإجمالي
0,أرض,,امارة منطقة الرياض,الرياض,غربية,375,2900.0,1087500
1,أرض,,الرياض,حي غرناطة,شمالية,800,4800.0,3840000
2,أرض,سكني,الرياض,حي غرناطة,ثلاث شوارع,1650,4800.0,7920000
3,أرض,سكني,الرياض,حي اليرموك,ثلاث شوارع,1650,4800.0,7920000
4,أرض,سكني,الرياض,حي النسيم الغربي,غربية,750,3200.0,2400000


In [306]:
riyadh_aqqar_df['نوع العقار'].unique()

array(['أرض'], dtype=object)

In [307]:
riyadh_aqqar_df['الغرض'].unique()

array([nan, 'سكني', 'تجاري وسكني', 'تجاري'], dtype=object)

In [308]:
riyadh_aqqar_df['الحي'].unique()

array([' الرياض ', ' حي غرناطة ', ' حي اليرموك ', ' حي النسيم الغربي ',
       ' حي الرمال ', ' حي الملك فيصل ', ' حي المعيزلة ', ' حي الشرق ',
       ' حي المونسية ', ' حي الروضة ', ' حي المشرق ', ' حي الخليج ',
       ' حي الشهداء ', ' حي الحمراء ', ' حي البيان ', ' حي قرطبة ',
       ' حي القادسية ', ' حي النهضة ', ' حي الصناعية القديمة ',
       ' حي العلا ', ' حي الجنادرية ', ' حي المعيزيلة ', ' حي السعادة ',
       ' حي النسيم الشرقي ', ' حي خشم العان ', ' حي الصفا ',
       ' حي اشبيلية ', ' طريق سعيد ابن زيد ', ' حي القدس ',
       ' حي الاندلس ', ' حي الشعلة ', ' حي الندوة ', ' حي الفيحاء ', ' ',
       ' امارة منطقة الرياض ', ' حي المنار ', ' حي السلام ',
       ' حي الزاهر ', ' حي الجزيرة ', ' حي النظيم ', ' حي الازدهار ',
       ' حي الملز ', ' حي العارض ', ' حي النرجس ', ' العيينة ',
       ' حي الملقا ', ' حي الغنامية ', ' حي عرقة ', ' حي المهدية ',
       ' حي الدار البيضاء ', ' حي سلطانة ', ' حي الندى ', ' حي ظهرة لبن ',
       ' حي العين ', ' حي حطين ', ' حي الهدا ', '

In [309]:
riyadh_aqqar_df['الواجهة'].unique()

array(['غربية', 'شمالية', 'ثلاث شوارع', 'جنوبية', 'شرقية', 'شمالية شرقية',
       'جنوبية شرقية', 'جنوبية غربية', 'شمالية غربية', 'أربع شوارع'],
      dtype=object)

In [310]:
riyadh_aqqar_df['المساحة'].unique()

array([   375,    800,   1650,    750,   2400,    900,   1089,    450,
          550,   3092,    381,    361,    412,   2115,   1560,   1798,
         3000,    360,    420,    594,    300,    928,    239,    218,
          572,   2000,    320,   1000,   1019,    432,   2940,   3663,
         1849,    312,   3562,    810,   2100,   8400,    475,    514,
          440,    437,   2825,   2520,   3905,     90,  22300,    500,
         1050,  10000,    400,    930,    700,    763,    575,   5000,
          543,    416,    362,    600,   5670,    747,   1125,   1500,
         2250,    371,   5302,    357,   9900,   3900,    597,   2007,
          751,    630,    870,    918,    429,    379,    454,    744,
         4577,    720,    608,    760,   1930,    625,   1225,   1280,
          306,   1200,    936,    840,    540,    510,    247,    621,
          580,   4350,    372,    270,   1800,    234,    875,   1627,
         9053,    590,  24000,  17927,    350,    771,    759,   1148,
      

In [311]:
riyadh_aqqar_df['سعر المتر'].unique()

array([2.90000000e+03, 4.80000000e+03, 3.20000000e+03, 3.30000000e+03,
       3.35000000e+03, 2.60000000e+03, 5.80000000e+02, 3.50000000e+03,
       2.50000000e+03, 3.25000000e+03, 3.00000000e+03, 3.10000000e+03,
       4.20000000e+03, 6.41000000e+03, 1.50000000e+03, 4.76000000e+02,
       1.95000000e+03, 1.65000000e+03, 3.15000000e+03, 3.40000000e+03,
       5.30000000e+03, 6.00000000e+03, 5.50000000e+03, 2.00000000e+03,
       1.40000000e+03, 4.26000000e+02, 3.80000000e+03, 2.35000000e+03,
       4.22000000e+02, 2.75000000e+03, 8.65000000e+02, 2.30000000e+03,
       3.33300000e+03, 2.40000000e+03, 1.70000000e+03, 4.40000000e+03,
       5.20000000e+02, 2.70000000e+03, 5.59000000e+02, 3.60000000e+03,
       5.60000000e+02, 5.50000000e+02, 4.60000000e+02, 5.80000000e+03,
       6.50000000e+02, 5.00000000e+02, 1.46600000e+03, 4.90000000e+03,
       4.14000000e+02, 8.00000000e+03, 2.65000000e+03, 4.50000000e+03,
       6.50000000e+03, 3.15000000e+02, 7.33300000e+03, 1.00000000e+03,
      

In [312]:
riyadh_aqqar_df['نوع العقار'].unique()

array(['أرض'], dtype=object)

In [313]:
# go to clean them 

In [314]:
# check outliers 
# check price outliers
riyadh_aqqar_df.describe()

Unnamed: 0,المساحة,سعر المتر,السعر الإجمالي
count,2155.0,2155.0,2155.0
mean,1568.78051,4356.648574,5050271.0
std,9757.996967,35214.80964,31417990.0
min,1.0,90.0,1400.0
25%,413.0,1365.0,781000.0
50%,670.0,2570.0,1442000.0
75%,900.0,4000.0,3150000.0
max,299684.0,945000.0,893025000.0


In [315]:
riyadh_aqqar_df['المساحة'].sort_values(ascending=False)

2086    299684
2087    299684
2126     96755
2017     57000
1266     40000
         ...  
95          90
600         85
1725        36
286          1
1446         1
Name: المساحة, Length: 2155, dtype: int64

In [316]:
riyadh_aqqar_df[riyadh_aqqar_df['المساحة']==299684]

Unnamed: 0,نوع العقار,الغرض,المدينة,الحي,الواجهة,المساحة,سعر المتر,السعر الإجمالي
2086,أرض,تجاري وسكني,الرياض,الرياض,أربع شوارع,299684,1450.0,434541800
2087,أرض,تجاري وسكني,الرياض,حي الرمال,أربع شوارع,299684,1450.0,434541800


In [317]:
riyadh_aqqar_df['المساحة'].sort_values(ascending=False)

2086    299684
2087    299684
2126     96755
2017     57000
1266     40000
         ...  
95          90
600         85
1725        36
286          1
1446         1
Name: المساحة, Length: 2155, dtype: int64

In [318]:
# go delete outliers

In [319]:
riyadh_aqqar_df['السعر الإجمالي'].sort_values(ascending=False)

1545    893025000
1547    850500000
2087    434541800
2086    434541800
1546    354375000
          ...    
519        106880
1581       100000
1725        93600
1446         1400
286          1400
Name: السعر الإجمالي, Length: 2155, dtype: int64

In [320]:
# go to delete ouliers

## 2. Data Cleaning: 

Preliminary findings from data profiling can lead to cleaning the data by:
- Handling missing values
- Correcting errors.
- Dealing with outliers.

-------------------



In [321]:
riyadh_aqqar_df.duplicated()

0       False
1       False
2       False
3       False
4       False
        ...  
2150    False
2151    False
2152    False
2153    False
2154    False
Length: 2155, dtype: bool

In [322]:
riyadh_aqqar_df.drop_duplicates(keep='first',inplace=True)

In [323]:
# show null rows
riyadh_aqqar_df[riyadh_aqqar_df['الغرض'].isnull()]

Unnamed: 0,نوع العقار,الغرض,المدينة,الحي,الواجهة,المساحة,سعر المتر,السعر الإجمالي
0,أرض,,امارة منطقة الرياض,الرياض,غربية,375,2900.0,1087500
1,أرض,,الرياض,حي غرناطة,شمالية,800,4800.0,3840000
319,أرض,,الرياض,حي القادسية,شرقية,543,2650.0,1438950
320,أرض,,الرياض,حي العارض,جنوبية,432,2650.0,1144800
321,أرض,,الرياض,حي العارض,جنوبية,747,2650.0,1979550
322,أرض,,امارة منطقة الرياض,الرياض,جنوبية,255,1500.0,382500
323,أرض,,امارة منطقة الرياض,الرياض,شمالية,864,1500.0,1296000
324,أرض,,الرياض,حي النرجس,جنوبية,432,4900.0,2116800
325,أرض,,امارة منطقة الرياض,الرياض,غربية,824,4900.0,4037600
326,أرض,,الدرعية,العيينة,جنوبية,937,4900.0,4591300


In [324]:
riyadh_aqqar_df['الغرض'].fillna('بدون غرض',inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  riyadh_aqqar_df['الغرض'].fillna('بدون غرض',inplace=True)


In [325]:
# go back to 6th dimention --> Completeness

### Correcting errors

-------------------

In [326]:
riyadh_aqqar_df['المدينة'].unique()

array([' امارة منطقة الرياض', ' الرياض ', ' حي قرطبة ', ' حي الرمال ',
       13843, ' الدرعية', ' حريملاء', ' العيينة ', ' حي عريض ', ' الرياض',
       ' حي السلي ', ' الجبيلة ', ' حي القيروان ', ' ', ' ضرما',
       ' حي المهدية ', ' رماح', ' حي ظهرة لبن ', ' حي العارض ', ' الخرج'],
      dtype=object)

In [327]:
riyadh_aqqar_df['المدينة']='الرياض'

In [328]:
riyadh_aqqar_df['المدينة'].unique()

array(['الرياض'], dtype=object)

In [329]:
# exclude rows that is not equal to riyadh from riyadh_aqqar_df
riyadh_aqqar_df = riyadh_aqqar_df[riyadh_aqqar_df['الحي']!=' الرياض ']

In [330]:
# go back to 7th dimension Accuracy 

### Dealing with outliers:

In [333]:
riyadh_aqqar_df.describe()

Unnamed: 0,المساحة,سعر المتر,السعر الإجمالي
count,1366.0,1366.0,1366.0
mean,1648.863836,4661.387994,5828004.0
std,9033.70195,36111.550739,36141590.0
min,1.0,90.0,1400.0
25%,437.0,1490.25,946875.0
50%,705.5,2800.0,1751750.0
75%,1000.0,4400.0,3593700.0
max,299684.0,945000.0,893025000.0


In [334]:
# select numerical columns using pd_to_numeric
numric_df = riyadh_aqqar_df.select_dtypes(include=['int64', 'float64'])
zscore = numric_df.apply(zscore)

In [344]:
abs(zscore)

Unnamed: 0,المساحة,سعر المتر,السعر الإجمالي
1,0.094001,0.003840,0.055026
2,0.000126,0.003840,0.057905
3,0.000126,0.003840,0.057905
4,0.099538,0.040484,0.094884
5,0.083179,0.037713,0.057905
...,...,...,...
2149,0.052696,0.114975,0.144723
2151,0.138296,0.087577,0.144706
2152,0.066316,0.063199,0.092144
2153,0.147930,0.073726,0.143987


In [335]:
threshold = 3
outliers = riyadh_aqqar_df[(abs(zscore) > threshold).any(axis=1)]

In [338]:
outliers

Unnamed: 0,نوع العقار,الغرض,المدينة,الحي,الواجهة,المساحة,سعر المتر,السعر الإجمالي
1266,أرض,تجاري وسكني,الرياض,حي عريض,أربع شوارع,40000,1000.0,40000000
1355,أرض,سكني,الرياض,العيينة,أربع شوارع,39192,620.0,24299040
1545,أرض,تجاري وسكني,الرياض,ملهم,شمالية شرقية,945,945000.0,893025000
1547,أرض,تجاري وسكني,الرياض,حي القيروان,غربية,900,945000.0,850500000
1612,أرض,سكني,الرياض,حي الرمال,ثلاث شوارع,30000,1600.0,48000000
2017,أرض,سكني,الرياض,حي البيان,شمالية,57000,90.0,5130000
2087,أرض,تجاري وسكني,الرياض,حي الرمال,أربع شوارع,299684,1450.0,434541800
2126,أرض,سكني,الرياض,حي المهدية,غربية,96755,1000.0,96755000


In [339]:
len(riyadh_aqqar_df)

1366

In [340]:
# drop rows that is equal to outliers
riyadh_aqqar_df = riyadh_aqqar_df[~riyadh_aqqar_df.isin(outliers)].dropna()

In [341]:
len(riyadh_aqqar_df)

1358

In [343]:
riyadh_aqqar_df.sample(20)

Unnamed: 0,نوع العقار,الغرض,المدينة,الحي,الواجهة,المساحة,سعر المتر,السعر الإجمالي
968,أرض,سكني,الرياض,حي المهدية,غربية,744.0,1800.0,1339200.0
1858,أرض,تجاري وسكني,الرياض,حي ظهرة لبن,غربية,400.0,2250.0,900000.0
961,أرض,سكني,الرياض,شارع ابن ماجه,ثلاث شوارع,10500.0,2700.0,28350000.0
1214,أرض,سكني,الرياض,حي حطين,شمالية غربية,4000.0,1455.0,5820000.0
1381,أرض,سكني,الرياض,حي ظهرة نمار,شرقية,440.0,1900.0,836000.0
1288,أرض,سكني,الرياض,حي الدار البيضاء,شرقية,910.0,1270.0,1155700.0
2028,أرض,تجاري وسكني,الرياض,حي السلي,جنوبية,2400.0,2500.0,6000000.0
1302,أرض,سكني,الرياض,حي النرجس,جنوبية شرقية,475.0,4700.0,2232500.0
986,أرض,سكني,الرياض,حي الفيحاء,غربية,900.0,1000.0,900000.0
1363,أرض,سكني,الرياض,حي ضاحية نمار,شمالية,887.0,1200.0,1064400.0


In [345]:
riyadh_aqqar_df['الحي'].unique()

array([' حي غرناطة ', ' حي اليرموك ', ' حي النسيم الغربي ', ' حي الرمال ',
       ' حي الملك فيصل ', ' حي المعيزلة ', ' حي الشرق ', ' حي المونسية ',
       ' حي الروضة ', ' حي المشرق ', ' حي الخليج ', ' حي الشهداء ',
       ' حي الحمراء ', ' حي البيان ', ' حي قرطبة ', ' حي القادسية ',
       ' حي النهضة ', ' حي الصناعية القديمة ', ' حي العلا ',
       ' حي الجنادرية ', ' حي المعيزيلة ', ' حي السعادة ',
       ' حي النسيم الشرقي ', ' حي خشم العان ', ' حي الصفا ',
       ' حي اشبيلية ', ' طريق سعيد ابن زيد ', ' حي القدس ',
       ' حي الاندلس ', ' حي الشعلة ', ' حي الندوة ', ' حي الفيحاء ', ' ',
       ' امارة منطقة الرياض ', ' حي المنار ', ' حي السلام ',
       ' حي الزاهر ', ' حي الجزيرة ', ' حي النظيم ', ' حي الازدهار ',
       ' حي الملز ', ' حي العارض ', ' حي النرجس ', ' العيينة ',
       ' حي الملقا ', ' حي الغنامية ', ' حي عرقة ', ' حي المهدية ',
       ' حي الدار البيضاء ', ' حي سلطانة ', ' حي الندى ', ' حي ظهرة لبن ',
       ' حي العين ', ' حي حطين ', ' حي الهدا ', ' حي طويق ',


## 3. Univariate Analysis: 

### 1. Univariate Graphical Analysis:
Method to perform uni-variate analysis will depend on whether the variable type is categorical or numerical.

#### I. Categorical Variables:

we’ll use frequency table to understand distribution of each category
- Bar Chart (Ordinal) - Orderd
- Pie Chart (Nominal) - non Orderd

#### II. Numerical Variables:

we need to understand the central tendency and spread of the variable (Descriptive Analysis) using:
   - Box plot
   - Histogram

### 2. Univariate Non-Graphical analysis: 

- Where is the center of the data? (location) --> **Measures of central tendency**
- How much does the data vary? (scale) --> **Measure of variability**
- What is the shape of the data? (shape) --> **Measures of variation combined with an average (measure of center) gives a good picture of the distribution of the data.**

## 4. Bivariate/Multivariate Analysis:

**Categorical & Categorical --> (Stacked Column Chart)**

**Categorical & numerical --> (scatter plot, histogram, box plot)**

**numerical & numerical --> (Scatter plot, line chart)**

We could also use a correlation matrix to get more specific information about the relationship between these two variables.