# Mubawab Data Preparation and Analysis

### Author : AFANDI Soufiane 
#### Linkedin : https://www.linkedin.com/in/afandi-soufiane/
--------------------------------------------------------------------------------------------------------------------------------------

**Project overview :**

I am using the ***Scrapy framework*** to scrape datasets from websites offering real estate listings for sales and rentals. The goal is to analyze this data and develop a ***Machine Learning*** model that ***suggests*** listings to clients based on their preferences and financial capabilities. 

This involves extracting relevant features from the listings, such as location, price, property type, and amenities, and using these features to train a ***recommendation system***. 

The system will leverage data analysis, data science techniques, and business intelligence to provide personalized and financially feasible real estate options for clients. 

This project aims to enhance the user experience and optimize the property search process, ultimately driving better business outcomes for real estate platforms.


**Current Notebook :**

In this notebook i am going to prepare a dataset that i scrapped using Scrapy Framework from ***Mubawab*** website.

Mubawab is a leading real estate portal for Morocco. Rent, buy and sell with ease thanks to the widest choice of real estate.l

# 1. Setup Environment

In [99]:
import pandas as pd
import numpy as np
import re

# 2. Import Data

In [None]:
columns_name = ['id', 'advertisement_url', 'title', 'publication_date', 'price', 'location', 'description', 'complete_description', 
                'features_list', 'insert_date']
columns_name

In [14]:
mubawab_dataset = pd.read_csv('market housing data exported at 16-05-2024 - mubawab.csv', header=None)

In [16]:
mubawab_dataset.columns = columns_name

In [19]:
mubawab_dataset.set_index("id", inplace=True)

In [21]:
mubawab_dataset.head()

Unnamed: 0_level_0,advertisement_url,title,publication_date,price,location,description,complete_description,features_list,insert_date
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,https://www.mubawab.ma/fr/pa/7779122/bel-appar...,Bel Appartement à vendre à Mohammedia\n\t\t\t\t,Publié aujourdhui\n\t\t\t\t\t,1 034 750 DH\n\t\t\t\t\t\t\t,Centre Ville à\n\t\t\t\t\tMohammedia\n\t\t\t\t,\n\t\t\t\t\t83\n\t\t\t\t\tm²\n\t\t\t\t;3 Pièce...,"<p>RESIDENCE NATURA LIVING, une résidence verd...",Jardin;Terrasse;Garage;Ascenseur;Piscine;Conci...,2024-04-30
2,https://www.mubawab.ma/fr/pa/6292037/apparteme...,"Appartement de 94m² 3 chambre en vente, Rio Be...",Publié aujourdhui\n\t\t\t\t\t,11 000 DH\n\t\t\t\t\t\t\t,Sidi Rahal\n\t\t\t\t,\n\t\t\t\t\t94\n\t\t\t\t\tm²\n\t\t\t\t;4 Pièce...,"<p>Agréable appartement à vendre. 4 pièces, 3 ...",Jardin;Terrasse;Garage;Vue sur mer;Piscine;Con...,2024-04-30
3,https://www.mubawab.ma/fr/pa/7203490/apparteme...,"Appartement de 100 m² en vente, Eden Island Bo...",Publié aujourdhui\n\t\t\t\t\t,2 200 000 DH\n\t\t\t\t\t\t\t,Plage Oued Cherrat à\n\t\t\t\t\tBouznika\n\t\t...,\n\t\t\t\t\t100\n\t\t\t\t\tm²\n\t\t\t\t;3 Pièc...,"<p>Découvrez « EDEN ISLAND », une réalisation ...",\n\t\t\t\t\t\t\t\t\t\t\tOrientation:\n\t\t\t\t...,2024-04-30
4,https://www.mubawab.ma/fr/pa/7617451/apparteme...,Appartement 55m² en vente Riad Assalam\n\t\t\t\t,Publié aujourdhui\n\t\t\t\t\t,250 000 DH\n\t\t\t\t\t\t\t,Al Aalia à\n\t\t\t\t\tMohammedia\n\t\t\t\t,\n\t\t\t\t\t55\n\t\t\t\t\tm²\n\t\t\t\t;4 Pièce...,<p>Achetez l'appartement de vos rêves au milie...,Ascenseur,2024-04-30
5,https://www.mubawab.ma/fr/pa/7859027/superbe-a...,Superbe appartement à vendre à Boukhalef. 2 ch...,Publié aujourdhui\n\t\t\t\t\t,"N,Boukhalef à\n\t\t\t\t\tTanger\n\t\t\t\t""",\n\t\t\t\t\t72\n\t\t\t\t\tm²\n\t\t\t\t;3 Pièce...,"<p>Appartement idéal à la vente. 3 pièces, 2 s...",Jardin;Concierge;Sécurité;Cuisine équipée,2024-04-30,


# 3. Clean Data

## 3.1 Clean '\n' and '\t' characters in the data

In [34]:
mubawab_dataset['title'] = mubawab_dataset['title'].apply(lambda x: str(x).replace("\\t", " ").replace("\\n", " "))

In [36]:
mubawab_dataset['publication_date'] = mubawab_dataset['publication_date'].apply(lambda x: str(x).replace("\\t", " ").replace("\\n", " "))

In [38]:
mubawab_dataset['price'] = mubawab_dataset['price'].apply(lambda x: str(x).replace("\\t", " ").replace("\\n", " "))

In [40]:
mubawab_dataset['location'] = mubawab_dataset['location'].apply(lambda x: str(x).replace("\\t", " ").replace("\\n", " "))

In [42]:
mubawab_dataset['description'] = mubawab_dataset['description'].apply(lambda x: str(x).replace("\\t", " ").replace("\\n", " "))

In [44]:
mubawab_dataset['complete_description'] = mubawab_dataset['complete_description'].apply(lambda x: str(x).replace("\\t", " ").replace("\\n", " "))

In [46]:
mubawab_dataset['features_list'] = mubawab_dataset['features_list'].apply(lambda x: str(x).replace("\\t", " ").replace("\\n", " "))

In [47]:
mubawab_dataset.head()

Unnamed: 0_level_0,advertisement_url,title,publication_date,price,location,description,complete_description,features_list,insert_date
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,https://www.mubawab.ma/fr/pa/7779122/bel-appar...,Bel Appartement à vendre à Mohammedia,Publié aujourdhui,1 034 750 DH,Centre Ville à Mohammedia,83 m² ;3 Pièces;2 Chambres;1 Sa...,"<p>RESIDENCE NATURA LIVING, une résidence verd...",Jardin;Terrasse;Garage;Ascenseur;Piscine;Conci...,2024-04-30
2,https://www.mubawab.ma/fr/pa/6292037/apparteme...,"Appartement de 94m² 3 chambre en vente, Rio Be...",Publié aujourdhui,11 000 DH,Sidi Rahal,94 m² ;4 Pièces;3 Chambres;2 Sa...,"<p>Agréable appartement à vendre. 4 pièces, 3 ...",Jardin;Terrasse;Garage;Vue sur mer;Piscine;Con...,2024-04-30
3,https://www.mubawab.ma/fr/pa/7203490/apparteme...,"Appartement de 100 m² en vente, Eden Island Bo...",Publié aujourdhui,2 200 000 DH,Plage Oued Cherrat à Bouznika,100 m² ;3 Pièces;2 Chambres;1 S...,"<p>Découvrez « EDEN ISLAND », une réalisation ...",Orientation: Sud ...,2024-04-30
4,https://www.mubawab.ma/fr/pa/7617451/apparteme...,Appartement 55m² en vente Riad Assalam,Publié aujourdhui,250 000 DH,Al Aalia à Mohammedia,55 m² ;4 Pièces;3 Chambres;1 Sa...,<p>Achetez l'appartement de vos rêves au milie...,Ascenseur,2024-04-30
5,https://www.mubawab.ma/fr/pa/7859027/superbe-a...,Superbe appartement à vendre à Boukhalef. 2 ch...,Publié aujourdhui,"N,Boukhalef à Tanger """,72 m² ;3 Pièces;2 Chambres;2 Sa...,"<p>Appartement idéal à la vente. 3 pièces, 2 s...",Jardin;Concierge;Sécurité;Cuisine équipée,2024-04-30,


## 3.2 Fix the shifted values issue in some lines

In [50]:
mubawab_dataset.iloc[4]

advertisement_url       https://www.mubawab.ma/fr/pa/7859027/superbe-a...
title                   Superbe appartement à vendre à Boukhalef. 2 ch...
publication_date                                  Publié aujourdhui      
price                                     N,Boukhalef à      Tanger     "
location                      72      m²     ;3 Pièces;2 Chambres;2 Sa...
description             <p>Appartement idéal à la vente. 3 pièces, 2 s...
complete_description            Jardin;Concierge;Sécurité;Cuisine équipée
features_list                                                  2024-04-30
insert_date                                                           NaN
Name: 5, dtype: object

----------------------------------------------------------------------------------------------------
(***!***) **As what we can notice here :** 
- That "*insert_data*" value is "*NaN*", but in reality it's in the wrong field "*features_list*".
- Also the field "*complete_description*" has the value of "*features_list*" field.
- and so on ...

so from the "*price*" field until "*insert_date*" field, the values were shifted.

to solve this issue we gonna use the next code bloc:

In [161]:
def is_shifted(row):
    """
    Check if current line is shifted or not.
    """
    date_pattern = r"^\d{4}-\d{2}-\d{2}$"
    
    if str(row['insert_date']) == 'nan' and re.match(r"^\d{4}-\d{2}-\d{2}$" , str(row['features_list'])):
        return True
    return False

In [162]:
 def fix_shift(row):
        row.loc["price": "insert_date"] = row.loc["price": "insert_date"].shift(1)
        row.loc["price"] = "nan" 
        return row

In [166]:
def detect_and_fix_shifted_rows(dataframe):
    corrected_df = dataframe.copy()
    for index, row in dataframe.iterrows():
        if is_shifted(row):
            corrected_df.loc[index] = fix_shift(row)
    
    return corrected_df

In [169]:
print("Original DataFrame:")
mubawab_dataset.head()

Original DataFrame:


Unnamed: 0_level_0,advertisement_url,title,publication_date,price,location,description,complete_description,features_list,insert_date
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,https://www.mubawab.ma/fr/pa/7779122/bel-appar...,Bel Appartement à vendre à Mohammedia,Publié aujourdhui,1 034 750 DH,Centre Ville à Mohammedia,83 m² ;3 Pièces;2 Chambres;1 Sa...,"<p>RESIDENCE NATURA LIVING, une résidence verd...",Jardin;Terrasse;Garage;Ascenseur;Piscine;Conci...,2024-04-30
2,https://www.mubawab.ma/fr/pa/6292037/apparteme...,"Appartement de 94m² 3 chambre en vente, Rio Be...",Publié aujourdhui,11 000 DH,Sidi Rahal,94 m² ;4 Pièces;3 Chambres;2 Sa...,"<p>Agréable appartement à vendre. 4 pièces, 3 ...",Jardin;Terrasse;Garage;Vue sur mer;Piscine;Con...,2024-04-30
3,https://www.mubawab.ma/fr/pa/7203490/apparteme...,"Appartement de 100 m² en vente, Eden Island Bo...",Publié aujourdhui,2 200 000 DH,Plage Oued Cherrat à Bouznika,100 m² ;3 Pièces;2 Chambres;1 S...,"<p>Découvrez « EDEN ISLAND », une réalisation ...",Orientation: Sud ...,2024-04-30
4,https://www.mubawab.ma/fr/pa/7617451/apparteme...,Appartement 55m² en vente Riad Assalam,Publié aujourdhui,250 000 DH,Al Aalia à Mohammedia,55 m² ;4 Pièces;3 Chambres;1 Sa...,<p>Achetez l'appartement de vos rêves au milie...,Ascenseur,2024-04-30
5,https://www.mubawab.ma/fr/pa/7859027/superbe-a...,Superbe appartement à vendre à Boukhalef. 2 ch...,Publié aujourdhui,"N,Boukhalef à Tanger """,72 m² ;3 Pièces;2 Chambres;2 Sa...,"<p>Appartement idéal à la vente. 3 pièces, 2 s...",Jardin;Concierge;Sécurité;Cuisine équipée,2024-04-30,


In [170]:
corrected_mubawab_dataset = detect_and_fix_shifted_rows(mubawab_dataset)
print("\nCorrected DataFrame:")
corrected_mubawab_dataset.head()


Corrected DataFrame:


Unnamed: 0_level_0,advertisement_url,title,publication_date,price,location,description,complete_description,features_list,insert_date
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,https://www.mubawab.ma/fr/pa/7779122/bel-appar...,Bel Appartement à vendre à Mohammedia,Publié aujourdhui,1 034 750 DH,Centre Ville à Mohammedia,83 m² ;3 Pièces;2 Chambres;1 Sa...,"<p>RESIDENCE NATURA LIVING, une résidence verd...",Jardin;Terrasse;Garage;Ascenseur;Piscine;Conci...,2024-04-30
2,https://www.mubawab.ma/fr/pa/6292037/apparteme...,"Appartement de 94m² 3 chambre en vente, Rio Be...",Publié aujourdhui,11 000 DH,Sidi Rahal,94 m² ;4 Pièces;3 Chambres;2 Sa...,"<p>Agréable appartement à vendre. 4 pièces, 3 ...",Jardin;Terrasse;Garage;Vue sur mer;Piscine;Con...,2024-04-30
3,https://www.mubawab.ma/fr/pa/7203490/apparteme...,"Appartement de 100 m² en vente, Eden Island Bo...",Publié aujourdhui,2 200 000 DH,Plage Oued Cherrat à Bouznika,100 m² ;3 Pièces;2 Chambres;1 S...,"<p>Découvrez « EDEN ISLAND », une réalisation ...",Orientation: Sud ...,2024-04-30
4,https://www.mubawab.ma/fr/pa/7617451/apparteme...,Appartement 55m² en vente Riad Assalam,Publié aujourdhui,250 000 DH,Al Aalia à Mohammedia,55 m² ;4 Pièces;3 Chambres;1 Sa...,<p>Achetez l'appartement de vos rêves au milie...,Ascenseur,2024-04-30
5,https://www.mubawab.ma/fr/pa/7859027/superbe-a...,Superbe appartement à vendre à Boukhalef. 2 ch...,Publié aujourdhui,,"N,Boukhalef à Tanger """,72 m² ;3 Pièces;2 Chambres;2 Sa...,"<p>Appartement idéal à la vente. 3 pièces, 2 s...",Jardin;Concierge;Sécurité;Cuisine équipée,2024-04-30


In [172]:
sum(corrected_mubawab_dataset['insert_date'].isna())

0