### <p style="text-align: center;">Script de Web Scraping : Annonces de Location Immobilière</p>



## 0. Introduction

#### {} Ce code permet l'extraction des informations des annonces de locations immobilières dans deux villes : Rabat  et Marrakech, à partir de deux sites web : RabatImmo.ma et Sarouty.ma. 
#### {} Il utilise <strong>Selenium</strong> pour naviguer  sur les pages et charger dynamiquement le contenu, ainsi que <strong>BeautifulSoup</strong> pour analyser le HTML et extraire les informations pertinentes.

## 1. Installation

In [None]:
!pip install selenium
!pip install BeautifulSoup
!pip install Flask

## 2. Code

### 2.1 Importation des bibliotheques

In [30]:
from selenium import webdriver
from bs4 import BeautifulSoup
from flask import Flask, render_template
import time, json, pandas as pd

### 2.2 Les fonctions

#### 2.2.1 Ouverture du navigateur via Selenium et récupération du contenu des pages.  

In [33]:
def get_html(url):
    # Ouvrir la page avec Selenium
    driver.get(url)
    
    # Attendre que la page se charge complètement
    time.sleep(4)
    
    # Récupérer le contenu de la page
    page_source = driver.page_source
    
    # Faire défiler la page pour charger plus de contenu
    scroller()
    
    # Utiliser BeautifulSoup pour parser le contenu et le retourner
    return BeautifulSoup(page_source, 'lxml')

#### 2.2.2 Défilement automatique pour charger toutes les annonces.

In [35]:
def scroller():
    # Récupérer la hauteur totale de la page
    page_height = driver.execute_script("return document.body.scrollHeight")
    
    # Scroller progressivement pour charger toutes les annonces
    for i in range(7):
        scroll_position = (i + 1) * (page_height / 7)
        driver.execute_script(f"window.scrollTo(0, {scroll_position});")
        time.sleep(1)

#### 2.2.3 Scraping du site 1

In [37]:
def scrape_site_1():
    # Récupérer le code HTML de la page
    soup = get_html("https://rabatimmo.ma/")
    
    # Liste pour stocker les annonces
    annonces_data = []

    # Récupérer toutes les annonces de la page
    annonces = soup.find_all('div', class_="rh_prop_card__details_elementor")
    
    for annonce in annonces:
        if annonce:
            # Extraction des éléments d'une annonce
            description_element = annonce.find('h3')
            lien_element        = annonce.find('a')
            prix_element        = annonce.find('p', class_="rh_prop_card__price")

            # Récupération des données texte
            description = description_element.a.get_text(strip=True) if description_element and description_element.a else None
            prix        = prix_element.get_text(strip=True) if prix_element else None
            adresse     = None  # Adresse non disponible sur ce site
            lien        = lien_element.get('href') if lien_element else None

            # Récupération des informations supplémentaires (chambres, salles de bains, surface)
            infos = annonce.find_all('span', class_="figure")
            nb_chambres = infos[0].get_text(strip=True) if len(infos) > 0 else None
            nb_sbains   = infos[1].get_text(strip=True) if len(infos) > 1 else None
            surface     = infos[2].get_text(strip=True) if len(infos) > 2 else None

            # Ajouter l'annonce sous forme de dictionnaire
            annonces_data.append({
                "site": "rabatimmo.ma",
                "lien_annonce": lien,
                "titre": description,
                "prix": prix,
                "adresse": adresse,
                "nb_chambres": nb_chambres,
                "nb_salles_de_bains": nb_sbains,
                "surface": surface
            })
    return annonces_data

#### 2.2.4 Scraping du site 2

In [39]:
def scrape_site_2():
    # Récupérer le code HTML de la page
    soup = get_html("https://www.sarouty.ma/louer/marrakech/appartements-a-louer.html")

    # Liste pour stocker les annonces
    annonces_data = []

    # Récupérer toutes les annonces de la page
    annonces = soup.find_all('div', class_="card__body")
    
    for annonce in annonces:
        if annonce:
            # Extraction des éléments d'une annonce
            description_element = annonce.find('h2', class_="card-intro__title")
            lien_element        = annonce.find_previous_sibling()  # Trouver l'élément frère précédent
            prix_element        = annonce.find('p', class_="card-intro__price")
            adresse_element     = annonce.find('span', class_="card-specifications__location-text")

            # Récupération des données texte
            description = description_element.get_text(strip=True) if description_element else None
            lien        = lien_element.get('href') if lien_element else None
            prix        = prix_element.get_text(strip=True) if prix_element else None
            adresse     = adresse_element.get_text(strip=True) if adresse_element else None

            # Récupération des informations supplémentaires (chambres, salles de bains, surface)
            infos = annonce.find_all('p', class_="card-specifications__item")
            nb_chambres = infos[0].get_text(strip=True) if len(infos) > 0 else None
            nb_sbains   = infos[1].get_text(strip=True) if len(infos) > 1 else None
            surface     = infos[2].get_text(strip=True) if len(infos) > 2 else None

            # Ajouter l'annonce sous forme de dictionnaire
            annonces_data.append({
                "site": "www.sarouty.ma",
                "lien_annonce": lien,
                "titre": description,
                "prix": prix,
                "adresse": adresse,
                "nb_chambres": nb_chambres,
                "nb_salles_de_bains": nb_sbains,
                "surface": surface
            })
    return annonces_data


### 3. Le code principale pour scraper les 2 sites

In [41]:
# Initialisation du WebDriver
options = webdriver.ChromeOptions()
options.add_argument("--start-maximized")  # Exécuter en mode plein écran

driver = webdriver.Chrome(options=options)

# Scraper les sites et fusionner les résultats
data_site_1 = scrape_site_1()
data_site_2 = scrape_site_2()
merged_data = data_site_1 + data_site_2

# Enregistrer les résultats dans un fichier JSON
with open("annonces.json", "w", encoding="utf-8") as f:
    json.dump(merged_data, f, indent=4, ensure_ascii=False)

# Fermer le navigateur après le scraping
driver.quit()

## 4. Affichage du Data:

### 4.0 En utilisant la bib pandas

In [44]:
# Charger les données depuis le fichier JSON
df = pd.read_json("annonces.json")

# Afficher toutes les colonnes
pd.set_option('display.max_columns', None)

# Afficher le DataFrame
print(df)


              site                                       lien_annonce  \
0     rabatimmo.ma  https://rabatimmo.ma/property/location-un-appa...   
1     rabatimmo.ma  https://rabatimmo.ma/property/bureau-a-louer-5...   
2     rabatimmo.ma  https://rabatimmo.ma/property/location-apparte...   
3     rabatimmo.ma  https://rabatimmo.ma/property/location-villa-n...   
4     rabatimmo.ma  https://rabatimmo.ma/property/des-appartement-...   
5     rabatimmo.ma  https://rabatimmo.ma/property/location-villa-b...   
6   www.sarouty.ma  https://www.sarouty.ma/plp/louer/appartement-a...   
7   www.sarouty.ma  https://www.sarouty.ma/plp/louer/appartement-a...   
8   www.sarouty.ma  https://www.sarouty.ma/plp/louer/appartement-a...   
9   www.sarouty.ma  https://www.sarouty.ma/plp/louer/appartement-a...   
10  www.sarouty.ma  https://www.sarouty.ma/plp/louer/appartement-a...   
11  www.sarouty.ma  https://www.sarouty.ma/plp/louer/appartement-a...   
12  www.sarouty.ma  https://www.sarouty.ma/plp/loue

#### 4.1 En utilisant le frameworke flask de python : pour les visualiser sous forme d'une table bien organisee

In [None]:
app = Flask(__name__)

@app.route("/")
def home():
    with open("annonces.json","r", encoding="utf-8") as fichier:
        scrape_sites = json.load(fichier)
    return render_template("index.html",annonces = scrape_sites)

if __name__ == "__main__":
    app.run(debug=False)

 * Serving Flask app '__main__'
 * Debug mode: off


 * Running on http://127.0.0.1:5000
Press CTRL+C to quit
127.0.0.1 - - [21/Mar/2025 09:25:37] "GET / HTTP/1.1" 200 -
127.0.0.1 - - [21/Mar/2025 09:25:37] "GET /static/style.css HTTP/1.1" 404 -
127.0.0.1 - - [21/Mar/2025 10:17:46] "GET / HTTP/1.1" 200 -
127.0.0.1 - - [21/Mar/2025 10:17:46] "GET /static/style.css HTTP/1.1" 404 -
