## Projet de Web Scraping : Analyse des variations de prix des loyers dans la région de Dakar

Réalisé par: **Cheikh Ahmadou Tidiani Top**

Ingénieur Logiciel, spécialiste en Developement Backend


Master 1 Science des Données et Application, Ingénieurie IntelliA


###  Plan de travail:
1. Objectif de l'étude
2. Récolte de données
3. Nettoyage et prétraitement des données
4. Analyse et Visualisation
5. Evaluation des résultats
6. Conclusion
7. Aspects Légaux et Éthiques

## 1. L'objectif

Environ 4 millions de citoyens de sénégalais vivent à Dakar, soit 1/4 de la population en 2024. Les disparités sont tangibles à toutes les échélles de l'économie. Mais géographiquement, quelle aperçu peut on avoir de ses inégalités en se focalisant sur un secteur clé qu'est l'immobilier ou plus explicitement la location d'appartement? La réponse est dans cette étude.

## 2. Récolte de données

### 2.1 Recherches de données

Une partie importante des annonces de locations et de ventes dans le dommaine de l'immobilier passe par les plateformes de ecommerce et les réseaux sociaux. Ces derniers sont donc des champs vitaux pour récolter des données pour notre culture, pardon notre étude :). 
Les plateformes de ecommerce comme Expat-Dakar, CoinAfrique et Jumia Sénégal sont les plus populaires. Pour notre cas nous nous sommes limité à scrapper nos données à partir de Expat Dakar qui se voit être "le plus grand site de petits annonces au Sénégal". 

![image.png](attachment:image.png)

Comme visible sur le menu, la location et la vente de véhicule, l'immobilier et les offres d'emplois, sont des activités clés du site. Nous allons faire focus sur la section 'immobilier' et plus précisément les appartements à louer à Dakar

![image.png](attachment:image.png)  ![image-2.png](attachment:image-2.png)

### 2.2 Scrapping des données d'annonces

Les élements d'annonces sont sur des cards et listés sur une centaintes de pages. En tout il y'a 1122 annonces.

La structure d'une annonce est la suivante: 
* Image illustratif
* Titre
* Nombre de chambres
* Adresse, Region
* Date d'annonce
* Prix
* Contact de l'annonceur (donnée personnelle)

En inspectant un élement d'annonce nous pouvons trouver les tags, class et id pour scrapper ces informations avec BeautifulSoup & Requests.

In [1]:
import requests
from bs4 import BeautifulSoup
import csv

In [2]:
# URL de la page d'annonces immobilières
url = 'https://www.expat-dakar.com/appartements-a-louer/dakar'
# Envoyer une requête HTTP pour obtenir le contenu de la page
response = requests.get(url)

In [3]:
soup = BeautifulSoup(response.content, 'html.parser')

# Trouver les sections contenant les annonces
annonces = soup.find_all('div', class_='listings-cards__list-item')
data=[]
 # Parcourir chaque annonce et extraire les informations souhaitées
for annonce in annonces:
    titre = annonce.find('div', class_='listing-card__header__title').get_text(strip=True)
    prix = annonce.find('span', class_='listing-card__price__value').get_text(strip=True)
    data.append({
                    'Titre': titre,
                    'Prix': prix
                })
print(data)

[{'Titre': 'NOUVELLE RESIDENCE FANN RESIDENCE', 'Prix': '3\u202f000\u202f000 F Cfa'}, {'Titre': 'Appartement à louer - ADJA LOUISE', 'Prix': '1\u202f200\u202f000 F Cfa'}, {'Titre': 'Bel appartement 2 chambres Mermoz', 'Prix': '600\u202f000 F Cfa'}, {'Titre': 'Standing duplex à louer à ngor', 'Prix': '700\u202f000 F Cfa'}, {'Titre': 'Studio à louer à liberté 06', 'Prix': '500\u202f000 F Cfa'}, {'Titre': 'Deux chambres salon à louer', 'Prix': '500\u202f000 F Cfa'}, {'Titre': 'Deux chambres à louer par mois', 'Prix': '500\u202f000 F Cfa'}, {'Titre': 'Grand et lumineux F5 de 300 m2 à louer à Yoff', 'Prix': '1\u202f200\u202f000 F Cfa'}, {'Titre': 'Appartement meublé à louer', 'Prix': '1\u202f800\u202f000 F Cfa'}, {'Titre': 'Appartement à louer', 'Prix': '2\u202f000\u202f000 F Cfa'}, {'Titre': 'Appartements 3 chambres salon neufs aux Almadies méridien', 'Prix': '1\u202f900\u202f000 F Cfa'}, {'Titre': 'Appartements 4 chambres salon neufs aux Almadies', 'Prix': '2\u202f400\u202f000 F Cfa'}]


Pour récupèrer plusieurs données nous aurons besoin de d'itérer sur plusieur pages. Pour ce faire nous avons défini la fonction suivante.
Le code tient en compte des cas d'exception ou certains champs ne sont pas renseignés dans une annonce. Chose que nous avons effectuée apès s'être cogné devant quelques bugs durant le scrapping :)

In [15]:
def expat_pages_scraper():
    for page in range(1,111):
        # URL générique de la page d'annonces immobilières
        url = 'https://www.expat-dakar.com/appartements-a-louer/dakar?page='+str(page)

        # Envoyer une requête HTTP pour obtenir le contenu de la page
        response = requests.get(url)
        if response.status_code == 200:
            soup = BeautifulSoup(response.content, 'html.parser')

            # Trouver les sections contenant les annonces
            annonces = soup.find_all('div', class_='listings-cards__list-item')

            # Créer une liste pour stocker les données des annonces
            data = []

            # Parcourir chaque annonce et extraire les informations souhaitées
            for annonce in annonces:
                try:
                    titre = annonce.find('div', class_='listing-card__header__title').get_text(strip=True)
                except AttributeError:
                    titre = None
                try:
                    prix = annonce.find('span', class_='listing-card__price__value').get_text(strip=True)
                except AttributeError:
                    prix =None
                try:
                    localisation = annonce.find('div', class_='listing-card__header__location').get_text(strip=True).strip()
                except AttributeError:
                    localisation=None
                try:
                    date = annonce.find('div', class_='listing-card__header__date').get_text(strip=True)
                except AttributeError:
                    date=None
                try:
                    chambres = annonce.find('span', class_='listing-card__header__tags__item--no-of-bedrooms').get_text(strip=True)
                except AttributeError:
                    chambres=None
                    

                data.append({
                    'Titre': titre,
                    'Prix': prix,
                    'Localisation': localisation,
                    'Date': date,
                    'Chambres': chambres
                })
                
                    

            # Enregistrer les données dans un fichier CSV
            with open('dakar_appartements.csv', 'a', newline='', encoding='utf-8') as csvfile:
                
                fieldnames = ['Titre', 'Prix', 'Localisation', 'Date', 'Chambres']
                writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
                if page==1:
                    writer.writeheader()
                writer.writerows(data)
            if page==100:
                print('Scraping terminé. Les données sont enregistrées dans dakar_appartements.csv')

        else:
            print(f"Échec de la requête. Statut de la réponse : {response.status_code}")


In [17]:
# On execute pour obtenir les données
expat_pages_scraper()


Scraping terminé. Les données sont enregistrées dans dakar_appartements.csv


### 2.3 Exploration des données brutes

In [64]:
# Import des librairies de bases pour l'analyse
import pandas as pd
import numpy as np

In [65]:
column_labels=['titre','prix','addresse','date','chambres']
df=pd.read_csv("dakar_appartements.csv",names=column_labels, skiprows=1)

In [66]:
df.head(7)

Unnamed: 0,titre,prix,addresse,date,chambres
0,Appartement NEUF à Fann Résidence,1 700 000 F Cfa,"Fann,\nDakar","23. mai, 10:43",3 chambre
1,Appartement à louer - ADJA LOUISE,1 200 000 F Cfa,"Mermoz,\nDakar","lundi, 12:24",3 chambre
2,Appartement f4 neuf à louer à amitié,600 000 F Cfa,"Amitié,\nDakar","Hier, 22:43",3 chambre
3,Magnifique f4 face mer aux mamelles,1 600 000 F Cfa,"Mamelles,\nDakar","Hier, 18:12",3 chambre
4,f4 à louer sur la route du meridien,900 000 F Cfa,"Almadies,\nDakar","Hier, 18:12",3 chambre
5,appartement de standing Ouest Foire,400 000 F Cfa,"Ouest foire,\nDakar","Hier, 18:11",3 chambre
6,appartement f4 de standing sur la route du mer...,1 100 000 F Cfa,"Almadies,\nDakar","Hier, 18:11",3 chambre


In [67]:
df.dtypes

titre       object
prix        object
addresse    object
date        object
chambres    object
dtype: object

In [68]:
df['prix'].unique()

array(['1\u202f700\u202f000 F Cfa', '1\u202f200\u202f000 F Cfa',
       '600\u202f000 F Cfa', '1\u202f600\u202f000 F Cfa',
       '900\u202f000 F Cfa', '400\u202f000 F Cfa',
       '1\u202f100\u202f000 F Cfa', '700\u202f000 F Cfa',
       '300\u202f000 F Cfa', '350\u202f000 F Cfa', '800\u202f000 F Cfa',
       '250\u202f000 F Cfa', '3\u202f000\u202f000 F Cfa',
       '650\u202f000 F Cfa', '1\u202f300\u202f000 F Cfa',
       '1\u202f000\u202f000 F Cfa', '325\u202f000 F Cfa',
       '130\u202f000 F Cfa', '1\u202f500\u202f000 F Cfa',
       '500\u202f000 F Cfa', '550\u202f000 F Cfa', '750\u202f000 F Cfa',
       '2\u202f300\u202f000 F Cfa', '380\u202f000 F Cfa',
       '2\u202f600\u202f000 F Cfa', '2\u202f100\u202f000 F Cfa',
       '425\u202f000 F Cfa', '310\u202f000 F Cfa',
       '6\u202f000\u202f000 F Cfa', '200\u202f000 F Cfa',
       '2\u202f500\u202f000 F Cfa', '518\u202f000 F Cfa',
       '225\u202f000 F Cfa', '450\u202f000 F Cfa', '1 F Cfa',
       '1\u202f050\u202f000 F Cfa', '8

Anomalies des données brutes
1. Le format des prix contient des caractères qu'il faudra traité pour les transformer evaleur numérique.
2. La région est répétée dans chaque addresse
3. Des annonces de ventes sont mélangées avec les données de location (cas ligne 1 et 2)
4. Certaines annonces informe d'un faux prix (cas 1 FCFA ligne 5)
5. Le type chambre n'est pas (encore) une donnée numérique

Voilà entre autres annomalies que nous devons soigner avant de procéder à l'analyse

## 3. Nettoyage et prétraitement des données

Le prix et le nombre de chambre sont les deux paramétres principales pour analyser le coût de la location. Donc si ils sont maquants sur une donnée, elle ne nous est plus utile.

In [69]:
# Suppression des lignes sans prix ou nombres de chambres
df=df.dropna(subset=['prix','chambres'])

In [70]:

# Preprocessing de la colonne the address
df['addresse'] = df['addresse'].str.replace(r'\nDakar', '', regex=True)

# Convertion du prix en integer par suppression de " F Cfa", des espaces et caractères ambiguës
df['prix'] = df['prix'].astype(str).str.replace('F Cfa', '', regex=True).str.replace(' ', '').str.replace(',','').str.replace('.','')#.astype(str)
df = df[df['prix'] != "Prix"]
df['prix'] = df['prix'].str.replace(r'\u202f', '').str.replace(r'\s', '').astype(int)

  df['prix'] = df['prix'].astype(str).str.replace('F Cfa', '', regex=True).str.replace(' ', '').str.replace(',','').str.replace('.','')#.astype(str)
  df['prix'] = df['prix'].str.replace(r'\u202f', '').str.replace(r'\s', '').astype(int)


In [71]:

# Suppression de l'unité "chambre" et convertion du nombres de chambres en integers
df['chambres'] = df['chambres'].str.replace(r'chambre', '').astype(int)

df.dtypes

titre       object
prix         int32
addresse    object
date        object
chambres     int32
dtype: object

In [72]:
df.sample(7)

Unnamed: 0,titre,prix,addresse,date,chambres
823,Magnifique F4 à Louer à Yoff Océan,900000,"Yoff,","3. juin, 09:54",3
1144,Duplex avec terrasse privée aux Almadies,2500000,"Almadies,","3. mai, 16:18",5
1044,Appartements KALIA - Zone de captage,450000,"Zone de captage,","11. juil., 22:19",3
975,Appartement F4 à louer Hann Maristes,325000,"Hann Bel-Air,","21. mai, 01:43",3
49,APPARTEMENT À LA CITÉ BOURGUIBA,550000,"Avenue Bourguiba,","jeudi, 13:10",2
955,Appartement à louer à fan résidence,1600000,"Fann,","29. mai, 10:26",3
1114,Appartement F5 de standing à louer aux Almadies,1500000,"Almadies,","6. mai, 14:37",4


Aperçu des prix et des intrus

In [73]:
df['prix'].unique()

array([  1700000,   1200000,    600000,   1600000,    900000,    400000,
         1100000,    700000,    300000,    350000,    800000,    250000,
         3000000,    650000,   1300000,   1000000,    325000,    130000,
         1500000,    500000,    550000,    750000,   2300000,    380000,
         2600000,   2100000,    425000,    200000,   2500000,    518000,
          225000,    450000,         1,   1050000,    850000,    790000,
           25000,   1800000,   1400000,   4000000,    150000,   2800000,
         2000000,   2700000, 316800000,     35000,    475000,    285000,
         2200000,   1900000,    235000,    375000,   1875000,   1560000,
          410000,    160000,   4500000,    621600,   2400000,    260000,
               3,   3500000,    175000,   1850000,    414000,   2850000,
          170000,   1250000,   1864800,   1450000,   2900000,    330000,
         4200000,   3300000,    275000,   2750000,   3700000,    950000,
          360000,   3900000,    135000,    180000, 

In [74]:
df[df['titre'].str.contains(r'vendre')]

Unnamed: 0,titre,prix,addresse,date,chambres
146,Bel appartement à vendre aux Almadies,316800000,"Almadies,","mardi, 15:06",4
859,Bel appartement vue mer à vendre route du king...,420000000,"Almadies,","30. mai, 11:50",3


Suppressions des faux prix et des intrus 

In [75]:
df=df[df['titre'].str.contains(r'vendre')==False]
df=df[df['prix']>= 10000]
df=df[df['chambres']< 10]

Là on est bon pour l'analyse. Ou presque.

### Normalisation des prix

En effet, il n'est pas possible de comparer des ampartements ayant des nombres de chambres différents. Il nous faut alors définir une nouvelle donnée qui est le prix par chambre. Por ne pas se compliquer la vie considérons juste que c'est le prix divisé par le nombre de chambres.

In [76]:
df['prix_par_chambre']=df['prix']/df['chambres']
df.sample(7)

Unnamed: 0,titre,prix,addresse,date,chambres,prix_par_chambre
1021,APPARTEMENT À LA CITÉ BOURGUIBA,550000,"Avenue Bourguiba,","jeudi, 13:10",2,275000.0
255,Appartement haut standing au Point-e,1500000,"Point-e,","10. juil., 10:14",3,500000.0
1007,Appartement neuf à louer aux Mamelles,400000,"Mamelles,","16. mai, 11:46",3,133333.333333
169,Appartement à louer - ADJA LOUISE,1200000,"Mermoz,","lundi, 12:24",3,400000.0
251,Bel appartement lumineux à louer a yoff Onomo,1500000,"Yoff,","jeudi, 09:44",3,500000.0
90,Appartement F4 haut standing aux Mamelles,1050000,"Mamelles,","jeudi, 06:26",3,350000.0
1115,APPARTEMENT AUX MAMELLES,400000,"Mamelles,","6. mai, 13:53",2,200000.0


### Recherche et Traitement des données abérrantes

Les faux prix nettoyés plutôt étaient en question des données abérrantes. Plus généralement, on les prix "exagérés" de location sont nocifs pour une bonne analyse des données. C'est pour cette raison qu'il faut se purifier de ces cas.

#### Z score : une mesure de la dispertion autour de la moyenne

La cote Z correspond au nombre d'écarts types séparant une donnée de la moyenne dans la distribution d’une variable aléatoire. Il s’agit d’une statistique largement utilisée dans l’analyse de données quantitatives, dans tous les domaines scientifiques où une telle analyse est pertinente.

![image.png](attachment:image.png)

From https://fr.wikipedia.org/wiki/Cote_Z_(statistiques)

![image.png](attachment:image.png) 

From https://articles.outlier.org/z-score-formula-examples-and-how-to-interpret

Calculons Z score sur le prix par chambre et observons les actuelles données abérrantes

In [77]:
# Calculate Z-scores
df['Z_score'] = np.abs((df['prix_par_chambre'] - df['prix_par_chambre'].mean()) / df['prix_par_chambre'].std())

# Remove values with Z-score greater than 3 (considered as outliers)
data_without_outliers = df[(df['Z_score'] < 3) & (df['Z_score'] > -3)]['prix_par_chambre']
outliers = df[(df['Z_score'] >= 3) | (df['Z_score'] <= -3)]['prix_par_chambre']
print(outliers)

173     1.150000e+06
221     1.125000e+06
268     1.200000e+06
329     1.166667e+06
393     1.250000e+06
891     1.500000e+06
898     1.200000e+06
910     1.150000e+06
921     1.600000e+06
1077    1.400000e+06
1106    1.300000e+06
1269    1.166667e+06
1283    1.250000e+06
Name: prix_par_chambre, dtype: float64


In [78]:
# Affichons les deux minimums et les deux maximums
df.loc[[921,221,1283,891]]

Unnamed: 0,titre,prix,addresse,date,chambres,prix_par_chambre,Z_score
921,Superbe appartement vue mer,1600000,"Almadies,","26. mai, 14:18",1,1600000.0,5.001782
221,Penthouse F6(vue mer 360 degrés) route du King...,4500000,"Almadies,","vendredi, 12:22",4,1125000.0,3.087625
1283,Penthouse à louer à fann résidence,5000000,"Fann,","11. juil., 09:54",4,1250000.0,3.59135
891,Appartement F4 à louer au Point E,1500000,"Point-e,","28. mai, 15:29",1,1500000.0,4.598801


Appartement 921 et 891 sont à plus de 4 écart type

#### Un détail important: Un Z score paramétré sur l'addresse
En effet, nous sommes dans une logique de comparer les coût du loyer entre différentes zones de la régions de Dakar, alors il semble plus convenable d'évaluer par groupe d'addresse les moyennes de prix par chambre. En d'autres termes il faut paramétré Z score suivant l'adresse

In [79]:
# Function pour calculer Z-scores pour un group de même addresse
def calculate_z_score(data, threshold):
    mean = data.mean()
    std_dev = data.std()
    z_scores = np.abs((data - mean) / std_dev)
    return z_scores

In [80]:

# Group by 'addresse' et calculer les Z-scores
df['Z_score'] = df.groupby('addresse')['prix_par_chambre'].transform(lambda x: calculate_z_score(x, 3))

#Retirer les valeurs dont les scores Z dépassent le seuil spécifié de 3
data_without_outliers = df[(df['Z_score'] < 3) & (df['Z_score'] > -3)]['prix_par_chambre']
outliers = df[(df['Z_score'] >= 3) | (df['Z_score'] <= -3)]['prix_par_chambre']
print(outliers)

30      2.000000e+05
147     1.000000e+06
184     1.000000e+06
329     1.166667e+06
393     1.250000e+06
473     6.500000e+05
602     1.300000e+05
621     8.333333e+05
843     8.250000e+05
858     2.800000e+05
891     1.500000e+06
921     1.600000e+06
959     8.333333e+05
1074    8.750000e+05
1077    1.400000e+06
1106    1.300000e+06
1119    1.333333e+05
1132    8.666667e+05
1162    2.500000e+04
1283    1.250000e+06
1294    9.000000e+05
1305    1.666667e+05
Name: prix_par_chambre, dtype: float64


In [81]:
df.head(2)

Unnamed: 0,titre,prix,addresse,date,chambres,prix_par_chambre,Z_score
0,Appartement NEUF à Fann Résidence,1700000,"Fann,","23. mai, 10:43",3,566666.666667,0.958599
1,Appartement à louer - ADJA LOUISE,1200000,"Mermoz,","lundi, 12:24",3,400000.0,0.174307


####  Remarque:
Par comparaison avec la première liste des outliers, on remarque que certaines données ne sont plus classées comme abérrantes. Cas 173, 221 et 260

## 4. Analyse et Visualisation

In [82]:
# On continue avec les données sans outliers
df=df[(df['Z_score'] < 3) & (df['Z_score'] > -3)]

In [83]:
df.describe(exclude=None)

Unnamed: 0,prix,chambres,prix_par_chambre,Z_score
count,1144.0,1144.0,1144.0,1144.0
mean,1057620.0,2.881119,353189.4,0.654796
std,839249.2,0.895127,233103.5,0.530427
min,20000.0,1.0,11666.67,0.0
25%,449989.5,2.0,166666.7,0.240968
50%,800000.0,3.0,283333.3,0.545567
75%,1500000.0,3.0,500000.0,0.958599
max,5000000.0,8.0,1200000.0,2.970994


L'addresse des appartements est une donnée géographique donc pouvant être coder en latitude et longitude. Cela nous permettra de vizualiser les résultats sur la carte de la région de Dakar et donc faciliter l'analyse.

Pour la suite nous auront besoin des modules suivant:
- geopy: Un API qui permet d'obtenir les coordonnées d'un lieu
- geopandas: Pandas pour les données géographiques
- folium : Pour la vizualisation sur une carte
- shapely: pour la transformation en geodata

La recette: **pip install pandas geopy geopandas shapely folium**

In [84]:
from geopy.geocoders import Nominatim
import geopandas as gpd
from shapely.geometry import Point
import folium
from folium.plugins import HeatMap

In [85]:
# Definition de la fonction d'encodage des addresses avec considération des problèmes de timeout
geolocator = Nominatim(user_agent="dakar_rental_analysis")
def get_coordinates(addresse, attempt=1, max_attempts=3):
    try:
        loc = geolocator.geocode(addresse + ", Dakar")
        return (loc.latitude, loc.longitude) if loc else (None, None)
    except GeocoderTimedOut:
        if attempt <= max_attempts:
            return get_coordinates(addresse, attempt=attempt+1)
        raise

In [86]:
#### J'essai avec chez moi
get_coordinates("Ngor Virage")

(None, None)

Pour ne pas encombrer l'API avec des addresses répétitives on trie les addresses d'abords

In [87]:
unique_addresses =df['addresse'].unique()
unique_addresses 

array(['Fann,', 'Mermoz,', 'Amitié,', 'Mamelles,', 'Almadies,',
       'Ouest foire,', 'Cité keur gorgui,', 'Liberte 6 extension,',
       'Liberte 6,', 'VDN,', 'Yoff,', 'Plateau,', 'Sacré-cœur,',
       'Keur Massar,', 'Ngor,', 'Avenue Bourguiba,', 'Hann maristes,',
       'Point-e,', 'Patte d‘oie,', 'Sud foire,', 'Sicap foire,',
       'Nord foire,', 'Cité Damel,', 'Rufisque,', 'Ouakam,', 'Virage,',
       'Zac Mbao,', 'Fann Hock,', 'Liberte 5,', 'Parcelles Assainies,',
       'Fenêtre mermoz,', 'Sicap baobab,', 'Cité biagui,',
       'Zone de captage,', 'Mbao,', 'Sangalkam,', 'Golf,', 'Bel air,',
       'Liberte 2,', 'Médina,', 'Almadies 2,', 'Cambérène,',
       'Hann marinas,', 'Tivaouane peulh,'], dtype=object)

Ensuite cherchons les coordonnées de chaque addresse

In [88]:
# Geocode the addresses with retry mechanism
coordinates = {}
for address in unique_addresses:
    lat, lon = get_coordinates(address)
    coordinates[address] = (lat, lon)

print(coordinates)

{'Fann,': (14.690791, -17.4665592), 'Mermoz,': (14.7074454, -17.474397), 'Amitié,': (14.7030079, -17.4586932), 'Mamelles,': (14.7311563, -17.5003005), 'Almadies,': (14.7441857, -17.5175251), 'Ouest foire,': (14.749386399999999, -17.470208394218957), 'Cité keur gorgui,': (14.711688899999999, -17.468716538355004), 'Liberte 6 extension,': (14.73349415, -17.467160709955944), 'Liberte 6,': (14.7310352, -17.4610459), 'VDN,': (14.7842013, -17.3936821), 'Yoff,': (14.7603583, -17.468149), 'Plateau,': (14.676817499999999, -17.439291520498784), 'Sacré-cœur,': (14.7114619, -17.4688689), 'Keur Massar,': (14.7822567, -17.311199), 'Ngor,': (14.7487915, -17.5149607), 'Avenue Bourguiba,': (14.7175901, -17.4509143), 'Hann maristes,': (14.7302972, -17.43279636626984), 'Point-e,': (14.6964782, -17.4641817), 'Patte d‘oie,': (14.746488, -17.4406887), 'Sud foire,': (14.7402649, -17.4624088), 'Sicap foire,': (14.7407716, -17.4637323), 'Nord foire,': (14.75268215, -17.460118545190657), 'Cité Damel,': (None, No

Faisons le mapping avec les lignes de notre dataframe pour obtenir un geodataframe

In [89]:
df[['Latitude', 'Longitude']] = df['addresse'].apply(lambda loc: pd.Series(coordinates[loc]))
df.dropna(subset=['Latitude', 'Longitude'], inplace=True)

# Create a GeoDataFrame
geometry = [Point(xy) for xy in zip(df['Longitude'], df['Latitude'])]
gdf = gpd.GeoDataFrame(df, geometry=geometry)

gdf.head(7)

Unnamed: 0,titre,prix,addresse,date,chambres,prix_par_chambre,Z_score,Latitude,Longitude,geometry
0,Appartement NEUF à Fann Résidence,1700000,"Fann,","23. mai, 10:43",3,566666.666667,0.958599,14.690791,-17.466559,POINT (-17.46656 14.69079)
1,Appartement à louer - ADJA LOUISE,1200000,"Mermoz,","lundi, 12:24",3,400000.0,0.174307,14.707445,-17.474397,POINT (-17.4744 14.70745)
2,Appartement f4 neuf à louer à amitié,600000,"Amitié,","Hier, 22:43",3,200000.0,1.194021,14.703008,-17.458693,POINT (-17.45869 14.70301)
3,Magnifique f4 face mer aux mamelles,1600000,"Mamelles,","Hier, 18:12",3,533333.333333,1.445509,14.731156,-17.500301,POINT (-17.5003 14.73116)
4,f4 à louer sur la route du meridien,900000,"Almadies,","Hier, 18:12",3,300000.0,0.496937,14.744186,-17.517525,POINT (-17.51753 14.74419)
5,appartement de standing Ouest Foire,400000,"Ouest foire,","Hier, 18:11",3,133333.333333,0.136326,14.749386,-17.470208,POINT (-17.47021 14.74939)
6,appartement f4 de standing sur la route du mer...,1100000,"Almadies,","Hier, 18:11",3,366666.666667,0.244793,14.744186,-17.517525,POINT (-17.51753 14.74419)


##### Aggrégation des données par groupe d'addresse et calcule de moyennes

In [90]:
# Calculate average price per neighborhood
avg_price_per_neighborhood = gdf.groupby('addresse').agg({
    'prix_par_chambre': 'mean',
    'Latitude': 'first',
    'Longitude': 'first'
}).reset_index()
avg_price_per_neighborhood.sample(3)

Unnamed: 0,addresse,prix_par_chambre,Latitude,Longitude
36,"VDN,",214844.444444,14.784201,-17.393682
13,"Keur Massar,",66034.482759,14.782257,-17.311199
38,"Yoff,",258269.230769,14.760358,-17.468149


##### Visualisation
D'abord on initialise la carte autour de Dakar. Puis on représente la moyenne des prix par voisinnage sur un carte de chaleur, les zones les plus chaudes représentent les plus chères en loyer.

In [91]:

dakar_map = folium.Map(location=[14.6928, -17.4467], zoom_start=12)

# Zones sur la carte de chaleurs
heat_data = [[row['Latitude'], row['Longitude'], row['prix_par_chambre']] for index, row in avg_price_per_neighborhood.iterrows()]
HeatMap(heat_data, radius=25).add_to(dakar_map)

# Sauvegarde sur un fichier HTML 
dakar_map.save("dakar_aparts_heatmap.html")

# Display the map in a Jupyter notebook
dakar_map

## 5. Evaluation des résultats

La zone Fann Résidence semble être l'endroit ou le loyer est le plus cher, ensuite Dakar Plateau, la zone de l'ancienne aéroport, Mermoz sacré coeur etc

#### Top 5 des zones les plus chères de Dakar

In [92]:
avg_price_per_neighborhood.sort_values(by=['prix_par_chambre'], ascending=False).head(5)

Unnamed: 0,addresse,prix_par_chambre,Latitude,Longitude
9,"Fann,",714344.569288,14.690791,-17.466559
8,"Fann Hock,",616666.666667,14.680135,-17.462806
28,"Plateau,",557222.222222,14.676817,-17.439292
6,"Cité biagui,",485000.0,14.759845,-17.485409
29,"Point-e,",463867.924528,14.696478,-17.464182


#### Top 5 des zones les moins chères de Dakar

In [95]:
avg_price_per_neighborhood.sort_values(by=['prix_par_chambre'], ascending=False).tail(5)

Unnamed: 0,addresse,prix_par_chambre,Latitude,Longitude
39,"Zac Mbao,",90000.0,14.730413,-17.302145
19,"Mbao,",84722.222222,14.741542,-17.326147
30,"Rufisque,",84375.0,14.716417,-17.273844
0,"Almadies 2,",69000.0,14.739776,-17.473082
13,"Keur Massar,",66034.482759,14.782257,-17.311199


## 6. Conclusion et propositions

Les résultats montrent une disparité significative dans les coûts des loyers à Dakar. Les zones les plus chères, comme Fann, Fann Hock et Plateau, affichent des prix par chambre largement plus élevés, dépassant les 450 000 F CFA. Cela indique que ces quartiers sont probablement très prisés, avec une forte demande et des infrastructures de haute qualité, ce qui entraîne des loyers élevés.

En revanche, les zones les moins chères, comme Zac Mbao, Mbao et Rufisque, présentent des prix par chambre beaucoup plus bas, souvent en dessous de 100 000 F CFA. Ces quartiers sont peut-être moins centralisés, avec une demande de logement plus faible ou des infrastructures moins développées, ce qui conduit à des loyers plus abordables.

**Analyse des disparités**
Localisation et infrastructure: Les quartiers les plus chers sont souvent situés près du centre-ville ou dans des zones avec de meilleures infrastructures et services. Ils attirent une population plus aisée, ce qui se reflète dans les prix élevés des loyers.

**Qualité de vie**: Les quartiers chers offrent généralement une meilleure qualité de vie avec des services, des écoles, des hôpitaux et des centres commerciaux à proximité, ce qui justifie les prix élevés.

**Développement urbain**: Les zones moins chères pourraient bénéficier de programmes de développement urbain pour améliorer leurs infrastructures, attirant ainsi plus de résidents et éventuellement augmentant les prix des loyers à long terme.

En résumé, il existe une grande disparité dans les coûts des loyers à Dakar, reflétant des différences dans la localisation, l'infrastructure et la demande de logement. Ces informations peuvent être cruciales pour les décideurs politiques, les promoteurs immobiliers et les locataires potentiels pour comprendre le marché immobilier de Dakar.

### Aspects Légaux et Éthiques
Nous auront mieux conduit cette analyse en aggrégant des données à partir de différentes plateformes d'annonces. Toutefois le but de cette étude étant purement académique, nous nous sommes limités aux données récoltées à partir de Expat Dakar avec un respect des conditions d'utilisation et une protection des données personnelles des annonceurs.
https://www.expat-dakar.com/conditions-utilisation