# Analyse prédictive des prix de location Airbnb

## 1. Contexte du projet

Dans un marché immobilier de plus en plus compétitif, comprendre les facteurs qui influencent le prix des locations à court terme est devenu essentiel tant pour les propriétaires que pour les plateformes comme Airbnb. Ce projet vise à analyser en profondeur un ensemble de données de propriétés Airbnb pour identifier les déterminants du prix et développer un modèle prédictif fiable.

Les objectifs principaux de cette étude sont :
- Comprendre les variables qui influencent significativement le prix des locations
- Quantifier l'impact des différentes caractéristiques (localisation, type de propriété, aménités, etc.)
- Développer un modèle capable de prédire avec précision le prix d'une location en fonction de ses attributs

Cette analyse s'appuie sur un jeu de données contenant des informations détaillées sur 15 601 propriétés (22 235 orginellement) Airbnb.

## 2. Description des données d'entrainement

### 2.1 Source et structure des données
Le jeu de données utilisé provient du projet d'Analyse de données d'année 3 ESILV semestre 2. Après nettoyage, nous disposons de 15 601 propriétés avec 21 variables. Voici un aperçu des principales variables retenues pour l'analyse :

| Catégorie | Variables |
|-----------|-----------|
| Identifiants | id |
| Variable Cible | log_price |
| Caractéristiques physiques | property_type, room_type, accommodates, bedrooms, beds, bed_type, bathrooms, amenities |
| Localisation | city, neighbourhood, latitude, longitude |
| Règles et politiques | cancellation_policy, cleaning_fee, instant_bookable |
| Information sur l'hôte | host_since, host_identity_verified |
| Réputation | number_of_reviews, review_scores_rating |

### 2.2 Nettoyage et prétraitement des données
Plusieurs étapes de nettoyage ont été nécessaires pour préparer les données à l'analyse :
- Sélection des variables pertinentes pour la prédiction de prix

    Nous avons décider délibérement de suprimmer 'description' de notre étude car bien que nous savons qu'elle a une influence importante sur le prix du bien nous savons pas comment traite de facon efficace cette variable dus a sa complexite et sa richesse d'information.
    Pour ce qui est 'first_review', 'host_has_profile_pic', 'host_response_rate', 'last_review', 'name' et 'zipcode' nous considérons qu'ils  n'apportent que peu d'utilité pour notre prediction. 

- Élimination des observations avec valeurs manquantes (15 601 propriétés conservées)
- Standardisation des types de propriétés (regroupement des catégories rares en "Other")
- Extraction du nombre d'aménités comme caractéristique additionnelle

## 3. Méthodologie d'analyse

### 3.1 Approche générale
Notre approche d'analyse se décompose en plusieurs étapes :
1. Analyse exploratoire des données pour comprendre les relations entre variables
2. Analyse bivariée entre chaque variable explicative et le prix
3. Analyse multivariée pour détecter les interactions entre variables
4. Modélisation prédictive et évaluation des performances

### 3.2 Outils et techniques utilisés
Pour cette étude, nous avons utilisé les bibliothèques Python suivantes :
- Pandas et NumPy pour la manipulation des données
- Matplotlib et Seaborn pour la visualisation
- Scikit-learn pour la modélisation et la prédiction

## 4. Analyse exploratoire des données d'entrainement

## 4.1 Analyse de la distribution des prix

### Comparaison des distributions

La mise en parallèle des densités de `price` et `log_price` montre l'effet de la transformation logarithmique :
- La distribution des prix originaux est fortement asymétrique (asymétrie de 4.02) avec une longue queue à droite et de nombreuses valeurs extrêmes
- La distribution logarithmique présente une forme beaucoup plus proche d'une distribution normale (asymétrie réduit à 0.36)

<div style="display: flex; justify-content: center;">
    <div style="flex: 1; padding: 5px;">
        <img src="Data\Visual\plot\Mono\prix\histogramme_price.png" width="100%" />
        <p style="text-align: center;"><b>Figure 1:</b> Distribution du prix réel</p>
    </div>
    <div style="flex: 1; padding: 5px;">
        <img src="Data/Visual/plot/Mono/prix/histogramme_log_price.png" width="100%" />
        <p style="text-align: center;"><b>Figure 2:</b> Distribution de log_price</p>
    </div>
</div>

### Statistiques descriptives
<table style="float: left; margin-right: 30px; width: 45%">
  <tr>
    <th>Statistique</th>
    <th>log_price</th>
    <th>price</th>
  </tr>
  <tr>
    <td>Moyenne</td>
    <td>4.7685</td>
    <td>149.29</td>
  </tr>
  <tr>
    <td>Écart-type</td>
    <td>0.6586</td>
    <td>130.96</td>
  </tr>
  <tr>
    <td>Minimum</td>
    <td>2.3026</td>
    <td>10.00</td>
  </tr>
  <tr>
    <td>25%</td>
    <td>4.3175</td>
    <td>75.00</td>
  </tr>
  <tr>
    <td>Médiane (50%)</td>
    <td>4.7449</td>
    <td>115.00</td>
  </tr>
  <tr>
    <td>75%</td>
    <td>5.1874</td>
    <td>179.00</td>
  </tr>
  <tr>
    <td>Maximum</td>
    <td>7.6004</td>
    <td>1999.00</td>
  </tr>
  <tr>
    <td>Asymétrie</td>
    <td>0.3618</td>
    <td>4.02</td>
  </tr>
  <tr>
    <td>Aplatissement</td>
    <td>0.4388</td>
    <td>28.06</td>
  </tr>
</table>
<div style="float: left; width: 50%;">
L'écart important entre la moyenne (149.29) et la médiane (115.00) des prix confirme l'asymétrie de la distribution originale. La valeur élevée de l'aplatissement (28.06) indique une distribution avec de nombreuses valeurs extrêmes.
</div>
<div style="float: left; width: 50%;padding-top : 20px">
La transformation logarithmique (log_price) normalise efficacement cette distribution, comme en témoignent les valeurs réduites d'asymétrie (0.36) et d'aplatissement (0.44) ainsi que l'écart entre la moyenne et la médiane (0.0236), rendant les données plus adaptées aux modèles statistiques paramétriques.
</div>
<div style="clear: both;"></div>

### Analyse de la normalité

Les QQ plots permettent d'évaluer visuellement si nos données suivent une distribution normale en comparant les quantiles empiriques aux quantiles théoriques d'une loi normale.

<div style="display: flex; justify-content: center;">
    <div style="flex: 1; padding: 5px;">
        <img src="Data/Visual/plot/Mono/prix/qqplot_price.png" width="100%" />
        <p style="text-align: center;"><b>Figure 3:</b> QQ Plot du prix réel</p>
    </div>
    <div style="flex: 1; padding: 5px;">
        <img src="Data/Visual/plot/Mono/prix/qqplot_log_price.png" width="100%" />
        <p style="text-align: center;"><b>Figure 4:</b> QQ Plot de log_price</p>
    </div>
</div>

Dans notre cas, le QQ plot du `log_price` montre une meilleure adéquation à la normalité que celui du prix brut, avec des points qui suivent plus fidèlement la ligne diagonale de référence.



### 4.2 Analyse des caractéristiques physiques des propriétés

Cette section examine l'influence des caractéristiques physiques des logements sur le prix des locations Airbnb.

#### 4.2.1 Distribution des caractéristiques d'hébergement

<div style="display: flex; justify-content: space-between; margin-bottom: 10px;">
    <div style="flex: 0 0 42%; padding: 1px;">
        <img src="Data/Visual/plot/Multiple/cara_physique/01_distribution_types_proprietes.png" width="100%" style="height: 220px; object-fit: cover;"/>
        <img src="Data/Visual/plot/Multiple/cara_physique/02_prix_median_par_type_propriete.png" width="100%" style="height: 220px; object-fit: cover;"/>
        <p style="text-align: center;"><b>Figure 5:</b> Distribution et prix médian par type de propriété</p>
    </div>
    <div style="flex: 0 0 29%; padding: 1px;">
        <img src="Data/Visual/plot/Multiple/cara_physique/03_distribution_types_chambre.png" width="100%" style="height: 220px; object-fit: cover;"/>
        <img src="Data/Visual/plot/Multiple/cara_physique/04_prix_median_par_type_chambre.png" width="100%" style="height: 220px; object-fit: cover;"/>
        <p style="text-align: center;"><b>Figure 6:</b> Distribution et prix médian par type de chambre</p>
    </div>
    <div style="flex: 0 0 29%; padding: 1px;">
        <img src="Data/Visual/plot/Multiple/cara_physique/06_distribution_types_lit.png" width="100%" style="height: 220px; object-fit: cover;"/>
        <img src="Data/Visual/plot/Multiple/cara_physique/07_prix_median_par_type_lit.png" width="100%" style="height: 220px; object-fit: cover;"/>
        <p style="text-align: center;"><b>Figure 7:</b> Distribution et prix médian par type de lit</p>
    </div>
</div>


L'analyse des distributions révèle plusieurs tendances importantes:

- Les **appartements** dominent largement le marché (65% des annonces), suivis par les maisons (21%).
- La majorité des annonces (58%) concernent des **logements entiers**, tandis que les chambres privées représentent 39% du marché.
- Les **lits standards** sont présents dans 95% des logements, les autres types étant marginaux.
- Les **prix médians** varient considérablement: les lofts ($139) et condominiums ($133) sont les types de propriétés les plus chers, tandis que les logements entiers ($153) sont presque deux fois plus chers que les chambres privées ($75).

Cette répartition des types de logements reflète la diversité de l'offre sur Airbnb tout en mettant en évidence des écarts de prix significatifs entre les différentes catégories.

#### 4.2.2 Analyse des aménités et leur impact

<div style="display: flex; justify-content: center; margin-bottom: 20px;">
    <div style="flex: 1; padding: 5px;">
        <img src="Data/Visual/plot/Multiple/cara_physique/10_relation_nombre_amenites_prix.png" width="100%" />
        <p style="text-align: center;"><b>Figure 8a:</b> Relation entre nombre d'aménités et prix</p>
    </div>
    <div style="flex: 1; padding: 5px;">
        <img src="Data/Visual/plot/Multiple/cara_physique/11_20_amenites_plus_courantes.png" width="100%" />
        <p style="text-align: center;"><b>Figure 8b:</b> Les 20 aménités les plus courantes</p>
    </div>
</div>

<div style="display: flex; justify-content: center; margin-bottom: 20px;">
    <div style="flex: 1; padding: 5px;">
        <img src="Data/Visual/plot/Multiple/cara_physique/13_impact_amenites_sur_prix_pct.png" width="100%" />
        <p style="text-align: center;"><b>Figure 9a:</b> Impact des aménités sur le prix (%)</p>
    </div>
    <div style="flex: 1; padding: 5px;">
        <img src="Data/Visual/plot/Multiple/cara_physique/15_prix_moyen_par_nombre_amenites_premium.png" width="100%" />
        <p style="text-align: center;"><b>Figure 9b:</b> Prix moyen selon le score premium</p>
    </div>
</div>

L'analyse des aménités révèle que certaines installations ont un impact disproportionné sur le prix:

- Le **nombre total d'aménités** est positivement corrélé au prix (r=0.43).
- Bien que le Wi-Fi, le chauffage et la climatisation soient les plus courants, ce ne sont pas ceux qui influencent le plus le prix.
- Les aménités à plus fort impact sur le prix sont principalement liées au luxe et au confort: piscine, jacuzzi, accès au gymnase, etc.
- Notre indicateur de "**score premium**" (présence des 5 aménités les plus influentes) montre une relation quasi linéaire avec le prix, confirmant que certaines aménités justifient une prime significative.

Ces résultats indiquent que les hôtes peuvent optimiser leurs revenus en investissant stratégiquement dans certaines aménités clés plutôt que d'en multiplier le nombre.

#### 4.2.3 Relations entre les caractéristiques physiques et le prix

<div style="display: flex; justify-content: center; margin-bottom: 20px;">
    <div style="flex: 1; padding: 5px;">
        <img src="Data/Visual/plot/Multiple/cara_physique/05_relation_caracteristiques_numeriques_prix.png" width=100%" />
        <p style="text-align: center;"><b>Figure 10:</b> Relations entre caractéristiques numériques et prix</p>
    </div>
</div>


L'analyse des relations révèle plusieurs insights importants:

- Le **nombre de salles de bain** présente la corrélation la plus forte avec le prix (r=0.52), suivi par la **capacité d'accueil** (r=0.49).
- La relation entre le nombre de chambres/lits et le prix est positive mais moins prononcée.
- En termes de **prix par personne**, les chambres partagées offrent le meilleur rapport qualité-prix, suivies des chambres privées.
- Pour le **prix par chambre**, les lofts commandent la prime la plus élevée, reflétant leur caractère exclusif.

Ces observations suggèrent que les facteurs liés au confort (salles de bain) et à la capacité d'accueil influencent davantage le prix que le simple nombre de chambres ou de lits.

#### 4.2.4 Matrice de corrélation et synthèse

<div style="text-align: center; margin-bottom: 20px;">
    <img src="Data/Visual/plot/Multiple/cara_physique/16_matrice_correlation.png" width="80%" />
    <p style="text-align: center;"><b>Figure 12:</b> Matrice de corrélation des caractéristiques physiques</p>
</div>

La matrice de corrélation synthétise les relations entre toutes les caractéristiques physiques et le prix logarithmique. On observe plusieurs groupes de variables fortement corrélées entre elles:

- Le **cluster capacité**: accommodates, bedrooms, beds et bathrooms sont fortement corrélés entre eux et avec le prix.
- Le **cluster aménités**: le nombre d'aménités et le score premium sont fortement corrélés au prix.
- Les mesures de **prix relatif** (par personne, par chambre) présentent des corrélations différentes avec les autres variables.

En conclusion, notre analyse des caractéristiques physiques révèle que le prix d'un logement Airbnb est déterminé principalement par:
1. Sa capacité d'accueil et son nombre de salles de bain
2. La présence d'aménités premium spécifiques
3. Le type de propriété et le mode d'occupation (logement entier vs chambre)

Ces facteurs constitueront les variables explicatives clés dans notre modèle prédictif.

### 4.3 Analyse géographique et impact de la localisation
[Analyse de l'influence de la ville, du quartier et des coordonnées géographiques]

### 4.4 Analyse des aménités
[Étude de l'impact des aménités sur le prix]

### 4.5 Analyse de l'influence des hôtes et des avis
[Analyse de l'importance de l'expérience des hôtes et des évaluations]

## 5. Modélisation prédictive

### 5.1 Sélection des variables
[Description des variables retenues pour la modélisation]

### 5.2 Choix et paramétrage des modèles
[Présentation des algorithmes testés et leur configuration]

### 5.3 Évaluation des performances
[Analyse des métriques d'évaluation et comparaison des modèles]

## 6. Résultats et interprétation

### 6.1 Facteurs déterminants du prix
[Présentation des variables ayant le plus d'impact sur le prix]

### 6.2 Performance du modèle prédictif et Limites de l'étude
[Détail des performances du modèle final]
[Discussion des contraintes et limites de l'analyse]

## 7. Conclusion et perspectives

### 7.1 Synthèse des résultats
[Récapitulatif des principales découvertes]

### 7.2 Pistes d'amélioration et travaux futurs
[Suggestions pour poursuivre et approfondir cette étude]

## 8. Références
[Liste des sources, articles et outils utilisés]