# Analyse prédictive des prix de location Airbnb

## 1. Contexte du projet

Dans un marché immobilier de plus en plus compétitif, comprendre les facteurs qui influencent le prix des locations à court terme est devenu essentiel tant pour les propriétaires que pour les plateformes comme Airbnb. Ce projet vise à analyser en profondeur un ensemble de données de propriétés Airbnb pour identifier les déterminants du prix et développer un modèle prédictif fiable.

Les objectifs principaux de cette étude sont :
- Comprendre les variables qui influencent significativement le prix des locations
- Quantifier l'impact des différentes caractéristiques (localisation, type de propriété, aménités, etc.)
- Développer un modèle capable de prédire avec précision le prix d'une location en fonction de ses attributs

Cette analyse s'appuie sur un jeu de données contenant des informations détaillées sur 15 601 propriétés (22 235 orginellement) Airbnb.

## 2. Description des données d'entrainement

### 2.1 Source et structure des données
Le jeu de données utilisé provient du projet d'Analyse de données d'année 3 ESILV semestre 2. Après nettoyage, nous disposons de 15 601 propriétés avec 21 variables. Voici un aperçu des principales variables retenues pour l'analyse :

| Catégorie | Variables |
|-----------|-----------|
| Identifiants | id |
| Variable Cible | log_price |
| Caractéristiques physiques | property_type, room_type, accommodates, bedrooms, beds, bed_type, bathrooms, amenities |
| Localisation | city, neighbourhood, latitude, longitude |
| Règles et politiques | cancellation_policy, cleaning_fee, instant_bookable |
| Information sur l'hôte | host_since, host_identity_verified |
| Réputation | number_of_reviews, review_scores_rating |

### 2.2 Nettoyage et prétraitement des données
Plusieurs étapes de nettoyage ont été nécessaires pour préparer les données à l'analyse :
- Sélection des variables pertinentes pour la prédiction de prix

    Nous avons décider délibérement de suprimmer 'description' de notre étude car bien que nous savons qu'elle a une influence importante sur le prix du bien nous savons pas comment traite de facon efficace cette variable dus a sa complexite et sa richesse d'information.
    Pour ce qui est 'first_review', 'host_has_profile_pic', 'host_response_rate', 'last_review', 'name' et 'zipcode' nous considérons qu'ils  n'apportent que peu d'utilité pour notre prediction. 

- Élimination des observations avec valeurs manquantes (15 601 propriétés conservées)
- Standardisation des types de propriétés (regroupement des catégories rares en "Other")
- Extraction du nombre d'aménités comme caractéristique additionnelle

## 3. Méthodologie d'analyse

### 3.1 Approche générale
Notre approche d'analyse se décompose en plusieurs étapes :
1. Analyse exploratoire des données pour comprendre les relations entre variables
2. Analyse bivariée entre chaque variable explicative et le prix
3. Analyse multivariée pour détecter les interactions entre variables
4. Modélisation prédictive et évaluation des performances

### 3.2 Outils et techniques utilisés
Pour cette étude, nous avons utilisé les bibliothèques Python suivantes :
- Pandas et NumPy pour la manipulation des données
- Matplotlib et Seaborn pour la visualisation
- Scikit-learn pour la modélisation et la prédiction

## 4. Analyse exploratoire des données d'entrainement

## 4.1 Analyse de la distribution des prix

### Comparaison des distributions

La mise en parallèle des densités de `price` et `log_price` montre l'effet de la transformation logarithmique :
- La distribution des prix originaux est fortement asymétrique (asymétrie de 4.02) avec une longue queue à droite et de nombreuses valeurs extrêmes
- La distribution logarithmique présente une forme beaucoup plus proche d'une distribution normale (asymétrie réduit à 0.36)

<div style="display: flex; justify-content: center;">
    <div style="flex: 1; padding: 5px;">
        <img src="Data\Visual\plot\Mono\prix\histogramme_price.png" width="100%" />
        <p style="text-align: center;"><b>Figure 1:</b> Distribution du prix réel</p>
    </div>
    <div style="flex: 1; padding: 5px;">
        <img src="Data/Visual/plot/Mono/prix/histogramme_log_price.png" width="100%" />
        <p style="text-align: center;"><b>Figure 2:</b> Distribution de log_price</p>
    </div>
</div>

### Statistiques descriptives
<table style="float: left; margin-right: 30px; width: 45%">
  <tr>
    <th>Statistique</th>
    <th>log_price</th>
    <th>price</th>
  </tr>
  <tr>
    <td>Moyenne</td>
    <td>4.7685</td>
    <td>149.29</td>
  </tr>
  <tr>
    <td>Écart-type</td>
    <td>0.6586</td>
    <td>130.96</td>
  </tr>
  <tr>
    <td>Minimum</td>
    <td>2.3026</td>
    <td>10.00</td>
  </tr>
  <tr>
    <td>25%</td>
    <td>4.3175</td>
    <td>75.00</td>
  </tr>
  <tr>
    <td>Médiane (50%)</td>
    <td>4.7449</td>
    <td>115.00</td>
  </tr>
  <tr>
    <td>75%</td>
    <td>5.1874</td>
    <td>179.00</td>
  </tr>
  <tr>
    <td>Maximum</td>
    <td>7.6004</td>
    <td>1999.00</td>
  </tr>
  <tr>
    <td>Asymétrie</td>
    <td>0.3618</td>
    <td>4.02</td>
  </tr>
  <tr>
    <td>Aplatissement</td>
    <td>0.4388</td>
    <td>28.06</td>
  </tr>
</table>
<div style="float: left; width: 50%;">
L'écart important entre la moyenne (149.29) et la médiane (115.00) des prix confirme l'asymétrie de la distribution originale. La valeur élevée de l'aplatissement (28.06) indique une distribution avec de nombreuses valeurs extrêmes.
</div>
<div style="float: left; width: 50%;padding-top : 20px">
La transformation logarithmique (log_price) normalise efficacement cette distribution, comme en témoignent les valeurs réduites d'asymétrie (0.36) et d'aplatissement (0.44) ainsi que l'écart entre la moyenne et la médiane (0.0236), rendant les données plus adaptées aux modèles statistiques paramétriques.
</div>
<div style="clear: both;"></div>

### Analyse de la normalité

Les QQ plots permettent d'évaluer visuellement si nos données suivent une distribution normale en comparant les quantiles empiriques aux quantiles théoriques d'une loi normale.

<div style="display: flex; justify-content: center;">
    <div style="flex: 1; padding: 5px;">
        <img src="Data/Visual/plot/Mono/prix/qqplot_price.png" width="100%" />
        <p style="text-align: center;"><b>Figure 3:</b> QQ Plot du prix réel</p>
    </div>
    <div style="flex: 1; padding: 5px;">
        <img src="Data/Visual/plot/Mono/prix/qqplot_log_price.png" width="100%" />
        <p style="text-align: center;"><b>Figure 4:</b> QQ Plot de log_price</p>
    </div>
</div>

Dans notre cas, le QQ plot du `log_price` montre une meilleure adéquation à la normalité que celui du prix brut, avec des points qui suivent plus fidèlement la ligne diagonale de référence.



### 4.2 Analyse des caractéristiques physiques des propriétés

Cette section examine comment les attributs physiques des logements influencent leur prix sur Airbnb. Nous analysons d'abord les types de propriété, puis l'impact des aménités, avant de synthétiser ces relations dans une matrice de corrélation.

#### 4.2.1 Profil des hébergements et leur impact sur les prix

<table style="width:100%; border:none; border-collapse: collapse; margin-bottom: 20px; background-color: #f9f9f9;">
  <tr style="border:none;">
    <td colspan="2" style="border:none; padding: 15px; background-color: #f0f0f0;">
      <h5 style="margin:0; color: #484848;">Types de propriétés : domination des appartements urbains</h5>
    </td>
  </tr>
  <tr style="border:none;">
    <td style="width:50%; border:none; vertical-align:top; padding:15px;">
      <img src="Data/Visual/plot/Multiple/cara_physique/01_distribution_types_proprietes.png" style="width:100%; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
      <p style="margin-top:8px; font-size:0.9em; color:#555;">Les <b>appartements représentent 65%</b> des annonces Airbnb, suivis des maisons (21%), reflétant le caractère urbain du marché.</p>
    </td>
    <td style="width:50%; border:none; vertical-align:top; padding:15px;">
      <img src="Data/Visual/plot/Multiple/cara_physique/02_prix_median_par_type_propriete.png" style="width:100%; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
      <p style="margin-top:8px; font-size:0.9em; color:#555;">Les <b>lofts ($139) et condominiums ($133)</b> commandent les prix les plus élevés, incarnant le segment premium du marché.</p>
    </td>
  </tr>
</table>

<div style="display:flex; margin-bottom:30px;">
  <table style="width:48%; border:none; border-collapse:collapse; margin-right:2%; background-color: #f9f9f9;">
    <tr style="border:none;">
      <td colspan="1" style="border:none; padding: 15px; background-color: #f0f0f0;">
        <h5 style="margin:0; color: #484848;">Modes d'occupation : l'importance du logement entier</h5>
      </td>
    </tr>
    <tr style="border:none;">
      <td style="border:none; vertical-align:top; padding:15px;">
        <img src="Data/Visual/plot/Multiple/cara_physique/03_distribution_types_chambre.png" style="width:100%; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
        <p style="margin-top:8px; font-size:0.9em; color:#555;">58% des annonces concernent des <b>logements entiers</b>, contre 39% pour les <b>chambres privées</b> et seulement 3% pour les <b>chambres partagées</b>.</p>
      </td>
    </tr>
    <tr style="border:none;">
      <td style="border:none; vertical-align:top; padding:15px;">
        <img src="Data/Visual/plot/Multiple/cara_physique/04_prix_median_par_type_chambre.png" style="width:100%; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
        <p style="margin-top:8px; font-size:0.9em; color:#555;">Les <b>logements entiers</b> sont près de <b>deux fois plus chers</b> ($153) que les chambres privées ($75), reflétant la prime pour l'intimité.</p>
      </td>
    </tr>
  </table>

  <table style="width:48%; border:none; border-collapse:collapse; margin-left:2%; background-color: #f9f9f9;">
    <tr style="border:none;">
      <td colspan="1" style="border:none; padding: 15px; background-color: #f0f0f0;">
        <h5 style="margin:0; color: #484848;">Types de lits : standardisation du marché</h5>
      </td>
    </tr>
    <tr style="border:none;">
      <td style="border:none; vertical-align:top; padding:15px;">
        <img src="Data/Visual/plot/Multiple/cara_physique/06_distribution_types_lit.png" style="width:100%; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
        <p style="margin-top:8px; font-size:0.9em; color:#555;">Les <b>lits standards dominent à 95%</b> du marché, les autres types étant marginaux et généralement associés à des logements de moindre standing.</p>
      </td>
    </tr>
    <tr style="border:none;">
      <td style="border:none; vertical-align:top; padding:15px;">
        <img src="Data/Visual/plot/Multiple/cara_physique/07_prix_median_par_type_lit.png" style="width:100%; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
        <p style="margin-top:8px; font-size:0.9em; color:#555;">Le prix médian des logements avec <b>lits standards ($115)</b> est significativement plus élevé que ceux avec des lits alternatifs (canapés, futons).</p>
      </td>
    </tr>
  </table>
</div>

<div style="padding: 15px; background-color: #f5f5f5; border-left: 4px solid #FF5A5F; margin-bottom: 30px;">
  <p style="margin:0; font-style:italic;">Les caractéristiques physiques démontrent une polarisation du marché Airbnb entre les logements entiers premium (appartements et lofts avec lits standards) et les options économiques (chambres privées/partagées). Le type de logement et le mode d'occupation apparaissent comme des facteurs déterminants du prix.</p>
</div>

#### 4.2.2 L'impact stratégique des aménités sur la valorisation

<table style="width:100%; border:none; border-collapse: collapse; margin-bottom: 25px; background-color: #f9f9f9;">
  <tr style="border:none;">
    <td style="width:60%; border:none; vertical-align:top; padding:15px;">
      <h5 style="margin:0 0 15px 0; color: #484848; background-color: #f0f0f0; padding: 10px;">Des aménités courantes mais à faible impact</h5>
      <img src="Data/Visual/plot/Multiple/cara_physique/11_20_amenites_plus_courantes.png" style="width:100%; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
      <ul style="margin-top:10px; font-size:0.9em; color:#555;">
        <li>Le <b>Wi-Fi (93%)</b>, le <b>chauffage (89%)</b> et les <b>essentiels (84%)</b> sont présents dans la grande majorité des logements</li>
        <li>Ces aménités de base sont considérées comme <b>standards</b> plutôt que comme des facteurs de valorisation distinctive</li>
      </ul>
    </td>
    <td style="width:40%; border:none; vertical-align:top; padding:15px;">
      <h5 style="margin:0 0 15px 0; color: #484848; background-color: #f0f0f0; padding: 10px;">Des aménités premium à fort impact</h5>
      <img src="Data/Visual/plot/Multiple/cara_physique/13_impact_amenites_sur_prix_pct.png" style="width:100%; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
      <ul style="margin-top:10px; font-size:0.9em; color:#555;">
        <li>La <b>piscine (+35%)</b>, le <b>jacuzzi (+28%)</b> et l'<b>accès au gymnase (+22%)</b> justifient des primes significatives</li>
        <li>Ces aménités sont <b>rares</b> mais constituent de puissants différenciateurs</li>
      </ul>
    </td>
  </tr>
</table>

<table style="width:100%; border:none; border-collapse: collapse; margin-bottom: 20px; background-color: #f9f9f9;">
  <tr style="border:none;">
    <td colspan="1" style="border:none; padding: 15px; background-color: #f0f0f0;">
      <h5 style="margin:0; color: #484848;">L'accumulation d'aménités premium: un puissant levier de prix</h5>
    </td>
  </tr>
  <tr style="border:none;">
    <td style="border:none; vertical-align:top; padding:15px;">
      <img src="Data/Visual/plot/Multiple/cara_physique/15_prix_moyen_par_nombre_amenites_premium.png" style="width:70%; display:block; margin:0 auto; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
      <p style="text-align:center; margin-top:15px; font-size:0.9em; color:#555;">Le prix moyen augmente de <b>$95</b> pour les logements sans aménité premium à <b>$245</b> pour ceux qui en cumulent cinq, <br>démontrant l'effet multiplicateur de la stratégie d'aménités haut de gamme.</p>
    </td>
  </tr>
</table>

<div style="padding: 15px; background-color: #f5f5f5; border-left: 4px solid #00A699; margin-bottom: 30px;">
  <p style="margin:0; font-style:italic;">L'analyse des aménités révèle une distinction claire entre les équipements de base (attendus mais sans effet premium) et les aménités de luxe (rares mais à fort impact sur le prix). Les hôtes peuvent ainsi optimiser leur rentabilité en investissant stratégiquement dans des aménités clés plutôt qu'en multipliant les équipements standards.</p>
</div>

#### 4.2.3 Synthèse des corrélations et facteurs déterminants

<table style="width:100%; border:none; border-collapse: collapse; background-color: #f9f9f9; margin-bottom: 20px;">
  <tr style="border:none;">
    <td style="border:none; padding: 15px; background-color: #f0f0f0;">
      <h5 style="margin:0; color: #484848;">Matrice de corrélation : identification des clusters et facteurs clés</h5>
    </td>
  </tr>
  <tr style="border:none;">
    <td style="border:none; vertical-align:top; padding:15px;">
      <img src="Data/Visual/plot/Multiple/cara_physique/16_matrice_correlation.png" style="width:85%; display:block; margin:0 auto; box-shadow: 0 2px 4px rgba(0,0,0,0.2);"/>
    </td>
  </tr>
  <tr style="border:none;">
    <td style="border:none; padding:15px;">
      <div style="columns: 2; column-gap: 30px; font-size: 0.95em; color: #444;">
        <p style="margin-top:0;"><b>Cluster capacité</b>: Les variables accommodates, bedrooms, beds et bathrooms sont fortement corrélées entre elles (r > 0.5) et avec le prix (r = 0.45-0.58), formant un groupe cohérent d'indicateurs de taille et de confort.</p>
        <p><b>Cluster aménités</b>: Le nombre d'aménités et le score premium sont modérément corrélés au prix (r = 0.16-0.36), mais leur impact combiné crée un effet multiplicateur significatif, particulièrement visible dans les segments supérieurs.</p>
        <p><b>Prix relatif</b>: Les mesures de prix par personne et par chambre présentent des corrélations distinctes, révélant des dynamiques de valorisation différentes selon le segment de marché.</p>
      </div>
    </td>
  </tr>
</table>

<div style="padding: 20px; background-color: #f7f7f7; border: 1px solid #eaeaea; border-radius: 5px; margin-bottom: 30px;">
  <h5 style="margin-top:0; color: #484848;">Conclusion sur les déterminants physiques du prix</h5>
  <p>Notre analyse des caractéristiques physiques révèle que le prix d'un logement Airbnb est principalement déterminé par trois facteurs clés:</p>
  <ol style="color: #444;">
    <li><b>Capacité et confort</b>: Le nombre de salles de bain (r=0.52) et la capacité d'accueil (r=0.49) sont les prédicteurs numériques les plus puissants du prix</li>
    <li><b>Aménités premium</b>: La présence d'équipements distinctifs comme piscine ou jacuzzi peut justifier une prime de prix allant jusqu'à 35%</li>
    <li><b>Type d'occupation</b>: Les logements entiers, particulièrement les lofts et condominiums, commandent une prime significative par rapport aux chambres privées</li>
  </ol>
  <p style="margin-bottom:0;">Ces facteurs constitueront les variables explicatives fondamentales dans notre modèle prédictif, permettant une estimation plus précise des prix selon les caractéristiques physiques des biens.</p>
</div>

### 4.3 Analyse géographique et impact de la localisation
[Analyse de l'influence de la ville, du quartier et des coordonnées géographiques]

### 4.4 Analyse des aménités
[Étude de l'impact des aménités sur le prix]

### 4.5 Analyse de l'influence des hôtes et des avis
[Analyse de l'importance de l'expérience des hôtes et des évaluations]

## 5. Modélisation prédictive

### 5.1 Sélection des variables
[Description des variables retenues pour la modélisation]

### 5.2 Choix et paramétrage des modèles
[Présentation des algorithmes testés et leur configuration]

### 5.3 Évaluation des performances
[Analyse des métriques d'évaluation et comparaison des modèles]

## 6. Résultats et interprétation

### 6.1 Facteurs déterminants du prix
[Présentation des variables ayant le plus d'impact sur le prix]

### 6.2 Performance du modèle prédictif et Limites de l'étude
[Détail des performances du modèle final]
[Discussion des contraintes et limites de l'analyse]

## 7. Conclusion et perspectives

### 7.1 Synthèse des résultats
[Récapitulatif des principales découvertes]

### 7.2 Pistes d'amélioration et travaux futurs
[Suggestions pour poursuivre et approfondir cette étude]

## 8. Références
[Liste des sources, articles et outils utilisés]