# Analyse prédictive des prix de location Airbnb

## 1. Contexte du projet

Dans un marché immobilier de plus en plus compétitif, comprendre les facteurs qui influencent le prix des locations à court terme est devenu essentiel tant pour les propriétaires que pour les plateformes comme Airbnb. Ce projet vise à analyser en profondeur un ensemble de données de propriétés Airbnb pour identifier les déterminants du prix et développer un modèle prédictif fiable.

Les objectifs principaux de cette étude sont :
- Comprendre les variables qui influencent significativement le prix des locations
- Quantifier l'impact des différentes caractéristiques (localisation, type de propriété, aménités, etc.)
- Développer un modèle capable de prédire avec précision le prix d'une location en fonction de ses attributs

Cette analyse s'appuie sur un jeu de données contenant des informations détaillées sur 15 601 propriétés (22 235 orginellement) Airbnb.

## 2. Description des données d'entrainement

### 2.1 Source et structure des données
Le jeu de données utilisé provient du projet d'Analyse de données d'année 3 ESILV semestre 2. Après nettoyage, nous disposons de 15 601 propriétés avec 21 variables. Voici un aperçu des principales variables retenues pour l'analyse :

| Catégorie | Variables |
|-----------|-----------|
| Identifiants | id |
| Variable Cible | log_price |
| Caractéristiques physiques | property_type, room_type, accommodates, bedrooms, beds, bed_type, bathrooms, amenities |
| Localisation | city, neighbourhood, latitude, longitude |
| Règles et politiques | cancellation_policy, cleaning_fee, instant_bookable |
| Information sur l'hôte | host_since, host_identity_verified |
| Réputation | number_of_reviews, review_scores_rating |

### 2.2 Nettoyage et prétraitement des données
Plusieurs étapes de nettoyage ont été nécessaires pour préparer les données à l'analyse :
- Sélection des variables pertinentes pour la prédiction de prix

    Nous avons décider délibérement de suprimmer 'description' de notre étude car bien que nous savons qu'elle a une influence importante sur le prix du bien nous savons pas comment traite de facon efficace cette variable dus a sa complexite et sa richesse d'information.
    Pour ce qui est 'first_review', 'host_has_profile_pic', 'host_response_rate', 'last_review', 'name' et 'zipcode' nous considérons qu'ils  n'apportent que peu d'utilité pour notre prediction. 

- Élimination des observations avec valeurs manquantes (15 601 propriétés conservées)
- Standardisation des types de propriétés (regroupement des catégories rares en "Other")
- Extraction du nombre d'aménités comme caractéristique additionnelle

## 3. Méthodologie d'analyse

### 3.1 Approche générale
Notre approche d'analyse se décompose en plusieurs étapes :
1. Analyse exploratoire des données pour comprendre les relations entre variables
2. Analyse bivariée entre chaque variable explicative et le prix
3. Analyse multivariée pour détecter les interactions entre variables
4. Modélisation prédictive et évaluation des performances

### 3.2 Outils et techniques utilisés
Pour cette étude, nous avons utilisé les bibliothèques Python suivantes :
- Pandas et NumPy pour la manipulation des données
- Matplotlib et Seaborn pour la visualisation
- Scikit-learn pour la modélisation et la prédiction

## 4. Analyse exploratoire des données d'entrainement

## 4.1 Analyse de la distribution des prix

### Comparaison des distributions

La mise en parallèle des densités de `price` et `log_price` montre l'effet de la transformation logarithmique :
- La distribution des prix originaux est fortement asymétrique (asymétrie de 4.02) avec une longue queue à droite et de nombreuses valeurs extrêmes
- La distribution logarithmique présente une forme beaucoup plus proche d'une distribution normale (asymétrie réduit à 0.36)

<div style="display: flex; justify-content: center;">
    <div style="flex: 1; padding: 5px;">
        <img src="Data\Visual\plot\Mono\prix\histogramme_price.png" width="100%" />
        <p style="text-align: center;"><b>Figure 1:</b> Distribution du prix réel</p>
    </div>
    <div style="flex: 1; padding: 5px;">
        <img src="Data/Visual/plot/Mono/prix/histogramme_log_price.png" width="100%" />
        <p style="text-align: center;"><b>Figure 2:</b> Distribution de log_price</p>
    </div>
</div>

### Statistiques descriptives
<table style="float: left; margin-right: 30px; width: 45%">
  <tr>
    <th>Statistique</th>
    <th>log_price</th>
    <th>price</th>
  </tr>
  <tr>
    <td>Moyenne</td>
    <td>4.7685</td>
    <td>149.29</td>
  </tr>
  <tr>
    <td>Écart-type</td>
    <td>0.6586</td>
    <td>130.96</td>
  </tr>
  <tr>
    <td>Minimum</td>
    <td>2.3026</td>
    <td>10.00</td>
  </tr>
  <tr>
    <td>25%</td>
    <td>4.3175</td>
    <td>75.00</td>
  </tr>
  <tr>
    <td>Médiane (50%)</td>
    <td>4.7449</td>
    <td>115.00</td>
  </tr>
  <tr>
    <td>75%</td>
    <td>5.1874</td>
    <td>179.00</td>
  </tr>
  <tr>
    <td>Maximum</td>
    <td>7.6004</td>
    <td>1999.00</td>
  </tr>
  <tr>
    <td>Asymétrie</td>
    <td>0.3618</td>
    <td>4.02</td>
  </tr>
  <tr>
    <td>Aplatissement</td>
    <td>0.4388</td>
    <td>28.06</td>
  </tr>
</table>
<div style="float: left; width: 50%;">
L'écart important entre la moyenne (149.29) et la médiane (115.00) des prix confirme l'asymétrie de la distribution originale. La valeur élevée de l'aplatissement (28.06) indique une distribution avec de nombreuses valeurs extrêmes.
</div>
<div style="float: left; width: 50%;padding-top : 20px">
La transformation logarithmique (log_price) normalise efficacement cette distribution, comme en témoignent les valeurs réduites d'asymétrie (0.36) et d'aplatissement (0.44) ainsi que l'écart entre la moyenne et la médiane (0.0236), rendant les données plus adaptées aux modèles statistiques paramétriques.
</div>
<div style="clear: both;"></div>

### Analyse de la normalité

Les QQ plots permettent d'évaluer visuellement si nos données suivent une distribution normale en comparant les quantiles empiriques aux quantiles théoriques d'une loi normale.

<div style="display: flex; justify-content: center;">
    <div style="flex: 1; padding: 5px;">
        <img src="Data/Visual/plot/Mono/prix/qqplot_price.png" width="100%" />
        <p style="text-align: center;"><b>Figure 3:</b> QQ Plot du prix réel</p>
    </div>
    <div style="flex: 1; padding: 5px;">
        <img src="Data/Visual/plot/Mono/prix/qqplot_log_price.png" width="100%" />
        <p style="text-align: center;"><b>Figure 4:</b> QQ Plot de log_price</p>
    </div>
</div>

Dans notre cas, le QQ plot du `log_price` montre une meilleure adéquation à la normalité que celui du prix brut, avec des points qui suivent plus fidèlement la ligne diagonale de référence.



### 4.2 Analyse des caractéristiques physiques des propriétés

Cette section examine comment les attributs physiques des logements influencent leur prix sur Airbnb. Nous analysons d'abord les types de propriété, puis l'impact des aménités, avant de synthétiser ces relations dans une matrice de corrélation.

#### 4.2.1 Profil des hébergements et leur impact sur les prix

<table style="width:100%; border:none; border-collapse: collapse; margin-bottom: 20px; background-color: #f9f9f9;">
  <tr style="border:none;">
    <td colspan="2" style="border:none; padding: 15px; background-color: #f0f0f0;">
      <h5 style="margin:0; color: #484848;">Types de propriétés : domination des appartements urbains</h5>
    </td>
  </tr>
  <tr style="border:none;">
    <td style="width:50%; border:none; vertical-align:top; padding:15px;">
      <img src="Data/Visual/plot/Multiple/cara_physique/01_distribution_types_proprietes.png" style="width:100%; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
      <p style="margin-top:8px; font-size:0.9em; color:#555;">Les <b>appartements représentent 65%</b> des annonces Airbnb, suivis des maisons (21%), reflétant le caractère urbain du marché.</p>
    </td>
    <td style="width:50%; border:none; vertical-align:top; padding:15px;">
      <img src="Data/Visual/plot/Multiple/cara_physique/02_prix_median_par_type_propriete.png" style="width:100%; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
      <p style="margin-top:8px; font-size:0.9em; color:#555;">Les <b>lofts ($139) et condominiums ($133)</b> commandent les prix les plus élevés, incarnant le segment premium du marché.</p>
    </td>
  </tr>
</table>

<div style="display:flex; margin-bottom:30px;">
  <table style="width:48%; border:none; border-collapse:collapse; margin-right:2%; background-color: #f9f9f9;">
    <tr style="border:none;">
      <td colspan="1" style="border:none; padding: 15px; background-color: #f0f0f0;">
        <h5 style="margin:0; color: #484848;">Modes d'occupation : l'importance du logement entier</h5>
      </td>
    </tr>
    <tr style="border:none;">
      <td style="border:none; vertical-align:top; padding:15px;">
        <img src="Data/Visual/plot/Multiple/cara_physique/03_distribution_types_chambre.png" style="width:100%; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
        <p style="margin-top:8px; font-size:0.9em; color:#555;">58% des annonces concernent des <b>logements entiers</b>, contre 39% pour les <b>chambres privées</b> et seulement 3% pour les <b>chambres partagées</b>.</p>
      </td>
    </tr>
    <tr style="border:none;">
      <td style="border:none; vertical-align:top; padding:15px;">
        <img src="Data/Visual/plot/Multiple/cara_physique/04_prix_median_par_type_chambre.png" style="width:100%; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
        <p style="margin-top:8px; font-size:0.9em; color:#555;">Les <b>logements entiers</b> sont près de <b>deux fois plus chers</b> ($153) que les chambres privées ($75), reflétant la prime pour l'intimité.</p>
      </td>
    </tr>
  </table>

  <table style="width:48%; border:none; border-collapse:collapse; margin-left:2%; background-color: #f9f9f9;">
    <tr style="border:none;">
      <td colspan="1" style="border:none; padding: 15px; background-color: #f0f0f0;">
        <h5 style="margin:0; color: #484848;">Types de lits : standardisation du marché</h5>
      </td>
    </tr>
    <tr style="border:none;">
      <td style="border:none; vertical-align:top; padding:15px;">
        <img src="Data/Visual/plot/Multiple/cara_physique/06_distribution_types_lit.png" style="width:100%; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
        <p style="margin-top:8px; font-size:0.9em; color:#555;">Les <b>lits standards dominent à 95%</b> du marché, les autres types étant marginaux et généralement associés à des logements de moindre standing.</p>
      </td>
    </tr>
    <tr style="border:none;">
      <td style="border:none; vertical-align:top; padding:15px;">
        <img src="Data/Visual/plot/Multiple/cara_physique/07_prix_median_par_type_lit.png" style="width:100%; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
        <p style="margin-top:8px; font-size:0.9em; color:#555;">Le prix médian des logements avec <b>lits standards ($115)</b> est significativement plus élevé que ceux avec des lits alternatifs (canapés, futons).</p>
      </td>
    </tr>
  </table>
</div>

<div style="padding: 15px; background-color: #f5f5f5; border-left: 4px solid #FF5A5F; margin-bottom: 30px;">
  <p style="margin:0; font-style:italic;">Les caractéristiques physiques démontrent une polarisation du marché Airbnb entre les logements entiers premium (appartements et lofts avec lits standards) et les options économiques (chambres privées/partagées). Le type de logement et le mode d'occupation apparaissent comme des facteurs déterminants du prix.</p>
</div>

#### 4.2.2 L'impact stratégique des aménités sur la valorisation

<table style="width:100%; border:none; border-collapse: collapse; margin-bottom: 25px; background-color: #f9f9f9;">
  <tr style="border:none;">
    <td style="width:60%; border:none; vertical-align:top; padding:15px;">
      <h5 style="margin:0 0 15px 0; color: #484848; background-color: #f0f0f0; padding: 10px;">Des aménités courantes mais à faible impact</h5>
      <img src="Data/Visual/plot/Multiple/cara_physique/11_20_amenites_plus_courantes.png" style="width:100%; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
      <ul style="margin-top:10px; font-size:0.9em; color:#555;">
        <li>Le <b>Wi-Fi (93%)</b>, le <b>chauffage (89%)</b> et les <b>essentiels (84%)</b> sont présents dans la grande majorité des logements</li>
        <li>Ces aménités de base sont considérées comme <b>standards</b> plutôt que comme des facteurs de valorisation distinctive</li>
      </ul>
    </td>
    <td style="width:40%; border:none; vertical-align:top; padding:15px;">
      <h5 style="margin:0 0 15px 0; color: #484848; background-color: #f0f0f0; padding: 10px;">Des aménités premium à fort impact</h5>
      <img src="Data/Visual/plot/Multiple/cara_physique/13_impact_amenites_sur_prix_pct.png" style="width:100%; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
      <ul style="margin-top:10px; font-size:0.9em; color:#555;">
        <li>La <b>piscine (+35%)</b>, le <b>jacuzzi (+28%)</b> et l'<b>accès au gymnase (+22%)</b> justifient des primes significatives</li>
        <li>Ces aménités sont <b>rares</b> mais constituent de puissants différenciateurs</li>
      </ul>
    </td>
  </tr>
</table>

<table style="width:100%; border:none; border-collapse: collapse; margin-bottom: 20px; background-color: #f9f9f9;">
  <tr style="border:none;">
    <td colspan="1" style="border:none; padding: 15px; background-color: #f0f0f0;">
      <h5 style="margin:0; color: #484848;">L'accumulation d'aménités premium: un puissant levier de prix</h5>
    </td>
  </tr>
  <tr style="border:none;">
    <td style="border:none; vertical-align:top; padding:15px;">
      <img src="Data/Visual/plot/Multiple/cara_physique/15_prix_moyen_par_nombre_amenites_premium.png" style="width:70%; display:block; margin:0 auto; box-shadow: 0 1px 3px rgba(0,0,0,0.12);"/>
      <p style="text-align:center; margin-top:15px; font-size:0.9em; color:#555;">Le prix moyen augmente de <b>$95</b> pour les logements sans aménité premium à <b>$245</b> pour ceux qui en cumulent cinq, <br>démontrant l'effet multiplicateur de la stratégie d'aménités haut de gamme.</p>
    </td>
  </tr>
</table>

<div style="padding: 15px; background-color: #f5f5f5; border-left: 4px solid #00A699; margin-bottom: 30px;">
  <p style="margin:0; font-style:italic;">L'analyse des aménités révèle une distinction claire entre les équipements de base (attendus mais sans effet premium) et les aménités de luxe (rares mais à fort impact sur le prix). Les hôtes peuvent ainsi optimiser leur rentabilité en investissant stratégiquement dans des aménités clés plutôt qu'en multipliant les équipements standards.</p>
</div>

#### 4.2.3 Synthèse des corrélations et facteurs déterminants

<table style="width:100%; border:none; border-collapse: collapse; background-color: #f9f9f9; margin-bottom: 20px;">
  <tr style="border:none;">
    <td style="border:none; padding: 15px; background-color: #f0f0f0;">
      <h5 style="margin:0; color: #484848;">Matrice de corrélation : identification des clusters et facteurs clés</h5>
    </td>
  </tr>
  <tr style="border:none;">
    <td style="border:none; vertical-align:top; padding:15px;">
      <img src="Data/Visual/plot/Multiple/cara_physique/16_matrice_correlation.png" style="width:85%; display:block; margin:0 auto; box-shadow: 0 2px 4px rgba(0,0,0,0.2);"/>
    </td>
  </tr>
  <tr style="border:none;">
    <td style="border:none; padding:15px;">
      <div style="columns: 2; column-gap: 30px; font-size: 0.95em; color: #444;">
        <p style="margin-top:0;"><b>Cluster capacité</b>: Les variables accommodates, bedrooms, beds et bathrooms sont fortement corrélées entre elles (r > 0.5) et avec le prix (r = 0.45-0.58), formant un groupe cohérent d'indicateurs de taille et de confort.</p>
        <p><b>Cluster aménités</b>: Le nombre d'aménités et le score premium sont modérément corrélés au prix (r = 0.16-0.36), mais leur impact combiné crée un effet multiplicateur significatif, particulièrement visible dans les segments supérieurs.</p>
        <p><b>Prix relatif</b>: Les mesures de prix par personne et par chambre présentent des corrélations distinctes, révélant des dynamiques de valorisation différentes selon le segment de marché.</p>
      </div>
    </td>
  </tr>
</table>

<div style="padding: 20px; background-color: #f7f7f7; border: 1px solid #eaeaea; border-radius: 5px; margin-bottom: 30px;">
  <h5 style="margin-top:0; color: #484848;">Conclusion sur les déterminants physiques du prix</h5>
  <p>Notre analyse des caractéristiques physiques révèle que le prix d'un logement Airbnb est principalement déterminé par trois facteurs clés:</p>
  <ol style="color: #444;">
    <li><b>Capacité et confort</b>: Le nombre de salles de bain (r=0.52) et la capacité d'accueil (r=0.49) sont les prédicteurs numériques les plus puissants du prix</li>
    <li><b>Aménités premium</b>: La présence d'équipements distinctifs comme piscine ou jacuzzi peut justifier une prime de prix allant jusqu'à 35%</li>
    <li><b>Type d'occupation</b>: Les logements entiers, particulièrement les lofts et condominiums, commandent une prime significative par rapport aux chambres privées</li>
  </ol>
  <p style="margin-bottom:0;">Ces facteurs constitueront les variables explicatives fondamentales dans notre modèle prédictif, permettant une estimation plus précise des prix selon les caractéristiques physiques des biens.</p>
</div>

### 4.3 Analyse géographique et impact de la localisation
[Analyse de l'influence de la ville, du quartier et des coordonnées géographiques]

### 4.4 Analyse des aménités
[Étude de l'impact des aménités sur le prix]

### 4.5 Analyse de l'influence des hôtes et des avis
[Analyse de l'importance de l'expérience des hôtes et des évaluations]

<!DOCTYPE html>
<html>
<head>
    <meta charset="UTF-8">
    <title>Section 4.3 - Analyse géographique</title>
    <style>
        body { 
            font-family: 'Segoe UI', Arial, sans-serif; 
            line-height: 1.6; 
            max-width: 1200px; 
            margin: auto; 
            padding: 20px;
        }
        h1, h2, h3, h4, h5 { 
            color: #484848; 
            margin-top: 1.5em; 
        }
        h2 { 
            font-size: 1.8em; 
            border-bottom: 1px solid #00A699; 
            padding-bottom: 8px; 
        }
        h3 { 
            font-size: 1.5em; 
            color: #FC642D; 
        }
        h4 { 
            font-size: 1.2em; 
        }
        h5 {
            margin: 0 0 15px 0; 
            color: #484848; 
            background-color: #f0f0f0; 
            padding: 10px;
        }
        table { 
            width: 100%; 
            border-collapse: collapse; 
            margin-bottom: 20px; 
        }
        table, th, td { 
            border: 1px solid #ddd; 
        }
        th, td { 
            padding: 12px; 
            text-align: left; 
        }
        th { 
            background-color: #f2f2f2; 
        }
        tr:nth-child(even) { 
            background-color: #f9f9f9; 
        }
        .highlight { 
            background-color: #fff8e6; 
            padding: 15px; 
            border-left: 4px solid #FF5A5F; 
            margin-bottom: 20px; 
        }
        .two-columns { 
            display: flex; 
            justify-content: space-between; 
            margin-bottom: 20px; 
        }
        .column { 
            width: 48%; 
        }
        .summary-box {
            padding: 20px; 
            background-color: #f7f7f7; 
            border: 1px solid #eaeaea; 
            border-radius: 5px; 
            margin-bottom: 30px;
        }
        .geo-table {
            width: 100%; 
            border: none; 
            border-collapse: collapse; 
            margin-bottom: 20px; 
            background-color: #f9f9f9;
        }
        .geo-table tr {
            border: none;
        }
        .geo-table td {
            border: none; 
            vertical-align: top; 
            padding: 15px;
        }
        .header-cell {
            background-color: #f0f0f0; 
            padding: 15px;
        }
        .content-cell {
            background-color: #f5f5f5; 
            padding: 15px;
        }
        img {
            width: 100%; 
            box-shadow: 0 1px 3px rgba(0,0,0,0.12);
        }
        .figure-caption {
            margin-top: 8px; 
            font-size: 0.9em; 
            color: #555;
        }
    </style>
</head>
<body>

<h2>4.3 Analyse géographique et impact de la localisation</h2>

<table class="geo-table">
    <tr>
        <td colspan="1" class="header-cell">
            <h4 style="margin:0;">Influence géographique sur les prix</h4>
        </td>
    </tr>
    <tr>
        <td class="content-cell">
            <p>Cette section examine comment la situation géographique influence les prix des locations Airbnb, en analysant les variations entre villes, quartiers et coordonnées GPS précises. L'objectif est de quantifier l'impact de la localisation sur les tarifs et d'identifier les zones à forte valeur ajoutée.</p>
            <p>Nous analysons successivement la hiérarchie urbaine (différences entre villes), la granularité des quartiers, et les patterns spatiaux révélés par les données géographiques précises.</p>
        </td>
    </tr>
</table>

<table class="geo-table">
    <tr>
        <td colspan="2" class="header-cell">
            <h4 style="margin:0;">4.3.1 Hiérarchie urbaine et disparités inter-villes</h4>
        </td>
    </tr>
    <tr>
        <td colspan="2" class="content-cell">
            <p>L'analyse des variations de prix entre les différentes villes révèle une hiérarchie urbaine marquée, reflétant les différences d'attractivité touristique, de coût de la vie et de densité urbaine.</p>
        </td>
    </tr>
    <tr>
        <td class="header-cell">
            <h5>Répartition géographique de l'offre</h5>
        </td>
        <td class="header-cell">
            <h5>Hiérarchie des prix par ville</h5>
        </td>
    </tr>
    <tr>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/localisation/01_distribution_proprietes_par_ville.png"/>
            <p class="figure-caption">
                La <strong>concentration urbaine</strong> se dessine clairement avec une dominance de certaines métropoles sur le marché Airbnb, reflétant leur attractivité touristique et leur densité de population.
            </p>
        </td>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/localisation/02_prix_median_par_ville.png"/>
            <p class="figure-caption">
                Les <strong>écarts de prix substantiels</strong> entre villes révèlent l'impact déterminant de la localisation géographique sur la valorisation des biens.
            </p>
        </td>
    </tr>
</table>


<table class="geo-table">
    <tr>
        <td colspan="2" class="header-cell">
            <h4 style="margin:0;">4.3.2 Granularité des quartiers : l'ultra-localisation comme facteur de prix</h4>
        </td>
    </tr>
    <tr>
        <td colspan="2" class="content-cell">
            <p>Au-delà des différences entre villes, l'analyse des quartiers révèle une segmentation fine des prix à l'échelle ultra-locale. Chaque ville présente sa propre géographie des valeurs, avec des quartiers premium, des zones intermédiaires et des secteurs plus accessibles.</p>
        </td>
    </tr>
    <tr>
        <td class="header-cell">
            <h5>Quartiers les plus représentés (exemple NYC)</h5>
        </td>
        <td class="header-cell">
            <h5>Hiérarchie des prix par quartier</h5>
        </td>
    </tr>
    <tr>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/localisation/04_quartiers_populaires_NYC.png"/>
            <p class="figure-caption">
                La <strong>concentration de l'offre</strong> dans certains quartiers révèle les zones privilégiées par les hôtes Airbnb, souvent corrélées avec l'accessibilité touristique et les infrastructures de transport.
            </p>
        </td>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/localisation/05_prix_median_quartiers_NYC.png"/>
            <p class="figure-caption">
                Les <strong>écarts de prix entre quartiers</strong> d'une même ville peuvent être considérables, reflétant la réputation, l'accessibilité et le standing des différentes zones urbaines.
            </p>
        </td>
    </tr>
</table>

<table class="geo-table">
    <tr>
        <td colspan="1" class="header-cell">
            <h5>Identification des quartiers premium</h5>
        </td>
    </tr>
    <tr>
        <td style="border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/localisation/32_quartiers_premium.png"/>
            <p class="figure-caption">
                Les <strong>quartiers premium</strong> se distinguent par une forte proportion de logements haut de gamme (>150% du prix médian). Ces zones constituent les <strong>points chauds</strong> du marché, où la localisation justifie des tarifs significativement supérieurs.
            </p>
        </td>
    </tr>
</table>

<div class="highlight">
    <p style="margin:0; font-style:italic;">
        L'analyse des quartiers confirme que la micro-localisation est un déterminant crucial du prix. Même au sein d'une ville donnée, les écarts entre quartiers peuvent représenter des multiples de 2 à 4, démontrant l'importance de l'adresse précise dans la stratégie de pricing des hôtes.
    </p>
</div>

<table class="geo-table">
    <tr>
        <td colspan="2" class="header-cell">
            <h4 style="margin:0;">4.3.3 Analyse spatiale par coordonnées GPS : patterns géographiques et zones de valeur</h4>
        </td>
    </tr>
    <tr>
        <td colspan="2" class="content-cell">
            <p>L'exploitation des coordonnées GPS précises permet une analyse spatiale fine, révélant les patterns géographiques de valorisation et les corridors de prix élevés au sein des espaces urbains.</p>
        </td>
    </tr>
    <tr>
        <td class="header-cell">
            <h5>Distribution spatiale des prix</h5>
        </td>
        <td class="header-cell">
            <h5>Analyse par ville (exemple NYC)</h5>
        </td>
    </tr>
    <tr>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/localisation/17_distribution_geographique_prix.png"/>
            <p class="figure-caption">
                La <strong>cartographie des prix</strong> révèle des clusters géographiques distincts, avec des zones de concentration des prix élevés (points chauds) et des corridors de valorisation suivant souvent les axes de transport et les zones centrales.
            </p>
        </td>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/localisation/18_geo_prix_NYC.png"/>
            <p class="figure-caption">
                L'analyse spatiale urbaine détaillée montre la <strong>géographie fine des prix</strong> avec des gradients nets entre centre-ville premium et périphéries plus accessibles, reflétant l'accessibilité et l'attractivité des zones.
            </p>
        </td>
    </tr>
</table>

<table class="geo-table">
    <tr>
        <td class="header-cell">
            <h5>Densité géographique de l'offre</h5>
        </td>
        <td class="header-cell">
            <h5>Cartographie thermique des prix moyens</h5>
        </td>
    </tr>
    <tr>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/localisation/24_heatmap_densite.png"/>
            <p class="figure-caption">
                La <strong>heatmap de densité</strong> révèle les zones de forte concentration de l'offre Airbnb, généralement situées dans les centres urbains et les zones touristiques principales.
            </p>
        </td>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/localisation/25_heatmap_prix_moyen.png"/>
            <p class="figure-caption">
                La <strong>cartographie thermique des prix</strong> identifie les zones de forte valorisation géographique, souvent distinctes des zones de forte densité, révélant la segmentation qualitative de l'espace urbain.
            </p>
        </td>
    </tr>
</table>

<div class="highlight">
    <p style="margin:0; font-style:italic;">
        L'analyse spatiale par coordonnées GPS confirme l'existence de "zones de prix" distinctes au sein des villes, avec des patterns géographiques stables qui reflètent l'attractivité différentielle des espaces urbains. Cette géographie fine des prix constitue un outil précieux pour l'optimisation des stratégies de localisation et de pricing.
    </p>
</div>

<table class="geo-table">
    <tr>
        <td colspan="1" class="header-cell">
            <h4 style="margin:0;">4.3.4 Synthèse des corrélations géographiques et variabilité urbaine</h4>
        </td>
    </tr>
    <tr>
        <td style="border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/localisation/26_correlation_geo_prix.png"/>
            <p class="figure-caption">
                Les <strong>corrélations géographiques</strong> directes (latitude/longitude vs prix) peuvent paraître modestes au niveau global, mais cachent des patterns locaux significatifs révélés par l'analyse spatiale fine.
            </p>
        </td>
    </tr>
</table>

<div class="two-columns">
    <div class="column">
        <table class="geo-table">
            <tr>
                <td class="header-cell">
                    <h5>Caractéristiques moyennes par ville</h5>
                </td>
            </tr>
            <tr>
                <td style="border:none; vertical-align:top; padding:15px;">
                    <img src="Data/Visual/plot/Multiple/localisation/29_comparaison_caracteristiques_villes.png"/>
                    <p class="figure-caption">
                        Les <strong>profils urbains différenciés</strong> révèlent que chaque ville a ses propres caractéristiques d'offre (taille, capacité), influençant indirectement les structures de prix.
                    </p>
                </td>
            </tr>
        </table>
    </div>
    
<div class="column">
        <table class="geo-table">
            <tr>
                <td class="header-cell">
                    <h5>Variabilité des prix intra-urbaine</h5>
                </td>
            </tr>
            <tr>
                <td style="border:none; vertical-align:top; padding:15px;">
                    <img src="Data/Visual/plot/Multiple/localisation/30_variation_prix_par_ville.png"/>
                    <p class="figure-caption">
                        Le <strong>coefficient de variation</strong> des prix par ville révèle l'hétérogénéité interne de chaque marché urbain, certaines villes présentant une segmentation plus marquée que d'autres.
                    </p>
                </td>
            </tr>
        </table>
    </div>
</div>

<div class="summary-box">
    <h5 style="margin-top:0;">Conclusion sur l'impact géographique</h5>
    <p>Notre analyse géographique révèle une hiérarchisation complexe de l'espace dans la formation des prix Airbnb, organisée selon trois niveaux d'analyse :</p>
    <ol style="color: #444;">
        <li><strong>Niveau macro (inter-villes)</strong> : Les différences entre villes constituent le premier facteur de segmentation, avec des écarts de prix médian pouvant atteindre des rapports de 1 à 3 selon l'attractivité et le positionnement économique des destinations</li>
        <li><strong>Niveau méso (quartiers)</strong> : Au sein de chaque ville, la micro-localisation génère des écarts substantiels, avec des quartiers premium justifiant des prix 2 à 4 fois supérieurs aux zones périphériques</li>
        <li><strong>Niveau micro (coordonnées GPS)</strong> : L'analyse spatiale fine révèle des patterns géographiques stables, avec des corridors de valorisation et des zones de prix homogènes qui reflètent l'accessibilité et l'attractivité locale</li>
    </ol>
    <p style="margin-bottom:0;">
        La localisation apparaît ainsi comme un déterminant fondamental du prix, avec un effet multiplicateur qui justifie l'intégration systématique des variables géographiques dans tout modèle prédictif de prix Airbnb.
    </p>
</div>

</body>
</html>

<!DOCTYPE html>
<html>
<head>
    <meta charset="UTF-8">
    <title>Section 4.4 - Analyse des hôtes et avis</title>
    <style>
        body { 
            font-family: 'Segoe UI', Arial, sans-serif; 
            line-height: 1.6; 
            max-width: 1200px; 
            margin: auto; 
            padding: 20px;
        }
        h1, h2, h3, h4, h5 { 
            color: #484848; 
            margin-top: 1.5em; 
        }
        h2 { 
            font-size: 1.8em; 
            border-bottom: 1px solid #00A699; 
            padding-bottom: 8px; 
        }
        h3 { 
            font-size: 1.5em; 
            color: #FC642D; 
        }
        h4 { 
            font-size: 1.2em; 
        }
        h5 {
            margin: 0 0 15px 0; 
            color: #484848; 
            background-color: #f0f0f0; 
            padding: 10px;
        }
        table { 
            width: 100%; 
            border-collapse: collapse; 
            margin-bottom: 20px; 
        }
        table, th, td { 
            border: 1px solid #ddd; 
        }
        th, td { 
            padding: 12px; 
            text-align: left; 
        }
        th { 
            background-color: #f2f2f2; 
        }
        tr:nth-child(even) { 
            background-color: #f9f9f9; 
        }
        .highlight { 
            background-color: #fff8e6; 
            padding: 15px; 
            border-left: 4px solid #FF5A5F; 
            margin-bottom: 20px; 
        }
        .two-columns { 
            display: flex; 
            justify-content: space-between; 
            margin-bottom: 20px; 
        }
        .column { 
            width: 48%; 
        }
        .summary-box {
            padding: 20px; 
            background-color: #f7f7f7; 
            border: 1px solid #eaeaea; 
            border-radius: 5px; 
            margin-bottom: 30px;
        }
        .rep-table {
            width: 100%; 
            border: none; 
            border-collapse: collapse; 
            margin-bottom: 20px; 
            background-color: #f9f9f9;
        }
        .rep-table tr {
            border: none;
        }
        .rep-table td {
            border: none; 
            vertical-align: top; 
            padding: 15px;
        }
        .header-cell {
            background-color: #f0f0f0; 
            padding: 15px;
        }
        .content-cell {
            background-color: #f5f5f5; 
            padding: 15px;
        }
        img {
            width: 100%; 
            box-shadow: 0 1px 3px rgba(0,0,0,0.12);
        }
        .figure-caption {
            margin-top: 8px; 
            font-size: 0.9em; 
            color: #555;
        }
        .stats-grid {
            display: grid;
            grid-template-columns: 1fr 1fr;
            gap: 20px;
            margin-bottom: 20px;
        }
        .stat-box {
            background-color: #f8f9fa;
            padding: 15px;
            border-radius: 5px;
            border-left: 4px solid #00A699;
        }
    </style>
</head>
<body>

<h2>4.4 Analyse de l'influence des hôtes et des avis</h2>

<table class="rep-table">
    <tr>
        <td colspan="1" class="header-cell">
            <h4 style="margin:0;">Impact de la réputation sur les prix</h4>
        </td>
    </tr>
    <tr>
        <td class="content-cell">
            <p>Cette section étudie comment l'expérience des hôtes et la qualité des évaluations impactent les tarifs des hébergements. Dans l'économie de partage, la confiance et la réputation jouent un rôle déterminant dans les décisions de réservation et donc dans la capacité de l'hôte à pratiquer des prix premium.</p>
            <p>Nous analysons quatre dimensions clés de la réputation : l'expérience temporelle des hôtes, leur statut de vérification, le volume d'avis reçus, et la qualité des évaluations. Ces facteurs sont ensuite synthétisés dans un indice de réputation global.</p>
        </td>
    </tr>
</table>

<table class="rep-table">
    <tr>
        <td colspan="2" class="header-cell">
            <h4 style="margin:0;">4.4.1 L'expérience des hôtes : la prime à l'ancienneté</h4>
        </td>
    </tr>
    <tr>
        <td colspan="2" class="content-cell">
            <p>L'ancienneté sur la plateforme Airbnb constitue un signal de fiabilité et d'expertise dans l'accueil. Les hôtes expérimentés ont développé des savoir-faire opérationnels et bénéficient d'une crédibilité acquise qui peut justifier des tarifs supérieurs.</p>
        </td>
    </tr>
    <tr>
        <td class="header-cell">
            <h5>Distribution de l'expérience des hôtes</h5>
        </td>
        <td class="header-cell">
            <h5>Impact de l'expérience sur les prix</h5>
        </td>
    </tr>
    <tr>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/01_distribution_experience_hotes.png"/>
            <p class="figure-caption">
                La <strong>répartition de l'expérience</strong> révèle une plateforme mature avec une base d'hôtes expérimentés, la médiane se situant autour de 3-4 ans d'ancienneté.
            </p>
        </td>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/02_relation_experience_prix.png"/>
            <p class="figure-caption">
                La <strong>corrélation positive</strong> entre ancienneté et prix suggère que l'expérience se traduit par une capacité à valoriser l'offre et à justifier des tarifs premium.
            </p>
        </td>
    </tr>
</table>

<table class="rep-table">
    <tr>
        <td class="header-cell">
            <h5>Segmentation par catégories d'expérience</h5>
        </td>
        <td class="header-cell">
            <h5>Primes tarifaires par ancienneté</h5>
        </td>
    </tr>
    <tr>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/03_prix_par_categorie_experience.png"/>
            <p class="figure-caption">
                La <strong>dispersion des prix</strong> s'accroît avec l'expérience, les hôtes vétérans (6+ ans) affichant une gamme de prix plus étendue, signe d'une différenciation stratégique accrue.
            </p>
        </td>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/04_prix_median_par_experience.png"/>
            <p class="figure-caption">
                Les <strong>hôtes vétérans</strong> pratiquent des prix médians significativement supérieurs aux nouveaux arrivants, démontrant l'effet cumulatif de l'expérience sur la valorisation.
            </p>
        </td>
    </tr>
</table>

<div class="highlight">
    <p style="margin:0; font-style:italic;">
        L'analyse de l'ancienneté révèle un effet d'apprentissage progressif : les hôtes expérimentés développent des compétences tarifaires et opérationnelles qui leur permettent de justifier des prix premium tout en maintenant leur attractivité. Cette dynamique suggère l'existence d'une courbe d'expérience dans l'optimisation revenue des locations courte durée.
    </p>
</div>

<table class="rep-table">
    <tr>
        <td colspan="2" class="header-cell">
            <h4 style="margin:0;">4.4.2 Vérification d'identité : la prime à la confiance</h4>
        </td>
    </tr>
    <tr>
        <td colspan="2" class="content-cell">
            <p>La vérification d'identité constitue un signal de confiance fondamental dans l'économie de partage. Ce processus volontaire de validation par Airbnb peut réduire l'asymétrie d'information et l'incertitude perçue par les voyageurs, justifiant potentiellement des tarifs supérieurs.</p>
        </td>
    </tr>
    <tr>
        <td class="header-cell">
            <h5>Répartition des statuts de vérification</h5>
        </td>
        <td class="header-cell">
            <h5>Impact sur la tarification</h5>
        </td>
    </tr>
    <tr>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/05_distribution_verification_identite.png"/>
            <p class="figure-caption">
                La <strong>proportion majoritaire d'hôtes vérifiés</strong> indique une adoption généralisée de cette pratique de sécurisation, devenant progressivement un standard du marché.
            </p>
        </td>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/07_prix_median_verification.png"/>
            <p class="figure-caption">
                Les <strong>hôtes vérifiés</strong> pratiquent des prix médians légèrement supérieurs, suggérant que la confiance générée se traduit par une prime tarifaire modeste mais mesurable.
            </p>
        </td>
    </tr>
</table>

<table class="rep-table">
    <tr>
        <td colspan="1" class="header-cell">
            <h5>Distribution des prix selon le statut de vérification</h5>
        </td>
    </tr>
    <tr>
        <td style="border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/06_prix_par_verification_identite.png"/>
            <p class="figure-caption">
                L'analyse de distribution confirme que la <strong>vérification d'identité</strong> génère un léger décalage vers le haut de la structure tarifaire, particulièrement visible dans les segments de prix moyens et élevés.
            </p>
        </td>
    </tr>
</table>

<div class="highlight">
    <p style="margin:0; font-style:italic;">
        La vérification d'identité, bien que générant un impact tarifaire modeste, constitue désormais un prérequis concurrentiel plutôt qu'un différenciateur premium. Son absence peut pénaliser la tarification plus que sa présence ne la bonifie, illustrant l'évolution des standards de confiance sur la plateforme.
    </p>
</div>

<table class="rep-table">
    <tr>
        <td colspan="2" class="header-cell">
            <h4 style="margin:0;">4.4.3 Volume d'avis : l'effet de crédibilité sociale</h4>
        </td>
    </tr>
    <tr>
        <td colspan="2" class="content-cell">
            <p>Le nombre d'avis reçus constitue un indicateur de l'activité historique et de la crédibilité sociale de l'hôte. Plus qu'un simple volume, il reflète l'expérience opérationnelle accumulée et la validation collective de la qualité du service.</p>
        </td>
    </tr>
    <tr>
        <td class="header-cell">
            <h5>Distribution du nombre d'avis</h5>
        </td>
        <td class="header-cell">
            <h5>Corrélation avec les prix</h5>
        </td>
    </tr>
    <tr>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/09_distribution_nombre_avis.png"/>
            <p class="figure-caption">
                La <strong>distribution asymétrique</strong> révèle une concentration d'hôtes avec peu d'avis et une minorité d'hôtes très actifs, caractéristique des plateformes d'économie de partage.
            </p>
        </td>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/10_relation_nombre_avis_prix.png"/>
            <p class="figure-caption">
                La <strong>corrélation positive</strong> entre volume d'avis et prix suggère que l'expérience accumulée et la preuve sociale permettent une valorisation tarifaire progressive.
            </p>
        </td>
    </tr>
</table>

<table class="rep-table">
    <tr>
        <td colspan="1" class="header-cell">
            <h5>Segmentation par volume d'avis et impact tarifaire</h5>
        </td>
    </tr>
    <tr>
        <td style="border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/11_prix_par_categorie_avis.png"/>
            <p class="figure-caption">
                La <strong>progression tarifaire</strong> selon le volume d'avis illustre l'effet d'accumulation de crédibilité : les hôtes avec de nombreux avis (50+) peuvent justifier des prix significativement supérieurs à ceux sans historique d'évaluations.
            </p>
        </td>
    </tr>
</table>

<div class="highlight">
    <p style="margin:0; font-style:italic;">
        Le volume d'avis fonctionne comme un multiplicateur de confiance qui autorise une tarification premium. Cette dynamique crée un cercle vertueux où l'activité génère de la crédibilité, qui à son tour permet des prix plus élevés et donc une meilleure rentabilité.
    </p>
</div>

<table class="rep-table">
    <tr>
        <td colspan="2" class="header-cell">
            <h4 style="margin:0;">4.4.4 Qualité des évaluations : l'excellence comme levier de prix</h4>
        </td>
    </tr>
    <tr>
        <td colspan="2" class="content-cell">
            <p>Les scores d'évaluation constituent l'indicateur le plus direct de la qualité perçue du service. Dans un marché où l'expérience client est déterminante, l'excellence des évaluations peut justifier des primes tarifaires substantielles.</p>
        </td>
    </tr>
    <tr>
        <td class="header-cell">
            <h5>Distribution des scores d'évaluation</h5>
        </td>
        <td class="header-cell">
            <h5>Impact qualité-prix</h5>
        </td>
    </tr>
    <tr>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/12_distribution_scores_evaluation.png"/>
            <p class="figure-caption">
                La <strong>concentration des scores élevés</strong> (médiane >90) reflète la tendance positive des évaluations sur Airbnb, mais crée une compétition accrue pour l'excellence.
            </p>
        </td>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/13_relation_score_prix.png"/>
            <p class="figure-caption">
                La <strong>corrélation positive</strong> entre scores et prix démontre que l'excellence évaluée se traduit directement par une capacité de tarification premium.
            </p>
        </td>
    </tr>
</table>

<table class="rep-table">
    <tr>
        <td class="header-cell">
            <h5>Segmentation par qualité d'évaluation</h5>
        </td>
        <td class="header-cell">
            <h5>Prime à l'excellence</h5>
        </td>
    </tr>
    <tr>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/14_prix_par_categorie_score.png"/>
            <p class="figure-caption">
                La <strong>dispersion croissante des prix</strong> avec la qualité des scores révèle que l'excellence ouvre l'accès à des segments tarifaires premium inaccessibles aux hôtes moins bien évalués.
            </p>
        </td>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/15_prix_median_par_score.png"/>
            <p class="figure-caption">
                Les <strong>logements excellents</strong> (95-100) commandent des primes substantielles par rapport aux évaluations moyennes, démontrant la valorisation directe de la qualité perçue.
            </p>
        </td>
    </tr>
</table>

<div class="highlight">
    <p style="margin:0; font-style:italic;">
        La qualité des évaluations apparaît comme le levier de valorisation le plus puissant, créant une différenciation nette entre les segments de marché. L'excellence évaluée (scores 95+) constitue un véritable passeport pour la tarification premium, justifiant des écarts de prix significatifs.
    </p>
</div>

<table class="rep-table">
    <tr>
        <td colspan="2" class="header-cell">
            <h4 style="margin:0;">4.4.5 Synthèse : indice de réputation et impact global</h4>
        </td>
    </tr>
    <tr>
        <td colspan="2" class="content-cell">
            <p>Pour capturer l'effet combiné de tous les facteurs de réputation, nous construisons un indice synthétique pondérant l'expérience (20%), la vérification (10%), le volume d'avis (40%) et la qualité des évaluations (30%). Cette approche multidimensionnelle révèle l'impact global de la réputation sur la tarification.</p>
        </td>
    </tr>
    <tr>
        <td class="header-cell">
            <h5>Distribution de l'indice de réputation combiné</h5>
        </td>
        <td class="header-cell">
            <h5>Effet multiplicateur sur les prix</h5>
        </td>
    </tr>
    <tr>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/16_distribution_indice_reputation.png"/>
            <p class="figure-caption">
                La <strong>distribution de l'indice</strong> révèle une segmentation naturelle du marché entre hôtes à faible, modérée et excellente réputation, chaque segment ayant ses propres dynamiques tarifaires.
            </p>
        </td>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/17_relation_reputation_prix.png"/>
            <p class="figure-caption">
                La <strong>corrélation robuste</strong> entre l'indice de réputation et les prix confirme l'effet multiplicateur de la combinaison des facteurs de confiance sur la capacité de tarification.
            </p>
        </td>
    </tr>
</table>

<table class="rep-table">
    <tr>
        <td colspan="1" class="header-cell">
            <h5>Segmentation tarifaire par niveau de réputation</h5>
        </td>
    </tr>
    <tr>
        <td style="border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/18_prix_par_categorie_reputation.png"/>
            <p class="figure-caption">
                La <strong>hiérarchisation claire des prix</strong> selon les niveaux de réputation démontre l'existence de segments de marché distincts, avec des écarts tarifaires substantiels entre réputation faible et excellente.
            </p>
        </td>
    </tr>
</table>

<table class="rep-table">
    <tr>
        <td class="header-cell">
            <h5>Matrice de corrélation des facteurs de réputation</h5>
        </td>
        <td class="header-cell">
            <h5>Impact comparatif des facteurs</h5>
        </td>
    </tr>
    <tr>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/19_correlation_reputation.png"/>
            <p class="figure-caption">
                Les <strong>corrélations entre facteurs</strong> révèlent des synergies entre ancienneté, volume d'avis et qualité des évaluations, suggérant un effet d'accumulation de la réputation dans le temps.
            </p>
        </td>
        <td style="width:50%; border:none; vertical-align:top; padding:15px;">
            <img src="Data/Visual/plot/Multiple/hotes_avis/21_impact_comparatif_reputation.png"/>
            <p class="figure-caption">
                L'<strong>analyse comparative</strong> révèle que la qualité des évaluations et la réputation globale génèrent les impacts tarifaires les plus significatifs, tandis que la vérification a un effet plus modeste.
            </p>
        </td>
    </tr>
</table>

<div class="summary-box">
    <h5 style="margin-top:0;">Conclusion sur l'impact de la réputation</h5>
    <p>Notre analyse de la réputation révèle un système complexe où la confiance se traduit directement en capacité de tarification premium, organisé selon quatre leviers principaux :</p>
    <ol style="color: #444;">
        <li><strong>Excellence évaluée (impact majeur)</strong> : Les scores d'évaluation 95+ génèrent les primes tarifaires les plus substantielles, constituant le différenciateur concurrentiel le plus puissant</li>
        <li><strong>Volume d'avis (effet cumulatif)</strong> : L'accumulation de crédibilité sociale permet une valorisation progressive, avec un seuil critique autour de 50 avis pour accéder aux prix premium</li>
        <li><strong>Expérience temporelle (effet d'apprentissage)</strong> : L'ancienneté génère des compétences tarifaires et opérationnelles qui se traduisent par des prix médians croissants</li>
        <li><strong>Vérification d'identité (prérequis)</strong> : Désormais standard plutôt que différenciateur, son absence pénalise plus que sa présence ne valorise</li>
    </ol>
    <p style="margin-bottom:0;">
        L'indice de réputation combiné démontre un effet multiplicateur : les hôtes à excellente réputation (8-10/10) pratiquent des prix moyens 40-60% supérieurs à ceux à faible réputation (0-3/10), confirmant que la confiance constitue le principal levier de valorisation dans l'économie de partage.
    </p>
</div>

</body>
</html>

## 5. Modélisation prédictive

### 5.1 Sélection des variables
[Description des variables retenues pour la modélisation]

### 5.2 Choix et paramétrage des modèles

Nous avons testé les 5 modèles de régression suivants, couramment utilisés en machine learning supervisé :

| Modèle                   | Description                                            | Paramètres principaux                   |
|--------------------------|--------------------------------------------------------|-----------------------------------------|
| Ridge Regression         | Régression linéaire avec régularisation L2             | `alpha=1.0`                             |
| ElasticNet               | Régression mixte L1+L2                                 | `alpha=1.0, l1_ratio=0.5`               |
| Random Forest Regressor  | Modèle d'ensemble basé sur des arbres de décision      | `n_estimators=100`                      |
| XGBoost Regressor        | Boosting d'arbres performant et robuste                | `n_estimators=100`                      |
| MLP Regressor            | Réseau de neurones avec 2 couches cachées              | `hidden_layer_sizes=(50, 50), max_iter=1000` |

> **Entraînement**  
> Les modèles ont été entraînés sur 80 % du dataset (`train/test split`) avec une graine fixée à 42 pour la reproductibilité.

---

### 5.3 Évaluation des performances

L’évaluation des modèles a été faite via la Racine de l’Erreur Quadratique Moyenne (RMSE) sur le jeu de test :

| Modèle                  | RMSE  | Interprétabilité | Temps d’entraînement |
|-------------------------|-------|------------------|----------------------|
| **XGBoost Regressor**   | 0.38  | Moyenne          | Rapide               |
| **Random Forest**       | 0.41  | Moyenne          | Rapide               |
| **Ridge Regression**    | 0.47  | Élevée           | Très rapide          |
| **ElasticNet**          | 0.49  | Élevée           | Très rapide          |
| **MLP Regressor**       | 0.52  | Faible           | Long                 |

> **Conclusion**  
> Le modèle **XGBoost Regressor** offre les meilleures performances avec la plus faible RMSE. Il est recommandé pour les déploiements opérationnels.


## 6. Résultats et interprétation

### 6.1 Facteurs déterminants du prix
[Présentation des variables ayant le plus d'impact sur le prix]

### 6.2 Performance du modèle prédictif et Limites de l'étude
[Détail des performances du modèle final]
[Discussion des contraintes et limites de l'analyse]

## 7. Conclusion et perspectives

### 7.1 Synthèse des résultats
[Récapitulatif des principales découvertes]

### 7.2 Pistes d'amélioration et travaux futurs
[Suggestions pour poursuivre et approfondir cette étude]

## 8. Références
[Liste des sources, articles et outils utilisés]