# Analyse prédictive des prix de location Airbnb

## 1. Contexte du projet

Dans un marché immobilier de plus en plus compétitif, comprendre les facteurs qui influencent le prix des locations à court terme est devenu essentiel tant pour les propriétaires que pour les plateformes comme Airbnb. Ce projet vise à analyser en profondeur un ensemble de données de propriétés Airbnb pour identifier les déterminants du prix et développer un modèle prédictif fiable.

Les objectifs principaux de cette étude sont :
- Comprendre les variables qui influencent significativement le prix des locations
- Quantifier l'impact des différentes caractéristiques (localisation, type de propriété, aménités, etc.)
- Développer un modèle capable de prédire avec précision le prix d'une location en fonction de ses attributs

Cette analyse s'appuie sur un jeu de données contenant des informations détaillées sur 15 601 propriétés (22 235 orginellement) Airbnb.

## 2. Description des données d'entrainement

### 2.1 Source et structure des données
Le jeu de données utilisé provient du projet d'Analyse de données d'année 3 ESILV semestre 2. Après nettoyage, nous disposons de 15 601 propriétés avec 21 variables. Voici un aperçu des principales variables retenues pour l'analyse :

| Catégorie | Variables |
|-----------|-----------|
| Identifiants | id |
| Variable Cible | log_price |
| Caractéristiques physiques | property_type, room_type, accommodates, bedrooms, beds, bed_type, bathrooms, amenities |
| Localisation | city, neighbourhood, latitude, longitude |
| Règles et politiques | cancellation_policy, cleaning_fee, instant_bookable |
| Information sur l'hôte | host_since, host_identity_verified |
| Réputation | number_of_reviews, review_scores_rating |

### 2.2 Nettoyage et prétraitement des données
Plusieurs étapes de nettoyage ont été nécessaires pour préparer les données à l'analyse :
- Sélection des variables pertinentes pour la prédiction de prix

    Nous avons décider délibérement de suprimmer 'description' de notre étude car bien que nous savons qu'elle a une influence importante sur le prix du bien nous savons pas comment traite de facon efficace cette variable dus a sa complexite et sa richesse d'information.
    Pour ce qui est 'first_review', 'host_has_profile_pic', 'host_response_rate', 'last_review', 'name' et 'zipcode' nous considérons qu'ils  n'apportent que peu d'utilité pour notre prediction. 

- Élimination des observations avec valeurs manquantes (15 601 propriétés conservées)
- Standardisation des types de propriétés (regroupement des catégories rares en "Other")
- Extraction du nombre d'aménités comme caractéristique additionnelle

### 2.3 Distribution de la variable cible : 'log_price'
La variable cible de notre étude est le logarithme du prix (`log_price`), ce qui permet de normaliser la distribution et de faciliter la modélisation. [Insérer ici description de la distribution observée]

## 3. Méthodologie d'analyse

### 3.1 Approche générale
Notre approche d'analyse se décompose en plusieurs étapes :
1. Analyse exploratoire des données pour comprendre les relations entre variables
2. Analyse bivariée entre chaque variable explicative et le prix
3. Analyse multivariée pour détecter les interactions entre variables
4. Modélisation prédictive et évaluation des performances

### 3.2 Outils et techniques utilisés
Pour cette étude, nous avons utilisé les bibliothèques Python suivantes :
- Pandas et NumPy pour la manipulation des données
- Matplotlib et Seaborn pour la visualisation
- Scikit-learn pour la modélisation (si applicable)

## 4. Analyse exploratoire des données

### 4.1 Distribution des prix
[Description de l'analyse de la distribution des prix]

### 4.2 Analyse des caractéristiques physiques des propriétés
[Analyse de l'impact des caractéristiques comme le type de propriété, nombre de chambres, etc.]

### 4.3 Analyse géographique et impact de la localisation
[Analyse de l'influence de la ville, du quartier et des coordonnées géographiques]

### 4.4 Analyse des aménités
[Étude de l'impact des aménités sur le prix]

### 4.5 Influence des hôtes et des avis
[Analyse de l'importance de l'expérience des hôtes et des évaluations]

## 5. Modélisation prédictive

### 5.1 Sélection des variables
[Description des variables retenues pour la modélisation]

### 5.2 Choix et paramétrage des modèles
[Présentation des algorithmes testés et leur configuration]

### 5.3 Évaluation des performances
[Analyse des métriques d'évaluation et comparaison des modèles]

## 6. Résultats et interprétation

### 6.1 Facteurs déterminants du prix
[Présentation des variables ayant le plus d'impact sur le prix]

### 6.2 Performance du modèle prédictif et Limites de l'étude
[Détail des performances du modèle final]
[Discussion des contraintes et limites de l'analyse]

## 7. Conclusion et perspectives

### 7.1 Synthèse des résultats
[Récapitulatif des principales découvertes]

### 7.2 Pistes d'amélioration et travaux futurs
[Suggestions pour poursuivre et approfondir cette étude]

## 8. Références
[Liste des sources, articles et outils utilisés]