# SAÉ 2.04 - Eploitation d'une base de données

<u> Réalisée par :</u> MARSAN Louis & DESESSARD Estéban

L'objectif de cette SAÉ est d'étudier les données recensées dans les différents fichiers à notre disposition, issus d'un scrapping de données AirBNB, une plateforme de location de logements en ligne.

Afin de faire de projet, nous utiliserons des outils d'analyses statistiques sous Python, ainsi que des modèles graphiques générés, qui pourront nous aider à répondre à différentes questions.

Toutes les données manipulées sont issues du site http://insideairbnb.com/.

---

## 1. Importation des bibliothèques nécessaires :
Pour l'étude de ces données, seront nécessaires les bibliothèques ``pandas``, ``numpy`` et ``os``

In [22]:
# Importation des bibliothèques nécessaires
import numpy as np
import pandas as pd
import os
import matplotlib.pyplot as plt

## 2. Importation des fichiers ``.csv`` :

**2.1 Importation sous forme de dataframes**

Une fois que les bibilothèques nécessaires sont installées, nous pouvons commencer à importer les fichiers ``.csv`` sous forme de dataframes.  
Afin d'importer les données nécessaires à ce rendu, nous utiliserons la méthode ``pandas.read_table`` :

In [23]:
# Importation des fichiers .csv
hotes     = pd.read_table('hotes.csv', sep=';', encoding='utf-8', decimal=',', index_col='host_id')
logements = pd.read_table('logements.csv', sep=';', encoding='utf-8', decimal=',', index_col='logt_id')
communes  = pd.read_table('villespoles2.csv', sep='	', encoding='ansi', decimal='.', index_col='code insee')
reviews   = pd.read_table('reviews.csv', sep=',', encoding='utf-8', index_col='id')

Traceback (most recent call last):
  File "<input>", line 4, in <module>
  File "/lib/python3.11/site-packages/pandas/util/_decorators.py", line 211, in wrapper
    return func(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/lib/python3.11/site-packages/pandas/util/_decorators.py", line 331, in wrapper
    return func(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/lib/python3.11/site-packages/pandas/io/parsers/readers.py", line 1289, in read_table
    return _read(filepath_or_buffer, kwds)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/lib/python3.11/site-packages/pandas/io/parsers/readers.py", line 605, in _read
    parser = TextFileReader(filepath_or_buffer, **kwds)
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/lib/python3.11/site-packages/pandas/io/parsers/readers.py", line 1442, in __init__
    self._engine = self._make_engine(f, self.engine)
                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/lib/python3.11/site-packages/pan

Error: 

Les paramètres de cette importation sont les suivants :  
- ``sep`` : *le séparateur des données*
- ``encoding`` : *l'encodage du fichier*
- ``decimal`` : *le séparateur décimal*
- ``index_col`` : *le nom de la colonne correspondant à l'index*

**2.2 Jointures des dataframes**

Afin d'étudier nos dataframes de manière la plus simple possible, nous allons en quelques sortes "fusionner" ceux-ci pour naviguer à travers toutes les données rassemblées sur un seul dataframe.

Pour faire ceci, nous utiliserons la méthode ``pd.merge`` :

In [15]:
# Jointures tes dataframes hotes et logements grâce à l'ID de l'hôte
datas = pd.merge(hotes, logements, how = 'inner', on = 'host_id')

Traceback (most recent call last):
  File "<input>", line 2, in <module>
NameError: name 'hotes' is not defined


Error: 

## 3. Domaine principal étudié :
Nous avons majoritairement décidé d'axer notre étude sur le prix d'un logement ainsi que la satisfcation des clients locataires.

Effectivement, il est important de connaître les conditions d'hébergement des locataires. Nous souhations donc savoir si certaines données pourraient avoir un lien.

## 4. Liste des questions posées :

**4.1 Est ce que la densité de logements disponibles à la location ont un lien avec leur distance de la plage ?**

*Pour le moment, nous n'avons pas les outils d'analyse géographique nécessaire pour répondre à cette question.*  
*Nb : Cependant, il pourrait sembler intuitif que plus notre distance se rapproche de la plage, plus nous pourrons trouver de logements puisque la côte basque est très réputée pour ses plages de sable fin.*

**4.2 Est ce que les notes attrbuées par les locataires sont en lien avec le temps de réponse de l'hôte ?**

Effectivement, il pourrait être intéressant de savoir si ces données ont un lien. Il est possible que si un hôte répond rapidement, c'est qu'il est attentif aux demandes des locataires, et propose un logement plutôt qualitatif.

Afin de répondre à cette question, nous allons construire un diagramme en barre. Effectivement, celui-ci pourra nous indiquer les notes attribuées par les locataires en fonction du temps de réponse de l'hôte.

Tout d'abord, nous commencçons par réaliser la moyenne des notes par temps de réponses. Pour rappel, le temps de réponse prend 4 modalités :
- within an hour
- within a few hours
- within a day
- a few days or more

In [1]:
moyennes_notes_par_temps = datas.groupby('host_response_time')['logt_review_scores_rating'].mean()

Traceback (most recent call last):
  File "<input>", line 1, in <module>
NameError: name 'datas' is not defined


Error: 

Cette exécution permet de faire la moyenne des notes, regroupées par temps de réponse de l'hôte.

Nous pouvons maintenant construire notre diagramme :

In [2]:
plt.bar(moyennes_notes_par_temps.index, moyennes_notes_par_temps)
plt.xticks(rotation=45, ha='right')
plt.xlabel('Temps de réponse de l\'hôte')
plt.ylabel('Note attribuée par les locataires (moyenne)')
plt.title('Relation entre les notes et le temps de réponse des hôtes')

Traceback (most recent call last):
  File "<input>", line 1, in <module>
NameError: name 'plt' is not defined


Error: 

Nous constatons sur celui-ci que les résultats ne sont pas vraiment exploitables. À première vue, les notes moyennes semblement toutes partiquement égales, à quelques dixièmes de différence.

Nous allons donc "tricher", et en quelque sorte "zoomer' sur la partie haute du diagramme afin de mieux voir les petites différences en rajoutant une limite aux ordonnées grâce à ``plt.ylim(4.5, 5)`` :

In [3]:
plt.bar(moyennes_notes_par_temps.index, moyennes_notes_par_temps)
plt.xticks(rotation=45, ha='right')
plt.xlabel('Temps de réponse de l\'hôte')
plt.ylabel('Note attribuée par les locataires (moyenne)')
plt.title('Relation entre les notes et le temps de réponse des hôtes')
plt.ylim(4.5, 5)

Traceback (most recent call last):
  File "<input>", line 1, in <module>
NameError: name 'plt' is not defined


Error: 

En zommant ainsi sur le diagramme, nous constatons que les moyennes sont effectivement très proches, et que la meilleure est attribuées aux hôtes répondant en quelques heures.

Nous concluons que il n'existe pas vraiment de lien entre les notes attribuées par les utilisateurs selon le temps de réponse de l'hôte.

**4.3 Quelle-est l'origine des locataires venant sur la côte basque ?**  

Afin de répondre à cette question, nous allons pouvoir relever la **langue d'écriture** des commentaires lors des avis déposés sur les logements dans le dataframe ``reviews``.

Tout d'abord, nous commencons par utiliser ``langdetect`` afin de détecter la langue d'écriture du commentaire :

In [19]:
from langdetect import detect

# Injection de la langue de chaque commentaire dans le dataframe reviews
reviews['langue_detectee'] = ''
for ind in reviews.index :
    try :
        reviews.loc[ind, 'langue_detectee'] = detect(reviews.loc[ind, 'comments'])
    except : 
        pass

    # Tableau de fréquence
    logt_review = reviews['listing_id'].value_counts()

Traceback (most recent call last):
  File "<input>", line 1, in <module>
ModuleNotFoundError: No module named 'langdetect'


Error: 

Par la suite, nous regrouperons les avis que selon 4 langues :    
- Français
- Espagnol
- Anglais
- *Autres*

*Cependant, l'exécution de cette boucle est beaucoup trop lente et nous ne pouvons pas plus avancer sur la réponse de cette question.*

**4.4 Est ce que le prix de la location d'une nuit et les notes attribuées sont liés ?**

Effectivement, nous pourrions penser que si un logement est plus cher qu'un autre, il devrait sûrement être meilleur.
Nous souhaitons donc vérifier, par le biai des avis déposés, si ces deux valeurs sont liées.

In [17]:
plt.scatter(datas['logt_prix'], datas['logt_review_scores_rating'])
plt.xlabel('Prix de la location par nuit')
plt.ylabel('Note attribuée par les locataires')
plt.title('Relation entre le prix et les notes attribuées')
plt.show()

Traceback (most recent call last):
  File "<input>", line 1, in <module>
NameError: name 'datas' is not defined


Error: 

Ce nuage de points formées est totalement inexploitable.

Cependant, une chose assez importante est à retenir, c'est que celui-ci n'a pas de forme particulière. Nous pouvons donc en conclure que il n'existe pas de lien entre le prix d'un logement et les notes attribuées.

**4.5 Quelles-sont les proportions de résidences principales et de résidences en location ?**

**4.6 Quel-est le prix moyen d'une nuit pour une personne en fonction de la capacité du logement ?**

Afin de calculer le prix d'une nuit pour une personne, il suffit simplement de diviser le prix du logement par le nombre de personnes que le logement peut accueillir :

In [9]:
datas['prix_par_personne'] = datas['logt_prix'] / datas['logt_accommodates']

Traceback (most recent call last):
  File "<input>", line 1, in <module>
NameError: name 'datas' is not defined


Error: 

Désormais, nous pouvons établir le prix moyen par personne par capacité :

In [10]:
prix_moyen_par_personne_par_capacite = datas['prix_par_personne'].groupby(datas['logt_accommodates']).mean()

Traceback (most recent call last):
  File "<input>", line 1, in <module>
NameError: name 'datas' is not defined


Error: 

Cette exécution nous à permis de faire la moyenne des prix par personne, groupé par la capcité du logement.

Maintenant, créons un diagramme en barre mettant en relation le prix moyen par personne par capacité :

**4.7 Quel-est le nombre de commentaires par logement en fonction de la moyenne des notes ?**

**4.8 Est ce qu'un hôte qualifié comme "super-hôte" propose des logements à des prix supérieurs à la moyenne ?** 