# <center> INTRODUCTION À PYTHON POUR L'ÉCONOMIE EMPIRIQUE</center>
## <center> COURS : </center>
## <center> LECTURE ET ANALYSE DE BASIQUE DE DONNÉES </center>
#### <center>Michal Urdanivia (UGA)</center>
#### <center> michal.wong-urdanivia@univ-grenoble-alpes.fr </center>

### <center>1. PRÉSENTATION </center>

Nous allons dans ce notebook nous servir de données de AirBnb pour la ville de Paris, lesquelles sont disponibles à **Inside AirBnb**: 

http://insideairbnb.com/get-the-data.html

Un dictionnaire des variables disponibles est à consulter [ici](https://docs.google.com/spreadsheets/d/1iWCNJcSutYqpULSQHlNyGInUvHg2BoUGoNRIGa6Szc4/edit#gid=982310896).

Les données que nous employons concernent:

- les listings,
- les prix.

In [None]:
# Importation de bibliothèques utilisées

import numpy as np
import pandas as pd

### <center>2. LECTURE DES DONNÉES </center>

La bibliothèque Pandas contient plusieurs fonction pour lire des données qui se distinguent par le format dans lequel les données se présentent. Par exemple, notons les fonction suivantes,

- `pd.read_csv()`
- `pd.read_html()`
- `pd.read_parquet()`

Pour ce qui va suivre, on peut noter `pd.read_csv()` peut importer des données depuis le web.

La première base de données que nous importons contient les listings de AirBnb pour la ville de Paris.

In [2]:
url_listings = "http://data.insideairbnb.com/france/ile-de-france/paris/2023-09-04/visualisations/listings.csv"
df_listings = pd.read_csv(url_listings)

La deuxième base de données contient des informations sur les montants(prix) des transactions et le calendrier correspondant. Ces données se présentent en format compressé. Pour les importer directement on utilise ici l'option  `compression`.
 

In [3]:
url_prices = "http://data.insideairbnb.com/france/ile-de-france/paris/2023-09-04/data/calendar.csv.gz"
df_prices = pd.read_csv(url_prices, compression="gzip")

### <center>3. EXPLORATION BASIQUE DES DONNÉES </center>

> Méthodes
>
>- `info()`
>- `head()`
>- `describe()`

L'appel de' `info()` data frame pandas donne des informations sur les données dans leur ensemble et les variables présentes.

In [6]:
df_listings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67942 entries, 0 to 67941
Data columns (total 18 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id                              67942 non-null  int64  
 1   name                            67942 non-null  object 
 2   host_id                         67942 non-null  int64  
 3   host_name                       67935 non-null  object 
 4   neighbourhood_group             0 non-null      float64
 5   neighbourhood                   67942 non-null  object 
 6   latitude                        67942 non-null  float64
 7   longitude                       67942 non-null  float64
 8   room_type                       67942 non-null  object 
 9   price                           67942 non-null  int64  
 10  minimum_nights                  67942 non-null  int64  
 11  number_of_reviews               67942 non-null  int64  
 12  last_review                     

Avec l'option `verbose=False` on peut se contenter d'informations sur la dimension des données.

In [8]:
df_listings.info(verbose=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67942 entries, 0 to 67941
Columns: 18 entries, id to license
dtypes: float64(4), int64(8), object(6)
memory usage: 9.3+ MB


On peut aussi afficher des lignes de la base afin de voir à quoi cela ressemble. Pour cela on peut utiliser la méthode `head()`  qui par défaut affiche les 5 premières lignes. Avec `head(nbr)` ou `head(n = nbr)`où `nbr` est un entier positif on affiche les `nbr` premières lignes.

In [9]:
df_listings.head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm,license
0,3109,Rental unit in Paris · ★5.0 · 1 bedroom · 1 be...,3631,Anne,,Observatoire,48.83191,2.3187,Entire home/apt,110,2,9,2019-10-24,0.11,1,253,0,7511409139079
1,5396,Rental unit in Paris · ★4.56 · Studio · 1 bed ...,7903,Borzou,,Hôtel-de-Ville,48.85247,2.35835,Entire home/apt,140,1,354,2023-09-02,2.05,1,207,44,7510402838018
2,7397,Rental unit in Paris · ★4.73 · 2 bedrooms · 2 ...,2626,Franck,,Hôtel-de-Ville,48.85909,2.35315,Entire home/apt,140,10,337,2023-08-31,2.23,1,211,25,7510400829623
3,7964,Rental unit in Paris · ★4.80 · 1 bedroom · 1 b...,22155,Anaïs,,Opéra,48.87417,2.34245,Entire home/apt,180,7,6,2015-09-14,0.04,1,30,0,7510903576564
4,9359,Rental unit in Paris · 1 bedroom · 1 bed · 1 bath,28422,Bernadette,,Louvre,48.86006,2.34863,Entire home/apt,75,180,0,,,1,105,0,"Available with a mobility lease only (""bail mo..."
5,9952,Rental unit in Paris · ★4.92 · 1 bedroom · 1 b...,33534,Elisabeth,,Popincourt,48.86373,2.37093,Entire home/apt,190,4,48,2023-06-18,0.38,1,83,9,7511101582862


La méthode `describe()` permet d'afficher une description des données. Si plusieurs variables sont présentes il est préférable d'afficher une transposée du tableau de sortie par défaut en utilisant l'attribut `.T`.

In [11]:
df_listings.describe().T[:5]

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,67942.0,3.310389e+17,4.051158e+17,3109.0,19999790.0,45083540.0,7.816499e+17,9.731725e+17
host_id,67942.0,144932400.0,169273300.0,275.0,16422200.0,53405960.0,251346700.0,535426700.0
neighbourhood_group,0.0,,,,,,,
latitude,67942.0,48.86433,0.01817003,48.81608,48.85123,48.86561,48.87901,48.90167
longitude,67942.0,2.344107,0.03374945,2.22464,2.32278,2.34747,2.369,2.46712
price,67942.0,205.1059,482.0484,8.0,80.0,125.0,209.0,63594.0


On peut choisir les variables à afficher avec l'option `include` avec `include='all'`
pour inclure aussi les variables catégorielles.

In [12]:
df_listings.describe(include='all').T[:5]

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
id,67942.0,,,,3.3103894489193005e+17,4.0511583266048096e+17,3109.0,19999793.25,45083541.5,7.816499180853549e+17,9.731724949191218e+17
name,67942.0,9565.0,Rental unit in Paris · 1 bedroom · 1 bed · 1 bath,5294.0,,,,,,,
host_id,67942.0,,,,144932443.647803,169273281.834942,275.0,16422202.0,53405957.5,251346692.5,535426655.0
host_name,67935.0,9866.0,Joffrey,993.0,,,,,,,
neighbourhood_group,0.0,,,,,,,,,,


L'attribut `.columns` donne une liste des colonnes dans la base de données.

In [13]:
df_listings.columns

Index(['id', 'name', 'host_id', 'host_name', 'neighbourhood_group',
       'neighbourhood', 'latitude', 'longitude', 'room_type', 'price',
       'minimum_nights', 'number_of_reviews', 'last_review',
       'reviews_per_month', 'calculated_host_listings_count',
       'availability_365', 'number_of_reviews_ltm', 'license'],
      dtype='object')

Pour obtenir l'indice nous employons l'attribut `.index`,

In [14]:
df_listings.index

RangeIndex(start=0, stop=67942, step=1)

### <center>4. SÉLECTION DE DONNÉES </center>

Pour accéder à une seule colonne du data frame on utilise le nom de cette colonne comme la clé d'un élément dans un objet de type dictionnaire.

In [15]:
df_listings['price']

0        110
1        140
2        140
3        180
4         75
        ... 
67937    150
67938    283
67939     86
67940    192
67941    288
Name: price, Length: 67942, dtype: int64

L'attribut `.iloc` permet la sélection de lignes et colonnes à partir de l'indice,

In [16]:
df_listings.iloc[:7, 5:9]

Unnamed: 0,neighbourhood,latitude,longitude,room_type
0,Observatoire,48.83191,2.3187,Entire home/apt
1,Hôtel-de-Ville,48.85247,2.35835,Entire home/apt
2,Hôtel-de-Ville,48.85909,2.35315,Entire home/apt
3,Opéra,48.87417,2.34245,Entire home/apt
4,Louvre,48.86006,2.34863,Entire home/apt
5,Popincourt,48.86373,2.37093,Entire home/apt
6,Buttes-Montmartre,48.887,2.34531,Entire home/apt


Pour ne sélectionner que des lignes ou colonnes on utilise `:` sur la dimension(lignes ou colonnes) où la sélection ne s'applique pas.

In [17]:
df_listings.iloc[:, 5:9].head()

Unnamed: 0,neighbourhood,latitude,longitude,room_type
0,Observatoire,48.83191,2.3187,Entire home/apt
1,Hôtel-de-Ville,48.85247,2.35835,Entire home/apt
2,Hôtel-de-Ville,48.85909,2.35315,Entire home/apt
3,Opéra,48.87417,2.34245,Entire home/apt
4,Louvre,48.86006,2.34863,Entire home/apt


Quant à l'attribut `.loc` il permet d'utiliser les noms des lignes et colonnes.

In [18]:
df_listings.loc[:, ['neighbourhood', 'latitude', 'longitude']].head()

Unnamed: 0,neighbourhood,latitude,longitude
0,Observatoire,48.83191,2.3187
1,Hôtel-de-Ville,48.85247,2.35835
2,Hôtel-de-Ville,48.85909,2.35315
3,Opéra,48.87417,2.34245
4,Louvre,48.86006,2.34863


Et on peut aussi sélectionner des rangs.

In [19]:
df_listings.loc[:, 'neighbourhood':'room_type'].head()

Unnamed: 0,neighbourhood,latitude,longitude,room_type
0,Observatoire,48.83191,2.3187,Entire home/apt
1,Hôtel-de-Ville,48.85247,2.35835,Entire home/apt
2,Hôtel-de-Ville,48.85909,2.35315,Entire home/apt
3,Opéra,48.87417,2.34245,Entire home/apt
4,Louvre,48.86006,2.34863,Entire home/apt


Une manière rapide de sélectionner des **colonnes numériques** est la fonction
`.select_dtypes()` fonction.

In [20]:
df_listings.select_dtypes(include=['number']).head()

Unnamed: 0,id,host_id,neighbourhood_group,latitude,longitude,price,minimum_nights,number_of_reviews,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm
0,3109,3631,,48.83191,2.3187,110,2,9,0.11,1,253,0
1,5396,7903,,48.85247,2.35835,140,1,354,2.05,1,207,44
2,7397,2626,,48.85909,2.35315,140,10,337,2.23,1,211,25
3,7964,22155,,48.87417,2.34245,180,7,6,0.04,1,30,0
4,9359,28422,,48.86006,2.34863,75,180,0,,1,105,0


Les autres types sont:

- `object` pour les chaînes de caractère,
- `bool` pour les booléens,
- `int` pour les entiers,
- `float` pour les floats(par abus nous dirons qu'il s'agit des nombres réels)

On peut aussi sélectionner des lignes à partir d'un opérateur logique,

In [21]:
df_listings.loc[df_listings['number_of_reviews']>500, :].head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm,license
39,35065,Rental unit in Paris · ★4.69 · 1 bedroom · 1 b...,150876,Benoit,,Palais-Bourbon,48.85284,2.32517,Entire home/apt,259,1,807,2023-08-19,5.1,1,210,76,7510708233709
153,192162,Guesthouse in Paris · ★4.84 · 1 bedroom · 1 be...,909793,Cristina,,Panthéon,48.84851,2.35321,Entire home/apt,86,3,575,2023-08-21,4.25,1,3,69,Exempt - hotel-type listing
154,193632,Rental unit in Paris · ★4.66 · Studio · 1 bed ...,777533,Celine,,Temple,48.86167,2.35974,Entire home/apt,114,2,636,2023-08-19,4.37,1,152,64,7510302827652
194,252525,Rental unit in Paris · ★4.72 · 1 bedroom · 1 b...,1164453,Antonella,,Bourse,48.86869,2.33542,Private room,78,1,526,2023-09-03,3.79,2,7,45,7510200798302
243,314288,Bed and breakfast in Paris · ★4.81 · 1 bedroom...,1614803,Blandine,,Reuilly,48.84537,2.38132,Private room,103,1,511,2023-09-03,3.76,2,250,94,7511200900469


On peut aussi utiliser des conjonctions logiques mais il faut se souvenir d'utiliser des parenthèses

**Remarque**: les expressions `and` et  `or` expressions ne fonctionnent pas dans ce cadre. On doit utiliser `&` et `|`.

In [22]:
df_listings.loc[(df_listings['number_of_reviews']>300) &
                (df_listings['reviews_per_month']>7), 
                :].head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm,license
820,846954,Rental unit in Paris · ★4.78 · 1 bedroom · 1 b...,3125405,Maguy,,Popincourt,48.85416,2.38722,Private room,58,1,1098,2023-09-04,8.44,1,0,185,
1221,1249964,Rental unit in Paris · ★4.87 · 1 bedroom · 1 b...,6811343,Mike,,Louvre,48.86486,2.34186,Private room,149,1,1006,2023-09-05,8.11,1,178,123,7510100699052.0
2220,2488829,Rental unit in Paris · ★4.63 · 1 bedroom · 1 b...,12737796,Axel,,Popincourt,48.85466,2.37195,Entire home/apt,120,1,847,2023-08-26,7.33,2,235,89,7511100788947.0
4913,5678736,Rental unit in Paris · ★4.69 · 1 bedroom · 1 b...,12737796,Axel,,Hôtel-de-Ville,48.85437,2.36869,Entire home/apt,120,1,732,2023-09-01,7.11,2,191,97,7511100743318.0
5619,6406706,Bed and breakfast in Paris · ★4.75 · 1 bedroom...,22980352,Alix,,Batignolles-Monceau,48.88927,2.31196,Private room,80,1,773,2023-07-30,7.72,1,218,87,


Pour une seule colonne(i.e., un objet de type Series) on peut obtenir les valeurs prises on utilisant la fonction `unique()`.

In [23]:
df_listings['neighbourhood'].unique()

array(['Observatoire', 'Hôtel-de-Ville', 'Opéra', 'Louvre', 'Popincourt',
       'Buttes-Montmartre', 'Gobelins', 'Luxembourg', 'Buttes-Chaumont',
       'Entrepôt', 'Panthéon', 'Reuilly', 'Bourse', 'Élysée',
       'Batignolles-Monceau', 'Vaugirard', 'Ménilmontant',
       'Palais-Bourbon', 'Passy', 'Temple'], dtype=object)

Pour plusieurs colonnes, on peut utiliser la fonction `drop_duplicates`.

In [24]:
df_listings[['neighbourhood', 'room_type']].drop_duplicates()

Unnamed: 0,neighbourhood,room_type
0,Observatoire,Entire home/apt
1,Hôtel-de-Ville,Entire home/apt
3,Opéra,Entire home/apt
4,Louvre,Entire home/apt
5,Popincourt,Entire home/apt
...,...,...
17311,Temple,Shared room
20345,Ménilmontant,Hotel room
20347,Buttes-Chaumont,Hotel room
20923,Bourse,Hotel room


### <center>5. AGGREGATION ET TABLEAUX CROISÉS </center>

Pour calculer des statistiques par groupe on peut utiliser la fonction `.groupby()`.

In [25]:
df_listings.groupby('neighbourhood')[['price', 'reviews_per_month']].mean()

Unnamed: 0_level_0,price,reviews_per_month
neighbourhood,Unnamed: 1_level_1,Unnamed: 2_level_1
Batignolles-Monceau,189.876077,1.018303
Bourse,260.453573,1.599663
Buttes-Chaumont,144.828246,0.952825
Buttes-Montmartre,146.873594,1.040756
Entrepôt,176.912688,1.1778
Gobelins,144.344858,1.043629
Hôtel-de-Ville,245.512282,1.206283
Louvre,330.209637,1.3878
Luxembourg,303.325013,1.087725
Ménilmontant,117.465657,0.895086


Si l'on souhaite appliquer plus d'une fonction et notamment sur plusieurs colonnes, on peut utiliser `.aggregate()` qui est abrégée en  `.agg()`. Son argument est un dictionnaire où les variables sont les clés et les valeurs sont des listes de fonctions.


In [26]:
df_listings.groupby('neighbourhood').agg({"reviews_per_month": ["mean"],
                                          "price": ["min", np.max]}).reset_index()

Unnamed: 0_level_0,neighbourhood,reviews_per_month,price,price
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,min,amax
0,Batignolles-Monceau,1.018303,15,9999
1,Bourse,1.599663,10,9266
2,Buttes-Chaumont,0.952825,10,30000
3,Buttes-Montmartre,1.040756,8,21564
4,Entrepôt,1.1778,20,10000
5,Gobelins,1.043629,10,10000
6,Hôtel-de-Ville,1.206283,20,2800
7,Louvre,1.3878,32,9970
8,Luxembourg,1.087725,20,9999
9,Ménilmontant,0.895086,10,5000


Le problème avec cette syntaxe est qu'elle génère une structure hiérarchique pour les noms des variables, avec laquelle il peut être difficile de travailler. Dans l'exemple précédent pour accéder au prix moyen on doit utiliser `df.price["min"]`.

Pour faire simultanément l'agrégation et renommer les variables, on peut utiliser la syntaxe:  `agg(output_var = ("input_var", function))`.

In [27]:
df_listings.groupby('neighbourhood').agg(mean_reviews=("reviews_per_month", "mean"),
                                         min_price=("price", "min"),
                                         max_price=("price", np.max)).reset_index()

Unnamed: 0,neighbourhood,mean_reviews,min_price,max_price
0,Batignolles-Monceau,1.018303,15,9999
1,Bourse,1.599663,10,9266
2,Buttes-Chaumont,0.952825,10,30000
3,Buttes-Montmartre,1.040756,8,21564
4,Entrepôt,1.1778,20,10000
5,Gobelins,1.043629,10,10000
6,Hôtel-de-Ville,1.206283,20,2800
7,Louvre,1.3878,32,9970
8,Luxembourg,1.087725,20,9999
9,Ménilmontant,0.895086,10,5000


Pour faire de tableaux croisés on utilise la fonction `.pivot_table()` dont les arguments sont:
- `index`: lignes,
- `columns`: colonnes,
- `values`: valeurs
- `aggfunc`: fonction d'agrégation.

In [28]:
df_listings.pivot_table(index='neighbourhood', columns='room_type', values='price', aggfunc='mean')

room_type,Entire home/apt,Hotel room,Private room,Shared room
neighbourhood,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Batignolles-Monceau,193.866071,327.12963,150.579439,77.166667
Bourse,262.681667,532.142857,215.29798,50.714286
Buttes-Chaumont,156.439181,491.333333,74.584532,145.542857
Buttes-Montmartre,146.697861,377.071429,133.426649,75.333333
Entrepôt,182.034516,273.448276,139.986111,78.714286
Gobelins,151.382514,368.928571,109.333333,70.466667
Hôtel-de-Ville,251.573464,669.5,166.580645,141.0
Louvre,315.244203,473.297872,425.792683,80.428571
Luxembourg,294.132291,500.961039,305.728507,72.5
Ménilmontant,123.753538,455.727273,75.77037,58.857143
