<a href="https://colab.research.google.com/github/lsteffenel/CHPS0704/blob/main/TP1/01-Manipulation%20et%20description%20des%20donnees.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# # Manipulation des données et premières analyses statistiques (EDA)


Avant de rentrer dans le détail de ce chapitre, nous allons commencer par charger les packages et importer les données nécessaies aux traitements.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Téléchargement des fichiers nécessaires au cours

In [None]:
!mkdir data
!wget https://github.com/lsteffenel/CHPS0704/raw/main/data/calendar_extrait.csv -O data/calendar_extrait.csv
!wget https://github.com/lsteffenel/CHPS0704/raw/main/data/credit.xlsx -O data/credit.xlsx
!wget https://github.com/lsteffenel/CHPS0704/raw/main/data/employee-earnings-report-2017.csv -O data/employee-earnings-report-2017.csv
!wget https://github.com/lsteffenel/CHPS0704/raw/main/data/listing_extrait.csv -O data/listing_extrait.csv
!wget https://github.com/lsteffenel/CHPS0704/raw/main/data/salaries.sqlite -O data/salaries.sqlite

## 0 La librairie Pandas
Pandas est une bibliothèque écrite pour le langage de programmation Python permettant la manipulation et l'analyse des données. Nous allons ici détailler l'utilisation des deux structures de base de ce package que sont les Series et DataFrame.


### Les objets Series de Pandas
On charge le package Pandas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

La première structure de Pandas est l'objet **Series**.

On peut créer une Series à partir d'une liste:

In [None]:
liste = pd.Series([8, 18, 10, 15])
liste

###  Les objets DataFrame de Pandas
On peut créer un DataFrame à partir d'une liste ou array:

In [None]:
liste = np.array([[ 8,  0],
         [18,  7],
         [10,  1,],
         [14,  3]])
df = pd.DataFrame(liste)
df

 Créer une nouvelle colonne à partir d'une liste

In [None]:
df[2]=["Paris", "Lille","Montpellier","Toulouse"]
df

Renommer les colonnes:

In [None]:
df.columns = ['temperature' , 'precipitation', 'ville']
df

On peut également définir une colonne comme index

In [None]:
df = df.set_index("ville")
df

#### Manipulation des colonnes

Sur un Dataframe, on peut:
- selectionner  une colonne avec :

In [None]:
df['temperature'] # ou df.temperature

- construire de nouvelles colonnes à partir de colonnes existantes

In [None]:
df["mon_calcul"] = 2 * df.temperature + df.precipitation
df

####  Manipulation des lignes
On extrait une ligne par son index en utilisant :

In [None]:
df.loc["Toulouse"]

On extrait une ligne par sa position en utilisant

In [None]:
df.iloc[3]

On extrait des valeurs à partir de listes :

In [None]:
df.loc[["Toulouse","Paris"],["precipitation"]]

On extrait des valeurs à partir des index

In [None]:
df.iloc[1:3,1:2]

## 1 Les outils pour importer les données

Dans le cadre de ce Notebook, pour chaque jeu de données trop volumineux, nous conservons une version avec un extrait des données dans ce répertoire et un lien vers un autre site avec les données complètes (le code pour récupérer ces fichiers volumineux est présent sous forme de commentaire.

### Importer des données externes
L’une des forces de Pandas est l’importation et l’exportation des données.

Ce package possède un ensemble de fonctions très large pour charger des données en mémoire et les exporter dans divers formats. Nous allons développer de nombreux exemples.
#### Importer un fichier csv
La fonction *read_csv()* de Pandas est une fonction avec un nombre de paramètres impressionnant, nous ne nous concentrons ici que sur quelques-uns qui sont importants.

Dans le cas d’un fichier csv classique, un seul paramètre est nécessaire. Il s’agit du chemin vers le fichier. Votre fichier peut se trouver directement sur votre machine mais aussi en ligne. Dans ce cas, il vous suffit de rentrer une adresse web.

D’autres paramètres pourront vous être utiles lors du traitement de csv :

- *delimiter* : afin de donner le format des séparateurs entre valeurs dans le fichier. Utile dans le cas d’un csv avec des séparateurs points-virgules,
- *decimal* : afin de spécifier le séparateur décimal. Utile dans le cas d’un csv avec des séparateurs décimaux utilisant une virgule,
- *index_col* : afin de spécifier la position de la colonne servant d’index dans le DataFrame créé (attention les colonnes sont toujours indexées à 0),
- *header* : afin de dire si le titre de la colonne se trouve dans la première ligne. Si ce n’est pas le cas, on peut utiliser le paramètre names afin de fournir une liste avec le nom des colonnes pour le DataFrame,
- *dtypes* : dans le cas de gros jeux de données, il peut être intéressant de fournir une liste de types de colonnes ou un dictionnaire afin d’éviter à Python d’avoir à les deviner (ce qui vous évitera certains warnings),
- de nombreux autres paramètres, notamment sur le traitement des données manquantes, sur la transformation des dates, sur le codage des chaînes de caractères…

On utilise *pd.read_csv()* pour lire un fichier csv

Dans ce cas, on va récupérer les données des logements AirBnB de Paris.

In [None]:
# Import d'un extrait
listing=pd.read_csv("./data/listing_extrait.csv", index_col=0)
calendar = pd.read_csv("./data/calendar_extrait.csv",index_col=0)
boston = pd.read_csv("./data/employee-earnings-report-2017.csv")
# Import du fichier complet
#listing=pd.read_csv("https://www.stat4decision.com/listing.csv.gz", index_col=0)
listing.head()

**Remarque** Pour importer un fichier csv très volumineux, il existe deux solutions:
- l'option 'chunksize' de read_csv qui permet de lire des morceaux d'un fichier de manière itérative
- la librairie **Dask**

#### Importer un fichier Excel

Microsoft Excel reste l’un des outils de base pour traiter de la donnée. Dans la plupart des projets de data science, vous serez amené à croiser un fichier Excel, que ce soit pour stocker des données ou pour stocker des références ou des informations
annexes.

Pandas possède des outils pour importer des données en Excel sans avoir à passer
par une transformation en csv (souvent fastidieuse si vous avez des classeurs avec de
nombreuses feuilles).

##### pd.read_excel() :

Cette approche ressemble à l’importation en csv. Pour récupérer le fichier Excel, il faut connaître le nom ou la position de la feuille qui nous intéresse :

In [None]:
# on peut ajouter le nom de la feuille
frame_credit=pd.read_excel("./data/credit.xlsx", sheet_name="donnees")
frame_credit.head(5)

In [None]:
# on peut utiliser uniquement certaines colonnes
frame_credit_af=pd.read_excel("./data/credit.xlsx", sheet_name="donnees", usecols="A:E")
frame_credit.head(5)

#### Importer une table issue d’une base de données SQL

Le langage SQL  est un langage central de la science des données. La majorité des
bases de données relationnelles peuvent être requêtées en utilisant le langage SQL.
C’est d’ailleurs aujourd’hui l’un des trois langages les plus utilisés par le data scientist
(après Python et R). SQL va vous permettre d’extraire des tables de données qui
pourront ensuite être chargées en mémoire dans des DataFrames.

Pour passer de la base SQL à Python, il faut donc un connecteur permettant de
se connecter à la base et de faire des requêtes directement dessus. Un package
central de Python est très utile dans ce but : c’est SQLalchemy qui a aujourd’hui
remplacé les nombreux packages spécifiques qui pouvaient exister afin de requêter
des bases de données SQL en fonction du type de base : MySQL, PostgreSQL,
SQLlite… SQLalchemy a l’avantage de fournir une seule approche.

On va utiliser :

In [None]:
from sqlalchemy import create_engine, inspect, text as sql_text

In [None]:
ma_con = create_engine("sqlite:///data/salaries.sqlite")
inspection = inspect(ma_con)


In [None]:
# on peut vérifier le nom des tables
inspection.get_table_names()

In [None]:
# on peut charger les données
# = pd.read_sql_query("SELECT * FROM Salaries", ma_con)
frame_sql = pd.read_sql_query(con=ma_con.connect(), sql=sql_text("SELECT * FROM Salaries"))

In [None]:
frame_sql.head()

## 2 Décrire et transformer des colonnes
### 2 Décrire la structure de vos données
Quel que soit le type de structure que vous utilisez ; les arrays, les Series ou
les DataFrame, on utilise généralement une propriété de ces objets : la propriété
    .shape. Celle-ci renvoie toujours un tuple, qui aura autant d’éléments que de dimensions
dans vos données.

In [None]:
calendar.shape

Cette information est importante mais reste peu détaillée. Lorsqu’on travaille sur
un DataFrame, on va chercher à avoir beaucoup plus de détails. Pour cela, nous allons
utiliser la méthode .info(). Si nous prenons le jeu de données des occupations des
logements AirBnB, nous aurons :

In [None]:
calendar.info()

Une autre étape importante est l’étude de l’aspect de notre DataFrame, on peut
par exemple afficher les premières lignes du jeu de données.

In [None]:
calendar.head()

Une autre propriété importante des DataFrame de Pandas est .columns. En effet, celle-ci a deux utilités :

- afficher le nom des colonnes de votre DataFrame,
- créer une structure permettant d’avoir une liste des colonnes que nous pourrons utiliser pour des automatisations.

In [None]:
calendar.columns

In [None]:
# on peut faire une boucle sur les colonnes de notre DataFrame
for col in calendar.columns:
    print(col, calendar[col].dtype, sep=" : ")

### Quelles transformations pour les colonnes de vos données ?

Votre objectif en tant que data scientist est d’extraire le plus d’information possible de ces données. Pour cela, il va falloir les mettre en forme de manière intelligente.

Nous allons étudier différentes transformations nécessaires pour travailler sur des données :

- les changements de types,
- les jointures,
- la discrétisation,
- le traitement de données temporelles,
- les transformations numériques,
- le traitement des colonnes avec des données qualitatives,
- le traitement des données manquantes,
- la construction de tableaux croisés.

### Les changements de types

Le typage des colonnes d’un DataFrame ou d’un array est très important pour tous les traitements en data science.

Nous nous concentrons ici sur les structures en DataFrame de Pandas. Pandas va automatiquement inférer les types si vous ne lui avez pas spécifié de type à l’importation
des données ou à la création du DataFrame.

Par défaut, Pandas va utiliser trois types principaux :
- les entiers int en 32 ou en 64 bits,
- les nombres décimaux float en 32 ou 64 bits,
- les objets object qui rassemblent la plupart des autres types.

On trouvera aussi des booléens et tous les types définis par NumPy.

La base de données listing de AirBnB est obtenue par scrapping web et certaines informations ne peuvent pas être traitées directement. En effet, lorsqu’on affiche les
informations sur les colonnes, on voit que la colonne price est typée en Object alors qu’il s’agit de valeurs décimales.

In [None]:
listing["price"].head()

Pour nous débarrasser du $ en première position, nous avons trois possibilités :

In [None]:
# élimine le premier élément
%timeit listing["price"].str[1 :]

In [None]:
# remplace tous les $
%timeit listing["price"].str.replace("$","")

In [None]:
#élimine le premier élément lorsque c’est un $
%timeit listing["price"].str.strip("$")

On voit que ces trois approches sont assez différentes, la première est la plus
efficace en termes de temps de calcul mais elle est aussi la plus dangereuse en cas
d’erreur dans nos données.

Il reste deux étapes à réaliser : éliminer les virgules et transformer la variable en
variable numérique :

In [None]:
listing["price"]= pd.to_numeric(listing["price"].str.strip("$").str.replace(",",""))

In [None]:
print(listing["price"].dtype)

Nous avons donc réussi à modifier notre colonne.

Si nous désirons automatiser ce traitement, il suffit de créer une boucle sur les colonnes. On utilise le code suivant :

In [None]:
list_error = []
for col in listing.columns:
    if listing[col].dtype==object :
        try:
            listing[col]= pd.to_numeric(listing[col].str.strip("$")\
                                                .str.replace(",", ""))
        except ValueError:
            list_error.append(col)
print(f"Les colonnes {' '.join(list_error)} n'ont pas pu être transformées")

On a utilisé une gestion d'exception pour ne transformer que les colonnes qui nous intéressent.

Si on étudie la colonne "instant_bookable", on veut pouvoir prendre en compte cette colonne pour la passer en booléen :

In [None]:
# approche avec NumPy
listing["instant_bookable_bool"] = np.where(
    listing["instant_bookable"]=="f",
    False,
    True)

In [None]:
# approche avec un dictionnaire et Pandas
listing["instant_bookable_bool2"]= listing["instant_bookable"].replace(
    {"f" : False,"t" : True}
)

On voit dans ce code que lorsqu’on veut remplacer deux valeurs, l’utilisation de la
fonction np.where de NumPy peut être une solution, mais il faut être attentif aux
risques liés à des mauvais codages de la variable.

Il existe de nombreux cas de nettoyages de données basées sur des erreurs de
typage. Ce que nous allons voir dans tout ce chapitre pourra vous aider à répondre à
vos problématiques spécifiques.

### Les jointures et concaténations
#### Les jointures entre DataFrame

Les jointures entre DataFrame sont un outil puissant de Pandas qui ressemble
aux outils disponibles en SQL. Une jointure consiste à construire, à partir de deux
DataFrame, un DataFrame en utilisant ce qu’on appelle une clé de jointure qui sera
un identifiant des lignes présent dans les deux DataFrame initiaux.

La fonction de jointure de Pandas est la fonction pd.merge(). Elle prend comme
paramètres deux objets DataFrame puis des paramètres optionnels :
- on : choix de la ou des clés de jointure.
- how : choix de la méthode de jointure. Il faut choisir entre left, right, inner et outer.
- left_on (et right_on) : si les clés de jointure n’ont pas le même nom d’une table à une autre.
- index_left (et index_right) : on donnera ici un booléen si l’index du DataFrame est utilisé comme clé.

Sur les données AirBnB, nous utiliserons une jointure interne afin d’associer les
calendriers des  logements :

In [None]:
global_airbnb = pd.merge(listing,
                         calendar,
                         left_index=True,
                         right_index=True,
                         how="inner"
                        )
global_airbnb.shape

On voit ici qu’on a rassemblé les colonnes des deux DataFrame. Dans ce cas, le
DataFrame calendar est beaucoup plus grand que listing, le DataFrame obtenu ne
rassemble que les clés communes aux deux DataFrame mais lorsqu’il y a plusieurs
répétitions d’une clé, la combinaison est répétée.

### La gestion des duplications de lignes

Il arrive souvent dans des données que des lignes soient dupliquées par erreur ou que vous désiriez vérifier la duplication de certaines lignes.

Pandas possède deux outils pour traiter ce type de données : duplicated() et drop_duplicated().

Si nous voulons vérifier si des lignes sont dupliquées dans le DataFrame sur les employés de la ville de Boston, il nous suffit de faire :

In [None]:
boston.duplicated().sum()

Il s’avère qu’il n’y a aucune duplication. Nous aurions pu nous concentrer uniquement
sur le nom, le département et le titre des employés :

In [None]:
boston.duplicated(
    ['NAME','DEPARTMENT NAME','TITLE']).sum()

In [None]:
# on a donc quatre éléments dupliqués, on peut maintenant les visualiser :
boston[boston.duplicated(
    ['NAME','DEPARTMENT NAME','TITLE'],
    keep=False
)]

Nous pouvons maintenant nous débarrasser des duplications, on utilisera pour cela :

In [None]:
boston_no_dup = boston.drop_duplicates(
    ['NAME','DEPARTMENT NAME','TITLE'],
    keep="first"
)


Dans ce cas, on garde le premier. On peut demander à garder le dernier (last) et
on utilisera des tris afin d’ordonner les résultats pour se débarrasser des duplications
non pertinentes.

### La discrétisation
La discrétisation permet de transformer une variable quantitative (l’âge des
individus par exemple) en une variable qualitative (une classe d’âge pour chaque individu). Pour cela, nous utilisons deux fonctions de Pandas : pd.cut() et
pd.qcut().

#### Intervalles constants
Si nous désirons créer une variable de classe basée sur des intervalles de taille
constante allant du minimum au maximum.

In [None]:
listing["price_disc1"] = pd.cut(listing["price"],
                                bins=5
                               )
listing["price_disc1"].head()

On voit ici que la nouvelle variable a comme valeurs les intervalles.

Si vous voulez vérifier la répartition par intervalle, il suffit d’utiliser la méthode *.value_counts()* :

In [None]:
listing["price_disc1"].value_counts()

Par ailleurs, si vous désirez donner des noms aux intervalles, vous pouvez le faire en utilisant le paramètre *labels=* de la fonction *cut()* :

In [None]:
listing["price_disc1"]=pd.cut(listing["price"],
                              bins=5,
                              labels=range(5)
                             )

#### Intervalles définis par l’utilisateur
Si vous désirez créer des intervalles sur mesure, il vous suffit de donner les bornes
de ces intervalles. On utilise :

In [None]:
listing["price_disc2"]=pd.cut(
    listing["price"],
    bins=[listing["price"].min(),
          50,
          100,
          500,
          listing["price"].max()
         ],
    include_lowest = True)
listing["price_disc2"].value_counts()

On remplace donc le nombre d’intervalles par une liste de valeurs (ici on prend le minimum et le maximum des données).

Afin d’inclure le minimum, on ajoute *include_lowest=True*.

#### Intervalles de fréquence constante

Il est souvent intéressant de construire des intervalles ayant un nombre d’individus constant d’une classe à une autre.

Pour cela, on va utiliser une autre fonction de Pandas nommée *qcut()*. Elle prend le même type de paramètres que la
fonction précédente mais elle va créer des classes de taille similaire (en nombre d’individus) :

In [None]:
listing["price_disc3"]=pd.qcut(listing["price"],
                               q=5
                              )
listing["price_disc3"].value_counts()

Pandas a fait de son mieux pour bien distribuer les données dans les intervalles.
Comme il y a beaucoup de prix égaux, il n’a pas pu obtenir des intervalles avec des
fréquences parfaitement égales.

### Les tris
Les tris sont des outils importants en data science. Il vous arrive très fréquemment de vouloir trier des données. Chaque package possède des outils de tris, nous allons
en étudier deux : celui de NumPy et celui de Pandas.

#### Le tri de NumPy
Si nous restons sur un array de NumPy dans son sens le plus classique, celui-ci contient une méthode .sort() qui s’applique très bien sur un array à une seule dimension, on pourra avoir :

In [None]:
array1 = np.random.randn(5000)
array1.sort()

Cette méthode modifie l’array1 et trie de manière croissante.

Si on désire faire un tri décroissant, on pourra utiliser :

In [None]:
array1[::-1].sort()

Comme vous le voyez, cette méthode n’est pas très efficace pour faire des tris
complexes. On utilisera une autre méthode nommée .argsort() :

In [None]:
table = np.random.rand(5000, 10)
table[table[:,1].argsort()]

On trie donc sur la seconde colonne de notre array. On peut alors retourner le
résultat de ce tri.
Le tri basé sur .argsort() est extrêmement efficace mais s’applique avant tout
à un array.

#### Le tri de Pandas
Pandas possède une fonction de tri sur les DataFrames extrêmement efficace qui se rapproche beaucoup d’une approche SQL des tris. Elle a de nombreux paramètres et permet de trier sur plusieurs clés dans des sens différents.

Si nous prenons nos données sur les logements AirBnB, nous désirons trier les données par ordre croissant de nombre de chambres, puis par niveau de prix décroissant.

Pour cela, une seule ligne de code est nécessaire :

In [None]:
# on affiche uniquement les 5 premières lignes du résultat
listing.sort_values(["bedrooms","price"], ascending=[True, False]).head()

On a donc bien un outil puissant basé sur des listes de clés. Comme dans le cas des jointures avec Pandas, lorsqu’on a plusieurs variables ou paramètres de tri, on les place dans une liste.

Par défaut, le tri de Pandas trie par colonne avec le paramètre *axis=1*. Si vous désirez trier par ligne, vous pouvez changer ce paramètre.

Pandas vous permet aussi d’effectuer des tris sur les index en utilisant .sort_index().

L’outil de tri de Pandas est moins performant en termes de rapidité d’exécution que le *.argsort()* de NumPy. Néanmoins, les possibilités plus grandes et le fait de travailler sur une structure plus complexe, telle que le DataFrame, nous confortent
dans l’utilisation du tri de Pandas pour nos analyses.

### Le traitement de données temporelles
Python a de nombreux outils pour travailler sur des dates, notamment le package
datetime nativement présent dans Python.

#### Les dates avec NumPy

Depuis peu, il est possible de travailler avec des dates à l’intérieur d’un array de NumPy (depuis NumPy 1.7). Ainsi la fonction np.datetime64 permet de créer des dates, et le type datetime est utilisable pour créer des arrays. On peut par exemple
utiliser *arange()* pour générer une suite de semaines de janvier 2017 à janvier 2018 :

In [None]:
np.arange("2017-01-01","2018-01-01", dtype="datetime64[W]")

Il existe de nombreuses fonctions permettant de travailler sur les dates, notamment avec les différences basées sur la fonction timedelta().
On peut aussi travailler sur les jours travaillés (business days). Cette partie de NumPy est en constante évolution. La documentation de NumPy est le meilleur outil pour en suivre les avancées.

#### Les dates avec Pandas
C'est clairement Pandas qui a l'ascendant sur le traitement des dates en data science. Avec des fonctions efficaces et simples à prendre en main, le travail sur les dates est extrêmement simplifié.

Pandas possède de sérieux atouts dans la prise en compte des dates notamment avec l’intégration des formats de dates dans l’importation des données. Néanmoins, si vos données n’ont pas été correctement importées, il est très simple de transformer des chaînes de caractères dans un DataFrame ou dans une Series en dates. Pour cela, on utilise :

In [None]:
pd.to_datetime(['11/12/2017', '05-01-2018'],
               dayfirst=True,
               format='mixed')

On crée ainsi un DatetimeIndex qui peut être utilisé dans une Series ou dans
un DataFrame. On peut aussi donner un format de dates en utilisant le paramètre *format=*.

Il est souvent intéressant de traiter de nombreuses dates. On a très souvent envie de générer des suites de dates de manière automatique. Imaginons que nous avons des données quotidiennes de cotation d’un indice boursier, et que nous désirons
transformer ces données en une série indexée sur les jours ouvrés pendant lesquels la banque est ouverte. Les données pour l’année sont stockées dans un array.

In [None]:
index_ouverture = pd.bdate_range('2017-01-01','2017-12-31')
data = np.random.randn(index_ouverture.size)
pd.Series(data, index=index_ouverture).plot()

On peut aussi utiliser date_range() avec différents paramètres. Si par exemple,
on désire générer un index avec des relevés toutes les 2 heures entre le 1er février
2018 à 8h00 et le 31 mars 2018 à 8h00, on utilisera :

In [None]:
index_temps = pd.date_range('2018-02-01 08:00:00','2018-03-31 08:00:00', freq='2h')
print(index_temps.shape, index_temps.dtype)

De nombreuses possibilités sont accessibles pour le traitement des dates et des heures.

Ainsi, si plutôt que des dates et des heures, vous préférez utiliser des périodes (ceci revient à utiliser un mois plutôt que le premier jour du mois comme valeur de votre index), vous pouvez le faire avec la fonction period_range().

In [None]:
pd.period_range("01-01-2017","01-01-2018", freq="M")

On a ainsi généré une suite de mois. Ceci peut se faire sur des semaines (W), des trimestres (Q), des années (A)…

Si on désire générer des périodes, on pourra le faire grâce à pd.period() :

In [None]:
pd.period_range(pd.Period("2017-01", freq="M"), pd.Period("2019-01", freq="M"), freq="Q")

Par ailleurs, vous pouvez traiter les fuseaux horaires de manière simplifiée avec
Pandas en utilisant la propriété .tz. Par défaut, une date n’est associée à aucune
timezone :

In [None]:
index_temps.tz is None

Pour définir un fuseau horaire, on le fait généralement dans la fonction date_range(), qui a un paramètre tz = . Les fuseaux horaires peuvent être définis, avec
une chaîne de caractères incluant une combinaison zone/ville ("Europe/Paris"), vous pouvez en obtenir la liste exhaustive en important :

In [None]:
from pytz import common_timezones, all_timezones
all_timezones[:10]

Si vous avez déjà défini vos dates et que vous désirez leur ajouter un fuseau horaire, vous allez utiliser la méthode tz_localize(). Imaginons que l’on génère
des données toutes les deux heures à Paris, on veut transformer cet index en passant sur le fuseau horaire de Nouméa en Nouvelle-Calédonie, voici le code :

In [None]:
index_heures=pd.date_range("2018-01-01 09:00:00", "2018-01-01 18:00:00", freq="2h")
index_heures_paris = index_heures.tz_localize("Europe/Paris")
index_heures_paris

In [None]:
index_heures_noumea = index_heures_paris.tz_convert("Pacific/Noumea")
index_heures_noumea

Il existe de nombreux autres outils pour travailler sur les dates en Python.
Notamment, lorsqu’on traite des séries temporelles, on peut utiliser l’outil rolling :

In [None]:
pd.Series(data, index=index_ouverture).plot()
pd.Series(data, index=index_ouverture).rolling(window=10).mean().plot()
#La deuxième ligne permet d’afficher la moyenne prise sur 10 points adjacents.

### Le traitement des données manquantes
Les données manquantes sont un domaine de la data science à part entière. Leur traitement nécessite une réflexion bien au-delà de quelques lignes de codes.

Dans tous vos projets data science, vous serez confronté à des données manquantes, elles sont réparties en trois types principaux :

- Les données manquantes complètement aléatoirement
- Les données manquantes aléatoirement
- Les données manquantes non aléatoirement

Ainsi, pour les deux premiers cas, on pourra penser à des méthodes d’imputation
alors que pour le troisième il ne sera pas possible de faire cela.

#### Les données manquantes en Python
NumPy possède un code standard pour gérer les données manquantes, il s’agit
de NaN. On peut définir un élément d’un array comme une donnée manquante en
utilisant :

In [None]:
table = np.random.rand(5000, 10)
table[0,1] = np.nan
table[0,1]

L’avantage d’utiliser ce codage réside dans le fait que les nan n’altèrent pas le type
de votre array et qu’ils ne sont pas pris en compte dans les calculs de statistiques
descriptives avec les fonctions adaptées :

In [None]:
vec = np.ones(10)
vec[3] = np.nan
np.nansum(vec)

Lorsque vous importez des données avec Pandas, celui-ci va automatiquement
remplacer les données manquantes par des codes nan.

#### La suppression des données manquantes
L’approche la plus simple pour traiter des données manquantes est de supprimer les observations comportant des données manquantes.

Pandas comporte de nombreuses méthodes pour cela. Si nous prenons les données sur les salaires des employés de la ville de Boston, nous pouvons utiliser :

In [None]:
# la table globale
boston.shape

In [None]:
# la table lorsqu’on retire les lignes avec données manquantes
boston.dropna().shape

In [None]:
# la table lorsqu’on retire les colonnes avec des données manquantes
boston.dropna(axis = 1).shape

On voit que dans cette table de nombreuses données manquantes existent surtout sur huit colonnes. Quatre colonnes sont complètes.

#### La complétion par la moyenne, le mode ou la médiane

Avant de compléter nos données, il va falloir transformer nos données Boston de manière à avoir des données numériques. En s’inspirant du code vu plus haut pour les données AirBnB, nous pouvons faire cela avec :

In [None]:
for col in boston.columns :
    if boston[col].dtype==object :
        boston[col]=pd.to_numeric(boston[col].str.replace(r"\(.*\)","")\
                                  .str.replace(",","").str.strip("$"),
                                  errors='ignore')

Dans ce code, on supprime d’abord les parenthèses en utilisant une expression régulière (voir le chapitre 2), puis on élimine les virgules et on enlève du sigle $ lorsqu’il est en début de chaîne.

On a maintenant huit colonnes en float avec des salaires.

On peut maintenant travailler sur les données manquantes. Il existe deux moyens de compléter par la moyenne ou par la médiane.

Un premier en utilisant Pandas :

In [None]:
# pour la moyenne
for col in boston.select_dtypes("number").columns :
    boston[col] = boston[col].fillna(boston[col].mean())


# pour la médiane
for col in boston.select_dtypes("number").columns :
    boston[col] = boston[col].fillna(boston[col].median())

# pour le mode, on utilise une condition à l’intérieur de l’appel de la boucle
# qui est équivalente à ce que nous faisions plus haut
# le calcul du mode renvoie un objet Series et non une valeur comme les autres
# méthodes, d’où le [0]
for col in boston.select_dtypes(object).columns :
    boston[col] = boston[col].fillna(boston[col].mode()[0])

Le package Scikit-Learn permet aussi de faire des remplacements par la moyenne
ou la médiane :

In [None]:
# à partir de sklearn version 0.20
from sklearn.impute import SimpleImputer
# on crée un objet de cette classe avec la stratégie d’imputation comme
# paramètre
imputer = SimpleImputer(strategy = "mean")
# on construit un nouveau jeu de données en appliquant la méthode
# .fit_transform()
boston_imputee2 = imputer.fit_transform(boston.select_dtypes("number"))

### Le traitement des colonnes avec des données qualitatives
Les données qualitatives sont extrêmement présentes dans les données. Dès que vous travaillez sur des données socio-démographiques sur des individus, vous allez rencontrer des données qualitatives. Le traitement des données qualitatives est souvent négligé dans les ouvrages de traitement de la donnée. Il est donc primordial de bien expliquer le traitement qu’elles requièrent.

#### Le type categorical
Les données qualitatives sont des valeurs textuelles par défaut. Pandas propose un type spécifique pour traiter ce type de données. Le type categorical permet d’optimiser le traitement de ce type de données.

Il permet de créer et de transformer des données de ce type. Vous avez importé des données avec des variables qualitatives, Pandas va automatiquement les considérer comme du type object. Vous pourrez le voir en utilisant la propriété .dtype.
Si vous désirez transformer ce type en un type categorical, vous pouvez utiliser la fonction pd.Categorical() :

In [None]:
var_quali = pd.Categorical(["Boston","Paris","Londres","Paris", "Boston"])
var_quali

In [None]:
# on peut ajouter une modalité
var_quali = var_quali.add_categories("Rome")
# on alloue cette valeur à un élément de notre objet
var_quali[4] = "Rome"

Si on modifie notre objet en y ajoutant une modalité non définie au préalable alors on aura un message d’erreur.
Si on veut transformer une colonne objet en category, on utilise :

In [None]:
boston["POSTAL"]=boston["POSTAL"].astype("category")
#équivalent sans warning
boston["POSTAL"]=boston["POSTAL"].astype(pd.api.types.CategoricalDtype(ordered=False))

boston["POSTAL"].dtype


On utilise ordered = False car il n’y a pas d’ordre entre les modalités de notre colonne. Si une notion d’ordre doit être ajoutée, on ajoute la liste des modalités et on
passe le paramètre ordered à True.

Le type Categorical est inspiré du type factor de R.

#### La transformation des données
Pour traiter des données qualitatives, il faudra les transformer.

En effet, les algorithmes que vous aurez à utiliser sont basés sur des données numériques et donc des variables quantitatives.

Si vous travaillez sur des données nominales, il va falloir transformer les variables en indicatrices. C’est-à-dire que vous allez obtenir une colonne pour chaque modalité de votre variable qualitative.

Cette approche peut être appliquée avec deux packages que nous utilisons souvent : Pandas et Scikit-Learn.

Dans le cadre de nos données sur les logements AirBnB, nous avons plusieurs variables qualitatives, notamment roomtype qui a trois modalités :

In [None]:
listing["room_type"].value_counts()

##### Approche Pandas avec get_dummies() :

In [None]:
frame_room_type = pd.get_dummies(listing["room_type"])
frame_room_type.head()

Cette fonction crée un nouveau DataFrame

##### Approche Scikit-Learn avec OneHotEncoder() :

Dans ce cas, il faut que la variable qualitative soit déjà sous forme d’entiers entre 0 et p-1, p étant le nombre de modalités de notre variable.

On va combiner deux classes de Scikit-Learn : LabelEncoder et OneHotEncoder.

La première va permettre de recoder les valeurs textuelles en entiers et la seconde de construire des colonnes binaires à partir des valeurs de la variable transformée.

Voici le code :

In [None]:
# on importe les classes
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
# on crée un objet de la classe LabelEncoder
encode1=LabelEncoder()
# on crée un objet de la classe OneHotEncoder
encode2=OneHotEncoder(sparse_output= False)
# on combine l’application des deux classes
array_out=encode2.fit_transform(encode1.fit_transform(listing["room_type"]).reshape(-1,1))
# on transforme la sortie en DataFrame
pd.DataFrame(array_out, columns=listing["room_type"].unique()).head()

**Attention à partir de la version 0.20 de Scikit Learn, OneHotEncoder peut gérer des données non numériques, on a alors :**

In [None]:
# on importe les classes
from sklearn.preprocessing import OneHotEncoder
# on crée un objet de la classe OneHotEncoder
encode=OneHotEncoder(sparse_output= False,)
# on l'applique directement sur la colonnes initiale
array_out=encode.fit_transform(np.array(listing["room_type"]).reshape(-1,1))
# on transforme la sortie en DataFrame
pd.DataFrame(array_out, columns=listing["room_type"].unique()).head()

Si vous travaillez sur des données ordinales (avec des modalités ordonnées), il vous suffit de recoder une variable avec des valeurs chiffrées (attention, cette approche
n’est valable que pour des données ordinales).

##### Approche avec Pandas :

Il n’y a pas d’approche automatisée, on peut utiliser le code suivant :

In [None]:
listing["room_type2"]=listing["room_type"].map(dict(zip(listing["room_type"]\
                                                        .unique(),
                                                        range(listing["room_type"].nunique())) ))

On crée donc une colonne en utilisant un dictionnaire qui permet de faire correspondre
des éléments de celui-ci à des valeurs entières.

##### Approche avec Scikit-Learn :

Cette approche est plus simple, elle se base sur l’outil LabelEncoder et se fait avec
ce code :

In [None]:
from sklearn.preprocessing import LabelEncoder
encode1 = LabelEncoder()
listing["room_type2"] = encode1.fit_transform(listing["room_type"])

Ces méthodes sont centrales car la plupart des algorithmes en Python ne
supportent pas le type categorical.

### Les transformations numériques

Lorsque vous travaillez sur des données, un certain nombre de transformations de base sont nécessaires. Trois packages pourront être utiles pour ce type de transformations : Scikit-Learn, Pandas et SciPy.

Avec Pandas, la plupart des transformations se font en faisant les calculs directement en utilisant les fonctions universelles de Pandas.

Avec Scikit-Learn, l’approche est légèrement différente. Dans ce cas, on utilise des classes permettant de transformer les données.

SciPy nous permet d’appliquer des transformations plus spécifiques.

Nous utiliserons les données sur les employés de la ville de Boston desquelles nous extrayons les colonnes numériques :

In [None]:
boston_num=boston.select_dtypes(include=["number"])

#### Centrer et réduire les données

In [None]:
# avec Pandas pour centrer et réduire
boston_std=boston_num.apply(lambda x : (x-x.mean())/x.std())
boston_std.head()

In [None]:
# avec Scikit-Learn, on utilisera la classe StandardScaler :
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler(with_mean=True, with_std=True)
rescaled = scaler.fit_transform(boston_num)
pd.DataFrame(rescaled, index=boston_num.index, columns=boston_num.columns).head()

#### Changer d’échelle

On utilise pour passer à une échelle 0-100 :

In [None]:
# avec Pandas
boston_0_100 = boston_num.apply(lambda x : (x-x.min())/(x.max()-x.min())*100)
boston_0_100.head()

In [None]:
# avec Scikit-Learn
from sklearn.preprocessing import MinMaxScaler
minmaxscaler=MinMaxScaler((0,100))
boston_0_100=minmaxscaler.fit_transform(boston_num)
boston_0_100=pd.DataFrame(boston_0_100, index=boston_num.index, columns=boston_num.columns)
boston_0_100.head()

#### Transformation de Box-Cox
Lorsque vous désirez obtenir des données suivant une loi normale, vous risquez d’avoir besoin d’une transformation qui permette de se rapprocher de cette loi.

La transformation de Box-Cox est une transformation qui peut gérer ce problème.

Elle ne s’applique qu’à des données positives. Celle-ci est disponible dans le package SciPy et s’utilise de la manière suivante :

In [None]:
from scipy import stats
total_earning_trans = stats.boxcox(
    boston_num["TOTAL EARNINGS"]
)

### Echantillonnage des données

Nous allons présenter deux approches d’échantillonnage :

- l'échantillonnage aléatoire sans remise,
- l'échantillonnage stratifié.

Pandas propose une méthode d’échantillonnage simple à mettre en oeuvre, il s’agit de la méthode sample.
Si on désire échantillonner aléatoirement 1000 lignes de notre base Boston, on utilisera :

In [None]:
boston_aleat_1000 = boston.sample(n=1000)
boston_aleat_1000.shape

On peut se servir du paramètre frac = si on désire obtenir un échantillon de la taille d’une fraction du jeu de données initial.

L’échantillonnage stratifié consiste à reproduire dans vos échantillons les mêmes répartitions de certaines variables que dans l’échantillon initial.

Il peut se faire avec Pandas ou avec Scikit-Learn. On utilisera dans ce cas le listing des logements disponibles à Paris.

Si nous voulons échantillonner 10 % des logements en conservant la répartition du type de chambre (room_type), on utilisera :

In [None]:
# répartition dans l’échantillon initial
listing["room_type"].value_counts(normalize=True)

In [None]:
# échantillonnage stratifié
listing_sample = listing.groupby('room_type').apply(lambda x : x.sample(frac=.1))
# repartition dans l’échantillon final
listing_sample["room_type"].value_counts(normalize=True)

### La construction de tableaux croisés

Les tableaux croisés peuvent être très utiles pour visualiser des croisements de colonnes de variables qualitatives et les intégrer dans d’autres calculs.
Deux fonctions dans Pandas sont utiles : la méthode frame.pivot_table() et la fonction pd.crosstab().

La seule différence entre ces deux approches réside dans les données qui sont acceptées dans chaque fonction. Pour pivot_table, sachant que c’est une méthode
appliquée à un DataFrame, toutes les données doivent venir de ce DataFrame. La fonction crosstab est différente, elle peut prendre en entrée des données issues
de plusieurs DataFrame ou d’arrays.

Si nous reprenons nos données AirBnB et que nous désirons croiser deux colonnes,
nous allons utiliser :

In [None]:
pd.crosstab(
    listing['instant_bookable'],
    listing['room_type']
)

Par défaut, cet outil inclut des comptages dans le tableau. Mais si on désirait afficher la moyenne du prix des logements, on utiliserait :

In [None]:
pd.crosstab(listing['instant_bookable'],
            listing['room_type'],
            values=listing['price'],
            aggfunc="mean")

In [None]:
listing.pivot_table(values='price',
                    index='instant_bookable',
                    columns='room_type',
                    aggfunc='mean')

On peut aller plus loin en combinant plusieurs variables et en combinant plusieurs statistiques dans le tableau :

In [None]:
listing.pivot_table(values='price',
                    index=['host_is_superhost','instant_bookable'],
                    columns='room_type',
                    aggfunc=['mean','count'])

## 3 Extraire des statistiques descriptives

### Statistiques pour données quantitatives

Lorsqu'on calcule des statistiques descriptives spécifiques aux données quantitatives sur un DataFrame complet, Pandas n’affiche des résultats que pour les variables quantitatives (sans message d’erreur pour les colonnes non quantitatives).

Statistiques descriptives de base
Quelques méthodes statistiques universelles de Pandas :

In [None]:
# moyenne
boston.select_dtypes("number").mean()

In [None]:
# variance
boston.select_dtypes("number").var()

In [None]:
# écart-type
boston.select_dtypes("number").std()

In [None]:
# médiane
boston.select_dtypes("number").median()

In [None]:
# matrice de corrélation
boston.select_dtypes("number").corr()

Une autre fonction intéressante est la méthode .describe() qui affiche un certain nombre de statistiques pour les variables quantitatives (elle ne fait que cela par défaut mais nous verrons plus loin qu’elle peut s’appliquer aux variables qualitatives).

In [None]:
boston.describe()

Si vous voulez construire votre propre DataFrame de statistiques, vous pouvez utiliser la méthode .agg(). Par exemple :

In [None]:
boston.select_dtypes("number").agg(["mean","std"])

#### Des statistiques plus avancées
Il peut arriver que des statistiques plus avancées soient nécessaires, notamment en se basant sur des distributions de probabilités. Pour cela, on utilisera plutôt le
package SciPy et plus précisément scipy.stats qui possède de nombreuses statistiques importantes.

Par exemple, on peut calculer l’asymétrie d’une distribution (skewness) en utilisant :

In [None]:
from scipy.stats import skew
skew(listing["price"])

### Statistiques pour données qualitatives
Les statistiques descriptives pour des variables qualitatives sont très différentes de celles pour des variables quantitatives. Ainsi, on s’intéresse généralement au mode et à la fréquence des modalités de la variable, Pour cela, on pourra obtenir des statistiques simples en utilisant la méthode *.describe(include = "all")*.

D’autres approches sont possibles mais elles s’appliqueront variables par variables sur un objet Series. Ainsi, on peut utiliser :

In [None]:
# nombre de modalités
listing["room_type"].nunique()

In [None]:
# liste des modalités
listing["room_type"].unique()

In [None]:
# liste et fréquence d’apparition des modalités
listing["room_type"].value_counts()

In [None]:
# calcul du mode
listing["room_type"].mode()

Ces méthodes vont compter le nombre de modalité, afficher toutes les modalités, afficher les modalités ordonnées par fréquence d’apparition avec la fréquence associée,et enfin afficher le mode (la modalité avec la fréquence la plus élevée).

La méthode .value_counts() possède un certain nombre de paramètres pour inclure les données manquantes, normaliser les résultats...

## 4 Utilisation du groupby pour décrire des données

### Le principe

La méthode .groupby est une méthode qui permet de construire un objet à partir d’un DataFrame. Cet objet sépare les données en fonction des modalités d’une ou de plusieurs variables qualitatives. On obtiendra ainsi de manière quasi-immédiate des
indicateurs par modalités.

De nombreuses méthodes sont disponibles sur ces objets groupby afin de maximiser la simplicité de manipulation de données.
Généralement, on suppose que le groupby est basé sur trois étapes : séparation/application et combinaison.

Par exemple, sur les données AirBnB, on peut faire cela par type de chambres :

In [None]:
listing_group_room = listing.groupby("room_type")
listing_group_room["price"].mean()

On sépare et on calcule la moyenne, et on rassemble les résultats dans un nouvel objet. On affiche donc dans un objet Series les prix moyens par type de chambre. On voit ici qu’on a utilisé la méthode .mean() de la classe des objets groupby.

### Les opérations sur les objets groupby
On peut très simplement obtenir des statistiques plus poussées avec des groupby.

De nombreuses méthodes de transformation de données pourront être appliquées avec une étape .groupby().

### Apply : une méthode importante pour manipuler vos groupby

La méthode apply permet d’appliquer n’importe quelle fonction sur vos données.

Si par exemple, vous désirez calculer l’écart salarial au sein de chaque département sur les données des salariés de la ville de Boston, vous allez devoir utiliser la différence entre le maximum et le minimum. Il n’existe pas de fonction universelle.

Nous allons donc utiliser un groupby et la méthode apply :

In [None]:
diff_salaires_dep = boston.groupby('DEPARTMENT NAME')['TOTAL EARNINGS']\
                        .apply(lambda x : x.max()-x.min())
diff_salaires_dep.sort_values(ascending = False).head()

### Cas concret d’utilisation d’un groupby

Nous travaillons sur les données AirBnB. Nous désirons obtenir des statistiques descriptives sur les prix et leurs variations au sein de chaque arrondissement de Paris. Pour cela nous allons utiliser un groupby :

In [None]:
listing.neighbourhood_cleansed.nunique()

In [None]:
# on construit des statistiques par quartier
listing.groupby("neighbourhood_cleansed")["price"].agg(
    ["mean","std","count"]).sort_values(by="mean",
                                        ascending=False)

Si nous désirons étudier les variations par arrondissement et par type d’appartement, nous pourrons avoir deux clés pour notre groupby :

In [None]:
listing.groupby(["neighbourhood_cleansed","room_type"])["price"].mean()

De nombreuses autres applications sont disponibles avec le groupby.

# Remerciements
ce notebook est largement inspiré du notebook proposé par https://github.com/emjako/pythondatascientist