# TP3 :  Introduction à la bibliothèque $\mathtt{Pandas}$

# Partie 2 : La bibliothèque $\mathtt{Pandas}$ <a id="pandas"></a>

### Importer les modules nécessaires

Dans la suite des TP, nous allons travailler en Python3 avec des bibliothèques suivantes :
- **numpy** : pour faire des maths
- **matplotlib** : pour tracer des figures
- **pandas** : pour le traitement des données et pour faire des statistiques

Au début de chaque session, il est obligatoire d'importer les modules, qu'on utlisera par la suite.

Pour ce notebook, nous aurons besoin seulement des deux modules suivants :

In [None]:
import numpy as np
import pandas as pd


La bibliothèque Pandas permet de traiter des fichiers de données de différents types, de faire des statistiques sur ces données et de les visualiser. 

Les données d'une étude statistique ont typiquement la forme d'une séquence de valeurs observées ou d'un tableau de données (à plusieurs colonnes et plusieurs lignes).
Dans le module Pandas, on utilise les objets **Series** et **Dataframe** pour les données observées.


## L'objet `Series`

Une série (**Series**) est une liste de valeurs. 
Voici quelques exemples. 

In [None]:
S1 = pd.Series([1,4,0,7,4,7])
S2 = pd.Series([1.,4,0,7,4,7])
S3 = pd.Series([1.,.5,0,7,4,7],index=list('abcdef'))
S4 = pd.Series(['hello','friends','byebye'])
S5 = pd.Series([True, False,False,True])
S6 = pd.Series([1.,'hello',False,5])

Affichez toutes les séries ainsi définies et observez les différents types des éléments de la série. 

Notez que, par défaut, les éléments d'une série sont indexés par des entiers commençant par 0.

In [None]:
S1

In [None]:
S2

In [None]:
S3

In [None]:
S4

In [None]:
S5

In [None]:
S6

### Accès aux éléments d'une série

In [None]:
S3.values

In [None]:
S3.index

In [None]:
S1[0]

In [None]:
S1[:]

In [None]:
S1[2:4]

In [None]:
S1[[4,1,0]]

In [None]:
S1[S1>3]

In [None]:
S3['b']

### Fonctions de base pour les séries

Voici quelques fonctions de base pour les séries. Essayez de les comprendre (toutes!) :

In [None]:
S1.size

In [None]:
S1.sum()

In [None]:
S1.prod()

In [None]:
S1.max()

In [None]:
S3.round()

In [None]:
np.floor(S3)

In [None]:
S1.sort_values()

In [None]:
S1.sort_index(ascending=False)

In [None]:
S1.isin([1,3,5,7,9])

### Not a number

La valeur **NaN** (Not a number) est utilisé pour indiquer le résultat d'un calcul inadmissible ou pour indiquer des valeurs manquantes (lors d'une importation des données à partir d'un fichier).

Essayez de comprendre :

In [None]:
S2.count()

In [None]:
S2[3] = np.inf-np.inf
S2

In [None]:
S2.count()

In [None]:
S2.isnull()

In [None]:
S2 = S2.dropna()
S2

### Quelques fonctions de statistique

Que font les fonctions suivantes ?

In [None]:
S1.mean()

In [None]:
S1.median()

In [None]:
S1.var()

In [None]:
S1.std()

In [None]:
S1.std()==np.sqrt(S1.var())

In [None]:
S1.describe()


## L'objet `Dataframe`

Dans le module **pandas**, l'objet **dataframe**  est un tableau de données. 

Un **dataframe** contient des colonnes, qui ont toutes la même longueur, mais qui ne sont pas nécessairement toutes du même type.

En statistique, les colonnes correspondent aux variables observées et les lignes aux données observées sur un individu.

Les colonnes peuvent porter des noms (aussi appelés *labels*).

Par défaut, les lignes sont indexées par des entiers ($0,1,\dots$), mais l'utilisateur peut définir les indices comme bon lui semble.



Dans la suite, nous allons travailler avec le fichier `titanic.csv` (issu de la documentation de $\mathtt{Pandas}$) au format .csv 

Ce paragraphe est très fortement inspiré de la documentation de $\mathtt{Pandas}$ disponible à l'adresse https://pandas.pydata.org/docs/getting_started/index.html#intro-to-pandas

### Lecture du fichier csv

In [None]:
titanic = pd.read_csv("titanic.csv")

# Affichage de la table
print("Affichage de la table")
print(titanic)

print("Affichage des cinq premiers éléments")
print(titanic.head(5))

print("Affichage des trois derniers éléments")
print(titanic.tail(3))

### Accès aux éléments d'un tableau

On utilise les noms des colonnes entre crochets, pour sélectionner des colonnes. Par exemple, pour récupérer la colonne des ages des passagers :

In [None]:
titanic["Age"]

### Sélection des données

On peut alors n'extraire que certaines données de la table à l'aide de la méthode `loc` : par exemple seulement les passagers mineurs ou même seulement les passagers mineurs de 3ème classe.

In [None]:
Jeunes_passagers = titanic.loc[titanic["Age"]<18]
print("Premiers éléments de la table des passagers mineurs :")
print(Jeunes_passagers.head(3))
print("")
Jeunes_passagers_3eme_classe = titanic.loc[(titanic["Age"]<18) & (titanic["Pclass"]==3)]
print("Table des passagers mineurs de 3ème classe :")
print(Jeunes_passagers_3eme_classe)

La méthode `iloc` permet d'accéder aux éléments de la table à partir des numéros de ligne et de colonne. 

In [None]:
print("Le premier passager de la liste :")
print(titanic.iloc[0,:])

print("Les 3 premières colonnes des 10 premiers passagers :")
titanic.iloc[0:10,0:3]

Pour sélectionner les données, on peut aussi utiliser la méthode `query()`.

Par exemple :

In [None]:
# Table contenant les femmes de plus de 30 ans
titanic.query('Sex == "female" and Age >= 30')

In [None]:
titanic.query('Age <= 18 and Pclass == 3')

### Fonctions 
 
La plupart des fonctions que nous avons vues pour les séries s'appliquent également aux dataframes. 


### Outils statistiques

La bibliothèque $\mathtt{Pandas}$ propose ses propres fonctions pour calculer les divers indicateurs. Cela évite d'avoir à gérer les données manquantes manuellement.

In [None]:
# Moyenne de la colonne Age
print("Age moyen")
print(titanic["Age"].mean())
print("")

# Médiane de certaines colonnes
print("Mediane de certaines donnees")
print(titanic[["Age", "Fare"]].median())
print("")

print("Nombre de passagers dont l'âge est connu")
print(titanic["Age"].count())

Il est même possible d'afficher tous les indicateurs statistiques avec la méthode $\mathtt{describe}$ : effectif, moyenne, écart-type, minimum, maximum et quartiles. 

In [None]:
print(titanic.describe())

Les modalités et effectifs s'obtiennent avec la méthode $\mathtt{value}\_\mathtt{counts}$

In [None]:
print(titanic["Age"].value_counts())

Avec le module **pandas**, on peut  calculer toute la matrice de covariances ou de corrélations d'un *DataFrame* **tab** par les instructions **tab.cov()** et **tab.corr()**.

In [None]:
titanic.corr(numeric_only=True)

### Groupement des données

Si besoin, on peut grouper les informations selon les variables qualitatives. Ici on accède à l'âge moyen, le pourcentage de survivants et le prix moyen du ticket selon le genre des passagers.

In [None]:
groupement_par_genre = titanic.groupby("Sex")[["Age","Survived","Fare"]]
print(groupement_par_genre.mean())

L'accès aux noms des colonnes se fait par la méthode $\mathtt{axes}$.

In [None]:
groupement_par_genre.mean().axes

### Graphiques

De même que pour les indicateurs statistiques, $\mathtt{Pandas}$ propose ses fonctions de visualisation (basées sur celles de $\mathtt{Matplotlib}$ donc acceptant les mêmes paramètres). Seul le nuage de points nous sera utile pour la suite. 

#### Nuage des points

Pour tracer un nuage des points, dont les coordonnées sont données par `x` et `y`, vous pouvez utiliser la fonction `plt.scatter`. 

In [None]:
# Nuage de points
import matplotlib.pyplot as plt

plt.scatter(titanic['Age'], titanic['Fare'])