# Panda
Avec  Numpy  et  Matplotlib, la librairie  [Pandas](https://pandas.pydata.org/)  fait partie des librairies de base pour la data science. 
Pandas fournit des structures de données puissantes et simples à utiliser, ainsi que les moyens d'opérer rapidement des opérations sur ces structures. 

Imaginons que nous souhaitions représenter des pandas !
Nous pouvons caractériser un panda par ses tailles de pattes, de longueur moyenne des poils de sa fourrure,  de queue, ainsi que le diamètre de son ventre.

## 1. Représentation par un tableau numpy



In [None]:
import numpy as np
un_panda_numpy = np.array([100,5,20,80])
un_panda_numpy

Ici, le panda a des pattes de 100cm, des poils de 5cm en moyenne, une queue de 20cm et un ventre de 80cm de diamètre.
Pour représenter plusieurs pandas, on crée un tableau multi-dimensionnel  


In [None]:
famille_panda = [
    [100, 5  , 20, 80], # maman panda
    [50 , 2.5, 10, 40], # bébé panda
    [110, 6  , 22, 80], # papa panda
]
famille_panda_numpy = np.array(famille_panda)
famille_panda_numpy

Ici, nous avons créé une liste de pandas, c'est à dire une liste de listes.
Le rang de famille_panda_numpy est de 2, car nous avons 2 niveaux d'imbrication.

<span style="color:blue">QUESTION :  Trouver l'instruction pour obtenir la taille des pattes  (situé en position 0 dans chaque liste qui décrit un panda) du 2e panda ? </span> <span style="color:red">XXXXXXXX </span>



<span style="color:blue"> QUESTION : Trouver l'instruction pour obtenir les tailles des pattes de toute la famille panda ?</span>
<span style="color:red">XXXXXXXX 
 </span>


Il faut reconnaitre que cette écriture n'est pas très explicite ! Recommençons avec panda.


## 2. Représentation avec la librairie Pandas

Tout est une histoire de tableau !

In [None]:
famille_panda = [
    [100, 5  , 20, 80],
    [50 , 2.5, 10, 40],
    [110, 6  , 22, 80],
]

... ça ressemble un peu à un tableau avec des lignes et des colonnes ! 


In [None]:
import pandas as pd
famille_panda_df = pd.DataFrame(famille_panda)
famille_panda_df

L'objet qui permet de représenter des "tableaux" est l'objet <span style="color:blue">DataFrame</span>. 
Pour instancier un tel objet, on lui transmet une liste de rang 2, c'est à dire une liste de listes.

Nous pouvons même faire mieux, en indiquant les noms de colonnes et des lignes. 

Et encore mieux : la librairie Pandas se base en grande partie sur la librairie Numpy dans son fonctionnement interne. On peut très bien transmettre  à l'objet DataFrame de la donnée au format ndarray :

In [None]:
famille_panda_df = pd.DataFrame(famille_panda_numpy,
                                index = ['maman', 'bebe', 'papa'],
                                columns = ['pattes', 'poil', 'queue', 'ventre'])
famille_panda_df

Le nom des lignes est appelé index. Un index peut être une chaîne de caractères (un label) ou un nombre entier. 
Quand aucun index n'est spécifié à la création du dataframe, il est initialisé par défaut avec une suite continue d'entiers commençant par 0.

Quel est l'intérêt de cette librairie  ?

L'objet DataFrame est similaire :
* aux tables des bases de données relationnelles que l'on manipule grâce au langage SQL
* à l'objet dataframe sur lequel se base tout le langage R

Du coup, si vous connaissez déjà les langages SQL ou R, vous aurez beaucoup de facilité à utiliser le DataFrame de Pandas !

## 3. Quelques fonctionnalités des DataFrames
Tout d'abord, accédons à la colonne ventre de notre table. Il y a deux syntaxes possibles, qui renvoient exactement le même résultat :

In [None]:
famille_panda_df.ventre

In [None]:
famille_panda_df["ventre"]


<span style="color:blue"> QUESTION : Afficher la longeur des poils des pandas</span>
<span style="color:red">XXXXXXXX </span>

L'objet que renvoie famille_panda_df["ventre"] est de type <span style="color:blue"> pandas.Series</span>. 
Pour obtenir les valeurs de la colonne ventre au format numpy, il faut saisir famille_panda_df["ventre"].values

Parcourrons maintenant tous les pandas un à un, grâce à la méthode iterrows qui renvoie (à chaque itération de la boucle for) un tuple dont le premier élément est l'index de la ligne, 
 et le second le contenu de la ligne en question :


In [None]:
for ind_ligne, contenu_ligne in famille_panda_df.iterrows():
    print("Voici le panda %s :" % ind_ligne)
    print(contenu_ligne)
    print("--------------------")

Accédons maintenant au papa panda : d'abord par sa position (2), puis par son nom "papa". 
Le résultat retourné est exactement le même dans les 2 cas.

In [None]:
famille_panda_df.iloc[2] # Avec iloc(), indexation positionnelle

In [None]:
famille_panda_df.loc["papa"] # Avec loc(), indexation par label

In [None]:
# Déterminons les pandas dont le diamètre du ventre est de 80cm :
famille_panda_df["ventre"] == 80
# Ici, on teste chaque élément de la colonne "ventre" en demandant s'il est égal à 80. 
# On obtient la réponse suivante : "maman" : True, "bebe" : False, "papa" : True.

Le résultat de cette opération est très pratique pour filtrer des lignes ! 
Par exemple, pour sélectionner uniquement les pandas dont le ventre est de 80cm,  il suffit d'intégrer ce précédent résultat en tant que masque, comme ceci :


In [None]:
masque = famille_panda_df["ventre"] == 80
pandas_80 = famille_panda_df[masque]
pandas_80

<span style="color:blue"> QUESTION : afficher les informations sur les pandas dont la longueur des poils est supérieure à 4 ?</span>
<span style="color:red">XXXXXXXX </span>

Pour inverser le masque, il suffit d'utiliser l'opérateur ~, et nous sélectionnons les pandas qui n'ont pas un ventre de 80cm :


In [None]:
famille_panda_df[~masque]

<span style="color:blue"> QUESTION : afficher les informations sur les pandas dont la longueur des poils est inférieure à 4?</span>
<span style="color:red">XXXXXXXX </span>

Maintenant, ajoutons des lignes à notre dataframe. 
Il y a plusieurs méthodes pour cela, mais voyons ici la plus simple : assemblons ensemble deux dataframes.

In [None]:
quelques_pandas = pd.DataFrame([[105,4,19,80],[100,5,20,80]],      # deux nouveaux pandas
                               columns = famille_panda_df.columns) 
                               # même colonnes que famille_panda_df
tous_les_pandas = famille_panda_df.append(quelques_pandas)
tous_les_pandas

Dans le dataframe tous_les_pandas, il y a des doublons. 
Le premier panda (maman) et le dernier  (dont l'index est 1) ont exactement les mêmes mesures. 
Si nous souhaitions dédoublonner, nous ferions ceci :

In [None]:
tous_les_pandas.drop_duplicates()

Le résultat de cette ligne ne modifie pas le dataframe  tous_les_pandas  . 
Il ne fait que renvoyer un autre dataframe. 
Dans l'état actuel, ce nouveau dataframe est juste affiché et n'est pas enregistré en mémoire :  il sera donc perdu. 
Pour le garder, on peut
* soit l'enregistrer dans une nouvelle variable : pandas_uniques = tous_les_pandas.drop_duplicates()
* soit remplacer la variable tous_les_pandas par ce nouveau dataframe dédoublonné :  tous_les_pandas = tous_les_pandas.drop_duplicates()

Voici quelques autres fonctionnalités  intéressantes !


<span style="color:blue"> QUESTION : Tester les commandes ci-dessous et compléter les commentaires</span> <span style="color:red">XXXXXXXX</span>


In [None]:
# XXXXXXXXXXXXXXXX 
famille_panda_df.columns

In [None]:
# XXXXXXXXXXXXXXXX 
famille_panda_df["sexe"] = ["f", "f", "m"] 
famille_panda_df

In [None]:
# XXXXXXXXXXXXXXXX 
len(famille_panda_df)

In [None]:
# XXXXXXXXXXXXXXXX 
famille_panda_df.ventre.unique()

## 4. Lire un fichier CSV avec Pandas

Un fichier CSV (comma separated values), est un fichier permettant de représenter des données  sous forme de tableau lu par les logiciels tableur

La librairie Pandas est justement spécialisée dans la manipulation de tableaux ! 
 il ne suffit que d'une ligne pour créer un dataframe à partir d'un CSV :


In [None]:
data = pd.read_csv("pandas.csv", sep=";")
data.head()

Mettre pandas.csv en premier argument de read_csv suppose que le fichier data.csv se trouve dans le répertoire  courant. Si vous ne le connaissez pas, vous pouvez saisir ceci :

In [None]:
import os
os.getcwd()

Pour lire un fichier qui ne se trouve pas dans le répertoire courrant, utilisez une syntaxe de cette forme :  
 _"/home/user1/Bureau/data.csv"_
 
La variable data contient maintenant un dataframe correspondant aux données du fichier csv.

<span style="color:blue"> QUESTION : à quoi correspond l'argument sep ?</span>
<span style="color:red"> XXXXXXXXX </span>


## 5. Explorons les données du Titanic

### 5.1 Premières informations


Maintenant que vous savez comment créer un DataFrame, intéressons à d'autres opérations usuelles sur les données. 
Nous allons utiliser un DataSet disponible dans la librairie Seaborn correspondant aux données 
 sur les survivants du naufrage du Titanic 

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
titanic = sns.load_dataset('titanic')

In [None]:
# La première chose à faire est de jeter un rapide coup d'oeil à nos données.
titanic.head()

<span style="color:blue"> QUESTION : A votre avis, à quoi correspond la fonction tail ? Testez la !
</span>
<span style="color:red"> XXXXXXXX</span>



Examinons la colonne des âges. 
La fonction unique renvoie les valeurs uniques présentes dans une structure de données Pandas.

In [None]:
titanic.age.unique()

<span style="color:blue"> QUESTION : Qu'en pensez vous ?</span>
<span style="color:red"> XXXXXXXX</span>



<span style="color:blue"> QUESTION : Tester la fonction   describe. A quoi sert elle ? </span>
<span style="color:red"> XXXXXXXX </span>



### 5.2 Gérer les données manquantes

Vous aurez remarqué, dans la sortie de la fonction  describe la présence de valeurs  NaN. 
C'est une valeur définie pour représenter quelque chose qui n'est pas un nombre (Not a Number) alors que son type l'exige. 

Plus généralement, le résultat de toute opération impliquant une NaN est à son tour un NaN. 

Nous allons  voir deux opérations à appliquer aux valeurs manquantes NaN.


In [None]:
titanic.age.head(10)

<span style="color:blue"> QUESTION : Quel effet, la fonction ci-dessous a t'elle sur  les valeurs manquantes.
</span>


In [None]:
titanic.fillna(value={"age": 0}).age.head(10)

<span style="color:red"> XXXXXXXXX  </span>

<span style="color:blue"> QUESTION : Quel effet, la fonction ci-dessous a t'elle sur  les valeurs manquantes.
</span>


In [None]:
titanic.fillna(method="pad").age.head(10)


<span style="color:red"> XXXXXXXXX  </span>

<span style="color:blue"> QUESTION : Quel effet, la fonction ci-dessous a t'elle sur  les valeurs manquantes.
</span>


In [None]:
titanic.dropna().head(10)


<span style="color:red"> XXXXXXXXX  </span>

<span style="color:blue"> QUESTION : Quel effet, la fonction ci-dessous a t'elle sur  les valeurs manquantes.
</span>


In [None]:
titanic.dropna(axis="columns").head()


<span style="color:red"> XXXXXXXXX  </span>


### 5.3  Explorons d'autres fonctions

<span style="color:blue"> QUESTION : A quoi sert la fonction ci-dessous ?
</span>


In [None]:
titanic.rename(columns={"sex":"sexe"})

<span style="color:red"> XXXXXXXXXXXX  </span>


La fonction  drop  permet de supprimer des axes (colonnes ou lignes) d'un DataFrame. 


In [None]:
titanic.drop(0)
# Supprimera la ligne dont l'index est égal à 0.

<span style="color:blue">QUESTION : Supprimer la colonne "age"</span>
<span style="color:red"> XXXXXXXXXXXXX </span>



_IMPORTANT :_ De nombreuses fonctions Pandas, acceptent l'argument  "inplace".  
Si la valeur de cet argument est  True, le DataFrame donné en argument est modifié. 
Sinon, une copie du DataFrame est retournée par la fonction.

## 6. Tableaux croisés dynamiques

Ces tableaux sont utilisés dans des logiciels tableurs.
Ces tableaux permettent de synthétiser les données contenues dans un DataFrame. 

<span style="color:blue">QUESTION : A quoi sert la fonction pivot_table ?</span>



In [None]:
titanic.pivot_table('survived', index='sex', columns='class')

<span style="color:red">XXXXX </span>



<span style="color:blue">QUESTION : Quelle est le nombre total de survivants selon le sexe et le type du billet ? 
Modifier la fonction précédente selon l'argument aggfunc="sum"</span>




<span style="color:red">XXXXX </span>

<span style="color:blue">QUESTION : comment interprétez vous le code ci-dessous ?</span>




In [None]:
titanic.dropna(inplace=True)
age = pd.cut(titanic['age'], [0, 18, 80])
titanic.pivot_table('survived', ['sex', age], 'class')

<span style="color:red">XXXXX </span>

Affichons l'histogramme des âges

In [None]:
import matplotlib.pyplot as plt
# Plot 'Age' variable in a histogram
#pd.DataFrame.hist(data[["Age"]])
titanic.head()
pd.DataFrame.hist(titanic[["age"]])
plt.xlabel('Age (years)')
plt.ylabel('count')
plt.show()

<span style="color:blue">QUESTION : Afficher l'histogramme des tarifs
</span>