# Introduction à la libraire Pandas

DataFrame : structure de données équivalente à un numpy.array avec des fonctionnalités en plus

Avantages de Pandas :
 - pas de restriction à un seul type de données
 - gestion des NaN simplifié
 - extraction de valeurs et de sous-ensembles facile

## Généralités

In [None]:
import pandas as pd

In [None]:
### Lecture d'un fichier csv
data = pd.read_csv('Data/food-info.csv')
type(data)

In [None]:
### Affichage des données
data.head()
data.head(3)
data.tail()
data.tail(7)

In [None]:
### Attributs columns et shape
print(data.shape,'\n',data.columns)

In [None]:
### type des données avec dtypes :
#object (pour les string ou les variables ayant différents types)
#int, float, datetime, bool
print(data.dtypes)

## Sélection de ligne.s et de colonne.s

In [None]:
type(data.loc[0])

In [None]:
### sélection d'une seule ligne
data.loc[0]

In [None]:
### sélection de plusieurs lignes
data.loc[3:6]

In [None]:
data.iloc[3:6,:]

In [None]:
data.loc[[2,10,5]]

In [None]:
data.loc[list(range(2,5))+list(range(9,11))]

In [None]:
### sélection d'une colonne
data['NDB_No']

In [None]:
### sélection d'une colonne avec .loc
data.loc[:,"NDB_No"]

In [None]:
### sélection d'une colonne avec .iloc[]
data.iloc[:,0]

In [None]:
### sélection de plusieurs colonnes
data[["Zinc_(mg)","NDB_No"]].head()

In [None]:
### sélection de plusieurs colonnes avec loc
data.loc[:,["NDB_No","Calcium_(mg)","Energ_Kcal"]].head()

In [None]:
### sélection de plusieurs colonnes avec iloc
data.iloc[:,[10,0,3]+list(range(2,5))].head()

### Exo : afficher les 3 premières lignes des colonnes utilisant comme unité de mesure les grammes

En regardant les noms des colonnes, on constate qu'elles sont identifiables via le suffixe "(g)". Il y a plus qu'à...

Deux solutions possibles mais il y en a d'autres. **Surtout, essayez d'abord par vous-même !**

In [None]:
### Une première solution


In [None]:
### Une seconde en utilisant la méthode endswith() et un booléen pour sélectionner les colonnes avec .loc


## Manipulation de données avec Pandas

### Transformation d'une colonne

On peut facilement transformer une colonne en ajoutant, enlevant, multipliant ou divisant une toutes les lignes par une même valeur. Deux exemples ci-dessous pour convertir des valeurs des milligrammes vers les grammes et inversement.

In [None]:
### Pour convertir des mg en g
iron_g = data["Iron_(mg)"]/1000

### Pour convertir des g en mg
protein_mg = data["Protein_(g)"]*1000

print(iron_g,protein_mg)

### Création et suppression d'une colonne

Pour créer une nouvelle colonne, il suffit d'affecter un objet Series à un nouveau de colonne dans le dataframe. Si on affecte à un nom de colonne déjà existant, on remplace l'ensemble des valeurs par la nouvelle série.

In [None]:
### La nouvelle colonne est créée à la fin du dataframe
data["Iron_(g)"] = data["Iron_(mg)"]/1000
data.head(1)

Pour supprimer une colonne, on peut utiliser del ou drop

In [None]:
### Avec del
del data["Iron_(g)"]
data.head(1)

In [None]:
### Avec drop
data["Iron_(g)"] = data["Iron_(mg)"]/1000 # on recréé la variable à supprimer
data.drop(["Iron_(g)"], axis='columns', inplace=True)
data.head(1)

# ATTENTION à l'option inplace, qui remplace directement le dataframe par le dataframe sans les colonnes à supprimer...
# par précaution et par défaut inplace = FALSE et la méthode drop retourne un nouveau dataframe

### Opérations entre colonnes

In [None]:
### Pour ajouter les quantités de fer et de calcium contenues dans un aliment
fer_calcium = data["Iron_(mg)"] + data["Calcium_(mg)"]
fer_calcium.head()

In [None]:
### On peut multiplier (ou diviser) des colonnes
water_energy = data["Water_(g)"]*data["Energ_Kcal"]
water_energy[:5]

### Trier un dataframe

In [None]:
### on utilise la méthode sort_values()
data.sort_values("Protein_(g)")
data.head()
# Pensez à bien regarder la documentation et notamment l'existence des paramètres inplace= et ascending=

### Exo : un judoka de haut niveau voudrait adapter son alimentation à son programme d'entraînement et vous demande de déterminer les aliments à la fois riches en protéine et faibles en lipides. Son entraîneur vous contacte ensuite pour vous préciser que le plus important est qu'il y ait un maximum de protéine !

Pour faire cet exercice, voici quelques indications. Vous pouvez tout à fait faire sans mais si vous ne savez pas par où commencer, ces quelques lignes vous aideront sûrement.

Comme on souhaite regarder coinjointement les quantités de protéines et de lipides, le plus simple est de calculer un score faisant intervenir les variables Protein_(g) et Lipid_Tot_(g). L'idée de ce score est que plus il sera élevé, plus l'aliment répondra à nos critères (bcp de protéines/peu de lipides).

Vous calculerez donc un score sous la forme __*Score = a * Protéine + b * Lipide* où a et b sont des constantes qu'il faudra fixer__ (arbitrairement certes mais en justifiant le choix quand même !).

Les questions que vous devez vous poser :
 - Tout d'abord, quel doivent être les signes de a et de b pour répondre à notre problématique ?
 - Quel coefficient doit être le plus grand en valeur absolue ?
 - Ensuite, quelles sont les min et max des variables Protein_(g) et Lipid_Tot_(g) ?
 - Par conséquent, comment gérer le fait que ces deux variables n'évoluent pas du tout sur la même échelle ?

À vous de jouer ! Essayez dans un premier temps de ne pas regarder la solution proposée ci dessous...

## Traitement des valeurs manquantes 

### Les données

In [None]:
titanic = pd.read_csv("Data/titanic-survival.csv")
titanic.head()

In [None]:
### La méthode describe() renvoie quelques statistiques du dataframe par variable
titanic.describe()

### Identifier les manquants

In [None]:
### la méthode isnull()
titanic["age"].isnull()

Comment récupérer le nombre de valeurs manquantes ?

In [None]:
### Nombre de valeurs manquantes : exemples de solutions
tot_nan1 = len(titanic.loc[titanic["age"].isnull(),"age"])
tot_nan2 = titanic["age"].isnull().sum()

print(tot_nan1, tot_nan2)

In [None]:
titanic.isnull().head()

### Problème avec les valeurs manquantes : calcul de la moyenne

In [None]:
### Calcul de l'âge moyen sans build-in function
age_mean =  sum(titanic["age"])/len(titanic["age"])
age_mean

In [None]:
age_mean_wo_null = sum(titanic.loc[~titanic["age"].isnull(),"age"])/len(titanic.loc[~titanic["age"].isnull(),"age"])
age_mean_wo_null

In [None]:
### Une méthode bien plus simple : la fonction buid-in Series.mean()
titanic["age"].mean()

In [None]:
titanic["fare"].mean()

### Exo : calculer le tarif moyen par classe. Retourner les résultats sous forme d'un dictionnaire

### Supprimer des valeurs manquantes

In [None]:
### La méthode .dropna()
titanic.dropna(axis = 1)

In [None]:
titanic.dropna(axis = 0)

In [None]:
titanic.dropna(axis = 0, subset = ["boat"])

In [None]:
### Pour ne conserver uniquement les lignes pour lesquelles l'âge et le sexe sont renseignés
titanic.dropna(axis = 0, subset = ["age","sex"])

In [None]:
### On peut vérifier avec l'attribut shape
titanic.dropna(axis = 0, subset = ["age","sex"]).shape

## Les pivots de tables

Pour ceux qui connaissent, c'est l'équivalent des "tableaux croisés dynamiques" sur Excel.

In [None]:
### Méthode DataFrame.pivot_table() : regardez la doc !!
titanic.pivot_table(index = "pclass", values = "fare")

In [None]:
titanic.pivot_table(index = "pclass", values = "fare", aggfunc = sum)

In [None]:
titanic.pivot_table(index = "pclass", values = ["age","fare","survived"])

In [None]:
titanic.pivot_table(index="embarked", values = ["fare", "survived"], aggfunc = sum)

## Tri et réindexation

In [None]:
new_titanic = titanic.sort_values("age", ascending=False)
new_titanic

Nous avons déjà introduit les méthodes loc et iloc sans nous y arrêter vraiment. C'est l'occasion de le faire maintenant.

Quelles différences entre les deux méthodes ? Regardez ce que donnent new_titanic.loc[9,:] et new_titanic.iloc[9,:] pour y voir plus clair...

In [None]:
new_titanic.loc[9,:]

In [None]:
new_titanic.iloc[9,:]

On voit donc l'intérêt de réindexer les lignes d'un nouveau dataframe construit à partir d'un dataframe existant puisqu'en effet les indices de ligne ne correspondent plus aux numéros des lignes...


In [None]:
### méthode .reset_index()
new_titanic.reset_index()

### voir l'option drop pour ne pas avoir une nouvelle colonne avec l'ancien indice

## Appliquer une fonction sur un DataFrame

In [None]:
### méthode .apply()

In [None]:
### on définit une fonction qui retourne le 100ème élement d'une colonne
def obs100(col):
    return col.iloc[99]

In [None]:
### On applique cette fonction au dataframe
titanic.apply(obs100, axis=0)

Essayez maintenant la même chose avec __axis = 1__. Que se passe-t-il ? Pourquoi ?

In [None]:
### on définit une nouvelle fonction
def from_france(row):
    if row["embarked"] == "C":
        return "départ de France"
    else:
        return "parti d'ailleurs"

titanic.apply(from_france, axis=1)

### Exo : utiliser la méthode apply pour déterminer le nombre de valeurs manquantes dans chaque colonne

Une indication : il faut d'abord définir une fonction

### Exo : utiliser la méthode apply pour créer une nouvelle variable age_label dans le dataframe contenant 'minor' si la personne a moins de 18 ans, 'adult' si son age est supérieur ou égal à 18 ans et 'unknown' sinon 

Indications : Procéder par étape ! On définira d'abord une fonction, qu'on appliquera au dataframe et on stockera le résultat dans une nouvelle colonne

### Exo : calculer le pourcentage de survie par groupe d'âge (majeur/mineur)

Indication : l'exercice précédent a quasiment fait tout le boulot...