# Traitement de données en tables - pandas

<img src="https://media.giphy.com/media/3oz8xLT7E0SmeD0W7S/giphy.gif" width="500">

Contrairement à ce que donne à penser l'image ci-dessus il NE SERA PAS question d'ursidés végétariens en voie d'extinction mais bel et bien de traitement de données en tables.

Rappelle-toi la séance précédente :

In [None]:
import csv

table= []
with open("population_pays.csv") as read_file:
    reader = csv.reader(read_file,delimiter=",") 
    for line in reader:
        table += [line] 
print(table)

Plutôt laid, n'est-ce pas ?
C'est là que Pandas intervient : Pandas est mignon (comme un panda).

In [None]:
import pandas as pd

df = pd.read_csv('population_pays.csv') # df est l'abréviation de dataframe : tableau de données
df  # on écrit df plutôt que print(df)

Tu vois, je te l'avais dit : mignon comme un Panda ! Et plus facile à utiliser que notre liste de lignes de la séance précédente. C'est normal : c'est fait pour. Pandas est spécialement conçu pour nous faciliter le travail sur les données en tables, appelées *dataframes*.

## Quelques exemples de choses faciles à faire avec Pandas

### Premières opérations : sur le tableau lui-même


In [None]:
# Pour savoir combien de ligne et de colonnes possède le dataframe:
df.shape # renvoie (nb_lignes, nb_colonnes)

In [None]:
# Pour visualiser les 3 premières lignes, par exemple
df.head(3)

In [None]:
# Pour les 10 dernières
df.tail(10)

In [None]:
# On veut savoir quels sont les noms des colonnes du dataframe :
df.columns

In [None]:
# Si on veut connaître le type précis de chaque colonne.
df.dtypes

In [None]:
# Si on veut plus d'infos sur les données
df.info()

In [None]:
# Si on veut une description statistique
df.describe()

# Count : le nombre de données
# Mean : la moyenne
# Std : l'écart-type
# min, 25%, 50%, 75%, max : le min max la médiane les quartiles

### Travailler sur une ou plusieurs colonnes

In [None]:
# Pour avoir la liste des pays on accède la la colonne 'Country'
df['Country']

In [None]:
# On peut selectionner plusieurs colonnes : Pays, population en 1960 et en 2016:
liste_colonnes = ['Country','Year_1960','Year_2016']

# On peut créer un nouveau tableau avec ces deux colonnes

nouveau_df = df[liste_colonnes]
nouveau_df

On peut même renommer une ou plusieurs colonnes de notre nouveau tableau :


In [None]:
nouveau_df = nouveau_df.rename(columns={'Country':'Pays'}) # pour renommer une colonne
nouveau_df

In [None]:
nouveau_df = nouveau_df.rename(columns={"Year_1960": 1960, "Year_2016": 2016})
nouveau_df

Dans Pandas une colonne est plus qu'une simple liste. C'est un objet du type `Series` sur lequel il est possible de faire les mêmes opérations que sur un `dataframe`.

In [None]:
annee_2016=df['Year_2016']
annee_2016.describe() # infos statistiques
annee_2016.head(5) # premières lignes

In [None]:
annee_2016.mean() # Si on veut la moyenne des population pour l'année 2016

In [None]:
annee_2016.sort_values() # Pour trier : nous donne 1) les numéros de lignes, 2) les valeurs dans l'ordre croissant

`NaN` n'est pas un pain indien, cela veut dire *Not a Number* et signifie qu'il y a probablement une valeur manquante dans la table : il doit y avoir un pays pour lequel on n'a pas d'information sur sa population en 2016.

### Selection de lignes suivant une ou des conditions

In [None]:
# Pour avoir la ligne de la France:
condition = (df['Country']=='France') # On fabrique une condition
df[condition]

In [None]:
# Pour avoir la liste des pays dont la population en 1960 était supérieure à 100 000 000 :
condition = (df['Year_1960']>10**8)
df[condition]

In [None]:
# Pour avoir la liste des pays dont la population en 1960 était supérieure à 100 000 000  ET inférieure à 200 000 000
condition1 = (df['Year_1960']>10**8)
condition2 = (df['Year_1960']<2*10**8)

df[condition1 & condition2] #le connecteur est &

In [None]:
# Pour avoir la liste des pays dont la population en 1960 était supérieure à 1 000 000 000  OU inférieure à 100 000
condition1 = (df['Year_1960']>10**9)
condition2 = (df['Year_1960']<10**5)

df[condition1 | condition2] # le connecteur est | 

### Trier un tableau

In [None]:
# Trier le tableau par ordre croissant suivant l'année 2016
df.sort_values(by='Year_2016')

### Enlever les valeurs manquantes

In [None]:
print(df.shape) # taille avant suppression
df = df.dropna() # suppression des lignes qui comportent des valeurs manquantes
print(df.shape)

### Ajouter une nouvelle colonne

On veut mesurer l'augmentation de la population , en pourcentage, entre 1960 et 2016.
On va créer une nouvelle colonne puis l'ajouter.

In [None]:
augmentation = (df['Year_2016']/df['Year_1960'])*100 # calcul automatique ligne par ligne
df['Augmentation']=augmentation
df

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/6/69/IMDB_Logo_2016.svg/640px-IMDB_Logo_2016.svg.png" width="300">

## Application : base de données de IMDb
Voici un extrait d'une base de données de IMDb (the Internet Movie Database).

In [None]:
movies_df = pd.read_csv('movies.csv') 
movies_df

Former un nouveau tableau appelé `movies_df2` en ne gardant que les colonnes suivantes, et les renommer en francais :
- 'movie_title':'Titre'
- 'director_name':'Réalisateur'
- 'duration':'Durée en min'
- 'title_year':'Année'
- 'imdb_score':'Score IMDb'
- 'budget':'Budget'
- 'gross':'Recette'

Afficher ce tableau.

Enlever les lignes présentant des valeurs manquantes.

Ne garder que les films sortis à partir de l'année 2000.

Afficher cette table en classant du moins bien noté au mieux noté.

<img src="img/jb.gif" width="300">

Lequel de ces films a levé la plus grosse recette ?

Créer une nouvelle colonne qui va mesurer la rentabilité de chaque film et l'ajouter au tableau (Ignorer les avertissement s'il y en a).

Trier le tableau pour afficher les films du moins rentable au plus rentable.

Y a-t-il des films dont le score IMDb soit supérieur à 8 et qui n'ont pourtant pas été rentables ?