# <center> Introduction à la bibliothèque Pandas</center>
<center>
3INFO - Département Informatique - INSA Rennes<br> <br>
</center>

Ce document est une introduction à la librairie python `pandas` (https://pandas.pydata.org/pandas-docs/stable/) pour le TP de fouille de données.  
<BR>
Remarque : Ce document n'a pas vocation à être exhaustif en ce qui concerne la bibliothèque Pandas, mais donne un aperçu des éléments nécessaires à la réalisation du TP.

In [1]:
# Avant de commencer, importons les librairie nécessaires
import pandas as pd
import numpy as np

# <font color="blue">DataFrame et Series</font>
Pandas est une librairie permettant de faire facilement de la manipulation de gros jeux de données. Pour cela, pandas utilise principalement deux types d'objets : les **`DataFrame`** et les **`Series`**.  
Les DataFrame sont des tableaux à deux dimensions, pouvant contenir des objets de type hétérogène.  
Les Series sont des vecteurs.

Dans ce document nous allons travailler avec le jeu de données suivant :

In [2]:
planets = pd.DataFrame(data = [["core worlds", 4, 12.240, True], ["mid rim", 3, 12.765, True], ["core worlds", 2, np.nan, True], ["outer rim", 0, 14.410, True], ["outer rim", 26, 200000, False], ["outer rim", 15, 11.370, True]],
                      index = ["Coruscant", "Kashyyyk", "Corellia", "Dagobah", "Yavin", "Geonosis"],
                       columns = ["Region", "Moons", "Diameter", "Breathable"]
                      )
planets

Unnamed: 0,Region,Moons,Diameter,Breathable
Coruscant,core worlds,4,12.24,True
Kashyyyk,mid rim,3,12.765,True
Corellia,core worlds,2,,True
Dagobah,outer rim,0,14.41,True
Yavin,outer rim,26,200000.0,False
Geonosis,outer rim,15,11.37,True


In [3]:
s = pd.Series(np.random.randn(6))
s

0    0.518991
1   -0.377297
2   -0.229304
3   -0.035802
4    2.005717
5   -0.491267
dtype: float64

Les DataFrame et les Series sont tous les deux composés de deux parties : l'index (identifiant de ligne) et les valeurs.  
Les index peuvent être multiples (appelés `MultiIndex`), mais lors du TP nous nous limiterons aux index simples (i.e. un seul index, avec une valeur par ligne).

In [4]:
print(planets.index) # Index du DataFrame (identifiants des lignes)
print(planets.columns) # Noms des colonnes du DataFrame

print(s.index) # Index de la Series
print(s.values) # Valeurs de la Series, sous forme de vecteur

Index(['Coruscant', 'Kashyyyk', 'Corellia', 'Dagobah', 'Yavin', 'Geonosis'], dtype='object')
Index(['Region', 'Moons', 'Diameter', 'Breathable'], dtype='object')
RangeIndex(start=0, stop=6, step=1)
[ 0.51899087 -0.37729726 -0.2293041  -0.03580162  2.00571672 -0.49126749]


Pour afficher la taille d'un DataFrame ou d'une Series, la fonction standard `len()` de python est utilisée.

In [5]:
print(len(planets))
print(len(s))

6
6


La méthode `head(n)` permet d'afficher les n premiers éléments d'une Series ou d'un DataFrame (5 par défaut).

In [6]:
planets.head()

Unnamed: 0,Region,Moons,Diameter,Breathable
Coruscant,core worlds,4,12.24,True
Kashyyyk,mid rim,3,12.765,True
Corellia,core worlds,2,,True
Dagobah,outer rim,0,14.41,True
Yavin,outer rim,26,200000.0,False


La méthode `describe()` permet d'afficher des statistiques sur les éléments d'une Series ou d'un DataFrame.

In [7]:
planets.describe()

Unnamed: 0,Moons,Diameter
count,6.0,5.0
mean,8.333333,40010.157
std,10.132456,89437.041171
min,0.0,11.37
25%,2.25,12.24
50%,3.5,12.765
75%,12.25,14.41
max,26.0,200000.0


# <font color="blue">Modifier/Ajouter des colonnes à un DataFrame</font>
Pour modifier les valeurs d'une colonne, il suffit de lui assigner une nouvelle valeur depuis une liste, Series, ou similaire.  
Si la colonne n'existe pas, elle sera créée.

In [8]:
planets["Random value"] = s.values
planets

Unnamed: 0,Region,Moons,Diameter,Breathable,Random value
Coruscant,core worlds,4,12.24,True,0.518991
Kashyyyk,mid rim,3,12.765,True,-0.377297
Corellia,core worlds,2,,True,-0.229304
Dagobah,outer rim,0,14.41,True,-0.035802
Yavin,outer rim,26,200000.0,False,2.005717
Geonosis,outer rim,15,11.37,True,-0.491267


# <font color="blue">Sélection/Projection de DataFrame</font>

## Projection sur certaines colonnes
Pour projeter un DataFrame sur un sous-ensemble de ses colonnes, la syntaxe suivante est utilisée:

In [9]:
print(planets["Region"]) # Retourne une Series représentant la colonne
# Syntaxe alternative:
#print(planets.Region)
print()
print(planets[["Moons", "Diameter"]]) # Retourne un DataFrame avec seulement les colonnes sélectionnées

Coruscant    core worlds
Kashyyyk         mid rim
Corellia     core worlds
Dagobah        outer rim
Yavin          outer rim
Geonosis       outer rim
Name: Region, dtype: object

           Moons    Diameter
Coruscant      4      12.240
Kashyyyk       3      12.765
Corellia       2         NaN
Dagobah        0      14.410
Yavin         26  200000.000
Geonosis      15      11.370


## Sélection de lignes par rapport à une valeur dans une colonne
Pour sélectionner seulement les lignes ayant une certaine valeur dans une colonne, il faut adopter la procédure suivante:

In [10]:
mask = planets["Region"] == "outer rim" # Création d'une Series de booléens disant quelles lignes ont la bonne valeur
#print(masque)
outer_rim_planets = planets[mask] # Application du masque
print(outer_rim_planets)

# Bien sûr, on peut tout combiner en une seule instruction:
#outer_rim_planets = planets[planets["Region"] == "outer rim"]
#print(outer_rim_planets)

             Region  Moons   Diameter  Breathable  Random value
Dagobah   outer rim      0      14.41        True     -0.035802
Yavin     outer rim     26  200000.00       False      2.005717
Geonosis  outer rim     15      11.37        True     -0.491267


## Sélection de lignes avec un prédicat complexe
Si la sélection précédente ne suffit pas, il est possible d'en faire de plus complexes en utilisant une fonction qui crée le masque.

In [11]:
def keep(row):
    return row["Region"].endswith("rim")

mask = planets.apply(keep, axis = 1)
planets[mask]

Unnamed: 0,Region,Moons,Diameter,Breathable,Random value
Kashyyyk,mid rim,3,12.765,True,-0.377297
Dagobah,outer rim,0,14.41,True,-0.035802
Yavin,outer rim,26,200000.0,False,2.005717
Geonosis,outer rim,15,11.37,True,-0.491267


# <font color="blue">Valeurs uniques et comptage de valeurs</font>

## Valeurs uniques
Pandas permet de calculer, dans un DataFrame ou une Series, combien de valeurs différentes apparaissent dans les colonnes et quelles sont ces valeurs.  
Dans l'exemple si dessous, on constate que, dans le dataframe planets, 3 valeurs différentes sont associées à l'attribut Region : 'core worlds', 'mid rim' et 'outer rim'.

In [12]:
print(planets.nunique())
print()
print(planets["Region"].unique())

Region          3
Moons           6
Diameter        5
Breathable      2
Random value    6
dtype: int64

['core worlds' 'mid rim' 'outer rim']


## Comptage de valeurs
Pandas permet de compter combien de fois une certaine valeur apparaît dans une Series.

In [13]:
regions = planets["Region"] # Création d'une Series representant la colonne "Region" du DataFrame
print(regions.value_counts())

outer rim      3
core worlds    2
mid rim        1
Name: Region, dtype: int64


# <font color="blue">Groupby : regroupement de lignes</font>
Il est possible de regrouper ensemble toutes les lignes ayant la même valeur sur une (ou plusieurs) colonnes, comme en SQL.

In [14]:
groups = planets.groupby("Region") # Création des regroupements

Une fois les groupes créés, il faut les transformer en un nouveau DataFrame ou une nouvelle Series en appliquant une fonction de transformation sur chaque groupe.

Voici une liste non exaustive de fonctions utiles :

In [15]:
print(groups.size()) # Donne la taille de chaque groupe (i.e. le nombre de lignes appartenant à ce groupe)
print(groups.mean()) # Donne la moyenne de chaque colonne, calculée sur les éléments du groupe seulement
print(groups.first()) # Ne garde que la première ligne appartenant à chaque groupe

Region
core worlds    2
mid rim        1
outer rim      3
dtype: int64
                 Moons   Diameter  Breathable  Random value
Region                                                     
core worlds   3.000000     12.240    1.000000      0.144843
mid rim       3.000000     12.765    1.000000     -0.377297
outer rim    13.666667  66675.260    0.666667      0.492883
             Moons  Diameter  Breathable  Random value
Region                                                
core worlds      4    12.240        True      0.518991
mid rim          3    12.765        True     -0.377297
outer rim        0    14.410        True     -0.035802


# <font color="blue">Itérer sur un DataFrame</font>
De manière générale, itérer sur un DataFrame est plus lent que d'appliquer des méthodes sur des colonnes entières. Mais parfois il est nécessaire de le faire.

In [16]:
# Une boucle for renvoie les noms des colonnes (comme l'itération sur un dictionnaire python qui renvoie les clés)
for column_name in planets:
    print(column_name)

# La méthode iterrows permet d'itérer sur les lignes, en récupérant des couples index, ligne
for index, row in planets.iterrows():
    print(type(index), type(row))

Region
Moons
Diameter
Breathable
Random value
<class 'str'> <class 'pandas.core.series.Series'>
<class 'str'> <class 'pandas.core.series.Series'>
<class 'str'> <class 'pandas.core.series.Series'>
<class 'str'> <class 'pandas.core.series.Series'>
<class 'str'> <class 'pandas.core.series.Series'>
<class 'str'> <class 'pandas.core.series.Series'>
