https://miro.com/welcomeonboard/2u7KoSE58auS6YI1cwapJV473d1rqTuUAgjM8cvehHN1pUDA28SRN4BpNQRFM7w5

Voilà le lien vers notre schéma de la dernière fois. Pour rappel, on s'est dit pour la prochaine session : pandas de base

    load csv
    Series et DataFrames
    Indexation
    loc vs iloc
    sorting
    Valeurs manquantes

Scikit-learn

    Fit, predict
    train test split
    métriques
    pielines ?

Dataviz

    Matplotlib
    Pandas plot

# Pandas

## Introduction

Lors de la formation sur les bases de Python, on a appris à manipuler les types de bases de Python ; listes, dictionnaires, ...
On a vu que Python était un langage généraliste, qui n'est pas spécialisé dans le traitement de données. Les types de base se prêtent donc mal aux calculs mathématiques.

Ainsi, la notion d'addition de listes n'est pas l'addition mathématique terme à terme, mais plutôt la concaténation.

In [24]:
[1, 2, 3] + [4, 5, 6]

[1, 2, 3, 4, 5, 6]

Et l'addition d'un scalaire à une liste n'est pas possible.

In [25]:
try:
    [1, 2, 3] + 4
except:
    print("Python ne sait pas faire ça !")

Python ne sait pas faire ça !


Mais ces limitations initiales peuvent être comblées facilement par ce qui fait la force de Python : l'utilisation de packages spécialisés.

Par exemple, Numpy apporte le calcul matriciel. Par habitude et flemme, on l'importe toujours sous le nom **np**.

In [26]:
import numpy as np

np.array([1,2,3]) + 4

array([5, 6, 7])

Mais la puissance de Numpy pour le calcul matriciel et scientifique n'est pas forcément suffisant pour faire du traitement de données. On souhaiterait avoir des objets et des opérations de plus haut niveau. Par exemple les data frames, objets centraux en R, permettent de manipuler plusieurs listes en gardant une cohérence. Et on souhaiterait pouvoir manipuler une ou plusieurs colonnes pour réaliser des opérations complexes (group by, ...).

C'est ce pour quoi Pandas a été développé !

## L'objet de base de Pandas : Series

### Création

Pandas s'importe usuellement sous le nom **pd**

In [27]:
import pandas as pd

L'objet le plus fondamental dans Pandas est la série (**Series**). Il permet de représenter une série de données, c'ets-à-dire une liste unidimensionnelle d'objets de tout type. Chaque donnée dispose d'un label. Ces labels forment ce qu'on appelle l'**index** de la série.

In [28]:
pd.Series([1, 'toto', None], index=['a', 'b', 'c'])

a       1
b    toto
c    None
dtype: object

Si on ne précise pas d'index, Pandas utilise les numéros de lignes (en commençant à 0).

In [29]:
pd.Series([1, 'toto', None])

0       1
1    toto
2    None
dtype: object

### Manipulation

Soient les séries suivantes

In [30]:
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s

a    1
b    2
c    3
dtype: int64

In [31]:
s2 = pd.Series([1, 2, 3], index=['c', 'b', 'd'])
s2

c    1
b    2
d    3
dtype: int64

Que donne $s+1$ ?

In [32]:
s + 1

a    2
b    3
c    4
dtype: int64

Que donne $s + s2$ ?

In [33]:
s + s2

a    NaN
b    4.0
c    4.0
d    NaN
dtype: float64

On voit déjà une différence notable avec Numpy. L'addition de deux séries alignent les index, pour additionner les lignes correspondantes.

### Indexation

L'index permet d'extraire un élément de la série directement par son label

In [34]:
s['b']

2

On peut aussi faire de l'indexation booléenne 

In [35]:
s[[True, False, True]]

a    1
c    3
dtype: int64

On peut aussi sélectionner par numéro de ligne, avec la même syntaxe. Pandas se débrouille pour savoir si on parle d'un index ou d'un numéro de ligne.

In [36]:
s[1]

2

Comme sur les listes, on peut prendre des tranches (slicing)

In [37]:
s[1:]

b    2
c    3
dtype: int64

In [38]:
s[-1]

3

On peut modifier ou ajouter des éléments

In [39]:
s['d'] = 4

s

a    1
b    2
c    3
d    4
dtype: int64

In [40]:
s[3] = 0

s

a    1
b    2
c    3
d    0
dtype: int64

### Loc et iloc

On a vu que s[x] peut signifier soit l'élément ayant le label x, soit le x-ème élément si c'est un nombre. Pandas sait choisir la bonne signification... quand il n'y a pas d'ambiguïté.

In [41]:
s = pd.Series(['a', 'b', 'c'], index=[2, 3, 4])
s

2    a
3    b
4    c
dtype: object

In [42]:
s[2]

'a'

Pour prendre l'élement n°2, il faut être plus explicite dans notre façon d'indexer. Pandas met à disposition deux indexeurs :

.loc permet d'accéder par label

.iloc permet d'accéder par numéro

In [43]:
s.loc[2]

'a'

In [44]:
s.iloc[2]

'c'

## L'objet le plus utilie : le DataFrame

### Création

Un DataFrame est une structure bidimensionnel. Il s'agit d'un ensemble de Series. On peut le construire par exemple à partir d'un dict dont les valeurs sont des Series.

In [45]:
s1 = pd.Series([1, 2, 3], index = ['a', 'b', 'c'])
s2 = pd.Series([4, 5, 6], index = ['c', 'b', 'd'])

df = pd.DataFrame({'toto': s1, 'titi': s2})

df

Unnamed: 0,titi,toto
a,,1.0
b,5.0,2.0
c,4.0,3.0
d,6.0,


Il existe de nombreuses autres façons de construire un DataFrame. Par exemple à partir d'un dict de lists :

In [46]:
d = {'toto': [1, 2, 3, np.nan], 'titi': [np.nan, 5, 4, 6]}

pd.DataFrame(d, index=['a', 'b', 'c', 'd'])

Unnamed: 0,titi,toto
a,,1.0
b,5.0,2.0
c,4.0,3.0
d,6.0,


Ou encore une liste de listes. On peut alors préciser l'index et le nom des colonnes (sinon Pandas utilise des numéros).

In [47]:
pd.DataFrame([[1, np.nan], [2, 5], [3, 4], [np.nan, 6]], index=['a', 'b', 'c', 'd'], columns=['toto', 'titi'])

Unnamed: 0,toto,titi
a,1.0,
b,2.0,5.0
c,3.0,4.0
d,,6.0


### Manipulation

#### Indexation

Les crochets permettent d'extraire une colonne.

In [48]:
df['toto']

a    1.0
b    2.0
c    3.0
d    NaN
Name: toto, dtype: float64

Il s'agit alors d'une Series

In [49]:
type(df['toto'])

pandas.core.series.Series

On peut aussi utiliser :

In [50]:
df.toto

a    1.0
b    2.0
c    3.0
d    NaN
Name: toto, dtype: float64

Pour extraire une ligne, on peut utiliser **loc** et **iloc**.

In [56]:
df.loc['a']

toto    1.0
titi    NaN
Name: a, dtype: float64

In [57]:
type(df.loc['a'])

pandas.core.series.Series

In [58]:
df.loc[['a', 'c']]

Unnamed: 0,toto,titi
a,1.0,
c,3.0,4.0


In [59]:
type(df.loc[['a', 'c']])

pandas.core.frame.DataFrame

In [60]:
df.iloc[-2:]

Unnamed: 0,toto,titi
c,3.0,4.0
d,,6.0


Pour extraire plusieurs lignes, on peut aussi utiliser des crochets

In [55]:
df[0:2]

Unnamed: 0,titi,toto
a,,1.0
b,5.0,2.0


Par contre, pour une seule ligne cela ne marche pas. Il faut utiliser iloc.

In [59]:
try:
    df[0]
except:
    print("Il n'y a pas de colonne nommée '0'")

Il n'y a pas de colonne nommée '0'


Pour extraire un élément, on peut sélectionner la série puis l'élément

In [75]:
df['toto']['b']

2.0

Plus directement, on peut passer la ligne et la colonne à loc et iloc

In [74]:
df.loc['b', 'toto']

2.0

In [77]:
df.iloc[1, 0]

2.0

Pour toutes ces fonctions, on peut faire du slicing, ou passer des listes, pour extraire plusieurs éléments

On peut aussi faire de l'indexation booléenne, pour sélectionner des lignes suivant une condition

In [80]:
df[df['toto'] > 1]

Unnamed: 0,toto,titi
b,2.0,5.0
c,3.0,4.0


#### Manipulations globales

On a vu comment extraire des lignes ou des colonnes, mais il existe aussi de nombreuses fonctions s'appliquant à l'ensemble du data frame. Ces fonctions sont disponibles sous la forme *objet.fonction* (en termes de programmation orientée objet, ce sont des méthodes de l'objet).

##### Voir les premières lignes

In [47]:
df.head(2)

Unnamed: 0,toto,titi
a,1.0,
b,2.0,5.0


##### Trier

Suivant l'index

In [51]:
df.sort_index(ascending=False)

Unnamed: 0,toto,titi
d,,6.0
c,3.0,4.0
b,2.0,5.0
a,1.0,


Suivant une colonne

In [62]:
df.sort_values('titi')

Unnamed: 0,titi,toto
c,4.0,3.0
b,5.0,2.0
d,6.0,
a,,1.0


Ces fonctions retournent un nouveau DataFrame et ne modifient pas l'objet d'origine. Il faut les assigner à un nouvel objet (avec le même nom ou pas), ou utiliser l'argument *inplace=True*.

Cela permet aussi d'enchaîner les fonctions.

In [63]:
df.sort_values('titi').head(2)

Unnamed: 0,titi,toto
c,4.0,3.0
b,5.0,2.0


##### Compter les occurrences des valeurs

In [95]:
df.value_counts()

toto  titi
3.0   4.0     1
2.0   5.0     1
dtype: int64

##### Gestion des valeurs manquantes

In [83]:
df.dropna()

Unnamed: 0,toto,titi
b,2.0,5.0
c,3.0,4.0


In [85]:
df.fillna(0)

Unnamed: 0,toto,titi
a,1.0,0.0
b,2.0,5.0
c,3.0,4.0
d,0.0,6.0


##### Opérations mathématiques

In [90]:
df.sum()

toto     6.0
titi    15.0
dtype: float64

In [89]:
df.mean()

toto    2.0
titi    5.0
dtype: float64

Ces fonctions ignorent les valeurs manquantes par défaut (argument *skipna*)

Pour calculer la moyenne des lignes plutôt que des colonnes.

In [92]:
df.mean(axis=1)

a    1.0
b    3.5
c    3.5
d    6.0
dtype: float64

##### Group by

In [71]:
df['is_na'] = df['titi'].isnull()

df.groupby('is_na').mean()

Unnamed: 0_level_0,titi,toto
is_na,Unnamed: 1_level_1,Unnamed: 2_level_1
False,5.0,2.5
True,,1.0


### Import et export

Il est possible d'importer et d'exporter vers de nombreux formats de fichiers.

Pour l'export, on utilise les méthodes du data frame nommées *to_** (to_csv, to_excel, ...)

In [75]:
df.to_csv('df.csv')

Pour l'import, l'objet n'existe pas encore, on utilise donc les fonctions de Pandas nommées *read_** qui retournent un data frame.

In [76]:
pd.read_csv('df.csv')

Unnamed: 0.1,Unnamed: 0,titi,toto,is_na
0,a,,1.0,True
1,b,5.0,2.0,False
2,c,4.0,3.0,False
3,d,6.0,,False


On voit que par défaut l'export écrit l'index comme une colonne normale. Mais l'import ne le charge pas comme index par défaut. On peut préciser l'argument *index_col* pour indiquer le numéro de la colonne qui doit servir d'index.

In [101]:
pd.read_csv('df.csv', index_col=0)

Unnamed: 0,toto,titi
a,1.0,
b,2.0,5.0
c,3.0,4.0
d,,6.0


# Graphiques

# Scikit Learn