# DataFrame de pandas
## 1.1 Complément - niveau intermédiaire
### 1.1.1 Création d’une DataFrame

Une DataFrame est un tableau numpy à deux dimensions avec un index pour les lignes et un index
pour les colonnes. Il y a de nombreuses manières de construire une DataFrame.

In [1]:
# Regardons la construction d'une DataFrame
import numpy as np
import pandas as pd

# Créons une Series pour définir des âges
age = pd.Series([30, 20, 50], index=['alice', 'bob', 'julie'])

# et une Series pour définir des tailles
height = pd.Series([150, 170, 168], index=['alice', 'marc', 'julie'])

# On peut maintenant combiner ces deux Series en DataFrame,
# chaque Series définissant une colonne, une manière de le faire est
# de définir un dictionnaire qui contient pour clef le nom de la colonne
# et pour valeur la Series correspondante
stat = pd.DataFrame({'age': age, 'height': height})
print(stat)

        age  height
alice  30.0   150.0
bob    20.0     NaN
julie  50.0   168.0
marc    NaN   170.0


On remarque que pandas fait automatiquement l’alignement des index, lorsqu’une valeur n’est pas
présente, elle est automatiquement remplacée par NaN. Panda va également broadcaster une valeur
unique définissant une colonne sur toutes les lignes. Regardons cela :

In [2]:
stat = pd.DataFrame({'age': age, 'height': height, 'city': 'Nice'})
print(stat)

        age  height  city
alice  30.0   150.0  Nice
bob    20.0     NaN  Nice
julie  50.0   168.0  Nice
marc    NaN   170.0  Nice


In [3]:
 # On peut maintenant accéder aux index des lignes et des colonnes
# l'index des lignes
print(stat.index)

Index(['alice', 'bob', 'julie', 'marc'], dtype='object')


In [4]:
# l'index des colonnes
print(stat.columns)

Index(['age', 'height', 'city'], dtype='object')


Il y a de nombreuses manières d’accéder aux éléments de la DataFrame, certaines sont bonnes et
d’autres à proscrire, commençons par prendre de bonnes habitudes. Comme il s’agit d’une structure
à deux dimensions, il faut donner un indice de ligne et de colonne :

In [5]:
# Quel est l'âge de alice
a = stat.loc['alice', 'age']

In [6]:
# a est un flottant
type(a), a

(numpy.float64, 30.0)

In [7]:
# Quel est la moyenne de tous les âges
c = stat.loc[:, 'age']
m = c.mean()
print(f"L'âge moyen est de {m:.1f} ans.")

L'âge moyen est de 33.3 ans.


In [8]:
# c est une Series
type(c)

pandas.core.series.Series

In [9]:
# et m est un flottant
type(m)

float

On peut déjà noter plusieurs choses intéressantes :
* On peut utiliser .loc[] et .iloc comme pour les Series. Pour les DataFrame c’est encore
plus important parce qu’il y a plus de risques d’ambiguïtés (notamment entre les lignes et les
colonnes, on y reviendra) ;
* la méthode mean calcule la moyenne, ça n’est pas surprenant, mais ignore les NaN. C’est en
général ce que l’on veut. Si vous vous demandez comment savoir si la méthode que vous
utilisez ignore ou pas les NaN, le mieux est de regarder l’aide de cette méthode. Il existe pour
un certain nombre de méthodes deux versions : une qui ignore les NaN et une autre qui les
prend en compte ; on en reparlera.

Une autre manière de construire une DataFrame est de partir d’un array de numpy, et de spécifier
les index pour les lignes et les colonnes avec les arguments index et columns :

In [10]:
a = np.random.randint(1, 20, 9).reshape(3, 3)
p = pd.DataFrame(a, index=['a', 'b', 'c'], columns=['x', 'y', 'z'])
print(p)
print(a)

    x   y   z
a   2  18  10
b  13  17  10
c   4   6   8
[[ 2 18 10]
 [13 17 10]
 [ 4  6  8]]


### 1.1.2 Importation et exportation de données
En pratique, il est très fréquent que les données qu’on manipule soient stockées dans un fichier ou
une base de données. Il existe en pandas de nombreux utilitaires pour importer et exporter des
données et les convertir automatiquement en DataFrame. Vous pouvez importer ou exporter du
CSV, JSON, HTML, Excel, HDF5, SQL, Python pickle, etc.
À titre d’illustration écrivons la DataFrame p dans différents formats.

In [11]:
# écrivons notre DataFrame dans un fichier CSV
p.to_csv('my_data.csv')
!cat my_data.csv

,x,y,z
a,2,18,10
b,13,17,10
c,4,6,8


In [None]:
# et dans un fichier JSON
p.to_json('my_data.json')
!cat my_data.json

{"x":{"a":2,"b":13,"c":4},"y":{"a":18,"b":17,"c":6},"z":{"a":10,"b":10,"c":8}}

In [None]:
# on peut maintenant recharger notre fichier
# la conversion en DataFrame est automatique
new_p = pd.read_json('my_data.json')
print(new_p)

Pour la gestion des autres formats, comme il s’agit de quelque chose de très spécifique et sans
difficulté particulière, je vous renvoie simplement à la documentation :
http://pandas.pydata.org/pandas-docs/stable/io.html

### 1.1.3 Manipulation d’une DataFrame

In [None]:
# construisons maintenant une DataFrame jouet
# voici une liste de prénoms
names = ['alice', 'bob', 'marc', 'bill', 'sonia']

# créons trois Series qui formeront les trois colonnes
age = pd.Series([12, 13, 16, 11, 16], index=names)
height = pd.Series([130, 140, 176, 120, 165], index=names)
sex = pd.Series(list('fmmmf'), index=names)

# créons maintenant la DataFrame
p = pd.DataFrame({'age': age, 'height': height, 'sex': sex})
print(p)

In [None]:
# et chargeons le jeux de données sur les pourboires de seaborn
import seaborn as sns
tips = sns.load_dataset('tips')

pandas offre de nombreuses possibilités d’explorer les données. Attention, dans mes exemples je
vais alterner entre le DataFrame p et le DataFrame tips suivant les besoins de l’explication.

In [None]:
# afficher les premières lignes
tips.head()

In [None]:
# et les dernière lignes
tips.tail()

In [None]:
# l'index des lignes
p.index

In [None]:
# et l'index des colonnes
p.columns

In [None]:
# et afficher uniquement les valeurs
p.values

In [None]:
# échanger lignes et colonnes
# cf. la transposition de matrices
p.T

Pour finir, il y a la méthodes describe qui permet d’obtenir des premières statistiques sur un
DataFrame. describe permet de calculer des statistiques sur des type numériques, mais aussi sur
des types chaînes de caractères.

In [None]:
# par défaut describe ne prend en compte que les colonnes numériques
p.describe()

In [None]:
# mais on peut le forcer à prendre en compte toutes les colonnes
p.describe(include='all')

### 1.1.4 Requêtes sur une DataFrame
On peut maintenant commencer à faire des requêtes sur les DataFrames. Les DataFrame supportent
la notion de masque que l’on a vue pour les ndarray de numpy et pour les Series.

In [None]:
# p.loc prend soit un label de ligne
print(p.loc['sonia'])

In [None]:
# ou alors un label de ligne ET de colonne
print(p.loc['sonia', 'age'])

On peut mettre à la place d’une label :
* une liste de labels ;
* un slice sur les labels ;
* un masque (c’est-à-dire un tableau de booléens) ;
* un callable qui retourne une des trois premières possibilités.

Noter que l’on peut également utiliser la notation .iloc[] avec les mêmes règles, mais elle est
moins utile.
Il est recommandé de toujours utiliser la notation .loc[lignes, colonnes] pour éviter toute ambiguïté. Les notations .loc[lignes] ou pire seulement [label] sont sources d’erreurs.
Regardons maintenant d’autres exemples plus complexes :


In [None]:
# un masque sur les femmes
p.loc[:, 'sex'] == 'f'

In [None]:
# si bien que pour construire un tableau
# avec uniquement les femmes
p.loc[p.loc[:, 'sex'] == 'f', :]

In [None]:
# si on veut ne garder uniquement
# que les femmes de plus de 14 ans
p.loc[(p.loc[:, 'sex'] == 'f') & (p.loc[:, 'age'] > 14), :]

In [None]:
# quelle est la moyenne de 'total_bill' pour les femmes
addition_f = tips.loc[tips.loc[:, 'sex'] == 'Female', 'total_bill'].mean()
print(f"addition moyenne des femmes : {addition_f:.2f}")

In [None]:
# quelle est la note moyenne des hommes
addition_h = tips.loc[tips.loc[:, 'sex'] == 'Male', 'total_bill'].mean()
print(f"addition moyenne des hommes : {addition_h:.2f}")

In [None]:
# qui laisse le plus grand pourcentage de pourboire :
# les hommes ou les femmes ?

pourboire_f = tips.loc[tips.loc[:, 'sex'] == 'Female', 'tip'].mean()
pourboire_h = tips.loc[tips.loc[:, 'sex'] == 'Male', 'tip'].mean()

print(f"Les femmes laissent {pourboire_f/addition_f:.2%} de pourboire")
print(f"Les hommes laissent {pourboire_h/addition_h:.2%} de pourboire")

### 1.1.5 Erreurs fréquentes et ambiguïtés sur les requêtes
Nous avons vu une manière simple et non ambiguë de faire des requêtes sur les DataFrame. Nous allons voir qu’il existe d’autres manières qui ont pour seul avantage d’être plus concises, mais sources de nombreuses erreurs.

Prévilégiez toujours la notation .loc[lignes, colonnes] sinon, soyez sûr de savoir ce qui est réellement calculé.

In [None]:
# commençons par la notation la plus classique
p['sex'] # prend forcément un label de colonne

In [None]:
# mais par contre, si on passe un slice, c'est forcément des lignes,
# assez perturbant et source de confusion.
p['alice': 'marc']

In [None]:
# on peut même directement accéder à une colonne par son nom
p.age

Mais c’est fortement déconseillé parce que si un attribut de même nom existe sur une DataFrame,
alors la priorité est donnée à l’attribut, et non à la colonne :

In [None]:
# ajoutons une colonne qui a pour nom une méthode qui existe sur
# les DataFrame
p['mean'] = 1
print(p)

In [None]:
# je peux bien accéder
# à la colonne sex
p.sex

In [None]:
# mais pas à la colonne mean
p.mean

In [None]:
# à nouveau, la seule méthode non ambiguë est d'utiliser .loc
p.loc[:, 'mean']

In [None]:
# supprimons maintenant la colonne mean *en place* (par défaut,
# drop retourne une nouvelle DataFrame)
p.drop(columns='mean', inplace=True)
print(p)

Pour aller plus loin, vous pouvez lire la documentation officielle :
http://pandas.pydata.org/pandas-docs/stable/indexing.html

### 1.1.6 Universal functions et pandas

Ça n’est pas une surprise, les Series et DataFrame de pandas supportent les ufunc de numpy. Mais il y a une subtilité. Il est parfaitement légitime et correct d’appliquer une ufunc de numpy sur les éléments d’une DataFrame :

In [None]:
d = pd.DataFrame(np.random.randint(
1, 10, 9).reshape(3, 3), columns=list('abc'))
print(d)

In [None]:
np.log(d)

Nous remarquons que comme on s’y attend, la ufunc a été appliquée à chaque élément de la
DataFrame et que les labels des lignes et colonnes ont été préservés.
Par contre, si l’on a besoin d’alignement de labels, c’est le cas avec toutes les opérations qui s’appliquent sur deux objets comme une addition, alors les ufunc de numpy ne vont pas faire ce à quoi on s’attend. Elles vont faire les opérations sur les tableaux numpy sans prendre en compte les labels.
Pour avoir un alignement des labels, il faut utiliser les ufunc de pandas.

In [None]:
# prenons deux Series
s1 = pd.Series([10, 20, 30],
index=list('abc'))
print(s1)

In [None]:
#
s2 = pd.Series([12, 22, 32],
index=list('acd'))
print(s2)

In [None]:
# la ufunc numpy fait la somme
# des arrays sans prendre en compte
# les labels, donc sans alignement
np.add(s1, s2)

In [None]:
# la ufunc pandas va faire
# un alignement des labels
# cet appel est équivalent à s1 + s2
s1.add(s2)

In [None]:
# comme on l'a vu sur le complément précédent, les valeurs absentes sont
# remplacées par NaN, mais on peut changer ce comportement lors de
# l'appel de .add
s1.add(s2, fill_value=0)

In [None]:
# regardons un autre exemple sur des DataFrame
# on affiche tout ça dans les cellules suivantes
names = ['alice', 'bob', 'charle']

bananas = pd.Series([10, 3, 9], index=names)
oranges = pd.Series([3, 11, 6], index=names)
fruits_jan = pd.DataFrame({'bananas': bananas, 'orange': oranges})

bananas = pd.Series([6, 1], index=names[:-1])
apples = pd.Series([8, 5], index=names[1:])
fruits_feb = pd.DataFrame({'bananas': bananas, 'apples': apples})

In [None]:
# ce qui donne
fruits_jan

In [None]:
# et
fruits_feb

In [None]:
# regardons maintenant la somme des fruits mangés
eaten_fruits = fruits_jan + fruits_feb
print(eaten_fruits)

In [None]:
# On a bien un alignement des labels, mais il y a beaucoup de valeurs
# manquantes. Corrigeons cela on remplaçant les valeurs manquantes par 0
eaten_fruits = fruits_jan.add(fruits_feb, fill_value=0)
print(eaten_fruits)

Notons que lorsqu’une valeur est absente dans toutes les DataFrame, NaN est conservé.
Un dernière subtilité à connaître lors de l’alignement des labels intervient lorsque vous faites une opération sur une DataFrame et une Series. pandas va considérer la Series comme une ligne et va la broadcaster sur les autres lignes. Par conséquent, l’index de la Series va être considéré comme des colonnes et aligné avec les colonnes de la DataFrame.

In [None]:
dataframe = pd.DataFrame(
    np.random.randint(1, 10, size=(3, 3)),
    columns=list('abc'), index=list('xyz'))
dataframe

In [None]:
series_row = pd.Series(
    [100, 200, 300],
    index=list('abc'))
series_row

In [None]:
series_col = pd.Series(
    [400, 500, 600],
    index=list('xyz'))
series_col

In [None]:
# la Series est considérée comme une ligne et son index
# s'aligne sur les colonnes de la DataFrame
# la Series va être broadcastée
# sur les autres lignes de la DataFrame

dataframe + series_row

In [None]:
# du coup si les labels ne correspondent pas,
# le résultat sera le suivant

dataframe + series_col

In [None]:
# on peut dans ce cas, changer le comportement par défaut en forçant
# l'alignement de la Series suivant un autre axe avec l'argument axis

dataframe.add(series_col, axis=0)

Ici, axis=0 signifie que la Series est considérée comme une colonne est qu’elle va être broadcastée sur les autres colonnes (le long de l’axe de ligne).

### 1.1.7 Opérations sur les chaînes de caractères
Nous allons maintenant parler de la vectorisation des opérations sur les chaînes de caractères. Il y
a plusieurs choses importantes à savoir :
* les méthodes sur les chaînes de caractères ne sont disponibles que pour les Series et les
Index, mais pas pour les DataFrame ;
* ces méthodes ignorent les NaN et remplacent les valeurs qui ne sont pas des chaînes de carac-
tères par NaN ;
* ces méthodes retournent une copie de l’objet (Series ou Index), il n’y a pas de modification
en place ;
* la plupart des méthodes Python sur le type str existe sous forme vectorisée ;
* on accède à ces méthodes avec la syntaxe :
    – Series.str.<vectorized method name>
    – Index.str.<vectorized method name>
Regardons quelques exemples :

In [None]:
# Créons une Series avec des noms ayant une capitalisation inconsistante
# et une mauvaise gestion des espaces

names = ['alice ', ' bOB', 'Marc', 'bill', 3, ' JULIE ', np.NaN]
age = pd.Series(names)

In [None]:
# nettoyons maintenant ces données

# on met en minuscule
a = age.str.lower()

# on enlève les espaces
a = a.str.strip()
a

In [None]:
# comme les méthodes vectorisées retournent un objet de même type, on
# peut les chaîner comme ceci

[x for x in age.str.lower().str.strip()]

On peut également utiliser l’indexation des str de manière vectorisée :

In [None]:
print(a)

In [None]:
print(a.str[-1])

Pour aller plus loin vous pouvez lire la documentation officielle :
http://pandas.pydata.org/pandas-docs/stable/text.html

### 1.1.8 Gestion des valeurs manquantes
Nous avons vu que des opérations sur les DataFrame pouvaient générer des valeurs NaN lors de
l’alignement. Il est également possible d’avoir de telles valeurs manquantes dans votre jeu de don-
nées original. pandas offre plusieurs possibilités pour gérer correctement ces valeurs manquantes.
Avant de voir ces différentes possibilités, définissons cette notion de valeur manquante.
Une valeur manquante peut-être représentée avec pandas soit par np.NaN soit par l’objet Python
None.
* np.NaN est un objet de type float, par conséquent il ne peut apparaître que dans un array de
float ou un array d’object. Notons que np.NaN apparaît avec pandas comme simplement
NaN et que dans la suite on utilise de manière indifférente les deux notations, par contre, dans
du code, il faut obligatoirement utiliser np.NaN ;
– si on ajoute un NaN dans un array d’entier, ils seront convertis en float64 ;
– si on ajoute un NaN dans un array de booléens, ils seront convertis en object ;
* NaN est contaminant, toute opération avec un NaN a pour résultat NaN ;
* lorsque l’on utilise None, il est automatiquement converti en NaN lorsque le type de l’array est numérique.

Illustrons ces propriétés :


In [None]:
# une Series d'entiers
s = pd.Series([1, 2])
s

In [None]:
# on insère un NaN, la Series est alors convertie en float64
s[0] = np.NaN
s

In [None]:
# on réinitialise
s = pd.Series([1, 2])
s

In [None]:
# et on insère None
s[0] = None

# Le résultat est le même
# None est converti en NaN
s

Regardons maintenant, les méthodes de pandas pour gérer les valeurs manquantes (donc NaN ou None) :
* isna() retourne un masque mettant à True les valeurs manquantes (il y a un alias isnull()) ;
* notna() retourne un masque mettant à False les valeurs manquantes (il y a un alias notnull()) ;
* dropna() retourne un nouvel objet sans les valeurs manquantes ;
* fillna() retourne un nouvel objet avec les valeurs manquantes remplacées.
On remarque que l’ajout d’alias pour les méthodes est de nouveau une source de confusion avec
laquelle il faut vivre.
On remarque également qu’alors que isnull() et notnull() sont des méthodes simples, dropna()
et fillna() impliquent l’utilisation de stratégies. Regardons cela :

In [None]:
# créons une DataFrame avec quelques valeurs manquantes
names = ['alice', 'bob', 'charles']
bananas = pd.Series([6, 1], index=names[:-1])
apples = pd.Series([8, 5], index=names[1:])
fruits_feb = pd.DataFrame({'bananas': bananas, 'apples': apples})
print(fruits_feb)

In [None]:
fruits_feb.isna()

In [None]:
fruits_feb.notna()

Par défaut, dropna() va enlever toutes les lignes qui contiennent au moins une valeur manquante.
Mais on peut changer ce comportement avec des arguments :

In [None]:
p = pd.DataFrame([[1, 2, np.NaN], [3, np.NaN, np.NaN], [7, 5, np.NaN]])
print(p)

In [None]:
# comportement par défaut, j'enlève toutes les lignes avec au moins
# une valeur manquante; il ne reste rien !
p.dropna()

In [None]:
# maintenant, je fais l'opération par colonne
p.dropna(axis=1)

In [None]:
# je fais l'opération par colonne si toute la colonne est manquante
p.dropna(axis=1, how='all')

In [None]:
# je fais l'opération par ligne si au moins 2 valeurs sont manquantes
p.dropna(thresh=2)

Par défaut, fillna() remplace les valeurs manquantes avec un argument pas défaut. Mais on peut ici aussi changer ce comportement. Regardons cela :

In [None]:
print(p)

In [None]:
# je remplace les valeurs manquantes par -1
p.fillna(-1)

In [None]:
# je remplace les valeurs manquantes avec la valeur suivante sur la colonne
# bfill est pour back fill, c'est-à-dire remplace en arrière à partir des
# valeurs existantes
p.fillna(method='bfill')

In [None]:
# je remplace les valeurs manquantes avec la valeur précédente sur la ligne
# ffill est pour forward fill, remplace en avant à partir des valeurs
# existantes
p.fillna(method='ffill', axis=1)

Regardez l’aide de ces méthodes pour aller plus loin.

In [None]:
p.dropna?

In [None]:
p.fillna?

### 1.1.9 Analyse statistique des données
Nous n’avons pas le temps de couvrir les possibilités d’analyse statistique de la suite data science de Python. pandas offre quelques possibilités basiques avec des calculs de moyennes, d’écarts types ou de covariances que l’on peut éventuellement appliquer par fenêtres à un jeux de données. Pour avoir plus de détails dessus vous pouvez consulter cette documentation :
http://pandas.pydata.org/pandas-docs/stable/computation.html
Dans la suite data science de Python, il a aussi des modules spécialisés dans l’analyse statistique
comme :
* StatsModels
* ScikitLearn
ou des outils de calculs scientifiques plus génériques comme SciPy.
De nouveau, il s’agit d’outils appliqués à des domaines spécifiques et ils se basent tous sur le couple
numpy/pandas.

## 1.2 Complément - niveau avancé
## 1.2.1 Les MultiIndex
pandas avait historiquement d’autres structures de données en plus des Series et des DataFrame permettant d’exprimer des dimensionnalités supérieures à 2, comme par exemple les Panel. Mais pour des raisons de maintenance du code et d’optimisation, les développeurs ont décidé de ne garder que les Series et les DataFrame. Alors, comment exprimer des données avec plus de deux dimensions ?
On utilise pour cela des MultiIndex. Un MultiIndex est un index qui peut être utilisé partout où l’on utilise un index (dans une Series, ou comme ligne ou colonne d’une DataFrame) et qui a pour caractéristique d’avoir plusieurs niveaux.
Comme tous types d’index, et parce qu’un MultiIndex est une sous classe d’Index, pandas va correctement aligner les Series et les DataFrame avec des MultiIndex.
Regardons tout de suite un exemple :


In [None]:
# construisons une DataFrame jouet

# voici une liste de prénoms
names = ['alice', 'bob', 'sonia']

# créons trois Series qui formeront trois colonnes
age = pd.Series([12, 13, 16], index=names)
height = pd.Series([130, 140, 165], index=names)
sex = pd.Series(list('fmf'), index=names)

# créons maintenant la DataFrame
p = pd.DataFrame({'age': age, 'height': height, 'sex': sex})
print(p)

In [None]:
# unstack, en première approximation, permet de passer d'une DataFrame à
# une Series avec un MultiIndex
s = p.unstack()
print(s)

In [None]:
# et voici donc l'index de cette Series
s.index

Il existe évidemment des moyens de créer directement un MultiIndex et ensuite de le définir comme index d’une Series ou comme index de ligne ou colonne d’une DataFrame :

In [None]:
# on peut créer un MultiIndex à partir d'une liste de liste
names = ['alice', 'alice', 'alice', 'bob', 'bob', 'bob']
age = [2014, 2015, 2016, 2014, 2015, 2016]
s_list = pd.Series([40, 42, 45, 38, 40, 40], index=[names, age])
print(s_list)

In [None]:
# ou à partir d'un dictionnaire de tuples
s_tuple = pd.Series({('alice', 2014): 40,
    ('alice', 2015): 42,
    ('alice', 2016): 45,
    ('bob', 2014): 38,
    ('bob', 2015): 40,
    ('bob', 2016): 40})
print(s_tuple)

In [None]:
# ou avec la méthode from_product()
name = ['alice', 'bob']

In [None]:
year = [2014, 2015, 2016]
i = pd.MultiIndex.from_product([name, year])
s = pd.Series([40, 42, 45, 38, 40, 40], index=i)
print(s)

On peut même nommer les niveaux d’un MultiIndex.

In [None]:
name = ['alice', 'bob']
year = [2014, 2015, 2016]
i = pd.MultiIndex.from_product([name, year], names=['name', 'year'])
s = pd.Series([40, 42, 45, 38, 40, 40], index=i)
print(s)

In [None]:
# on peut changer le nom des niveaux du MultiIndex
s.index.names = ['NAMES', 'YEARS']
print(s)

Créons maintenant une DataFrame jouet avec des MultiIndex pour étudier comment accéder aux éléments de la DataFrame.

In [None]:
index = pd.MultiIndex.from_product([[2013, 2014],
        [1, 2, 3]],
        names=['year',
            'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Sue'],
        ['avant', 'arrière']],
        names=['client',
            'pression'])

# on crée des pressions de pneus factices
data = 2 + np.random.rand(6, 4)

# on crée la DataFrame
mecanics_data = pd.DataFrame(data, index=index, columns=columns)
print(mecanics_data)

Il y a plusieurs manières d’accéder aux éléments, mais une seule que l’on recommande :
utilisez la notation .loc[ligne, colonne], .iloc[ligne, colonne].

In [None]:
# pression en 2013 pour Bob
mecanics_data.loc[2013, 'Bob']

In [None]:
# pour accéder aux sous niveaux du MultiIndex, on utilise des tuples
mecanics_data.loc[(2013, 2), ('Bob', 'avant')]

Le slice sur le MultiIndex est un peu délicat. On peut utiliser la notation : si on veut slicer sur tous les éléments d’un MultiIndex, sans prendre en compte un niveau. Si on spécifie les niveaux, il faut utiliser un objet slice ou pd.IndexSlice :

In [None]:
# slice(None) signifie tous les éléments du niveau
print(mecanics_data.loc[slice((2013, 2), (2014, 1)), ('Sue', slice(None))])

In [None]:
# on peut utiliser la notation : si on ne distingue par les niveaux
print(mecanics_data.loc[(slice(None), slice(1, 2)), :])

In [None]:
# on peut aussi utiliser pd.IndexSlice pour slicer avec une notation
# un peu plus concise
idx = pd.IndexSlice
print(mecanics_data.loc[idx[:, 1:2], idx['Sue', :]])

Pour aller plus loin, regardez la documentation des MultiIndex :
http://pandas.pydata.org/pandas-docs/stable/advanced.html

## 1.3 Conclusion
La DataFrame est la structure de données la plus souple et la plus puissante de pandas. Nous avons
vu comment créer des DataFrame et comment accéder aux éléments. Nous verrons dans le prochain
complément les techniques permettant de faire des opérations complexes (et proches dans l’esprit
de ce que l’on peut faire avec une base de données) comme les opérations de merge ou de groupby.

# 2 Opération avancées en pandas
## 2.1 Complément - niveau intermédiaire
### 2.1.1 Introduction
pandas supporte des opérations de manipulation des Series et DataFrame qui sont similaires dans l’esprit à ce que l’on peut faire avec une base de données et le langage SQL, mais de manière plus intuitive et expressive et beaucoup plus efficacement puisque les opérations se déroulent toutes en mémoire.
Vous pouvez concaténer (concat) des DataFrame, faire des jointures (merge), faire des regroupe-
ments (groupby) ou réorganiser les index (pivot).
Nous allons dans la suite développer ces différentes techniques.

In [None]:
import numpy as np
import pandas as pd

### 2.1.2 Concaténations avec concat
concat est utilisé pour concaténer des Series ou des DataFrame. Regardons un exemple.

In [None]:
s1 = pd.Series([30, 35], index=['alice', 'bob'])
s2 = pd.Series([32, 22, 29], index=['bill', 'alice', 'jo'])

In [None]:
s1

In [None]:
s2

In [None]:
pd.concat([s1, s2])

On remarque, cependant, que par défaut il n’y a pas de contrôle sur les labels d’index dupliqués.
On peut corriger cela avec l’argument verify_integrity, qui va produire une exception s’il y a des labels d’index communs. Évidemment, cela a un coût de calcul supplémentaire, ça n’est donc à utiliser que si c’est nécessaire.

In [None]:
try:
    pd.concat([s1, s2], verify_integrity=True)
except ValueError as e:
    print(f"erreur de concaténation:\n{e}")

In [None]:
# créons deux Series avec les index sans recouvrement
s1 = pd.Series(range(1000), index=[chr(x) for x in range(1000)])
s2 = pd.Series(range(1000), index=[chr(x+2000) for x in range(1000)])

In [None]:
# temps de concaténation avec vérification des recouvrements
%timeit pd.concat([s1, s2], verify_integrity=True)

In [None]:
# temps de concaténation sans vérification des recouvrements
%timeit pd.concat([s1, s2])

Par défaut, concat concatène les lignes, c’est-à-dire que s2 sera sous s1, mais on peut changer ce comportement en utilisant l’argument axis :

In [None]:
p1 = pd.DataFrame(np.random.randint(1, 10, size=(2,2)),
columns=list('ab'), index=list('xy'))
p2 = pd.DataFrame(np.random.randint(1, 10, size=(2,2)),
columns=list('ab'), index=list('zt'))

In [None]:
p1

In [None]:
p2

In [None]:
# équivalent à pd.concat([p1, p2], axis=0)
# concaténation des lignes
pd.concat([p1, p2])

In [None]:
p1

In [None]:
p2

In [None]:
# concaténation des colonnes
pd.concat([p1, p2], axis=1)

Regardons maintenant ce cas :

In [None]:
pd.concat([p1, p2])

Vous remarquez que lors de la concaténation, on prend l’union des tous les labels des index de p1 et p2, il y a donc des valeurs absentes qui sont mises à NaN. On peut contrôler ce comportement de plusieurs manières comme nous allons le voir ci-dessous.
Par défaut (ce que l’on a fait ci-dessus), join utilise la stratégie dite outer, c’est-à-dire qu’on prend
l’union des labels.

In [None]:
# on concatène les lignes, l'argument join décide quels labels on garde
# sur l'autre axe (ici sur les colonnes).
# si on spécifie 'inner' on prend l'intersection des labels
# du coup il ne reste rien ..
pd.concat([p1, p2], join='inner')

Avec join_axes, on peut spécifier les labels qu’on veut garder, sous la forme d’un objet Index :

In [None]:
#pd.concat([p1, p2], join_axes=[p1.columns])

In [None]:
# du coup je peux choisir très finement
# Ancienne syntax pandas :
# pd.concat([p1, p2], join_axes=[pd.Index(['a', 'c'])])

** Exercice : Trouver les syntaxes correctes ** 


Notons que les Series et DataFrame ont une méthode append qui est un raccourci vers concat, mais avec moins d’options.
Pour aller plus loin, voici la documentation officielle :
http://pandas.pydata.org/pandas-docs/stable/merging.html#concatenating-objects

### 2.1.3 Jointures avec merge
merge est dans l’esprit similaire au JOIN en SQL. L’idée est de combiner deux DataFrame en fonction d’un critère d’égalité sur des colonnes. Regardons un exemple :

In [None]:
df1 = pd.DataFrame({'employee': ['Bob', 'Lisa', 'Sue'],
'group': ['Accounting', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Sue'],
'hire_date': [2004, 2008, 2014]})

In [None]:
df1

In [None]:
df2

On souhaite ici combiner df1 et df2 de manière à ce que les lignes contenant le même employee soient alignées. Notre critère de merge est donc l’égalité des labels sur la colonne employee.

In [None]:
pd.merge(df1, df2)

Par défaut, merge fait un inner join (ou jointure interne) en utilisant comme critère de jointure les colonnes de même nom (ici employee). inner join veut dire que pour joindre deux lignes il faut que le même employee apparaisse dans les deux DataFrame.

Il existe trois type de merges :
* one-to-one, c’est celui que l’on vient de voir. C’est le merge lorqu’il n’y a pas de labels dupliqués dans les colonnes utilisées comme critère de merge ;
* many-to-one, c’est le merge lorsque l’une des deux colonnes contient des labels dupliqués, dans ce cas, on applique la stratégie one-to-one pour chaque label dupliqué, donc les entrées dupliquées sont préservées ;
* many-to-many, c’est la stratégie lorsqu’il y a des entrées dupliquées dans les deux colonnes. Dans ce cas, on fait un produit cartésien des lignes.

D’une manière générale, gardez en tête que pandas fait essentiellement ce à quoi on s’attend.
Regardons cela sur des exemples :

In [None]:
df1 = pd.DataFrame({'patient': ['Bob', 'Lisa', 'Sue'],
    'repas': ['SS', 'SS', 'SSR']})
df2 = pd.DataFrame({'repas': ['SS', 'SSR'],
    'explication': ['sans sel', 'sans sucre']})

In [None]:
df1

In [None]:
df2

In [None]:
# la colonne commune pour le merge est 'repas' et dans une des colonnes
# (sur df1), il y a des labels dupliqués, on applique la stratégie many-to-one
pd.merge(df1, df2)

In [None]:
df1 = pd.DataFrame({'patient': ['Bob', 'Lisa', 'Sue'],
    'repas': ['SS', 'SS', 'SSR']})
df2 = pd.DataFrame({'repas': ['SS', 'SS', 'SSR'],
    'explication': ['sans sel', 'légumes', 'sans sucre']})

In [None]:
df1

In [None]:
df2

In [None]:
# la colonne commune pour le merge est 'repas' et dans les deux colonnes
# il y a des labels dupliqués, on applique la stratégie many-to-many
pd.merge(df1,df2)

Dans un merge, on peut contrôler les colonnes à utiliser comme critère de merge. Regardons ces différents cas sur des exemples :

In [None]:
df1 = pd.DataFrame({'employee': ['Bob', 'Lisa', 'Sue'],
'group': ['Accounting', 'Engineering', 'HR']})

In [None]:
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Sue'],
    'hire_date': [2004, 2008, 2014]})

In [None]:
df1

In [None]:
df2

In [None]:
# on décide d'utiliser la colonne 'employee' comme critère de merge
pd.merge(df1, df2, on='employee')

In [None]:
df1 = pd.DataFrame({'employee': ['Bob', 'Lisa', 'Sue'],
    'group': ['Accounting', 'Engineering', 'HR']})
df2 = pd.DataFrame({'name': ['Lisa', 'Bob', 'Sue'],
    'hire_date': [2004, 2008, 2014]})

In [None]:
df1

In [None]:
df2

In [None]:
# mais on peut également définir un nom de colonne différent
# à gauche et à droite
m = pd.merge(df1,df2, left_on='employee', right_on='name')
m

In [None]:
# dans ce cas, comme on garde les colonnes utilisées comme critère dans
# le résultat du merge, on peut effacer la colonne inutile ainsi
m.drop('name', axis=1)

merge permet également de contrôler la stratégie à appliquer lorsqu’il y a des valeurs dans une colonne utilisée comme critère de merge qui sont absentes dans l’autre colonne. C’est ce que l’on appelle jointure à gauche, jointure à droite, jointure interne (comportement par défaut) et jointure externe. Pour ceux qui ne sont pas familiers avec ces notions, regardons des exemples :

In [None]:
df1 = pd.DataFrame({'name': ['Bob', 'Lisa', 'Sue'],
        'pulse': [70, 63, 81]})
df2 = pd.DataFrame({'name': ['Eric', 'Bob', 'Marc'],
        'weight': [60, 100, 70]})


In [None]:
df1

In [None]:
df2

In [None]:
# la colonne 'name' est le critère de merge dans les deux DataFrame.
# Seul Bob existe dans les deux colonnes. Dans un inner join
# (le cas par défaut) on ne garde que les lignes pour lesquelles il y a une
# même valeur présente à gauche et à droite
pd.merge(df1, df2) # équivalent à pd.merge(df1, df2, how='inner')