# DataFrames

Les DataFrames sont le gros point fort de Pandas et sont directement inspirés du langage de programmation R. On peut considérer un DataFrame comme un ensemble d'objets Series réunis et qui partagent le même index. Utilisons Pandas pour explorer ce sujet !

In [None]:
import pandas as pd
import numpy as np
from numpy.random import randint

In [None]:
columns= ['W', 'X', 'Y', 'Z'] # 4 colonnes
index= ['A', 'B', 'C', 'D', 'E'] # 5 lignes

In [None]:
np.random.seed(42)
data = randint(-100,100,(5,4))

In [None]:
data

array([[  2,  79,  -8, -86],
       [  6, -29,  88, -80],
       [  2,  21, -26, -13],
       [ 16,  -1,   3,  51],
       [ 30,  49, -48, -99]])

In [None]:
df = pd.DataFrame(data,index,columns)

In [None]:
df

Unnamed: 0,W,X,Y,Z
A,2,79,-8,-86
B,6,-29,88,-80
C,2,21,-26,-13
D,16,-1,3,51
E,30,49,-48,-99


## Sélection et indexation sur les colonnes

Apprenons les différentes méthodes pour récupérer les données d'un DataFrame

### Récupérer une seule colonne

In [None]:
df['W']

A     2
B     6
C     2
D    16
E    30
Name: W, dtype: int64

### Récupérer plusieurs colonnes

In [None]:
# Passer une liste de noms de colonnes
df[["W", "Z"]]

Unnamed: 0,W,Z
A,2,-86
B,6,-80
C,2,-13
D,16,51
E,30,-99


### Les colonnes de DataFrame ne sont que des séries 

In [None]:
type(df['W'])

pandas.core.series.Series

### Création d'une nouvelle colonne

In [None]:
df['new'] = df['W'] + df['Y']

In [None]:
df

Unnamed: 0,W,X,Y,Z,new
A,2,79,-8,-86,-6
B,6,-29,88,-80,94
C,2,21,-26,-13,-24
D,16,-1,3,51,19
E,30,49,-48,-99,-18


### Suppression de colonnes

In [None]:
# axis=1 car c'est une colonne
df.drop('new',axis=1)

Unnamed: 0,W,X,Y,Z
A,2,79,-8,-86
B,6,-29,88,-80
C,2,21,-26,-13
D,16,-1,3,51
E,30,49,-48,-99


In [None]:
# Ne remplace pas à moins d'être réaffecté à df !
df

Unnamed: 0,W,X,Y,Z,new
A,2,79,-8,-86,-6
B,6,-29,88,-80,94
C,2,21,-26,-13,-24
D,16,-1,3,51,19
E,30,49,-48,-99,-18


In [None]:
df = df.drop('new',axis=1)

In [None]:
df

Unnamed: 0,W,X,Y,Z
A,2,79,-8,-86
B,6,-29,88,-80
C,2,21,-26,-13
D,16,-1,3,51
E,30,49,-48,-99


## Sélection et indexation sur les lignes

### Sélection d'une ligne par son nom

In [None]:
df.loc['A']

W     2
X    79
Y    -8
Z   -86
Name: A, dtype: int64

### Sélection de plusieurs lignes par leurs noms

In [None]:
df.loc[['A','C']]

Unnamed: 0,W,X,Y,Z
A,2,79,-8,-86
C,2,21,-26,-13


### Sélection d'une seule ligne avec sa position d'index

In [None]:
df.iloc[0]

W     2
X    79
Y    -8
Z   -86
Name: A, dtype: int64

### Sélection de plusieurs lignes avec leurs positions d'index

In [None]:
df.iloc[0:2]

Unnamed: 0,W,X,Y,Z
A,2,79,-8,-86
B,6,-29,88,-80


### Supprimer une ligne par son nom

In [None]:
df.drop('C',axis=0)

Unnamed: 0,W,X,Y,Z
A,2,79,-8,-86
B,6,-29,88,-80
D,16,-1,3,51
E,30,49,-48,-99


In [None]:
# Ne remplace pas le DataFrame d'origine !
df 

Unnamed: 0,W,X,Y,Z
A,2,79,-8,-86
B,6,-29,88,-80
C,2,21,-26,-13
D,16,-1,3,51
E,30,49,-48,-99


### Sélection d'un sous-ensemble de lignes et de colonnes en même temps

In [None]:
df.loc[['A','C'],['W','Y']]

Unnamed: 0,W,Y
A,2,-8
C,2,-26


## Sélection conditionnelle

Une caractéristique importante Pandas est la sélection conditionnelle en utilisant la notation entre crochets, très similaire à numPy :

In [None]:
df

Unnamed: 0,W,X,Y,Z
A,2,79,-8,-86
B,6,-29,88,-80
C,2,21,-26,-13
D,16,-1,3,51
E,30,49,-48,-99


In [None]:
df>0

Unnamed: 0,W,X,Y,Z
A,True,True,False,False
B,True,False,True,False
C,True,True,False,False
D,True,False,True,True
E,True,True,False,False


In [None]:
df[df>0]

Unnamed: 0,W,X,Y,Z
A,2,79.0,,
B,6,,88.0,
C,2,21.0,,
D,16,,3.0,51.0
E,30,49.0,,


In [None]:
df['X']>0

A     True
B    False
C     True
D    False
E     True
Name: X, dtype: bool

In [None]:
df[df['X']>0]

Unnamed: 0,W,X,Y,Z
A,2,79,-8,-86
C,2,21,-26,-13
E,30,49,-48,-99


In [None]:
df[df['X']>0]['Y']

A    -8
C   -26
E   -48
Name: Y, dtype: int64

In [None]:
df[df['X']>0][['Y','Z']]

Unnamed: 0,Y,Z
A,-8,-86
C,-26,-13
E,-48,-99


Pour deux conditions, vous pouvez utiliser | et & avec parenthèses :

In [None]:
df[(df['W']>0) & (df['Y'] > 1)]

Unnamed: 0,W,X,Y,Z
B,6,-29,88,-80
D,16,-1,3,51


## Plus de détails sur l'index

Examinons quelques autres caractéristiques de l'indexation, notamment la réinitialisation de l'index ou la définition d'un autre paramètre. Nous parlerons également de la hiérarchie de l'index !

In [None]:
df

Unnamed: 0,W,X,Y,Z
A,2,79,-8,-86
B,6,-29,88,-80
C,2,21,-26,-13
D,16,-1,3,51
E,30,49,-48,-99


In [None]:
# Remise de l'index à sa valeur par défaut 0,1...n
df.reset_index()

Unnamed: 0,index,W,X,Y,Z
0,A,2,79,-8,-86
1,B,6,-29,88,-80
2,C,2,21,-26,-13
3,D,16,-1,3,51
4,E,30,49,-48,-99


In [None]:
df

Unnamed: 0,W,X,Y,Z
A,2,79,-8,-86
B,6,-29,88,-80
C,2,21,-26,-13
D,16,-1,3,51
E,30,49,-48,-99


In [None]:
newind = 'CA NY WY OR CO'.split()

In [None]:
newind

['CA', 'NY', 'WY', 'OR', 'CO']

In [None]:
df['States'] = newind

In [None]:
df

Unnamed: 0,W,X,Y,Z,States
A,2,79,-8,-86,CA
B,6,-29,88,-80,NY
C,2,21,-26,-13,WY
D,16,-1,3,51,OR
E,30,49,-48,-99,CO


In [None]:
df.set_index('States')

Unnamed: 0_level_0,W,X,Y,Z
States,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,2,79,-8,-86
NY,6,-29,88,-80
WY,2,21,-26,-13
OR,16,-1,3,51
CO,30,49,-48,-99


In [None]:
df

Unnamed: 0,W,X,Y,Z,States
A,2,79,-8,-86,CA
B,6,-29,88,-80,NY
C,2,21,-26,-13,WY
D,16,-1,3,51,OR
E,30,49,-48,-99,CO


In [None]:
df = df.set_index('States')

In [None]:
df

Unnamed: 0_level_0,W,X,Y,Z
States,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,2,79,-8,-86
NY,6,-29,88,-80
WY,2,21,-26,-13
OR,16,-1,3,51
CO,30,49,-48,-99


## Synthèse des DataFrames
Il existe plusieurs façons d'obtenir des données de synthèse sur DataFrames.<br>
<tt><strong>df.describe()</strong></tt> fournit des statistiques sommaires sur toutes les colonnes numériques.<br>
<tt><strong>df.info() et df.dtypes</strong></tt> affichent le type de données de toutes les colonnes.

In [None]:
df.describe()

Unnamed: 0,W,X,Y,Z
count,5.0,5.0,5.0,5.0
mean,11.2,23.8,1.8,-45.4
std,11.96662,42.109381,51.915316,63.366395
min,2.0,-29.0,-48.0,-99.0
25%,2.0,-1.0,-26.0,-86.0
50%,6.0,21.0,-8.0,-80.0
75%,16.0,49.0,3.0,-13.0
max,30.0,79.0,88.0,51.0


In [None]:
df.dtypes

W    int64
X    int64
Y    int64
Z    int64
dtype: object

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, CA to CO
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   W       5 non-null      int64
 1   X       5 non-null      int64
 2   Y       5 non-null      int64
 3   Z       5 non-null      int64
dtypes: int64(4)
memory usage: 200.0+ bytes
