![rmotr](https://user-images.githubusercontent.com/7065401/52071918-bda15380-2562-11e9-828c-7f95297e4a82.png)
<hr style="margin-bottom: 40px;">

<img src="https://user-images.githubusercontent.com/7065401/75165824-badf4680-5701-11ea-9c5b-5475b0a33abf.png"
    style="width:300px; float: right; margin: 0 40px 40px 40px;"></img>

# Pandas - `DataFrame`s

Probablement la structure de données la plus importante de pandas est le `DataFrame`. C'est une structure tabulaire étroitement intégrée avec les `Series`.

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## À vos claviers !

In [2]:
import numpy as np
import pandas as pd

Nous allons continuer notre analyse des pays du G7 en examinant maintenant les DataFrames. Comme dit précédemment, un DataFrame ressemble beaucoup à un tableau (comme celui que vous pouvez voir [ici](https://docs.google.com/spreadsheets/d/1IlorV2-Oh9Da1JAZ7weVw86PQrQydSMp-ydVMH135iI/edit?usp=sharing)) :

<img width="700" src="https://user-images.githubusercontent.com/872296/38153492-72c032ca-3443-11e8-80f4-9de9060a5127.png" />

Créer des `DataFrame`s manuellement peut être fastidieux. 99% du temps, vous allez extraire les données d'une base de données, d'un fichier csv ou du web. Mais vous pouvez quand même créer un DataFrame en spécifiant les colonnes et les valeurs :

In [3]:
data = {
    'Population': [41.65, 66.65, 84.08, 58.52, 123.10, 69.55, 347.28],
    'PIB nominal (en milliards USD)': [2390, 2833, 4460, 2100, 4603, 2950, 17348],
    'Superficie (km²)': [9984670, 640679, 357114, 301336, 377930, 242495, 9525067],
    'IDH': [0.913, 0.888, 0.916, 0.873, 0.891, 0.907, 0.915],
    'Continent': ['Amérique', 'Europe', 'Europe', 'Europe', 'Asie', 'Europe', 'Amérique']
}

# Création du DataFrame
df = pd.DataFrame(data)


In [4]:
df

Unnamed: 0,Population,PIB nominal (en milliards USD),Superficie (km²),IDH,Continent
0,41.65,2390,9984670,0.913,Amérique
1,66.65,2833,640679,0.888,Europe
2,84.08,4460,357114,0.916,Europe
3,58.52,2100,301336,0.873,Europe
4,123.1,4603,377930,0.891,Asie
5,69.55,2950,242495,0.907,Europe
6,347.28,17348,9525067,0.915,Amérique


Les `DataFrame`s ont également des index. Comme vous pouvez le voir dans le "tableau" ci-dessus, pandas a automatiquement assigné un index numérique auto-incrémenté à chaque "ligne" de notre DataFrame. Dans notre cas, nous savons que chaque ligne représente un pays, donc nous allons simplement réassigner l'index :

In [5]:
df.index = [
    'Canada',
    'France',
    'Allemagne',
    'Italie',
    'Japon',
    'Royaume-Uni',
    'États-Unis',
]

In [6]:
df

Unnamed: 0,Population,PIB nominal (en milliards USD),Superficie (km²),IDH,Continent
Canada,41.65,2390,9984670,0.913,Amérique
France,66.65,2833,640679,0.888,Europe
Allemagne,84.08,4460,357114,0.916,Europe
Italie,58.52,2100,301336,0.873,Europe
Japon,123.1,4603,377930,0.891,Asie
Royaume-Uni,69.55,2950,242495,0.907,Europe
États-Unis,347.28,17348,9525067,0.915,Amérique


In [None]:
df.columns

In [None]:
df.index

In [None]:
df.info()

In [None]:
df.size

In [None]:
df.shape

In [None]:
df.describe()

In [None]:
df.dtypes

In [None]:
df.dtypes.value_counts()

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Indexation, Sélection et Découpage

Les colonnes individuelles du DataFrame peuvent être sélectionnées avec une indexation classique. Chaque colonne est représentée comme une `Series` :

In [None]:
df

In [None]:
df.loc['Canada']

In [None]:
df.iloc[-1]


In [7]:
df['Population']

Canada          41.65
France          66.65
Allemagne       84.08
Italie          58.52
Japon          123.10
Royaume-Uni     69.55
États-Unis     347.28
Name: Population, dtype: float64

Notez que l'`index` de la Series retournée est le même que celui du DataFrame. Et son `name` (nom) est le nom de la colonne. Si vous travaillez dans un notebook et souhaitez voir un format plus proche d'un DataFrame, vous pouvez utiliser la méthode `to_frame` :

In [8]:
df['Population'].to_frame()

Unnamed: 0,Population
Canada,41.65
France,66.65
Allemagne,84.08
Italie,58.52
Japon,123.1
Royaume-Uni,69.55
États-Unis,347.28


Plusieurs colonnes peuvent également être sélectionnées de manière similaire à `numpy` et `Series` :

In [None]:
df[['Population', 'PIB nominal (en milliards USD)']]

Dans ce cas, le résultat est un autre `DataFrame`. Le découpage fonctionne différemment, il agit au niveau des "lignes", et peut être contre-intuitif :

In [None]:
df[1:3]

La sélection au niveau des lignes fonctionne mieux avec `loc` et `iloc` **qui sont recommandés** plutôt que le "découpage direct" classique (`df[:]`).

`loc` sélectionne les lignes correspondant à l'index donné :

In [None]:
df.loc['Italie']

In [None]:
df.loc['France': 'Italie']

Comme deuxième "argument", vous pouvez passer la ou les colonne(s) que vous souhaitez sélectionner :

In [9]:
df.loc['France': 'Italie', 'Population']

France       66.65
Allemagne    84.08
Italie       58.52
Name: Population, dtype: float64

In [10]:
df.loc['France': 'Italie', ['Population', 'PIB nominal (en milliards USD)']]

Unnamed: 0,Population,PIB nominal (en milliards USD)
France,66.65,2833
Allemagne,84.08,4460
Italie,58.52,2100


`iloc` fonctionne avec la "position" numérique de l'index :

In [11]:
df

Unnamed: 0,Population,PIB nominal (en milliards USD),Superficie (km²),IDH,Continent
Canada,41.65,2390,9984670,0.913,Amérique
France,66.65,2833,640679,0.888,Europe
Allemagne,84.08,4460,357114,0.916,Europe
Italie,58.52,2100,301336,0.873,Europe
Japon,123.1,4603,377930,0.891,Asie
Royaume-Uni,69.55,2950,242495,0.907,Europe
États-Unis,347.28,17348,9525067,0.915,Amérique


In [None]:
df.iloc[0]

In [None]:
df.iloc[-1]

In [None]:
df.iloc[[0, 1, -1]]

In [None]:
df.iloc[1:3]

In [None]:
df.iloc[1:3, 3]

In [None]:
df.iloc[1:3, [0, 3]]

In [None]:
df.iloc[1:3, 1:3]

> **RECOMMANDATION : Utilisez toujours `loc` et `iloc` pour réduire l'ambiguïté, particulièrement avec les `DataFrame`s ayant des index numériques.**

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Sélection conditionnelle (tableaux booléens)

Nous avons vu la sélection conditionnelle appliquée aux `Series` et elle fonctionnera de la même manière pour les `DataFrame`s. Après tout, un `DataFrame` est une collection de `Series` :

In [None]:
df

In [None]:
df['Population'] > 70

In [None]:
df.loc[df['Population'] > 70]

La correspondance booléenne se fait au niveau de l'Index, vous pouvez donc filtrer par n'importe quelle ligne, tant qu'elle contient les bons index. La sélection de colonnes fonctionne toujours comme prévu :

In [None]:
df.loc[df['Population'] > 70, 'Population']

In [None]:
df.loc[df['Population'] > 70, ['Population', 'PIB nominal (en milliards USD)']]

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Supprimer des données

À l'opposé du concept de sélection, nous avons la "suppression". Au lieu d'indiquer quelles valeurs vous souhaitez _sélectionner_, vous pouvez indiquer celles que vous souhaitez `supprimer` :

In [None]:
df.drop('Canada')

In [None]:
df.drop(['Canada', 'Japon'])

In [None]:
df.drop(columns=['Population', 'IDH'])

In [None]:

df.drop(['Italie', 'Canada'], axis=0)

In [None]:
df.drop(['Population', 'IDH'], axis=1)

In [None]:
df.drop(['Population', 'IDH'], axis=1)

In [None]:
df.drop(['Population', 'IDH'], axis='columns')

In [None]:
df.drop(['Canada', 'Allemagne'], axis=0)

Toutes ces méthodes `drop` retournent un nouveau `DataFrame`. Si vous souhaitez le modifier "sur place", vous pouvez utiliser l'attribut `inplace`

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Opérations

In [12]:
df[['Population', 'PIB nominal (en milliards USD)']]

Unnamed: 0,Population,PIB nominal (en milliards USD)
Canada,41.65,2390
France,66.65,2833
Allemagne,84.08,4460
Italie,58.52,2100
Japon,123.1,4603
Royaume-Uni,69.55,2950
États-Unis,347.28,17348


In [None]:
df[['Population', 'PIB nominal (en milliards USD)']] / 100

**Les opérations avec des Series** fonctionnent au niveau des colonnes, se propageant vers le bas des lignes (ce qui peut être contre-intuitif).

In [None]:
crise = pd.Series([-1_000_000, -0.3], index=['PIB nominal (en milliards USD)', 'IDH'])
crise

In [None]:
df[['PIB nominal (en milliards USD)', 'IDH']]

In [None]:
df[['PIB nominal (en milliards USD)', 'IDH']] + crise

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Modifier les DataFrames

C'est simple et intuitif. Vous pouvez ajouter des colonnes ou remplacer des valeurs de colonnes sans problème :

### Ajouter une nouvelle colonne

In [None]:
langs = pd.Series(
    ['Français', 'Allemand', 'Italien'],
    index=['France', 'Allemagne', 'Italie'],
    name='Langue'
)

In [None]:
langs

In [None]:
df['Langue'] = langs

In [None]:
df

---
### Remplacer les valeurs par colonne

In [None]:
df['Langue'] = 'Anglais'

In [None]:
df

---
### Renommer les colonnes

In [None]:
df.rename(
    columns={
        'IDH': 'Indice de Développement Humain',
        'Consommation annuelle de pop-corn': 'CAP'
    }, index={
        'États-Unis': 'USA',
        'Royaume-Uni': 'RU',
        'Argentine': 'AR'
    })

In [None]:
df.rename(index=str.upper)

In [None]:
df.rename(index=lambda x: x.lower())

---
### Supprimer des colonnes

In [None]:
df.drop(columns='Langue', inplace=True)

---
### Ajouter des valeurs

In [None]:
df.append(pd.Series({
    'Population': 3,
    'PIB nominal (en milliards USD)': 5
}, name='Chine'))

Append retourne un nouveau `DataFrame` :

In [None]:
df

Vous pouvez directement définir le nouvel index et les valeurs du `DataFrame` :

In [79]:
df.loc['Chine'] = pd.Series({'Population': 1_400_000_000, 'Continent': 'Asie'})

In [None]:
df

Nous pouvons utiliser `drop` pour simplement supprimer une ligne par son index :

In [81]:
df.drop('Chine', inplace=True)

In [None]:
df

---
### Modifications d'index plus radicales avec `set_index()`

In [18]:
df.reset_index()

Unnamed: 0,index,Population,PIB nominal (en milliards USD),Superficie (km²),IDH,Continent
0,Canada,41.65,2390,9984670,0.913,Amérique
1,France,66.65,2833,640679,0.888,Europe
2,Allemagne,84.08,4460,357114,0.916,Europe
3,Italie,58.52,2100,301336,0.873,Europe
4,Japon,123.1,4603,377930,0.891,Asie
5,Royaume-Uni,69.55,2950,242495,0.907,Europe
6,États-Unis,347.28,17348,9525067,0.915,Amérique


In [19]:
df.set_index('Population')

Unnamed: 0_level_0,PIB nominal (en milliards USD),Superficie (km²),IDH,Continent
Population,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
41.65,2390,9984670,0.913,Amérique
66.65,2833,640679,0.888,Europe
84.08,4460,357114,0.916,Europe
58.52,2100,301336,0.873,Europe
123.1,4603,377930,0.891,Asie
69.55,2950,242495,0.907,Europe
347.28,17348,9525067,0.915,Amérique


![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Créer des colonnes à partir d'autres colonnes

Modifier un DataFrame implique souvent de combiner différentes colonnes. Par exemple, dans notre analyse des pays, nous pourrions essayer de calculer le "PIB par habitant", qui est simplement `PIB / Population`.

In [None]:
df[['Population', 'PIB nominal (en milliards USD)']]

La manière classique de pandas pour exprimer cela est simplement de diviser chaque série :

In [None]:
df['PIB nominal (en milliards USD)'] / df['Population']

Le résultat de cette opération est simplement une autre série que vous pouvez ajouter au `DataFrame` original :

In [88]:
df['PIB par habitant'] = df['PIB nominal (en milliards USD)'] / df['Population']

In [None]:
df

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Informations statistiques

Vous avez déjà vu la méthode `describe`, qui vous donne un bon "résumé" du `DataFrame`. Explorons d'autres méthodes plus en détail :

In [None]:
df.head()

In [None]:
df.describe()

In [14]:
population = df['Population']

In [None]:
population.min(), population.max()

In [None]:
population.sum()

In [None]:
population.sum() / len(population)

In [None]:
population.mean()

In [None]:
population.std()

In [None]:
population.median()

In [None]:
population.describe()

In [16]:
population.quantile(.25)

np.float64(62.58500000000001)

In [17]:
population.quantile([.2, .4, .6, .8, 1])

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)