# 1. Présentation des pandas

Dans le point précédent, nous avons appris à gérer les tableaux Numpy qui peuvent être utilisés pour effectuer efficacement des calculs numériques. Ces tableaux sont cependant des structures homogènes c'est-à-dire qu'ils ne peuvent contenir qu'un seul type de données. De plus, même si nous disposons d’un seul type de données, les différentes lignes ou colonnes d’un tableau n’ont pas d’étiquettes, ce qui rend difficile le suivi de ce qu’elles contiennent. Pour de tels cas, nous avons besoin d'une structure plus proche d'un tableau comme on peut en trouver dans Excel, et ces structures sont implémentées par le package Pandas.

Mais pourquoi ne pouvons-nous pas simplement utiliser Excel ? Si Excel est pratique pour parcourir les données, il est très fastidieux à utiliser pour combiner, réorganiser et analyser minutieusement les données : le code est caché et difficile à partager, il n'y a pas de contrôle de version, il est difficile d'automatiser les tâches, le clic manuel mène aux erreurs, etc.

Dans les prochains chapitres, vous apprendrez à gérer des données tabulaires avec Pandas, un package Python largement utilisé dans les domaines scientifiques et de la science des données. Vous apprendrez comment créer et importer des tableaux, comment les combiner, les modifier, effectuer des analyses statistiques sur eux et enfin comment les utiliser pour créer facilement des visualisations complexes.

Pour que vous voyez où cela mène, nous commençons par un bref exemple de la façon dont Pandas peut être utilisé dans un projet. Nous examinons ici les données fournies ouvertement par le Fonds national suisse sur les subventions attribuées depuis 1975.

## Premiers pas avec Pandas
Pandas est un outil majeur dans le domaine de l’analyse des données. Il contient des structures de données et des outils de manipulation de données conçus pour rendre le nettoyage et l'analyse des données rapides et faciles en Python.

Pandas est souvent utilisé en tandem avec des outils de calcul numérique comme ```NumPy et SciPy```, des bibliothèques analytiques comme ```statsmodels``` et ```scikit-learn```, et des bibliothèques de visualisation de données comme ```matplotlib```. Pandas adopte des parties importantes du style idiomatique de calcul basé sur des tableaux de NumPy, en particulier les fonctions basées sur des tableaux et une préférence pour le traitement des données sans boucles for.

Bien que pandas adopte de nombreux idiomes de codage de NumPy, la plus grande différence est que pandas est conçu pour travailler avec des données tabulaires ou hétérogènes. NumPy, en revanche, est mieux adapté pour travailler avec des données de tableaux numériques homogènes.

## 1. Introduction aux structures de données Pandas
Pour démarrer avec Pandas, vous devrez vous familiariser avec ses deux structures de données performantes : ```Series``` et ```DataFrame```. Même s’ils ne constituent pas une solution universelle à tous les problèmes, ils constituent une base solide et facile à utiliser pour la plupart des applications.

## 1.1 Series

Une série est un objet de type tableau unidimensionnel contenant :

Une séquence de valeurs (de types similaires aux types NumPy).
Tableau associé d’étiquettes de données, appelé son index.
La série la plus simple est formée uniquement d’un tableau de données :

In [6]:
import numpy as np
import pandas as pd

series = pd.Series([10, 20, 30, 40])

series

0    10
1    20
2    30
3    40
dtype: int64

La représentation sous forme de chaîne d'une série affichée de manière interactive affiche l'index à gauche et les valeurs à droite.

Puisque nous n'avons pas spécifié d'index pour les données, un index par défaut composé des entiers 0 à N - 1 (où N est la longueur des données) est créé. Vous pouvez obtenir la représentation matricielle et l'objet d'index de la série via ses valeurs et ses attributs d'index, respectivement :

In [7]:
print("Series index = ", series.index)
print("="*50)
print("Series values = ", series.values)

Series index =  RangeIndex(start=0, stop=4, step=1)
Series values =  [10 20 30 40]


In [9]:
print("Series index = ", series.index)

Series index =  RangeIndex(start=0, stop=4, step=1)


Lorsque vous imprimez l’index d’une série pandas, il est affiché comme un objet RangeIndex. Dans votre cas, RangeIndex(start=0, stop=4, step=1) signifie que votre index commence à 0, s’arrête avant 4 et augmente par pas de 1. C’est l’équivalent de l’index [0, 1, 2, 3].

C’est simplement une autre façon d’afficher l’index qui est plus efficace en termes de mémoire lorsque vous travaillez avec de grands ensembles de données. Si vous voulez voir l’index sous forme de liste, vous pouvez convertir l’index en liste en utilisant ```list(series.index)```.

In [10]:
list(series.index)

[0, 1, 2, 3]

Il sera souvent souhaitable de créer une série avec un index identifiant chaque point de données avec une étiquette.

In [11]:
series = pd.Series([10, 20, 30, 40], index = ["A", "B", "C", "D"])

series

A    10
B    20
C    30
D    40
dtype: int64

In [12]:
print("Series index = ", series.index)
print("="*50)
print("Series values = ", series.values)

Series index =  Index(['A', 'B', 'C', 'D'], dtype='object')
Series values =  [10 20 30 40]


In [13]:
print(series[0])

print("="*50)

print(series[0:2])

print("="*50)

print(series[[0,1]])

10
A    10
B    20
dtype: int64
A    10
B    20
dtype: int64


In [15]:
print(series['A'])

print("="*50)

print(series['A':'B'])

print("="*50)

print(series[['A','B']])

10
A    10
B    20
dtype: int64
A    10
B    20
dtype: int64


Ici, ['A', 'B'] est interprété comme une liste d'indices, même s'il contient des chaînes au lieu d'entiers.

L'utilisation de fonctions NumPy ou d'opérations de type NumPy, telles que le filtrage avec un tableau booléen, la multiplication scalaire ou l'application de fonctions mathématiques, préservera le lien index-valeur.

In [16]:
print(series * 2)

print("="*50)

print(series > 10)

print("="*50)

print(series[series > 10])

print("="*50)

print(np.max(series))

A    20
B    40
C    60
D    80
dtype: int64
A    False
B     True
C     True
D     True
dtype: bool
B    20
C    30
D    40
dtype: int64
40


Une autre façon de considérer une série est de la considérer comme un dict ordonné de longueur fixe, car il s'agit d'un mappage de valeurs d'index sur des valeurs de données. Il peut être utilisé dans de nombreux contextes où vous pouvez utiliser un dict.

In [17]:
series

A    10
B    20
C    30
D    40
dtype: int64

In [18]:
print("A" in series)
print("x" in series)

True
False


In [19]:
print(10 in series)
print(5 in series)

False
False


In [20]:
print(10 in series.values)
print(5 in series.values)

True
False


Si vous avez des données contenues dans un ```dict``` Python, vous pouvez créer une série à partir de celui-ci en passant le ```dict```.

In [21]:
grade_scale = {
    'A': 'Excellent',
    'B': 'Très bien',
    'C': 'Bien',
    'D': 'Acceptable',
    'F': 'Mauvais'
}

series = pd.Series(grade_scale)

series

A     Excellent
B     Très bien
C          Bien
D    Acceptable
F       Mauvais
dtype: object

In [22]:
series['B']

'Très bien'

Lorsque vous transmettez uniquement un ```dict```, l'index de la série résultante aura les clés du ```dict``` dans l'ordre trié. Vous pouvez remplacer cela en passant les clés de ```dict``` dans l'ordre dans lequel vous souhaitez qu'elles apparaissent dans la série résultante.

In [23]:
series = pd.Series(grade_scale, index=['D', 'C', 'B', 'A', 'X', 'Z'])

series

D    Acceptable
C          Bien
B     Très bien
A     Excellent
X           NaN
Z           NaN
dtype: object

Puisqu'aucune valeur pour X ou Z n'a été trouvée, elle apparaît comme NaN (pas un nombre), qui est considéré dans les pandas pour marquer les valeurs manquantes ou NA. Puisque F n’était pas inclus dans la série indecis, il est exclu de l’objet résultant.

Les fonctions ```isnull``` et ```notnull``` dans pandas doivent être utilisées pour détecter les données manquantes

In [24]:
pd.isnull(series)

D    False
C    False
B    False
A    False
X     True
Z     True
dtype: bool

In [25]:
pd.notnull(series)

D     True
C     True
B     True
A     True
X    False
Z    False
dtype: bool

```Series``` les propose également comme méthodes d'instance.

In [26]:
series.isnull()

D    False
C    False
B    False
A    False
X     True
Z     True
dtype: bool

In [27]:
series.notnull()

D     True
C     True
B     True
A     True
X    False
Z    False
dtype: bool

Une fonctionnalité utile de Series pour de nombreuses applications est qu'elle s'aligne automatiquement par étiquette d'index dans les opérations arithmétiques.

In [28]:
restaurant_1 = pd.Series([100, 150], index=['Pizza', 'Poulet'])
restaurant_2 = pd.Series([120, 200], index=['Pizza', 'Poisson'])

print(restaurant_1)
print("="*50)
print(restaurant_2)

Pizza     100
Poulet    150
dtype: int64
Pizza      120
Poisson    200
dtype: int64


In [29]:
restaurant_1 + restaurant_2

Pizza      220.0
Poisson      NaN
Poulet       NaN
dtype: float64

Les fonctionnalités d’alignement des données seront abordées plus en détail ultérieurement. Si vous avez de l'expérience avec les bases de données, vous pouvez considérer cela comme une opération de jointure. L'objet Series lui-même et son index ont tous deux un attribut name, qui s'intègre à d'autres domaines clés des fonctionnalités pandas.

In [30]:
series

D    Acceptable
C          Bien
B     Très bien
A     Excellent
X           NaN
Z           NaN
dtype: object

In [31]:
series.name = 'Échelle de notes'
series.index.name = 'Echelle'

series

Echelle
D    Acceptable
C          Bien
B     Très bien
A     Excellent
X           NaN
Z           NaN
Name: Échelle de notes, dtype: object

L’index d’une série peut être modifié sur place par affectation.

In [32]:
restaurant_1

Pizza     100
Poulet    150
dtype: int64

In [33]:
restaurant_1.index = ['Meat', 'Fish']

restaurant_1

Meat    100
Fish    150
dtype: int64

## 1.2 DataFrame

Un DataFrame représente un tableau rectangulaire de données et contient une collection ordonnée de colonnes,
Chacun d'entre eux peut être un type de valeur différent (numérique, chaîne, booléen, etc.).

Le DataFrame a à la fois un index de ligne et un index de colonne ; cela peut être considéré comme un dictée de séries partageant toutes le même index. Sous le capot, les données sont stockées sous forme d'un ou plusieurs blocs bidimensionnels plutôt que sous forme de liste, de dictionnaire ou d'une autre collection de tableaux unidimensionnels.

Il existe de nombreuses façons de construire un DataFrame, même si l'une des plus courantes consiste à utiliser un dict de listes de longueur égale ou de tableaux NumPy :

In [36]:
data_dict = {
    'Ville': ['Kinshasa', 'Mbuji Mayi', 'Lubumbashi', 'Kananga', 'Kisangani', 'Goma', 'Bukavu'],
    'Année': [2022, 2022, 2022, 2022, 2022, 2022, 2022],
    'Population': [15.6, 2.7, 2.6, 1.5, 1.3, 1.2, 1.1]
}

datafram = pd.DataFrame(data_dict)

datafram

Unnamed: 0,Ville,Année,Population
0,Kinshasa,2022,15.6
1,Mbuji Mayi,2022,2.7
2,Lubumbashi,2022,2.6
3,Kananga,2022,1.5
4,Kisangani,2022,1.3
5,Goma,2022,1.2
6,Bukavu,2022,1.1


Comme nous le voyons ci-dessus, le DataFrame résultant verra son index attribué automatiquement comme pour Series, et les colonnes seront placées dans l'ordre trié.

Pour les grands DataFrames, la méthode ```head``` sélectionne uniquement les cinq premières lignes.

In [37]:
datafram.head()

Unnamed: 0,Ville,Année,Population
0,Kinshasa,2022,15.6
1,Mbuji Mayi,2022,2.7
2,Lubumbashi,2022,2.6
3,Kananga,2022,1.5
4,Kisangani,2022,1.3


Si vous spécifiez une séquence de colonnes, les colonnes du DataFrame seront disposées dans cet ordre.

In [40]:
datafram = pd.DataFrame(data_dict, columns = ['Ville', 'Population'])

datafram

Unnamed: 0,Ville,Population
0,Kinshasa,15.6
1,Mbuji Mayi,2.7
2,Lubumbashi,2.6
3,Kananga,1.5
4,Kisangani,1.3
5,Goma,1.2
6,Bukavu,1.1


Si vous transmettez une colonne qui n'est pas contenue dans le dict, elle apparaîtra avec des valeurs manquantes dans le résultat.

In [41]:
datafram = pd.DataFrame(data_dict, columns = ['Ville', 'Population', 'Pays'])

datafram

Unnamed: 0,Ville,Population,Pays
0,Kinshasa,15.6,
1,Mbuji Mayi,2.7,
2,Lubumbashi,2.6,
3,Kananga,1.5,
4,Kisangani,1.3,
5,Goma,1.2,
6,Bukavu,1.1,


Vous pouvez modifier l'index des lignes lors de la création du dataframe.

In [45]:
datafram = pd.DataFrame(data_dict, columns = ['Ville', 'Population'], index = ['#'+str(i) for i in range(1,8)])

datafram

Unnamed: 0,Ville,Population
#1,Kinshasa,15.6
#2,Mbuji Mayi,2.7
#3,Lubumbashi,2.6
#4,Kananga,1.5
#5,Kisangani,1.3
#6,Goma,1.2
#7,Bukavu,1.1


Une colonne dans un DataFrame peut être récupérée sous forme de série soit par une notation de type dict, soit par attribut.

In [46]:
datafram.Ville

#1      Kinshasa
#2    Mbuji Mayi
#3    Lubumbashi
#4       Kananga
#5     Kisangani
#6          Goma
#7        Bukavu
Name: Ville, dtype: object

In [47]:
datafram['Ville']

#1      Kinshasa
#2    Mbuji Mayi
#3    Lubumbashi
#4       Kananga
#5     Kisangani
#6          Goma
#7        Bukavu
Name: Ville, dtype: object

#### Note

L'accès de type attribut (par exemple, datafram.state) et la complétion par tabulation des noms de colonnes dans IPython sont fournis à titre pratique.

L'accès de type dict (par exemple, ```datafram[column]```) fonctionne pour n'importe quel nom de colonne, MAIS ```datafram.column``` ne fonctionne que lorsque le nom de colonne est un nom de variable Python valide.

Notez que les séries renvoyées ont le même index que le DataFrame et que leur attribut de nom a été défini de manière appropriée.

In [48]:
type(datafram['Ville'])

pandas.core.series.Series

In [49]:
datafram['Ville'].index

Index(['#1', '#2', '#3', '#4', '#5', '#6', '#7'], dtype='object')

In [50]:
datafram['Ville'].name

'Ville'

Les lignes peuvent également être récupérées par position ou par nom avec l'attribut spécial ```loc```

In [51]:
datafram

Unnamed: 0,Ville,Population
#1,Kinshasa,15.6
#2,Mbuji Mayi,2.7
#3,Lubumbashi,2.6
#4,Kananga,1.5
#5,Kisangani,1.3
#6,Goma,1.2
#7,Bukavu,1.1


In [52]:
datafram.loc['#7']

Ville         Bukavu
Population       1.1
Name: #7, dtype: object

In [53]:
type(datafram.loc['#7'])

pandas.core.series.Series

Les colonnes peuvent être modifiées par affectation.

Par exemple, la colonne « test » vide pourrait se voir attribuer une valeur scalaire ou un tableau de valeurs.

In [55]:
datafram = pd.DataFrame(data_dict, columns=['Population', 'Année', 'Ville', 'test'])

datafram

Unnamed: 0,Population,Année,Ville,test
0,15.6,2022,Kinshasa,
1,2.7,2022,Mbuji Mayi,
2,2.6,2022,Lubumbashi,
3,1.5,2022,Kananga,
4,1.3,2022,Kisangani,
5,1.2,2022,Goma,
6,1.1,2022,Bukavu,


In [56]:
datafram.test = datafram['Population'] * 10

datafram

Unnamed: 0,Population,Année,Ville,test
0,15.6,2022,Kinshasa,156.0
1,2.7,2022,Mbuji Mayi,27.0
2,2.6,2022,Lubumbashi,26.0
3,1.5,2022,Kananga,15.0
4,1.3,2022,Kisangani,13.0
5,1.2,2022,Goma,12.0
6,1.1,2022,Bukavu,11.0


Lorsque vous attribuez des listes ou des tableaux à une colonne, la longueur de la valeur doit correspondre à la longueur du DataFrame.

Si vous attribuez une série, ses étiquettes seront réalignées exactement sur l'index du DataFrame, en insérant les valeurs manquantes dans tous les trous.

In [57]:
datafram.test = pd.Series(['00', '11', '22', '33', '44', '55', '66'], index=[0, 1, 22, 33, 4, 5, 6])

datafram

Unnamed: 0,Population,Année,Ville,test
0,15.6,2022,Kinshasa,0.0
1,2.7,2022,Mbuji Mayi,11.0
2,2.6,2022,Lubumbashi,
3,1.5,2022,Kananga,
4,1.3,2022,Kisangani,44.0
5,1.2,2022,Goma,55.0
6,1.1,2022,Bukavu,66.0


L'attribution d'une colonne qui n'existe pas créera une nouvelle colonne. Le mot-clé ```del``` supprimera les colonnes comme avec un ```dict```.