# 4. Pandas : accès aux données

In [1]:
# import des modules usuels
import pandas as pnd
import numpy as np
import matplotlib.pyplot as plt

# commande magique pour l'affichage des graphiques
%matplotlib inline

# options d'affichage
pnd.set_option("display.max_rows", 16)
plt.style.use('seaborn-darkgrid')

In [2]:
# chargement des données
geo = pnd.read_csv("correspondance-code-insee-code-postal.csv",
                   sep=';',
                   usecols=range(11),
                  index_col="Code INSEE")
geo.sort_index(inplace=True)
geo

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
01001,01400,L'ABERGEMENT-CLEMENCIAT,AIN,RHONE-ALPES,Commune simple,242.0,1565.0,0.8,"46.1534255214, 4.92611354223","{""type"": ""Polygon"", ""coordinates"": [[[4.926273..."
01002,01640,L'ABERGEMENT-DE-VAREY,AIN,RHONE-ALPES,Commune simple,483.0,912.0,0.2,"46.0091878776, 5.42801696363","{""type"": ""Polygon"", ""coordinates"": [[[5.430089..."
01004,01500,AMBERIEU-EN-BUGEY,AIN,RHONE-ALPES,Chef-lieu canton,379.0,2448.0,13.4,"45.9608475114, 5.3729257777","{""type"": ""Polygon"", ""coordinates"": [[[5.386190..."
01005,01330,AMBERIEUX-EN-DOMBES,AIN,RHONE-ALPES,Commune simple,290.0,1605.0,1.6,"45.9961799872, 4.91227250796","{""type"": ""Polygon"", ""coordinates"": [[[4.895580..."
01006,01300,AMBLEON,AIN,RHONE-ALPES,Commune simple,589.0,602.0,0.1,"45.7494989044, 5.59432017366","{""type"": ""Polygon"", ""coordinates"": [[[5.614854..."
01007,01500,AMBRONAY,AIN,RHONE-ALPES,Commune simple,309.0,3359.0,2.3,"46.0055913782, 5.35760660735","{""type"": ""Polygon"", ""coordinates"": [[[5.413533..."
01008,01500,AMBUTRIX,AIN,RHONE-ALPES,Commune simple,274.0,518.0,0.7,"45.9367134524, 5.3328092349","{""type"": ""Polygon"", ""coordinates"": [[[5.321986..."
01009,01300,ANDERT-ET-CONDON,AIN,RHONE-ALPES,Commune simple,294.0,696.0,0.3,"45.7873565333, 5.65788307924","{""type"": ""Polygon"", ""coordinates"": [[[5.656393..."
...,...,...,...,...,...,...,...,...,...,...
97610,97600,KOUNGOU,MAYOTTE,MAYOTTE,Chef-lieu canton,138.0,2769.0,19.8,"-12.7465604467, 45.1869991913","{""type"": ""Polygon"", ""coordinates"": [[[45.23692..."


Point de vocabulaire :
- Les objets *Series* et *DataFrame* possèdent des *index* qui peuvent être des entiers (par défaut) ou bien des labels (chaines de caractères, ou encore des tuples pour les index multiples / hiérarchiques). Lorsque l'index est unique, ils ont un comportement de type dictionnaire auquel on accède au moyen d'une clé.
- Ces objets sont aussi basés sur des tableaux (*ndarray*) auxquels on peut accéder par position, c'est-à-dire par un entier appelé *indice* (en démarrant à 0). Ils ont un comportement de type séquence auquel on accède par un entier.

## 4.1 Rappel sur les accès par indices en Python



Notation|Signification
-|-
s[i]|accès à l'élement situé à la position i (démarrant à 0)
s[i:j]|accès aux élements situés entre la position i et la position j-1
s[i:j:k]|accès aux élements situés entre la position i et la position j-1 par pas de k
s[:i]| accès à tous les éléments jusqu'à la position i-1
s[i:]|accès à tous les éléments à partir de la position i
s[:]|accès à tous les éléments
s[::-1]|accès à tous les éléments dans l'ordre inverse

**Rappel** : en Python le premier indice d'une séquence de longueur L est 0 et le dernier est L - 1. Par commodité, une séquence peut aussi être accédée par des indices négatifs allant de -L à -1.

P|y|t|h|o|n
-|-|-|-|-|-
0|1|2|3|4|5
-6|-5|-4|-3|-2|-1

**Remarques importantes**

Cette notation utilisée pour les indices a été reprise pour les index des objets *Series* et *dataFrame*.
- Lorsque 2 index sont indiqués, le second index est inclus dans la sélection, contrairement aux indices (idem avec les colonnes).
- Lorsque 2 index sont indiqués, la notation fonctionne uniquement lorsque l'index est unique (idem avec les colonnes).

## 4.2 *Series*

Il existe plusieurs opérateurs pour effectuer des sélections dans les objets *Series* :
+ **[]** : sélection à partir d'un index ou d'un indice (si l'index n'est pas un entier) :
    - un seul index ou indice : s[i]
    - liste d'index ou d'indices : s[[i, j, k]]
    - plage d'index ou d'indices : s[i:j] et s[i:j:k] (Attention index vs indices)
    - vecteur de booléens (masque) : *True* = sélection, *False* = non sélection
+ **.loc[]** idem mais réservé aux index
+ **.iloc[]** idem mais réservé aux indices

Lorsque la sélection correspond à une seule valeur, l'opération retourne un scalaire.
Lorsque la sélection correspond à plusieurs valeurs, l'opération retourne un objet *Series*.

N.B. : Les instructions de sélection avec les opérateurs *loc* et *iloc* permettent aussi l'affectation de valeurs.

### 4.2.1 Sélection avec un masque booléen

Il est possible de sélectionner une partie d'un objet *Series* à partir d'un masque booléen, i.e. un autre objet *Series* de même dimension et composé de booléens.

In [3]:
# les communes tirées du second fichier
s = geo["Commune"]
s

Code INSEE
01001    L'ABERGEMENT-CLEMENCIAT
01002      L'ABERGEMENT-DE-VAREY
01004          AMBERIEU-EN-BUGEY
01005        AMBERIEUX-EN-DOMBES
01006                    AMBLEON
01007                   AMBRONAY
01008                   AMBUTRIX
01009           ANDERT-ET-CONDON
                  ...           
97610                    KOUNGOU
97611                  MAMOUDZOU
97612                  MTSAMBORO
97613              M'TSANGAMOUJI
97614                   OUANGANI
97615                   PAMANDZI
97616                       SADA
97617                   TSINGONI
Name: Commune, Length: 36742, dtype: object

In [4]:
s.index

Index(['01001', '01002', '01004', '01005', '01006', '01007', '01008', '01009',
       '01010', '01011',
       ...
       '97608', '97609', '97610', '97611', '97612', '97613', '97614', '97615',
       '97616', '97617'],
      dtype='object', name='Code INSEE', length=36742)

In [5]:
# vecteur de booléens selon si le nom de la ville commence par "A"
masque = s.str.startswith("A")
masque

Code INSEE
01001    False
01002    False
01004     True
01005     True
01006     True
01007     True
01008     True
01009     True
         ...  
97610    False
97611    False
97612    False
97613    False
97614    False
97615    False
97616    False
97617    False
Name: Commune, Length: 36742, dtype: bool

On obtient 2 objets *Series* parallèles et on ne retient que les élements qui correspondent à un *True*.

In [6]:
# sélection à partir du vecteur de booléens
s[masque]  # ou bien s.loc[masque]

Code INSEE
01004      AMBERIEU-EN-BUGEY
01005    AMBERIEUX-EN-DOMBES
01006                AMBLEON
01007               AMBRONAY
01008               AMBUTRIX
01009       ANDERT-ET-CONDON
01010              ANGLEFORT
01011               APREMONT
                ...         
95026      ASNIERES-SUR-OISE
95028            ATTAINVILLE
95039        AUVERS-SUR-OISE
95040                AVERNES
97102          ANSE-BERTRAND
97360                 APATOU
97361         AWALA-YALIMAPO
97601                  ACOUA
Name: Commune, Length: 1934, dtype: object

In [7]:
# les communes qui commencent par SAINT
s[s.str.startswith("SAINT")]

Code INSEE
01331                   SAINT-ALBAN
01332           SAINT-ANDRE-DE-BAGE
01333          SAINT-ANDRE-DE-CORCY
01334         SAINT-ANDRE-D'HUIRIAT
01335       SAINT-ANDRE-LE-BOUCHOUX
01336    SAINT-ANDRE-SUR-VIEUX-JONC
01337                 SAINT-BENIGNE
01338                  SAINT-BENOIT
                    ...            
97413                     SAINT-LEU
97414                   SAINT-LOUIS
97415                    SAINT-PAUL
97416                  SAINT-PIERRE
97417                SAINT-PHILIPPE
97418                  SAINTE-MARIE
97419                   SAINTE-ROSE
97420                SAINTE-SUZANNE
Name: Commune, Length: 4256, dtype: object

In [8]:
# les communes comportant 2 Z
s[s.str.contains("ZZ")]

Code INSEE
2A027              AZZANA
2A099             COZZANO
2A118             FOZZANO
2A259               REZZA
2A336    VALLE-DI-MEZZANA
2B143        LINGUIZZETTA
2B147               LOZZI
2B149       LUGO-DI-NAZZA
               ...       
2B217            PIAZZOLE
2B222        PIE-D'OREZZA
2B236     POGGIO-DI-NAZZA
2B242      POGGIO-MEZZANA
2B291            STAZZONA
2B338      VALLE-D'OREZZA
2B347             VEZZANI
68030       BERGHOLTZZELL
Name: Commune, Length: 19, dtype: object

**Exercice**

Quelles communes commencent par la lettre "Z" ?

Combien de communes sont sur mer ?

Quelles communes ont un nom avec la préposition "SOUS" ?

Quelles communes ont un nom avec "SOUS" mais pas la préposition "SOUS" ?

## 4.3 *DataFrame*

Les mêmes opérateurs existent pour effectuer des sélections dans les objets de type *DataFrame* :
Il existe plusieurs opérateurs pour effectuer des sélections dans les objets *Series* :
+ **[]** : sélection à partir d'un index ou d'un indice (si l'index n'est pas un entier) :
    - une seule colonne : df[a]
    - liste de colonnes ou d'indices : df[[a, b, c]]
    - plage d'index ou d'indices : df[i:j] et df[i:j:k] (Attention index vs indices)
    - vecteur de booléens (masque) : *True* = sélection, *False* = non sélection
+ **.loc[]** idem mais réservé aux index
+ **.iloc[]** idem mais réservé aux indices

Lorsque la sélection correspond à une seule valeur, l'opération retourne un scalaire.
Lorsque la sélection correspond à une colonne ou à une ligne, l'opération retourne un objet *Series*.
Lorsque la sélection correspond à plusieurs colonnes et à plusieurs lignes, l'opération retourne un objet *DataFrame*.

N.B. : Les instructions de sélection avec les opérateurs *loc* et *iloc* permettent aussi l'affectation de valeurs.

### 4.3.1 Sélection de colonnes

En sélectionnant une seule colonne, on obtient un objet *Series* qui partage l'index du *DataFrame* initial. Cf. ci-dessus.

En sélectionnant plusieurs colonnes, on obtient un nouveau *DataFrame* sous-ensemble du *DataFrame* initial et partageant son index avec autant de lignes que le *DataFrame* initial.

In [9]:
geo["Commune"]

Code INSEE
01001    L'ABERGEMENT-CLEMENCIAT
01002      L'ABERGEMENT-DE-VAREY
01004          AMBERIEU-EN-BUGEY
01005        AMBERIEUX-EN-DOMBES
01006                    AMBLEON
01007                   AMBRONAY
01008                   AMBUTRIX
01009           ANDERT-ET-CONDON
                  ...           
97610                    KOUNGOU
97611                  MAMOUDZOU
97612                  MTSAMBORO
97613              M'TSANGAMOUJI
97614                   OUANGANI
97615                   PAMANDZI
97616                       SADA
97617                   TSINGONI
Name: Commune, Length: 36742, dtype: object

In [10]:
# communes + superficie et population
l = ["Commune", "Superficie", "Population"]
geo[l]

Unnamed: 0_level_0,Commune,Superficie,Population
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
01001,L'ABERGEMENT-CLEMENCIAT,1565.0,0.8
01002,L'ABERGEMENT-DE-VAREY,912.0,0.2
01004,AMBERIEU-EN-BUGEY,2448.0,13.4
01005,AMBERIEUX-EN-DOMBES,1605.0,1.6
01006,AMBLEON,602.0,0.1
01007,AMBRONAY,3359.0,2.3
01008,AMBUTRIX,518.0,0.7
01009,ANDERT-ET-CONDON,696.0,0.3
...,...,...,...
97610,KOUNGOU,2769.0,19.8


### 4.3.2 Sélection de lignes

En sélectionnant une seule ligne, on obtient un objet *Series* dont l'index correspond aux colonnes du *DataFrame* initial.

En sélectionnant plusieurs lignes, on obtient un nouveau *DataFrame* sous-ensemble du *DataFrame* initial et partageant son index avec autant de colonnes que le *DataFrame* initial.

In [11]:
# sélection d'une ligne
s = geo.loc["01001"]
s

Code Postal                                                     01400
Commune                                       L'ABERGEMENT-CLEMENCIAT
Département                                                       AIN
Région                                                    RHONE-ALPES
Statut                                                 Commune simple
Altitude Moyenne                                                  242
Superficie                                                       1565
Population                                                        0.8
geo_point_2d                             46.1534255214, 4.92611354223
geo_shape           {"type": "Polygon", "coordinates": [[[4.926273...
Name: 01001, dtype: object

In [12]:
# sélection de plusieurs lignes
geo.loc["01001":"01007"]

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1001,1400,L'ABERGEMENT-CLEMENCIAT,AIN,RHONE-ALPES,Commune simple,242.0,1565.0,0.8,"46.1534255214, 4.92611354223","{""type"": ""Polygon"", ""coordinates"": [[[4.926273..."
1002,1640,L'ABERGEMENT-DE-VAREY,AIN,RHONE-ALPES,Commune simple,483.0,912.0,0.2,"46.0091878776, 5.42801696363","{""type"": ""Polygon"", ""coordinates"": [[[5.430089..."
1004,1500,AMBERIEU-EN-BUGEY,AIN,RHONE-ALPES,Chef-lieu canton,379.0,2448.0,13.4,"45.9608475114, 5.3729257777","{""type"": ""Polygon"", ""coordinates"": [[[5.386190..."
1005,1330,AMBERIEUX-EN-DOMBES,AIN,RHONE-ALPES,Commune simple,290.0,1605.0,1.6,"45.9961799872, 4.91227250796","{""type"": ""Polygon"", ""coordinates"": [[[4.895580..."
1006,1300,AMBLEON,AIN,RHONE-ALPES,Commune simple,589.0,602.0,0.1,"45.7494989044, 5.59432017366","{""type"": ""Polygon"", ""coordinates"": [[[5.614854..."
1007,1500,AMBRONAY,AIN,RHONE-ALPES,Commune simple,309.0,3359.0,2.3,"46.0055913782, 5.35760660735","{""type"": ""Polygon"", ""coordinates"": [[[5.413533..."


### 4.3.3 Sélection de lignes et de colonnes

En sélectionnant plusieurs lignes et plusieurs colonnes, on obtient un nouveau *DataFrame* sous-ensemble du *DataFrame* initial.

In [13]:
# sélection de plusieurs lignes et de plusieurs colonnes
geo.loc["01001":"01005", "Commune":"Statut"]

Unnamed: 0_level_0,Commune,Département,Région,Statut
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1001,L'ABERGEMENT-CLEMENCIAT,AIN,RHONE-ALPES,Commune simple
1002,L'ABERGEMENT-DE-VAREY,AIN,RHONE-ALPES,Commune simple
1004,AMBERIEU-EN-BUGEY,AIN,RHONE-ALPES,Chef-lieu canton
1005,AMBERIEUX-EN-DOMBES,AIN,RHONE-ALPES,Commune simple


In [14]:
# sélection de plusieurs lignes et de plusieurs colonnes
geo.iloc[0:4, 1:5]

Unnamed: 0_level_0,Commune,Département,Région,Statut
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1001,L'ABERGEMENT-CLEMENCIAT,AIN,RHONE-ALPES,Commune simple
1002,L'ABERGEMENT-DE-VAREY,AIN,RHONE-ALPES,Commune simple
1004,AMBERIEU-EN-BUGEY,AIN,RHONE-ALPES,Chef-lieu canton
1005,AMBERIEUX-EN-DOMBES,AIN,RHONE-ALPES,Commune simple


### 4.3.4 Sélection avec des conditions portant sur les valeurs

Il est également possible de sélectionner une partie d'un *DataFrame* à partir de conditions portant sur les valeurs.

La conjonction de conditions est notée *&*, la disjonction est notée *|* et la négation *~*.

In [15]:
# les communes des Hauts-de-Seine où le 100 Mbit est à 100%
geo[(geo["Département"] == "HAUTS-DE-SEINE") & (geo["Population"] > 80.)]

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
92004,92600,ASNIERES-SUR-SEINE,HAUTS-DE-SEINE,ILE-DE-FRANCE,Chef-lieu canton,31.0,482.0,81.6,"48.9153530123, 2.2880384663","{""type"": ""Polygon"", ""coordinates"": [[[2.284270..."
92012,92100,BOULOGNE-BILLANCOURT,HAUTS-DE-SEINE,ILE-DE-FRANCE,Sous-préfecture,33.0,615.0,113.1,"48.8365843138, 2.23913599058","{""type"": ""Polygon"", ""coordinates"": [[[2.236100..."
92025,92700,COLOMBES,HAUTS-DE-SEINE,ILE-DE-FRANCE,Chef-lieu canton,33.0,778.0,84.6,"48.9225179147, 2.24675160629","{""type"": ""Polygon"", ""coordinates"": [[[2.229103..."
92026,92400,COURBEVOIE,HAUTS-DE-SEINE,ILE-DE-FRANCE,Chef-lieu canton,41.0,416.0,86.9,"48.8984504771, 2.25570587289","{""type"": ""Polygon"", ""coordinates"": [[[2.253756..."
92050,92000,NANTERRE,HAUTS-DE-SEINE,ILE-DE-FRANCE,Préfecture,43.0,1223.0,90.0,"48.8960701282, 2.20671346353","{""type"": ""Polygon"", ""coordinates"": [[[2.207759..."


**Exercice** :

1) Affichez l'altitude moyenne, la superficie et la population de toutes les communes dénommées Sainte-Colombe.

2) Combien y a-t-il de départements dans lesquels au moins une commune a plus de 200.000 habitants ?

3) Donner la liste de ces départements.

## 4.4 Synthèses et calculs statistiques

### 4.4.1 La méthode *describe()*

La méthode *describe()* appliquée aux objets *Series* ou *DataFrame* retourne quelques indicateurs statistiques (sur les colonnes numériques dans les cas d'un *DataFrame*) : décompte, moyenne, écart type (*standard deviation*), minimum, quartiles, médiane et maximum.

Cette méthode retourne un objet du même type.

In [16]:
# sur les colonnes numériques de geo
geo.describe()

Unnamed: 0,Altitude Moyenne,Superficie,Population
count,36742.0,36742.0,36742.0
mean,277.81381,1735.786,1.755484
std,290.435871,14447.83,8.10913
min,0.0,2.0,0.0
25%,103.0,645.0,0.2
50%,185.0,1081.0,0.4
75%,334.0,1850.0,1.1
max,2713.0,1871833.0,440.2


**Exercice** : Appliquez la méthode *describe()* en sélectionnant les communes du BAS-RHIN.

In [17]:
geo[geo["Département"]=="BAS-RHIN"].describe()

Unnamed: 0,Altitude Moyenne,Superficie,Population
count,527.0,527.0,527.0
mean,241.631879,909.495256,2.079127
std,121.802016,1085.81238,12.165124
min,110.0,64.0,0.0
25%,164.0,382.0,0.4
50%,204.0,635.0,0.7
75%,279.0,1140.5,1.5
max,914.0,18358.0,271.7


### 4.4.2 Corrélation et covariance

Les méthodes *corr()* et *cov()* calculent respectivement la corrélation et la covariance entre un objet *Series* et un autre. Elles permettent également d'effectuer des calculs sur les colonnes d'un *DataFrame*

La **corrélation** entre deux variables aléatoires est une mesure de la similarité de leurs valeurs conjointes.

La **covariance** entre deux variables aléatoires est un nombre permettant de quantifier leurs écarts conjoints par rapport à leurs espérances respectives.

N.B. : *pandas* implémente les 3 corrélations : Pearson (régression linéaire simple), Kendall et Spearman (régressions sur les rangs, par ex. option *method='kendall'*).

In [18]:
# on calcule la corrélation entre la population et l'altitude moyenne
geo["Population"].corr(geo["Altitude Moyenne"])

-0.07659847592832951

In [19]:
# on calcule la covariance entre la population et l'altitude moyenne
geo["Population"].cov(geo["Altitude Moyenne"])

-180.40335953502915

Il est possible de calculer une matrice de corrélation entre toutes les données numériques d'un objet *DataFrame*.

In [20]:
# on calcule la corrélation entre toutes les données numériques
corrmat = geo.corr()
corrmat

Unnamed: 0,Altitude Moyenne,Superficie,Population
Altitude Moyenne,1.0,0.016074,-0.076598
Superficie,0.016074,1.0,0.025753
Population,-0.076598,0.025753,1.0


### 4.4.3 Autres méthodes

Il existe tout un ensemble de méthodes pour les objets *Series* et *DataFrames* (par colonne ou par ligne avec l'option *axis=1*) :

Méthode|Description
-|-
count()|décompte
sum()|somme
mean()|moyenne
median()|médiane
min()|minimum
max()|maximum
prod()|produit
std()|écart type
var()|variance
quantile()|quantile
cumsum()|somme cumulée
cumprod()|produit cumulé
cummin()|minimum cumulé
cummax()|maximum cumulé
argmin()|indice du minimum
argmax()|indice du maximum
idxmin()|index du minimum
idxmax()|index du maximum
skew()|asymétrie
kurt()|coefficient d'aplatissement (kurtosis)

In [21]:
geo["Population"].cumsum()

Code INSEE
01001        0.8
01002        1.0
01004       14.4
01005       16.0
01006       16.1
01007       18.4
01008       19.1
01009       19.4
          ...   
97610    64402.2
97611    64455.2
97612    64462.1
97613    64467.1
97614    64473.7
97615    64482.8
97616    64490.8
97617    64500.0
Name: Population, Length: 36742, dtype: float64