# Master TIDE - Conférences Python 2021

Francis Wolinski

&copy; 2021 Yotta Conseil

# 2. Pandas : accès aux données

In [None]:
# terminal
# git clone https://github.com/fran6w/TIDE/
# git pull

In [1]:
# import des modules usuels
import pandas as pd
import numpy as np

# options d'affichage
pd.set_option("display.max_rows", 16)

In [2]:
# chargement des données
geo = pd.read_csv("correspondance-code-insee-code-postal.csv",
                   sep=';',
                   usecols=range(11),
                   index_col="Code INSEE")
geo = geo.sort_index()
geo.head()

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1001,1400,L'ABERGEMENT-CLEMENCIAT,AIN,RHONE-ALPES,Commune simple,242.0,1565.0,0.8,"46.1534255214, 4.92611354223","{""type"": ""Polygon"", ""coordinates"": [[[4.926273..."
1002,1640,L'ABERGEMENT-DE-VAREY,AIN,RHONE-ALPES,Commune simple,483.0,912.0,0.2,"46.0091878776, 5.42801696363","{""type"": ""Polygon"", ""coordinates"": [[[5.430089..."
1004,1500,AMBERIEU-EN-BUGEY,AIN,RHONE-ALPES,Chef-lieu canton,379.0,2448.0,13.4,"45.9608475114, 5.3729257777","{""type"": ""Polygon"", ""coordinates"": [[[5.386190..."
1005,1330,AMBERIEUX-EN-DOMBES,AIN,RHONE-ALPES,Commune simple,290.0,1605.0,1.6,"45.9961799872, 4.91227250796","{""type"": ""Polygon"", ""coordinates"": [[[4.895580..."
1006,1300,AMBLEON,AIN,RHONE-ALPES,Commune simple,589.0,602.0,0.1,"45.7494989044, 5.59432017366","{""type"": ""Polygon"", ""coordinates"": [[[5.614854..."


In [3]:
# index
geo.index

Index(['01001', '01002', '01004', '01005', '01006', '01007', '01008', '01009',
       '01010', '01011',
       ...
       '97608', '97609', '97610', '97611', '97612', '97613', '97614', '97615',
       '97616', '97617'],
      dtype='object', name='Code INSEE', length=36742)

In [4]:
# colonnes
geo.columns

Index(['Code Postal', 'Commune', 'Département', 'Région', 'Statut',
       'Altitude Moyenne', 'Superficie', 'Population', 'geo_point_2d',
       'geo_shape'],
      dtype='object')

In [5]:
# accès avec []
geo['Commune']

Code INSEE
01001    L'ABERGEMENT-CLEMENCIAT
01002      L'ABERGEMENT-DE-VAREY
01004          AMBERIEU-EN-BUGEY
01005        AMBERIEUX-EN-DOMBES
01006                    AMBLEON
                  ...           
97613              M'TSANGAMOUJI
97614                   OUANGANI
97615                   PAMANDZI
97616                       SADA
97617                   TSINGONI
Name: Commune, Length: 36742, dtype: object

In [6]:
# accès par attribut : ne fonctionne pas toujours
geo.Commune

Code INSEE
01001    L'ABERGEMENT-CLEMENCIAT
01002      L'ABERGEMENT-DE-VAREY
01004          AMBERIEU-EN-BUGEY
01005        AMBERIEUX-EN-DOMBES
01006                    AMBLEON
                  ...           
97613              M'TSANGAMOUJI
97614                   OUANGANI
97615                   PAMANDZI
97616                       SADA
97617                   TSINGONI
Name: Commune, Length: 36742, dtype: object

Point de vocabulaire :
- Les objets *Series* et *DataFrame* possèdent des *index* qui peuvent être des entiers (par défaut) ou bien des labels (chaines de caractères, ou encore des tuples pour les index multiples / hiérarchiques). Lorsque l'index est unique, ils ont un comportement de type dictionnaire auquel on accède au moyen d'une clé.
- Ces objets sont aussi basés sur des tableaux (*ndarray*) auxquels on peut accéder par position, c'est-à-dire par un entier appelé *indice* (en démarrant à 0). Ils ont un comportement de type séquence auquel on accède par un entier.

## 2.1 Rappel sur les accès par indices en Python



Notation|Signification
-|-
s[i]|accès à l'élement situé à la position i (démarrant à 0)
s[i:j]|accès aux élements situés entre la position i et la position j-1
s[i:j:k]|accès aux élements situés entre la position i et la position j-1 par pas de k
s[:i]| accès à tous les éléments jusqu'à la position i-1
s[i:]|accès à tous les éléments à partir de la position i
s[:]|accès à tous les éléments
s[::-1]|accès à tous les éléments dans l'ordre inverse

**Rappel** : en Python le premier indice d'une séquence de longueur L est 0 et le dernier est L - 1. Par commodité, une séquence peut aussi être accédée par des indices négatifs allant de -L à -1.

P|y|t|h|o|n
-|-|-|-|-|-
0|1|2|3|4|5
-6|-5|-4|-3|-2|-1

**Remarques importantes**

Cette notation utilisée pour les indices a été reprise pour les index des objets *Series* et *dataFrame*.
- Lorsque 2 index sont indiqués, le second index est inclus dans la sélection, contrairement aux indices (idem avec les colonnes).
- Lorsque 2 index sont indiqués, la notation fonctionne uniquement lorsque l'index est unique (idem avec les colonnes).

## 2.2 *Series*

Il existe plusieurs opérateurs pour effectuer des sélections dans les objets *Series* :
+ `[]` : sélection à partir d'un index ou d'un indice (si l'index n'est pas un entier) :
    - un seul index ou indice : `s[i]`
    - liste d'index ou d'indices : `s[[i, j, k]]` (fancy indexing)
    - plage d'index ou d'indices : `s[i:j]` et `s[i:j:k]` (attention index vs indices)
    - vecteur de booléens (masque) : `True` = sélection, `False` = non sélection
+ `.loc[]` idem mais réservé aux index
+ `.iloc[]` idem mais réservé aux indices

Lorsque la sélection correspond à une seule valeur, l'opération retourne un scalaire.
Lorsque la sélection correspond à plusieurs valeurs, l'opération retourne un objet `Series`.

N.B. : Les instructions de sélection avec les opérateurs `loc` et `iloc` permettent aussi l'affectation de valeurs.

### 2.2.1 Sélection par index ou indice

In [7]:
# sélection par index
s = geo['Commune']
s.loc['75113'] # ou s['75113']

'PARIS-13E-ARRONDISSEMENT'

In [8]:
# sélection par indice
s.iloc[30836] # ou s[30836]

'PARIS-13E-ARRONDISSEMENT'

In [9]:
geo.loc['75113', 'Commune']

'PARIS-13E-ARRONDISSEMENT'

In [12]:
geo.iloc[30836, 1]

'PARIS-13E-ARRONDISSEMENT'

In [13]:
geo.iat[30836, 1]

'PARIS-13E-ARRONDISSEMENT'

In [10]:
geo.at['75113', 'Commune']

'PARIS-13E-ARRONDISSEMENT'

In [14]:
# sélection par une liste d'index
s.loc[['01001', '01004', '01006']] # ou s[['01001', '01004', '01006']]

Code INSEE
01001    L'ABERGEMENT-CLEMENCIAT
01004          AMBERIEU-EN-BUGEY
01006                    AMBLEON
Name: Commune, dtype: object

In [15]:
# sélection par une liste d'index
l = ['01001', '01004', '01006']
s.loc[l] # ou s[l]

Code INSEE
01001    L'ABERGEMENT-CLEMENCIAT
01004          AMBERIEU-EN-BUGEY
01006                    AMBLEON
Name: Commune, dtype: object

In [16]:
# sélection par une liste d'indices
s.iloc[[0, 2, 4]] # ou s[[0, 2, 4]]

Code INSEE
01001    L'ABERGEMENT-CLEMENCIAT
01004          AMBERIEU-EN-BUGEY
01006                    AMBLEON
Name: Commune, dtype: object

In [17]:
# sélection par une plage d'index
# 01006 est inclus
s.loc['01001':'01006'] # ou s['01001':'01006']

Code INSEE
01001    L'ABERGEMENT-CLEMENCIAT
01002      L'ABERGEMENT-DE-VAREY
01004          AMBERIEU-EN-BUGEY
01005        AMBERIEUX-EN-DOMBES
01006                    AMBLEON
Name: Commune, dtype: object

In [24]:
str(1002).zfill(5)

'01002'

In [20]:
# sélection par une plage d'index
# 01006 est inclus
geo.loc['01001':'01006', ['Commune', 'Région']] # ou s['01001':'01006']

Unnamed: 0_level_0,Commune,Région
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1
1001,L'ABERGEMENT-CLEMENCIAT,RHONE-ALPES
1002,L'ABERGEMENT-DE-VAREY,RHONE-ALPES
1004,AMBERIEU-EN-BUGEY,RHONE-ALPES
1005,AMBERIEUX-EN-DOMBES,RHONE-ALPES
1006,AMBLEON,RHONE-ALPES


In [18]:
# sélection par une plage d'indices
# 5 est exclu
s.iloc[0:5] # ou s[0:5]

Code INSEE
01001    L'ABERGEMENT-CLEMENCIAT
01002      L'ABERGEMENT-DE-VAREY
01004          AMBERIEU-EN-BUGEY
01005        AMBERIEUX-EN-DOMBES
01006                    AMBLEON
Name: Commune, dtype: object

In [25]:
# sélection par une plage d'index
# 01006 est inclus
s.loc['01001':'01006':2] # ou s['01001':'01006':2]

Code INSEE
01001    L'ABERGEMENT-CLEMENCIAT
01004          AMBERIEU-EN-BUGEY
01006                    AMBLEON
Name: Commune, dtype: object

In [26]:
# sélection par une plage d'indices
# 5 est exclu
s.iloc[0:5:2] # ou s[0:5:2]

Code INSEE
01001    L'ABERGEMENT-CLEMENCIAT
01004          AMBERIEU-EN-BUGEY
01006                    AMBLEON
Name: Commune, dtype: object

### 2.2.1 Sélection avec un masque booléen

Il est possible de sélectionner une partie d'un objet `Series` à partir d'un masque booléen, i.e. un autre objet `Series` de même dimension et composé de booléens.

Opérateurs logiques:
- & (ET)
- | (OU)
- ~ (NON)

In [27]:
# Series
s

Code INSEE
01001    L'ABERGEMENT-CLEMENCIAT
01002      L'ABERGEMENT-DE-VAREY
01004          AMBERIEU-EN-BUGEY
01005        AMBERIEUX-EN-DOMBES
01006                    AMBLEON
                  ...           
97613              M'TSANGAMOUJI
97614                   OUANGANI
97615                   PAMANDZI
97616                       SADA
97617                   TSINGONI
Name: Commune, Length: 36742, dtype: object

In [28]:
# vecteur de booléens selon si le nom de la ville commence par "A"
masque = s.str.startswith("A")
masque

Code INSEE
01001    False
01002    False
01004     True
01005     True
01006     True
         ...  
97613    False
97614    False
97615    False
97616    False
97617    False
Name: Commune, Length: 36742, dtype: bool

On obtient 2 objets `Series` parallèles et on ne retient que les élements qui correspondent à un `True`.

In [29]:
# sélection à partir du vecteur de booléens
s.loc[masque]  # ou bien s[masque]

Code INSEE
01004      AMBERIEU-EN-BUGEY
01005    AMBERIEUX-EN-DOMBES
01006                AMBLEON
01007               AMBRONAY
01008               AMBUTRIX
                ...         
95040                AVERNES
97102          ANSE-BERTRAND
97360                 APATOU
97361         AWALA-YALIMAPO
97601                  ACOUA
Name: Commune, Length: 1934, dtype: object

In [30]:
# les communes qui commencent par SAINT
s.loc[s.str.startswith("SAINT")]

Code INSEE
01331                SAINT-ALBAN
01332        SAINT-ANDRE-DE-BAGE
01333       SAINT-ANDRE-DE-CORCY
01334      SAINT-ANDRE-D'HUIRIAT
01335    SAINT-ANDRE-LE-BOUCHOUX
                  ...           
97416               SAINT-PIERRE
97417             SAINT-PHILIPPE
97418               SAINTE-MARIE
97419                SAINTE-ROSE
97420             SAINTE-SUZANNE
Name: Commune, Length: 4256, dtype: object

<div class="alert alert-success">
<b>Exercice 1</b>
<ul>
    <li>Quelles communes commencent par la lettre "Z" ?</li>
    <li>Quelles communes commencent et finissent par la lettre "Y" ?</li>
    <li>Combien de communes sont "SUR-MER" ?</li>
    <li>Quelles communes ont un nom avec la préposition "SOUS" ?</li>
    <li>Quelles communes ont un nom avec "SOUS" mais pas la préposition "SOUS" ?</li>
</ul>
</div>

In [31]:
s.loc[s.str.startswith("Z")]

Code INSEE
2A357        ZERUBIA
2A358         ZEVACO
2A359         ZICAVO
2A360       ZIGLIARA
2A362          ZONZA
            ...     
68383     ZELLENBERG
68384     ZILLISHEIM
68385     ZIMMERBACH
68386    ZIMMERSHEIM
88532       ZINCOURT
Name: Commune, Length: 35, dtype: object

In [32]:
s.loc[s.str.startswith("Y") & s.str.endswith("Y")]

Code INSEE
28425     YMERAY
49381    YZERNAY
80829          Y
86300    YVERSAY
Name: Commune, dtype: object

In [34]:
s[s.str.endswith("-SUR-MER")].size

100

In [36]:
s[s.str.contains('SOUS') & ~s.str.contains('-SOUS-')]

Code INSEE
17433              SOUSMOULINS
21613      SOUSSEY-SUR-BRIONNE
23175              SOUS-PARSAT
25001           ABBANS-DESSOUS
25034            AUXON-DESSOUS
                 ...          
47066         CLERMONT-DESSOUS
51545                SOMMESOUS
65032           ARRENS-MARSOUS
73263    SAINT-OFFENGE-DESSOUS
91689                  WISSOUS
Name: Commune, Length: 22, dtype: object

#### Point sur les expressions régulières

In [None]:
# module re

In [44]:
# les communes comportant 2 Z
s.loc[s.str.contains("-.+-")].head(16)

Code INSEE
01002       L'ABERGEMENT-DE-VAREY
01004           AMBERIEU-EN-BUGEY
01005         AMBERIEUX-EN-DOMBES
01009            ANDERT-ET-CONDON
01021             ARS-SUR-FORMANS
01023          ASNIERES-SUR-SAONE
01025               BAGE-LA-VILLE
01026              BAGE-LE-CHATEL
01033    BELLEGARDE-SUR-VALSERINE
01053             BOURG-EN-BRESSE
01054      BOURG-SAINT-CHRISTOPHE
01056         BOYEUX-SAINT-JEROME
01077         CHALLES-LA-MONTAGNE
01079       CHAMPAGNE-EN-VALROMEY
01085    LA CHAPELLE-DU-CHATELARD
01088             CHARNOZ-SUR-AIN
Name: Commune, dtype: object

In [42]:
pd.Series.str.contains?

Les **expressions régulières**, ou **regex**, permettent de filtrer des chaines de caractères selon un motif. Dans ces expressions, certains caractères ont une signification spéciale pour permettre le filtrage :

- `.`: tout caractère
- `^`: le début de la chaine
- `$`: la fin de la chaine
- `*`: 0 ou plusieurs répétitions du motif précédent
- `+`: 1 ou plusieurs répétitions du motif précédent
- `?`: 0 ou 1 répétition du motif précédent
- `\`: pour que ces caractères soient traités normalement, il faut les préfixer pat un `\`.

La méthode `contains()` prend des expressions régulières par défaut. Il faut utiliser l'option `regex=False` pour chercher des chaines normales.

Toutes les caractères alphanumériques : `[A-Za-zÀ-ÿ0-9]`

## 2.3 *DataFrame*

Les mêmes opérateurs existent pour effectuer des sélections dans les objets de type *DataFrame* :
+ `[]` : sélection à partir d'un index ou d'un indice (si l'index n'est pas un entier) :
    - une seule colonne : df[a]
    - liste de colonnes ou d'indices : df[[a, b, c]] (fancy indexing)
    - plage d'index ou d'indices : df[i:j] et df[i:j:k] (Attention index vs indices)
    - vecteur de booléens (masque) : *True* = sélection, *False* = non sélection
+ `.loc[]` idem mais réservé aux index
+ `.iloc[]` idem mais réservé aux indices

Lorsque la sélection correspond à une seule valeur, l'opération retourne un scalaire.
Lorsque la sélection correspond à une colonne ou à une ligne, l'opération retourne un objet `Series`.
Lorsque la sélection correspond à plusieurs colonnes et à plusieurs lignes, l'opération retourne un objet `DataFrame`.

N.B. : Les instructions de sélection avec les opérateurs `loc` et `iloc` permettent aussi l'affectation de valeurs.

### 2.3.1 Sélection de colonnes

En sélectionnant une seule colonne, on obtient un objet `Series` qui partage l'index du `DataFrame` initial. Cf. ci-dessus.

En sélectionnant plusieurs colonnes, on obtient un nouveau `DataFrame` sous-ensemble du `DataFrame` initial et partageant son index avec autant de lignes que le `DataFrame` initial.

In [45]:
# sélection d'une colonne
geo["Commune"]

Code INSEE
01001    L'ABERGEMENT-CLEMENCIAT
01002      L'ABERGEMENT-DE-VAREY
01004          AMBERIEU-EN-BUGEY
01005        AMBERIEUX-EN-DOMBES
01006                    AMBLEON
                  ...           
97613              M'TSANGAMOUJI
97614                   OUANGANI
97615                   PAMANDZI
97616                       SADA
97617                   TSINGONI
Name: Commune, Length: 36742, dtype: object

In [46]:
# communes + superficie et population
l = ["Commune", "Superficie", "Population"]
geo[l].head()

Unnamed: 0_level_0,Commune,Superficie,Population
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1001,L'ABERGEMENT-CLEMENCIAT,1565.0,0.8
1002,L'ABERGEMENT-DE-VAREY,912.0,0.2
1004,AMBERIEU-EN-BUGEY,2448.0,13.4
1005,AMBERIEUX-EN-DOMBES,1605.0,1.6
1006,AMBLEON,602.0,0.1


In [47]:
# communes + superficie et population
geo[["Commune", "Superficie", "Population"]].head()

Unnamed: 0_level_0,Commune,Superficie,Population
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1001,L'ABERGEMENT-CLEMENCIAT,1565.0,0.8
1002,L'ABERGEMENT-DE-VAREY,912.0,0.2
1004,AMBERIEU-EN-BUGEY,2448.0,13.4
1005,AMBERIEUX-EN-DOMBES,1605.0,1.6
1006,AMBLEON,602.0,0.1


### 2.3.2 Sélection de lignes

En sélectionnant une seule ligne, on obtient un objet `Series` dont l'index correspond aux colonnes du `DataFrame` initial.

En sélectionnant plusieurs lignes, on obtient un nouveau `DataFrame` sous-ensemble du `DataFrame` initial et partageant son index avec autant de colonnes que le `DataFrame` initial.

In [48]:
# sélection d'une ligne
s = geo.loc["01001"]
s

Code Postal                                                     01400
Commune                                       L'ABERGEMENT-CLEMENCIAT
Département                                                       AIN
Région                                                    RHONE-ALPES
Statut                                                 Commune simple
Altitude Moyenne                                                242.0
Superficie                                                     1565.0
Population                                                        0.8
geo_point_2d                             46.1534255214, 4.92611354223
geo_shape           {"type": "Polygon", "coordinates": [[[4.926273...
Name: 01001, dtype: object

In [50]:
geo.at["01001", "Commune"]

"L'ABERGEMENT-CLEMENCIAT"

In [51]:
# type
type(s)

pandas.core.series.Series

In [52]:
# sélection d'une ligne
geo.iloc[0]

Code Postal                                                     01400
Commune                                       L'ABERGEMENT-CLEMENCIAT
Département                                                       AIN
Région                                                    RHONE-ALPES
Statut                                                 Commune simple
Altitude Moyenne                                                242.0
Superficie                                                     1565.0
Population                                                        0.8
geo_point_2d                             46.1534255214, 4.92611354223
geo_shape           {"type": "Polygon", "coordinates": [[[4.926273...
Name: 01001, dtype: object

In [53]:
# sélection de plusieurs lignes
geo.loc["01001":"01006"]

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1001,1400,L'ABERGEMENT-CLEMENCIAT,AIN,RHONE-ALPES,Commune simple,242.0,1565.0,0.8,"46.1534255214, 4.92611354223","{""type"": ""Polygon"", ""coordinates"": [[[4.926273..."
1002,1640,L'ABERGEMENT-DE-VAREY,AIN,RHONE-ALPES,Commune simple,483.0,912.0,0.2,"46.0091878776, 5.42801696363","{""type"": ""Polygon"", ""coordinates"": [[[5.430089..."
1004,1500,AMBERIEU-EN-BUGEY,AIN,RHONE-ALPES,Chef-lieu canton,379.0,2448.0,13.4,"45.9608475114, 5.3729257777","{""type"": ""Polygon"", ""coordinates"": [[[5.386190..."
1005,1330,AMBERIEUX-EN-DOMBES,AIN,RHONE-ALPES,Commune simple,290.0,1605.0,1.6,"45.9961799872, 4.91227250796","{""type"": ""Polygon"", ""coordinates"": [[[4.895580..."
1006,1300,AMBLEON,AIN,RHONE-ALPES,Commune simple,589.0,602.0,0.1,"45.7494989044, 5.59432017366","{""type"": ""Polygon"", ""coordinates"": [[[5.614854..."


In [54]:
# sélection de plusieurs lignes
geo.iloc[0:5]

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1001,1400,L'ABERGEMENT-CLEMENCIAT,AIN,RHONE-ALPES,Commune simple,242.0,1565.0,0.8,"46.1534255214, 4.92611354223","{""type"": ""Polygon"", ""coordinates"": [[[4.926273..."
1002,1640,L'ABERGEMENT-DE-VAREY,AIN,RHONE-ALPES,Commune simple,483.0,912.0,0.2,"46.0091878776, 5.42801696363","{""type"": ""Polygon"", ""coordinates"": [[[5.430089..."
1004,1500,AMBERIEU-EN-BUGEY,AIN,RHONE-ALPES,Chef-lieu canton,379.0,2448.0,13.4,"45.9608475114, 5.3729257777","{""type"": ""Polygon"", ""coordinates"": [[[5.386190..."
1005,1330,AMBERIEUX-EN-DOMBES,AIN,RHONE-ALPES,Commune simple,290.0,1605.0,1.6,"45.9961799872, 4.91227250796","{""type"": ""Polygon"", ""coordinates"": [[[4.895580..."
1006,1300,AMBLEON,AIN,RHONE-ALPES,Commune simple,589.0,602.0,0.1,"45.7494989044, 5.59432017366","{""type"": ""Polygon"", ""coordinates"": [[[5.614854..."


### 2.3.3 Sélection de lignes et de colonnes

En sélectionnant plusieurs lignes et plusieurs colonnes, on obtient un nouveau `DataFrame` sous-ensemble du `DataFrame` initial.

In [55]:
# sélection de plusieurs lignes et de plusieurs colonnes
geo.loc["01001":"01006", "Commune":"Statut"]

Unnamed: 0_level_0,Commune,Département,Région,Statut
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1001,L'ABERGEMENT-CLEMENCIAT,AIN,RHONE-ALPES,Commune simple
1002,L'ABERGEMENT-DE-VAREY,AIN,RHONE-ALPES,Commune simple
1004,AMBERIEU-EN-BUGEY,AIN,RHONE-ALPES,Chef-lieu canton
1005,AMBERIEUX-EN-DOMBES,AIN,RHONE-ALPES,Commune simple
1006,AMBLEON,AIN,RHONE-ALPES,Commune simple


In [56]:
# sélection de plusieurs lignes et de plusieurs colonnes
geo.iloc[0:5, 1:5]

Unnamed: 0_level_0,Commune,Département,Région,Statut
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1001,L'ABERGEMENT-CLEMENCIAT,AIN,RHONE-ALPES,Commune simple
1002,L'ABERGEMENT-DE-VAREY,AIN,RHONE-ALPES,Commune simple
1004,AMBERIEU-EN-BUGEY,AIN,RHONE-ALPES,Chef-lieu canton
1005,AMBERIEUX-EN-DOMBES,AIN,RHONE-ALPES,Commune simple
1006,AMBLEON,AIN,RHONE-ALPES,Commune simple


### 2.3.4 Sélection avec des conditions portant sur les valeurs

Il est également possible de sélectionner une partie d'un `DataFrame` à partir de conditions portant sur les valeurs.

La conjonction de conditions est notée `&`, la disjonction est notée `|` et la négation `~`.

In [57]:
# les communes des Hauts-de-Seine avec une population supérieure à 80000
geo.loc[(geo["Département"] == "HAUTS-DE-SEINE") & (geo["Population"] > 80.0)]

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
92004,92600,ASNIERES-SUR-SEINE,HAUTS-DE-SEINE,ILE-DE-FRANCE,Chef-lieu canton,31.0,482.0,81.6,"48.9153530123, 2.2880384663","{""type"": ""Polygon"", ""coordinates"": [[[2.284270..."
92012,92100,BOULOGNE-BILLANCOURT,HAUTS-DE-SEINE,ILE-DE-FRANCE,Sous-préfecture,33.0,615.0,113.1,"48.8365843138, 2.23913599058","{""type"": ""Polygon"", ""coordinates"": [[[2.236100..."
92025,92700,COLOMBES,HAUTS-DE-SEINE,ILE-DE-FRANCE,Chef-lieu canton,33.0,778.0,84.6,"48.9225179147, 2.24675160629","{""type"": ""Polygon"", ""coordinates"": [[[2.229103..."
92026,92400,COURBEVOIE,HAUTS-DE-SEINE,ILE-DE-FRANCE,Chef-lieu canton,41.0,416.0,86.9,"48.8984504771, 2.25570587289","{""type"": ""Polygon"", ""coordinates"": [[[2.253756..."
92050,92000,NANTERRE,HAUTS-DE-SEINE,ILE-DE-FRANCE,Préfecture,43.0,1223.0,90.0,"48.8960701282, 2.20671346353","{""type"": ""Polygon"", ""coordinates"": [[[2.207759..."


<div class="alert alert-success">
<b>Exercice 2</b>
<ul>
    <li>Affichez l'altitude moyenne, la superficie et la population de toutes les communes dénommées Sainte-Colombe.</li>
    <li>Combien y a-t-il de départements dans lesquels au moins une commune a plus de 200.000 habitants ?</li>
    <li>Donner la liste de ces départements.</li>
    <li>Combien y a-t-il de communes dont le nom comporte 2 lettres?</li>
    <li>Donnez la liste de ces communes dans l'ordre alphabétique.</li>
    <li>Sélectionnez les communes pour lesquelles l'altitude moyenne vaut la superficie.</li>
    <li>Quelle est la population totale de ces communes ?</li>
    <li>Y a-t-il des communes au niveau de la mer ?</li>
</ul>
</div>

In [58]:
geo.loc[geo["Commune"]=="SAINTE-COLOMBE", "Altitude Moyenne":"Population"]

Unnamed: 0_level_0,Altitude Moyenne,Superficie,Population
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5135,965.0,1726.0,0.1
16309,102.0,654.0,0.2
17319,111.0,440.0,0.1
21544,441.0,633.0,0.1
25515,884.0,1052.0,0.3
33390,61.0,404.0,0.4
35262,75.0,776.0,0.3
40252,96.0,1289.0,0.6
46260,516.0,1131.0,0.2
50457,20.0,509.0,0.2


In [59]:
geo.loc[geo["Population"]>=200, "Département"].nunique()

9

In [61]:
geo.loc[geo["Population"]>=200, "Département"].unique().tolist()

['ALPES-MARITIMES',
 'HAUTE-GARONNE',
 'GIRONDE',
 'HERAULT',
 'ILLE-ET-VILAINE',
 'LOIRE-ATLANTIQUE',
 'NORD',
 'BAS-RHIN',
 'PARIS']

In [65]:
len(geo.loc[geo["Commune"].str.len()==2])

15

In [69]:
sorted(geo.loc[geo["Commune"].str.len()==2, "Commune"].tolist())

['AY',
 'BU',
 'BY',
 'EU',
 'FA',
 'GY',
 'OO',
 'OZ',
 'PY',
 'RI',
 'RY',
 'SY',
 'UR',
 'US',
 'UZ']

In [70]:
geo.loc[geo["Commune"].str.len()==2, "Commune"].sort_values().tolist()

['AY',
 'BU',
 'BY',
 'EU',
 'FA',
 'GY',
 'OO',
 'OZ',
 'PY',
 'RI',
 'RY',
 'SY',
 'UR',
 'US',
 'UZ']

In [71]:
geo.loc[geo["Altitude Moyenne"]==geo["Superficie"]]

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
6026,6530,CABRIS,ALPES-MARITIMES,PROVENCE-ALPES-COTE D'AZUR,Commune simple,540.0,540.0,1.4,"43.6599560638, 6.87825509814","{""type"": ""Polygon"", ""coordinates"": [[[6.868991..."
21010,21420,ALOXE-CORTON,COTE-D'OR,BOURGOGNE,Commune simple,261.0,261.0,0.2,"47.0682393129, 4.86123205088","{""type"": ""Polygon"", ""coordinates"": [[[4.866669..."
25391,25210,MONT-DE-LAVAL,DOUBS,FRANCHE-COMTE,Commune simple,845.0,845.0,0.2,"47.161609954, 6.63636805448","{""type"": ""Polygon"", ""coordinates"": [[[6.627720..."
38230,38300,MEYRIE,ISERE,RHONE-ALPES,Commune simple,346.0,346.0,1.0,"45.5602461635, 5.2848381306","{""type"": ""Polygon"", ""coordinates"": [[[5.293302..."
65102,65140,BOUILH-DEVANT,HAUTES-PYRENEES,MIDI-PYRENEES,Commune simple,298.0,298.0,0.0,"43.3365484114, 0.261492915975","{""type"": ""Polygon"", ""coordinates"": [[[0.267934..."
68211,68470,MITZACH,HAUT-RHIN,ALSACE,Commune simple,637.0,637.0,0.4,"47.8611986942, 6.99775039385","{""type"": ""Polygon"", ""coordinates"": [[[6.987666..."
88215,88210,GRANDRUPT,VOSGES,LORRAINE,Commune simple,634.0,634.0,0.1,"48.3669519771, 7.06206760711","{""type"": ""Polygon"", ""coordinates"": [[[7.064913..."


In [73]:
geo.loc[geo["Altitude Moyenne"]==geo["Superficie"], "Population"].sum()

3.3

In [74]:
geo.loc[geo["Altitude Moyenne"]==0]

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
34192,34250,PALAVAS-LES-FLOTS,HERAULT,LANGUEDOC-ROUSSILLON,Commune simple,0.0,920.0,6.0,"43.533536456, 3.92620839566","{""type"": ""Polygon"", ""coordinates"": [[[3.907955..."
59404,59122,LES MOERES,NORD,NORD-PAS-DE-CALAIS,Commune simple,0.0,1967.0,0.8,"51.0240965472, 2.5473689484","{""type"": ""Polygon"", ""coordinates"": [[[2.572476..."


### Index non unique

In [75]:
# test de l'unicité de l'index
geo.index.is_unique

True

In [77]:
# reset de l'index
geo = geo.reset_index()
geo = geo.set_index('Commune', drop=True)
geo.head()

Unnamed: 0_level_0,index,Code INSEE,Code Postal,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Commune,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
L'ABERGEMENT-CLEMENCIAT,0,1001,1400,AIN,RHONE-ALPES,Commune simple,242.0,1565.0,0.8,"46.1534255214, 4.92611354223","{""type"": ""Polygon"", ""coordinates"": [[[4.926273..."
L'ABERGEMENT-DE-VAREY,1,1002,1640,AIN,RHONE-ALPES,Commune simple,483.0,912.0,0.2,"46.0091878776, 5.42801696363","{""type"": ""Polygon"", ""coordinates"": [[[5.430089..."
AMBERIEU-EN-BUGEY,2,1004,1500,AIN,RHONE-ALPES,Chef-lieu canton,379.0,2448.0,13.4,"45.9608475114, 5.3729257777","{""type"": ""Polygon"", ""coordinates"": [[[5.386190..."
AMBERIEUX-EN-DOMBES,3,1005,1330,AIN,RHONE-ALPES,Commune simple,290.0,1605.0,1.6,"45.9961799872, 4.91227250796","{""type"": ""Polygon"", ""coordinates"": [[[4.895580..."
AMBLEON,4,1006,1300,AIN,RHONE-ALPES,Commune simple,589.0,602.0,0.1,"45.7494989044, 5.59432017366","{""type"": ""Polygon"", ""coordinates"": [[[5.614854..."


In [78]:
# test de l'unicité de l'index
geo.index.is_unique

False

In [79]:
# accès avec un index non unique
geo.loc['SAINTE-COLOMBE']

Unnamed: 0_level_0,index,Code INSEE,Code Postal,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Commune,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
SAINTE-COLOMBE,1883,5135,5700,HAUTES-ALPES,PROVENCE-ALPES-COTE D'AZUR,Commune simple,965.0,1726.0,0.1,"44.2889272211, 5.66834974647","{""type"": ""Polygon"", ""coordinates"": [[[5.646781..."
SAINTE-COLOMBE,5799,16309,16230,CHARENTE,POITOU-CHARENTES,Commune simple,102.0,654.0,0.2,"45.8295299814, 0.320048436517","{""type"": ""Polygon"", ""coordinates"": [[[0.326195..."
SAINTE-COLOMBE,6218,17319,17210,CHARENTE-MARITIME,POITOU-CHARENTES,Commune simple,111.0,440.0,0.1,"45.281890465, -0.273965618336","{""type"": ""Polygon"", ""coordinates"": [[[-0.28042..."
SAINTE-COLOMBE,7492,21544,21350,COTE-D'OR,BOURGOGNE,Commune simple,441.0,633.0,0.1,"47.4272975926, 4.46203899793","{""type"": ""Polygon"", ""coordinates"": [[[4.462906..."
SAINTE-COLOMBE,9331,25515,25300,DOUBS,FRANCHE-COMTE,Commune simple,884.0,1052.0,0.3,"46.8735551517, 6.27545445456","{""type"": ""Polygon"", ""coordinates"": [[[6.293376..."
SAINTE-COLOMBE,13321,33390,33350,GIRONDE,AQUITAINE,Commune simple,61.0,404.0,0.4,"44.8789588977, -0.0634971172004","{""type"": ""Polygon"", ""coordinates"": [[[-0.04871..."
SAINTE-COLOMBE,14079,35262,35134,ILLE-ET-VILAINE,BRETAGNE,Commune simple,75.0,776.0,0.3,"47.8955543395, -1.45748423621","{""type"": ""Polygon"", ""coordinates"": [[[-1.46368..."
SAINTE-COLOMBE,16027,40252,40700,LANDES,AQUITAINE,Commune simple,96.0,1289.0,0.6,"43.6810025684, -0.556768147827","{""type"": ""Polygon"", ""coordinates"": [[[-0.54208..."
SAINTE-COLOMBE,17802,46260,46120,LOT,MIDI-PYRENEES,Commune simple,516.0,1131.0,0.2,"44.7204297846, 2.01266388255","{""type"": ""Polygon"", ""coordinates"": [[[2.038138..."
SAINTE-COLOMBE,19173,50457,50390,MANCHE,BASSE-NORMANDIE,Commune simple,20.0,509.0,0.2,"49.4151457162, -1.51172159828","{""type"": ""Polygon"", ""coordinates"": [[[-1.49421..."


In [80]:
# tête
geo.head()

Unnamed: 0_level_0,index,Code INSEE,Code Postal,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Commune,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
L'ABERGEMENT-CLEMENCIAT,0,1001,1400,AIN,RHONE-ALPES,Commune simple,242.0,1565.0,0.8,"46.1534255214, 4.92611354223","{""type"": ""Polygon"", ""coordinates"": [[[4.926273..."
L'ABERGEMENT-DE-VAREY,1,1002,1640,AIN,RHONE-ALPES,Commune simple,483.0,912.0,0.2,"46.0091878776, 5.42801696363","{""type"": ""Polygon"", ""coordinates"": [[[5.430089..."
AMBERIEU-EN-BUGEY,2,1004,1500,AIN,RHONE-ALPES,Chef-lieu canton,379.0,2448.0,13.4,"45.9608475114, 5.3729257777","{""type"": ""Polygon"", ""coordinates"": [[[5.386190..."
AMBERIEUX-EN-DOMBES,3,1005,1330,AIN,RHONE-ALPES,Commune simple,290.0,1605.0,1.6,"45.9961799872, 4.91227250796","{""type"": ""Polygon"", ""coordinates"": [[[4.895580..."
AMBLEON,4,1006,1300,AIN,RHONE-ALPES,Commune simple,589.0,602.0,0.1,"45.7494989044, 5.59432017366","{""type"": ""Polygon"", ""coordinates"": [[[5.614854..."


In [81]:
# tentative d'accès à une plage d'index
geo.loc["L'ABERGEMENT-CLEMENCIAT":"SAINTE-COLOMBE"]

KeyError: "Cannot get right slice bound for non-unique label: 'SAINTE-COLOMBE'"

In [83]:
import glob

glob.glob('TIDE- 0*.ipynb')

['TIDE- 00.ipynb',
 'TIDE- 01 - pandas.ipynb',
 'TIDE- 02 - pandas.ipynb',
 'TIDE- 03 - pandas.ipynb',
 'TIDE- 04 - matplotlib.ipynb',
 'TIDE- 05 - matplotlib.ipynb',
 'TIDE- 06 - pandas.ipynb',
 'TIDE- 07 - pandas.ipynb',
 'TIDE- 08 - pandas.ipynb',
 'TIDE- 09 - pandas.ipynb']

In [90]:
import os

for root, dirs, files in os.walk('../github'):
    print(root, dirs, files)
    for file in files:
        print(os.path.join(root, file))

../github ['.git', 'data', 'docs', 'notebooks', 'sessions'] ['ressources.md']
../github\ressources.md
../github\.git ['hooks', 'info', 'logs', 'objects', 'refs'] ['COMMIT_EDITMSG', 'config', 'description', 'FETCH_HEAD', 'HEAD', 'index', 'ORIG_HEAD']
../github\.git\COMMIT_EDITMSG
../github\.git\config
../github\.git\description
../github\.git\FETCH_HEAD
../github\.git\HEAD
../github\.git\index
../github\.git\ORIG_HEAD
../github\.git\hooks [] ['applypatch-msg.sample', 'commit-msg.sample', 'fsmonitor-watchman.sample', 'post-update.sample', 'pre-applypatch.sample', 'pre-commit.sample', 'pre-merge-commit.sample', 'pre-push.sample', 'pre-rebase.sample', 'pre-receive.sample', 'prepare-commit-msg.sample', 'update.sample']
../github\.git\hooks\applypatch-msg.sample
../github\.git\hooks\commit-msg.sample
../github\.git\hooks\fsmonitor-watchman.sample
../github\.git\hooks\post-update.sample
../github\.git\hooks\pre-applypatch.sample
../github\.git\hooks\pre-commit.sample
../github\.git\hooks\pre-