
# Master TIDE - Conférences Python 2021

Francis Wolinski

&copy; 2021 Yotta Conseil

# 1. Pandas : structures de données `Series` et `DataFrame`

In [None]:
# import des modules usuels
import numpy as np
import pandas as pd

# options d'affichage
pd.set_option("display.max_rows", 16)

In [None]:
# terminal
# git clone https://github.com/fran6w/TIDE/
# git pull

In [None]:
# windows
!dir

In [None]:
# Mac
!pwd

In [None]:
# Mac
!ls

In [None]:
%magic

In [None]:
a = 1

In [None]:
%who

## 1.1 Chargement des données

On va également charger un jeu de données qui comprend la correspondance Code INSEE / Code Postal et intègre également des données de référence sur les communes :
- Population
- Superficie
- Altitude moyenne
- Latitude et longitude
- Polygone(s)
- etc.

Les données open data proviennent du portail OpenDataSoft accessible à l'adresse http://public.opendatasoft.com/explore/

Plusieurs points importants concernant l'open data :
- Il ne faut pas négliger les données externes qui sont extrêmement riches.
- Il peut y avoir un intérêt à combiner des données internes avec des données externes.
- Il faut aussi s'interroger sur l'ouverture des données internes et leur monétisation par exemple sous forme d'API.

Voici les principales fonctions d'import disponibles :

fonction|usage
-|-
read_clipboard()|à partir d'une copie mémoire
read_csv()|à partir d'un fichier *CSV* (Comma-Separated Value)
read_excel()|à partir d'un fichier *Excel*
read_fwf()| à partir d'une fichier texte à largeur fixe
read_html()|à partir d'un fichier *HTML* (recherche des *< table >*)
read_json()|à partir d'un fichier *JSON*
read_pickle()|à partir d'un fichier au format Python *PICKLE*
read_sas()|à partir d'un fichier *SAS*
read_sql()|à partir d'une requête *SQL*
read_stata()|à partir d'un fichier *STATA*

Chacune de ces fonctions comporte un grand nombre d'options qui permettent d'adapter le fonctionnement de l'import aux données réelles.

Pour la plupart des fonctions `read_xxx()`, il existe une fonction `to_xxx()` qui exporte un fichier au format spécifié.

Voir la documentation : http://pandas.pydata.org/pandas-docs/stable/io.html

L'analyse manuelle du fichier CSV montre que les données sont séparées par le caractère `;` et que l'on va seulement utiliser les 11 premières colonnes.

In [None]:
# utilisation de Tab
#pd.read_

In [None]:
#pd?

In [None]:
# aide en ligne
#pd.read_csv?

In [None]:
# chargement des données
geo = pd.read_csv("correspondance-code-insee-code-postal.csv",
                   sep=';',
                   usecols=range(11))
geo

In [None]:
# type ou classe
type(geo)

In [None]:
# dimensions
geo.shape

Nous verrons que les tableaux obtenus sont de type `DataFrame` et qu'ils sont composés d'un ensemble de colonnes appelées *Series*.

On va étudier les deux structures de données `Series` (1D) et `DataFrame` (2D).

## 1.2 Chargement de tableaux HTML

Au passage, la fonction `read_html()` permet de charger les tableaux d'une page trouvée sur le web.

Attention, elle nécessite l'installation des librairies : `BeautifulSoup4`, `html5lib` et `lxml`.

Comme cette fonction retourne une liste de tableaux HTML, on peut l'utiliser en la combinant avec l'attribut `shape` qui retourne les dimensions d'un `DataFrame`.

In [None]:
# scraping d'une page HTML
var = pd.read_html("https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal")
[df.shape for df in var]

In [None]:
# accès au n° 2
df = var[1]
df

In [None]:
# accès à des valeurs
df.iloc[0]

In [None]:
# index de ligne = colonnes du DataFrame
df.iloc[0].index

In [None]:
# accès à des valeurs
var[1].iloc[[0, 1, 2, 76, -1]]

In [None]:
# accès à une valeur
var[1].iloc[1, 2]

In [None]:
# aide sur read_html()
pd.read_html?

In [None]:
# conversion automatique du séparateur des milliers
var = pd.read_html("https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal",
                    header=0,
                    thousands='\xa0',
                    decimal=',')
var[1].iloc[[0, 1, 75, -1]]

In [None]:
# accès à une valeur
var[1].iloc[0, 2]

## 1.3 `Series`

On accède aux colonnes d'un `DataFrame` avec l'opérateur `[]` et en utilisant le nom de la colonne.

L'objet obtenu est de type `Series`. Un objet `Series` est une structure de données unidimensionnelle représentant un tableau de données en général homogène.

Cette classe Python s'appuie sur la structure de données `ndarray` fournie par la librairie Python de calcul numérique `numpy` (N-dimensional array). Toutes les fonctions et opérations sur `ndarray` sont rendues disponibles aux objets de type `Series`.

L'objet `Series` obtenu possède un index identique à celui du `DataFrame` et un tableau de valeurs correspondant à la colonne du `DataFrame`. Il possède également un nom qui est celui de la colonne dont il est tiré. En fait, c'est une vue du `DataFrame` : toute modification de l'objet `Series` est répercutée sur le `DataFrame`.

In [None]:
# on obtient un objet Series à partir d'une colonne du DataFrame
s = geo["Commune"]
s

### 1.3.1 Caractéristiques des `Series`

attribut|résultat
-|-
s.name|nom de s
s.values|valeurs de s
s.index|index de s
s.shape|dimension de s
s.size|nombre d'éléments de s
s.dtype|type des éléments de s
s.empty|True si s est vide, False sinon

In [None]:
# type de l'objet
type(s)

In [None]:
# accès à la variable d'instance "name" = nom de la colonne
s.name

In [None]:
# accès à la variable d'instance "values"
s.values

In [None]:
# type de la variable "values"
type(s.values)

In [None]:
# dimension de l'objet, retourne un tuple avec un seul élément
s.shape

In [None]:
# taille de l'objet, ou bien len(s)
s.size

In [None]:
# index numérique par défaut
s.index

In [None]:
# dtype de la série
s.dtype

### 1.3.2 Méthodes usuelles

Les objets `Series` ont des méthodes usuelles :

méthode|résultat
-|-
s.head()|premiers éléments de s
s.tail()|derniers éléments de s
s.nunique()|nombre de valeurs uniques de s
s.unique()|ndarray avec les valeurs uniques de s
s.value_counts()|nombre d'occurrences de valeurs uniques de s

La classe `Series` définit environ 325 attributs ou méthodes dans la librairie `pandas`.

In [None]:
# tête
s.head()

In [None]:
# queue
s.tail(3)  # ou bien s.tail(n=3)

Nombre de valeurs uniques d'un objet *Series*

In [None]:
# nombre de valeurs uniques
s.nunique()

In [None]:
# nombre de départements
geo["Département"].nunique()

In [None]:
# nombre de statuts de commune
geo["Statut"].nunique()

Valeurs uniques d'un objet *Series*.

In [None]:
# liste des départements
geo["Département"].unique()

<div class="alert alert-success">
<b>Exercice 1</b>
<ul>
    <li>Combien de valeurs différentes comporte la colonne "Altitude Moyenne" ?</li>
    <li>Pour quelle altitude inférieure à 1000 mètres n'y a-t-il aucune commune ?</li>
</ul>
</div>

Décompte du nombre d'occurences des valeurs uniques d'un objet *Series*.

In [None]:
# nombre de communes par département
geo["Département"].value_counts()

**Remarque** : L'objet retourné par la méthode `value_counts()` est lui-même un objet de type *Series*.

In [None]:
# value_counts
s2 = geo["Département"].value_counts()
type(s2)

In [None]:
# l'index est composé des valeurs uniques de l'objet Series initial
s2.index

In [None]:
# les valeurs sont les nombres d'occurences des valeurs uniques de l'objet Series initial
s2.values

<div class="alert alert-success">
<b>Exercice 2</b>
<ul>
    <li>Donner le décompte des différents statuts des communes.</li>
    <li>Quels sont les 10 noms de communes les plus fréquents ?</li>
    <li>En français, le nom de famille le plus fréquent est *Martin*, mais quel est le nom de commune le plus fréquent ?</li>
</ul>
</div>

### 1.3.3 Opérations sur les objets `Series`

Toutes les opérations vectorielles des `ndarray` de `numpy` sont disponibles pour les `Series` :
- logiques:
    - entre 2 objets `Series` : `&` (ET), `|` (OU), `~` (NON)
    - entre les valeurs d'un seul objet `Series` : `any()` (OU), `all()` (ET)
- fonctions mathématiques usuelles : par ex., `abs()`, `sqrt()`, `sign()`, `floor()`, `rint()`
- fonctions mathématiques avancées : par ex., trigonometrie, logarithme, exponentielle
- cacul vectoriel avec une valeur scalaire, une liste de values avec la méthode `isin()`, ou un autre objet `Series`
- comparaison avec une valeur scalaire ou un autre objet `Series`
- fonctions statistiques usuelles : par ex., `sum()`, `min()`, `max()`, `mean()`, `median()`, `std()`, `var()`, `cumsum()`, `cumprod()`, `cummin()`, `cummax()`, `idxmin()`, `idxmax()`

In [None]:
# population
geo["Population"].sum()

In [None]:
# min
geo['Altitude Moyenne'].min()

In [None]:
# max
geo['Altitude Moyenne'].max()

In [None]:
# opération avec un scalaire
geo["Population"] * 1000

In [None]:
# comparaison
geo['Altitude Moyenne'] == 49

In [None]:
# exemple : appartenance à une liste de valeurs
geo["Altitude Moyenne"].isin([49.0, 59.0])

In [None]:
# somme cumulée population
geo["Population"].cumsum()

In [None]:
# produit cumulé population
geo["Superficie"].astype(int).cumprod().head(20)

In [None]:
# entiers Python
from math import factorial
factorial(1000)

In [None]:
# exemple : calcul de la densité en divisant la population par la superficie
geo["Population"] / geo["Superficie"]

### 1.3.4 Opérations sur les `Series` comportant des chaînes de caractères

L'opérateur `str` permet de traiter une `Series` comportant des chaînes de caractères et d'obtenir une nouvelle `Series` avec le résultat des opérations appliquées à chacune des chaînes de caractères.

Grâce à l'opérateur `str`, la plupart des fonctions Python pour les chaînes de caractères sont disponibles en méthodes de *Series* composées de chaînes : `[]`, `len()`, `startswith()`, `contains()`, `endswith()`, `split()`, `lower()`...

Ces méthodes retournent un objet `Series` composé du résultat élément par élément.

In [None]:
# startswith
geo["Commune"].str.startswith("B")

In [None]:
geo["Commune"].str.capitalize()

In [None]:
geo["Commune"].str.title()

<div class="alert alert-success">
<b>Exercice 3</b>
<ul>
    <li>Calculez le minimum et le maximum des longueurs des noms des communes</li>
    <li>Donnez le décompte des longueurs de noms des communes.</li>
</ul>
</div>

### 1.3.5 La méthode `apply()`

La méthode `apply()` permet d'appliquer une fonction (ou une lambda) sur toutes les valeurs d'un objet `Series`.

Elle retourne un objet analogue dont les valeurs correspondent à l'application de la fonction à chaque élément.

In [None]:
s = geo["Superficie"]
s

In [None]:
# côtés des carrés de surface équivalente
s.apply(np.sqrt)

In [None]:
# avec numpy
np.sqrt(s)

In [None]:
# rayons des cercles de surface équivalente
# fonction standard
def rayon(x):
    rayon = np.sqrt(x / np.pi)
    return rayon

rayon(10)

In [None]:
# rayons des cercles de surface équivalente
# fonction standard
s.apply(rayon)

In [None]:
# rayons des cercles de surface équivalente
# element-wise
# lambda
s.apply(lambda x: np.sqrt(x / np.pi))

## 1.4 DataFrame

Un `DataFrame` est un tableau de données tel que l'on en rencontre fréquemment dans d'autres environnements informatiques : une table dans une base de données, une feuille de calcul en Excel, un *data.frame* du langage R, un fichier de données...

En général, un tableau est constitué d'un ensemble d'enregistrements. Chaque ligne représente un enregistrement particulier et les diférentes colonnes matérialisent différentes caractéristiques de chaque enregistrement.

Les objets contenu dans un *DataFrame* peuvent être de différents types :
- booléen : `bool`
- nombre entier : `int`
- nombre flottant : `float`
- chaîne de caractères : `object` (le type le plus général)
- temps : date, heure...
- n'importe quel objet Python...

La librairie *pandas* essaie d'utiliser le type le plus approprié en fonction des objets de chaque colonne.

Attention si le type d'une colonne est `object` (le type le plus général), il peut y avoir des objets qui ne sont pas des chaînes de caractères.

Il est possible d'afficher les caractéristiques du `DataFrame` obtenu précédemment :
- le type de l'objet obtenu par la fonction `read_csv()`
- les dimensions du `DataFrame`
- l'index du `DataFrame` (par défaut les entiers de 0 à L-1 où L est le nombre de lignes du `DataFrame`)
- les noms des colonnes du `DataFrame`
- des informations colonne par colonne et aussi sur l'empreinte mémoire

### 1.4.1 Caractéristiques des DataFrames

attribut|résultat
-|-
df.shape|dimensions de df
df.size|nombre d'éléments of df
df.values|valeurs de df
df.index|index de df
df.index.is_unique|si l'index de df est unique
df.columns|colonnes de df
df.dtypes|types des colonnes de df
df.empty|True si s est vide, False sinon

In [None]:
# type de l'objet
type(geo)

In [None]:
# dimensions
geo.shape

In [None]:
# nombre de lignes
len(geo)

In [None]:
# nombre total d'éléments
geo.size

In [None]:
# index
geo.index

In [None]:
# liste des colonnes
geo.columns

**Remarque importante**

La liste des colonnes est également un index. Un `DataFrame` possède donc 2 index :
- l'index vertical (`axis=0`)
- l'index horizontal correspondant aux colonnes (`axis=1`)

In [None]:
# types des colonnes
geo.dtypes

In [None]:
# appel de la méthode info()
geo.info()

### 1.4.2 Méthodes usuelles

Les objets `DataFrame` ont des méthodes usuelles :

méthode|résultat
-|-
df.head()|premières lignes de df
df.tail()|dernières lignes de df
df.info()|information sur df
df.count()|nombre d'éléments non NA de chaque colonne
df.nunique()|nombre d'éléments uniques de chaque colonne
df.transpose or df.T()|transposition de df

La classe `DataFrame` definit environ 224 attributs ou méthodes dans la librairie `pandas`.

In [None]:
# tête
geo.head()

In [None]:
# queue
geo.tail()

#### Transposition

La méthode `transpose()`, également `T`, permet de transposer un `DataFrame`, c'est-à-dire d'échanger les lignes et les colonnes.

La méthode retourne un nouveau `DataFrame` dans lequel l'index correspond aux noms des colonnes initiales et les noms des colonnes aux valeurs de l'index initial.

In [None]:
# transposition
geo.transpose() # ou T

In [None]:
# accès à la première ligne
geo.head(1).T

### 1.4.3 Modification de l'index

In [None]:
# modification de l'index
geo = geo.set_index("Code INSEE")
geo.head()

La colonne "`Code INSEE`" a disparu de l'ensemble des colonnes et est venue remplacer l'ancien index. Le `DataFrame` obtenu n'a plus que 10 colonnes.

On peut vérifier que l'index est unique, c'est-à-dire composé de valeurs distinctes.

In [None]:
# test de l'unicité de l'index
geo.index.is_unique

<div class="alert alert-success">
<b>Exercice 4</b>
<ul>
    <li>Modifiez l'index en utilisant la colonne 'Commune'.</li>
    <li>Testez l'unicité de l'index. Expliquez.</li>
</ul>
</div>