
# Télécom Paris - Kit Data Science - Session 2

Présentation de l'écosystème Python pour la Data Science.

# 1. NumPy, les origines de la data en Python

- **NumPy** est le premier package de traitement de données en Python
- Il est basé sur un ensemble de fonctions codées en langage C
- Il combine une classe, `ndarray`, et des fonctions universelles
- Il est le socle de la plupart des packages de data science

Numpy utilise des array
- un array à une dimension est un vecteur
- un array à deux dimensions est une matrice
- un array est l'équivalent d'un tenseur

On utilise les arrays pour travailler sur des données non structurées :
- une image est représentée par un array à 3 dimensions
- une vidéo est représenté par un array à 4 dimensions
- etc.

In [None]:
# import
import numpy as np

# 1.1 NumPy et les arrays

### Un peu de vocabulaire

- Les dimensions sont appelées `axis` (`axis=0` : lignes, `axis=1` : colonnes, ...)
- Le nombre de dimensions est accédé avec `.ndim`
- La forme est accédé avec `.shape`
- La taille (`.size`) est le nombre total d’éléments d’un array
- Le type des éléments est accédé avec `.dtype`

On peut générer des arrays de différentes manières :

fonction (extrait)|usage
-|-
array|à partir d'un objet de type tableau
arange|vecteur de nombres également répartis dans un intervalle (pas)
linspace|vecteur de nombres également répartis dans un intervalle (nombre)
zeros|retourne un *ndarray* nul
zeros_like|retourne un *ndarray* nul aux dimensions identiques d'un autre *ndarray*
ones|retourne un *ndarray* unité
ones_like|retourne un *ndarray* unité aux dimensions identiques d'un autre *ndarray*
eye|retourne une matrice nulle avec des 1 sur la première diagonale
identity|retourne une matrice identité
full|retourne une matrice avec une valeur uniforme

**Création explicite**

In [None]:
# un array
arr1 = np.array([[1, 2, 3], [4, 5, 6]])
print(arr1)

In [None]:
# un array
arr1 = np.array([[1, 2, 3], [4, 5, 6]])
print(arr1.ndim, arr1.shape, arr1.size, arr1.dtype)

**Fonction arange**

In [None]:
# arange
array = np.arange(48, dtype=float)
array

In [None]:
# ndim
array.ndim

In [None]:
# shape
array.shape

La méthode `reshape` permet de modifier la structure d'un array sans changer le nombre d'éléments.

Les méthodes, dîtes de *reshaping*, sont très importantes en Data Science, on en verra avec la librairie **pandas**.

In [None]:
# reshape
array.reshape(8, 6)

**Fonction linspace**

La fonction `np.linspace` est utile par exemple pour tracer des fonctions. Elle génère un nombre donné de valeurs équidistantes entre deux bornes.

In [None]:
# linspace : 11 valeurs entre 0 et 5 inclus
np.linspace(0, 5, 11)

## 1.2 Accès et modification de valeurs

In [None]:
array = array.reshape(8, 6)
array

In [None]:
# accès à la première ligne
array[0]

In [None]:
# accès à la première colonne
array[:, 0]

In [None]:
# accès à une sous-matrice
array[2:5, 2:4]

In [None]:
# modification d'une sous-matrice
array[2:5, 2:4] = -1
array

## 1.3 Le broadcasting

Un array supporte des opérations arithmétiques avec un scalaire et des opérations avec un autre array.

Les opérations arithmétiques de bases se font terme à terme : `*`, `+`, `-`, `/`, `**` (puissance), `%` (modulo).

Pour les opérations avec un autre array, **NumPy** utilise celui dans une dimension compatible avec l'opération.

In [None]:
# vecteur 1
array1 = np.arange(4)
array1

In [None]:
# addition avec un scalaire
array2 = array1 + 10
array2

In [None]:
# multiplication avec un vecteur
array1 * array2

In [None]:
# matrice 2 x 4
array3 = np.arange(8).reshape(2, 4)
array3

In [None]:
# addition matrice + vecteur (broadcast)
array3 + array2

#### Python vs NumPy

In [None]:
%%time
# listes Python
len([i ** 2 for i in range(10_000_000)])

In [None]:
%%time
# ndarray numpy
len(np.arange(10_000_000, dtype=int) ** 2)

## 1.4 Les fonctions universelles

**NumPy** possède de nombreuses fonctions sur les arrays permettant de les manipuler
- fonctions logiques : `np.all()`, `np.any()`, `np.where(condition, A, B)` permet de faire une condition de manière simple
- fonctions mathématiques : `np.abs()`, `np.sqrt()`, `np.sin()`, `np.cos()`, `np.tan()`, `np.log()`, `np.exp()`, `np.floor()`
- fonctions arithmétiques : `np.sum()`, `np.cumsum()`, `np.min()`, `np.max()`, `np.sort()`, `np.argsort()`
- fonctions statistiques : `np.mean()`, `np.std()`, `np.var()`, `np.median()`, `np.percentile()`, `np.average()`, `np.quantile()`
- calculs matriciels : `@` ou `.dot()`, `T` ou `.transpose()`

Certaines de ces fonctions peuvent s'utiliser avec le mot-clé `axis` pour préciser dans quelle dimension effectuer la réduction.

In [None]:
# array
array

In [None]:
# somme des lignes
array.sum(axis=0)

In [None]:
# somme des colonnes
array.sum(axis=1)

In [None]:
# produit vectoriel
array1@array2  # ou np.dot(array1, array2)

## 1.5 Exemples avec une image

Si l'on charge une image avec le module **pyplot** de la librairie **matplotlib**, on obtient un array sur lequel on peut effectuer des manipulations.

In [None]:
# import
import matplotlib.pyplot as plt

In [None]:
# mondrian
image = plt.imread("mondrian-1504681_1280.png")
plt.imshow(image);

Le type est un `ndarray`.

In [None]:
# type
type(image)

Il y a 3 dimensions.

In [None]:
image.shape

Les 3 dimensions représentent :
- la hauteur de l'image en pixels, ici 960
- lalargeur de l'image en pixels, ici 1280
- les 3 couleurs primaires : rouge, vert, bleu (RVB) :
    - `image_paris[:,:,0]` représente les valeurs de la couleur primaire <span style="color:red">rouge</span>,
    - `image_paris[:,:,1]` représente les valeurs de la couleur primaire <span style="color:green">verte</span>,
    - `image_paris[:,:,2]` représente les valeurs de la couleur primaire <span style="color:blue">bleue</span>.

Pour les images, les valeurs sont soit des nombres flottants entre 0.0 et 1.0, soit des entiers entre 0 et 255 (correspondant à 00 et FF en hexadécimal). N.B. : 0.0/0 correspond à l'absence de couleur, 1.0/255 correspond à la valeur maximale.

Pour afficher une image avec les valeurs de chaque couleur primaire d'une image, il suffit de passer à 0 les valeurs des 2 autres couleurs complémentaires.

In [None]:
# bleu
newimage = image.copy()
newimage[:,:,(0,1)] = 0
plt.imshow(newimage);

Niveau de gris en utilisant une moyenne uniforme.

In [None]:
# en niveaux de gris
newimage = image.copy()
grayscale = newimage[:,:,:].mean(axis=2)
newimage[:,:,0] = newimage[:,:,1] = newimage[:,:,2] = grayscale
plt.imshow(newimage);

Niveau de gris en utilisant une moyenne pondérée : $Y=0.2989 \times R + 0.5870 \times G + 0.1140 \times B$

In [None]:
# vraie méthode
grayscale = np.dot(image, [0.2989, 0.5870, 0.1140])
newimage = image.copy()
newimage[:,:,0] = newimage[:,:,1] = newimage[:,:,2] = grayscale
plt.imshow(newimage);

Autre utilisation de **NumPy** : les tenseurs en *Machine Learning* et en *Deep Learning*.

# 2. pandas, la librairie pour la manipulation et l'analyse de données

In [None]:
# import des modules usuels
import numpy as np
import pandas as pd

# options d'affichage
pd.set_option("display.min_rows", 16)

## 2.1 Chargement des données

Voici les principales fonctions de chargement disponibles :

fonction|usage
-|-
read_clipboard|à partir d'une copie mémoire
read_csv|à partir d'un fichier *CSV* (Comma-Separated Value)
read_excel|à partir d'un fichier *Excel*
read_html|à partir d'un fichier *HTML* (recherche des *< table >*)
read_json|à partir d'un fichier *JSON*
read_sql|à partir d'une requête *SQL*
read_sas|à partir d'un fichier *SAS*
read_table|à partir d'un fichier tabulaire quelconque

In [None]:
# utilisation de Tab
#pd.read_

In [None]:
# aide en ligne
pd.read_csv?

In [None]:
# chargement des données
geo = pd.read_csv("correspondance-code-insee-code-postal.csv",
                   sep=';',
                   usecols=range(11))
geo

In [None]:
# type ou classe
type(geo)

In [None]:
# dimensions
geo.shape

## 2.2 Series

In [None]:
# on obtient un objet Series à partir d'une colonne du DataFrame
s = geo["Commune"]
s

In [None]:
# type de l'objet
type(s)

In [None]:
# accès à la variable d'instance "name" = nom de la colonne
s.name

In [None]:
# accès à la variable d'instance "values"
s.values

In [None]:
# type de la variable "values"
type(s.values)

In [None]:
np.arange?

In [None]:
# dimension de l'objet, retourne un tuple avec un seul élément
s.shape

In [None]:
# taille de l'objet, ou bien len(s)
s.size

In [None]:
# index numérique par défaut
s.index

In [None]:
# dtype de la série
s.dtype

In [None]:
# tête
s.head()

In [None]:
# queue
s.tail()

Nombre de valeurs uniques d'un objet *Series*

In [None]:
# nombre de valeurs uniques
s.nunique()

In [None]:
# nombre de départements
geo["Département"].nunique()

In [None]:
# nombre de statuts de commune
geo["Statut"].nunique()

In [None]:
# liste des départements
geo["Département"].unique()

**Exercice 1**
- Combien de valeurs différentes comporte la colonne "Altitude Moyenne" ?
- Pour quelle altitude inférieure à 1000 mètres n'y a-t-il aucune commune ?

In [None]:
# algo vs set

In [None]:
# nombre de communes par département
geo["Département"].value_counts()

In [None]:
s2 = geo["Département"].value_counts()
type(s2)

In [None]:
# l'index est composé des valeurs uniques de l'objet Series initial
s2.index

In [None]:
s2.index.is_unique

In [None]:
# les valeurs sont les nombres d'occurences des valeurs uniques de l'objet Series initial
s2.values

**Exercice 2**

- Donner le décompte des différents statuts des communes.
- Quels sont les 10 noms de communes les plus fréquents ?
- En français, le nom de famille le plus fréquent est *Martin*, mais quel est le nom de commune le plus fréquent ?

In [None]:
# population précision limitée
geo["Population"].sum()

In [None]:
# min
geo['Altitude Moyenne'].min()

In [None]:
# index du min
geo['Altitude Moyenne'].idxmin()

In [None]:
# max
geo['Altitude Moyenne'].max()

In [None]:
# index du max
geo['Altitude Moyenne'].idxmax()

In [None]:
# opération avec un scalaire
geo["Population"] * 1000

In [None]:
# comparaison
geo['Altitude Moyenne'] == 49

In [None]:
# exemple : appartenance à une liste de valeurs
geo["Altitude Moyenne"].isin([49.0, 59.0])

In [None]:
# somme cumulée population
geo["Population"].cumsum()

In [None]:
# exemple : calcul de la densité en divisant la population par la superficie
geo["Population"] / geo["Superficie"]

In [None]:
# startswith
geo["Commune"].str.startswith("B")

In [None]:
geo["Commune"].str.capitalize()

In [None]:
geo["Commune"].str.title()

**Exercice 3**

- Calculez le minimum et le maximum des longueurs des noms des communes.
- Donnez le décompte des longueurs de noms des communes.
- Quelle est la commune dont le nom est le plus long ?

#### méthode apply()

In [None]:
# series
s = geo["Superficie"]
s

In [None]:
# côtés des carrés de surface équivalente
s.apply(np.sqrt)

In [None]:
# rayons des cercles de surface équivalente
# fonction standard
def rayon(surface):
    rayon = np.sqrt(surface / np.pi)
    return rayon

rayon(10)

In [None]:
# rayons des cercles de surface équivalente
# fonction standard
s.apply(rayon)

In [None]:
# rayons des cercles de surface équivalente
# lambda
s.apply(lambda x: np.sqrt(x / np.pi))

**map()**

In [None]:
# dico
dico = {'Chef-lieu canton': 'CLC', 'Commune simple': 'CS', 'Sous-préfecture': 'SP',
       'Préfecture': 'P', 'Préfecture de région': 'PR', "Capitale d'état": 'CDE'}
geo['Statut'].map(dico)

In [None]:
# série
dico = {'Chef-lieu canton': 'CLC', 'Commune simple': 'CS', 'Sous-préfecture': 'SP',
       'Préfecture': 'P', 'Préfecture de région': 'PR', "Capitale d'état": 'CDE'}
s = pd.Series(dico)
print(s)
geo['Statut'].map(s)

**combine()**

In [None]:
# combine lent !
%timeit geo['Commune'].combine(geo['Département'], lambda x, y: x + '***' + y)

In [None]:
%timeit geo['Commune'] + '***' + geo['Département']

## 2.3 DataFrame

In [None]:
# type de l'objet
type(geo)

In [None]:
geo

In [None]:
# dimensions
geo.shape

In [None]:
# nombre de lignes
len(geo)

In [None]:
# nombre total d'éléments
geo.size

In [None]:
# index
geo.index

In [None]:
# liste des colonnes
geo.columns

In [None]:
# types des colonnes
geo.dtypes

In [None]:
# appel de la méthode info()
geo.info()

In [None]:
# tête
geo.head()

In [None]:
# queue
geo.tail()

In [None]:
# transposition
geo.transpose() # ou geo.T

In [None]:
# accès à la première ligne
geo.head(1).T

In [None]:
# accès à la première ligne
var = geo.head(1).T
type(var)

In [None]:
# modification de l'index
geo = geo.set_index("Code INSEE")
geo.head()

In [None]:
geo.info()

In [None]:
# test de l'unicité de l'index
geo.index.is_unique

## 2.4 Sélections dans les Series

- index (label) vs indice (position)
- s[i]
- s[[i, j, k]] (fancy indexing)
- s[i:j], s[i:j:k]
- s.loc[], s.at[]
- s.iloc[], s.iat[]
- s[mask] (masque booléen ET &, OU |, NON ~)
- opérations logiques all() et any()

In [None]:
# chargement des données
geo = pd.read_csv("correspondance-code-insee-code-postal.csv",
                   sep=';',
                   usecols=range(11))
geo = geo.set_index('Code INSEE')
geo = geo.sort_index()
geo.head()

In [None]:
# sélection par index
s = geo['Commune']
s

In [None]:
# sélection par index
s = geo['Commune']
s.loc['91477'] # ou s['91477']

In [None]:
# sélection par indice
s.iloc[36240] # ou s[36240]

In [None]:
# sélection par une liste d'index
s.loc[['01001', '01004', '01006']] # ou s[['01001', '01004', '01006']]

In [None]:
# sélection par une liste d'index
liste = ['01001', '01004', '01006']
s.loc[liste] # ou s[l]

In [None]:
# sélection par une liste d'indices
s.iloc[[0, 2, 4]] # ou s[[0, 2, 4]]

In [None]:
# sélection par une plage d'index
# 01006 est inclus
s.loc['01001':'01006'] # ou s['01001':'01006']

In [None]:
# sélection par une plage d'indices
# 5 est exclu
s.iloc[0:5] # ou s[0:5]

In [None]:
# Series
s

In [None]:
# vecteur de booléens selon si le nom de la ville commence par "A"
masque = s.str.startswith("A")
masque

In [None]:
# sélection à partir du vecteur de booléens
s.loc[masque]  # ou bien s[masque]

In [None]:
# les communes qui commencent par SAINT
s.loc[s.str.startswith("SAINT")]

In [None]:
s[s.str.startswith("SAINT")]

**Exercice 4**
- Quelles communes commencent par la lettre "Z" ?
- Quelles communes commencent et finissent par la lettre "Y" ?
- Combien de communes sont "SUR-MER" ?
- Quelles communes ont un nom avec la préposition "SOUS" ?
- Quelles communes ont un nom avec "SOUS" mais pas la préposition "SOUS" ?

### Point sur les expressions régulières

Voir le module **re**

In [None]:
# les communes comportant 2 Z accolés
s.loc[s.str.contains("ZZ")]

Caractères spéciaux :

- `.`: tout caractère
- ^: le début de la chaine
- $: la fin de la chaine
- *: 0 ou plusieurs répétitions du motif précédent
- +: 1 ou plusieurs répétitions du motif précédent
- ?: 0 ou 1 répétition du motif précédent
- \\: pour que ces caractères soient traités normalement, il faut les préfixer par un \\
- [A-Za-zÀ-ÿ0-9] : tout caractère alphanumérique
- () : capture du motif entre parenthèses

In [None]:
# les communes comportant 2 Z collés ou non
s.loc[s.str.contains("Z.*Z")]

In [None]:
# les communes comportant 2 Z séparés
s.loc[s.str.contains("Z.+Z")]

In [None]:
# import re

### Sélections dans les DataFrames

In [None]:
# sélection d'une colonne
geo["Commune"]

In [None]:
geo.Commune

In [None]:
# communes + superficie et population
geo[["Commune", "Superficie", "Population"]].head()

In [None]:
# sélection d'une ligne
s = geo.loc["01001"]
s

In [None]:
# sélection d'une ligne
geo.iloc[0]

In [None]:
# sélection de plusieurs lignes
geo.loc["01001":"01006"]

In [None]:
# sélection de plusieurs lignes
geo.iloc[0:5]

In [None]:
# sélection de plusieurs lignes et de plusieurs colonnes
geo.loc["01001":"01006", "Commune":"Statut"]

In [None]:
# sélection de plusieurs lignes et de plusieurs colonnes
geo.iloc[0:5, 1:5]

In [None]:
# les communes de l'Essonne avec une population supérieure à 30000
geo.loc[(geo["Département"] == "ESSONNE") & (geo["Population"] > 30.0)]

**Exercice 5**

- Affichez l'altitude moyenne, la superficie et la population de toutes les communes dénommées Sainte-Colombe.
- Combien y a-t-il de départements dans lesquels au moins une commune a plus de 200.000 habitants ?
- Donner la liste de ces départements.
- Combien y a-t-il de communes dont le nom comporte 2 lettres?
- Donnez la liste de ces communes dans l'ordre alphabétique.
- Sélectionnez les communes pour lesquelles l'altitude moyenne vaut la superficie.
- Quelle est la population totale de ces communes ?
- Y a-t-il des communes au niveau de la mer ?

### Index non unique

In [None]:
# test de l'unicité de l'index
geo.index.is_unique

In [None]:
# reset de l'index
geo = geo.reset_index()
geo = geo.set_index('Commune', drop=True)
geo.head()

In [None]:
# test de l'unicité de l'index
geo.index.is_unique

In [None]:
# accès avec un index non unique
geo.loc['SAINTE-COLOMBE']

In [None]:
# tête
geo.head()

In [None]:
# tentative d'accès à une plage d'index
geo.loc["L'ABERGEMENT-CLEMENCIAT":"SAINTE-COLOMBE"]

## 2.5 Manipulations et modifications des données

In [None]:
# chargement des données
geo = pd.read_csv("correspondance-code-insee-code-postal.csv",
                   sep=';',
                   usecols=range(11),
                   index_col="Code INSEE")
geo.head()

### Tri

In [None]:
# tri selon l'altitude
geo.sort_values("Altitude Moyenne").head()

In [None]:
# tri selon l'altitude inverse
geo.sort_values("Altitude Moyenne", ascending=False).head()

In [None]:
# tri selon l'altitude puis suivant le nom de la commune A->Z
geo.sort_values(["Altitude Moyenne", "Commune"]).head()

In [None]:
# tri selon l'altitude puis suivant le nom de la commune Z->A
geo.sort_values(["Altitude Moyenne", "Commune"], ascending=[True, False]).head()

In [None]:
# tri selon l'index
geo = geo.sort_index()
geo.head()

### Modification de colonnes et conversions

In [None]:
# la superficie des communes est en hectares, on la passe en km2
geo["Superficie"] = geo["Superficie"] / 100.0  # ou bien geo["Superficie"] =/ 100.0
geo.head()

In [None]:
# astype : méthode de Series, DataFrame .astype(int) .apply(int) .apply(lambda x: int(x))
# int() : fonction qui convertit une valeur en entier

In [None]:
# exemple de conversion
geo["Altitude Moyenne"] = geo["Altitude Moyenne"].astype(int)
geo.head()

In [None]:
# info
geo.info()

In [None]:
# statuts
geo["Statut"].value_counts()

In [None]:
# conversion de la colonne Statut en catégorie

from pandas import CategoricalDtype

statuts = ["Commune simple", "Chef-lieu canton", "Sous-préfecture",
            "Préfecture", "Préfecture de région", "Capitale d'état"]

cat_statut = CategoricalDtype(categories=statuts, ordered=True)

geo["Statut"] = geo["Statut"].astype(cat_statut)

geo.info()

In [None]:
# low medium high

### Ajout de colonnes

In [None]:
# on ajoute la colonne "Densité"
geo["Densité"] = 1000 * geo["Population"] / geo["Superficie"]
geo.head()

### Extraction d'informations

In [None]:
# reset de l'index
geo = geo.reset_index()
geo = geo.set_index('Code INSEE', drop=True)
geo.head()

In [None]:
# colonne "geo_point_2d"
geo["geo_point_2d"]

In [None]:
# accès à une valeur "geo_point_2d"
geo.loc["01001", "geo_point_2d"]

In [None]:
# application de la méthode split()
x = geo.loc["01001", "geo_point_2d"].split(', ')
x

In [None]:
# extraction de la latitude, indice 0 dans la liste retournée par *split()*
x[0]  # on obtient une chaîne de caractères

In [None]:
float(x[0])  # on obtient enfin un nombre flottant représentant la latitude avec le convertisseur float()

In [None]:
# on calcule  la latitude et la longitude et on ajoute les colones
geo["Latitude"] = geo["geo_point_2d"].apply(lambda x: float(x.split(', ')[0]))
geo["Longitude"] = geo["geo_point_2d"].apply(lambda x: float(x.split(', ')[1]))
geo.head()

In [None]:
# on vérifie le type des colonne ajoutées
geo.info()

In [None]:
# méthode extract
geo["geo_point_2d"].str.extract("(.*), (.*)")

In [None]:
# méthode extract
geo[['lat', 'lon']] = geo["geo_point_2d"].str.extract("(.*), (.*)").astype(float)
geo.head()