# TD 1 | Introduction à Python pour l'analyse de données

Florent FOREST

forest@lipn.univ-paris13.fr

---

Objectifs du TD :

* découvrir Python
* se familiariser avec le langage et le notebook Jupyter
* découvrir et maîtriser les bases des librairies de calcul numérique et d'analyse de données numpy et pandas

---

## Python

<img height="200px" src="rc/python-logo.png" />

**Quick facts**
* Langage généraliste "à tout faire" $\rightarrow$ scripts, applications diverses, serveurs...
* Associable à d'autres langages (_"glue language"_) $\rightarrow$ plugins
* Milliers de librairies (appelées **modules**) disponibles pour à peu près n'importe quelle application
* Langage le plus utilisé pour l'analyse de données et l'apprentissage (aux côté de R, Matlab, Scala...)
* Immense communauté
* Multi-paradigme : impératif, orienté objet, fonctionnel
* Portable/multi-plateforme
* **FACILE** (à définir)
* Fortement typé
* Dynamiquement typé
* Semi-interprété (compilation à la volée en bytecode

**Quelques défauts**

Performance médiocre par rapport à C/C++, Java, Scala etc (interprété), typage dynamique ($\rightarrow$ erreurs à l'exécution), pas le plus adapté au déploiement en production.

**2 versions principalement utilisées** : **2.7** et **3** (surtout 3.5, 3.6 et récemment 3.7).

**Installation**

* Linux : préinstallé sur la quasi-totalité des distributions.
* Mac OS : ?
* Windows : installer manuellement (voir la suite).

**Les 3 façons classiques d'utiliser Python :**

* Interpréteur Python ou IPython
* Exécution d'un script Python (`fichier.py`) contenant une méthode "main"
* Notebook Jupyter*

**Installer des packages Python**

Gestionnaires de paquets :

* pip
* conda

**Distributions scientifiques Python**

Il existe des distributions de Python intégrant par défaut un (très) grand nombre de librairies utiles pour le calcul scientifique et l'analyse de données.

Ex : Anaconda

<img height="200px" src="rc/logo-anaconda.png" />

**Principaux IDE**

* Spyder
* PyCharm
* autres éditeurs de code avec extensions Python (vim, emacs, sublime text, VS code...)

*Jupyter = Julia + Python + R


## Installation

### Linux

**Choix : utilisation de Python 3, installation manuelle de juptyer et des paquets avec pip**

Vérifier votre version de Python :

```shell
$ python --version
$ python3 --version
```

Vérifier que la commande `pip3` est installée. Sinon, l'installer (exemple pour Debian/Ubuntu/Linux Mint, à adapter selon votre distribution) :

```shell
$ sudo apt install python3-pip
```

Ensuite, installez les paquets suivants que nous utiliserons lors de ce cours:

```shell
$ pip3 install -U jupyterlab numpy pandas matplotlib sklearn xlrd
```

Ensuite, placez-vous dans votre dossier de travail et lancez un notebook :

```shell
$ jupyter-lab
```

### Mac OS

Les étapes devraient être les mêmes que sous Linux.

### Windows

**Choix** : La solution la plus simple est d'installer Anaconda, une distribution de Python pour l'analyse de données, constituée de :

* Python 3.7
* de très nombreux packages Python
* Jupyter (notebook)
* Spyder (IDE pour Python)
* divers autres outils

Lien : https://www.anaconda.com/download/ (téléchargement lourd)

Installation clic-bouton. Ensuite, ouvrez un terminal (`cmd`), déplacez-vous dans votre dossier de travail avec `cd` et lancez un notebook avec la commande :

```
> jupyter notebook
```

Il est aussi possible d'utiliser Anaconda sous Linux/Mac OS mais cela installe énormément de paquets inutiles. Il est préférable de gérer ses paquets manuellement avee pip ou conda.

#### Ouvrez le notebook TD1-eleve.ipynb, et c'est parti !

## Découverte (ou rappel) de la syntaxe de base

### Variables, structures de contrôle

In [None]:
a = 33
b = 9
print(a+b)

In [None]:
a
a+b

In [None]:
type(a)

In [None]:
a = 'hello'
type(a)

In [None]:
# Affiche les entiers pairs de 1 à 10
for i in range(1, 11):
    if i % 2 == 0:
        print(i)

### Listes

In [None]:
l = [1, 'un', 2]
l.append('deux')
l += [3, 'trois']
print(type(l))
l

In [None]:
a = l[3], l[-1]
print(type(a))
a

In [None]:
a[0]

In [None]:
[2**p for p in range(10)] # "Compréhension de liste"

### Les générateurs

In [None]:
generateur = (x**2 for x in range(100) if x % 2 != 0)
print(generateur)

In [None]:
next(generateur)

In [None]:
list(generateur)

In [None]:
generateur[5]

In [None]:
limit = 10
for _ in range(limit):
    print(next(generateur))

In [None]:
stop = 169
for z in generateur:
    if z != stop:
        print(z)
    else:
        break

### Les fonctions

In [None]:
def fact(n):
    if n == 0:
        return 1
    else:
        return n*fact(n-1)

def fact2(n):
    return 1 if n == 0 else n*fact(n-1)

In [None]:
print(fact(5))
fact(5) == fact2(5)

### Les dictionnaires

In [None]:
# 1ère façon de créer un dictionnaire
dic = {"key1": "value1", "answer": 42}
# 2ème façon de créer un dictionnaire
dic2 = dict(key1="value1", answer=42)
print(dic)
print(dic2)
dic["answer"]


In [None]:
dic['new'] = [1,2,3]

In [None]:
dic

### Programmation Orientée Objet : les classes

In [None]:
"""
Exemple de classe en Python
"""
class Moteur:
    
    # Constructeur
    def __init__(self, esn, panne=False):
        self.esn = esn
        self.panne = panne
    
    # Méthodes
    def dire_bonjour(self):
        print('Bonjour, mon numéro de série est ' + self.esn)
    
    def fonctionne(self):
        return not self.panne 
    

In [None]:
mot1 = Moteur('420912')
mot2 = Moteur(panne=True, esn='420913')

mot1.dire_bonjour()
print(mot1.fonctionne())
print('BOUM!!')
mot1.panne = True
print(mot1.fonctionne())

print('\n')
mot2.dire_bonjour()
print(mot2.fonctionne())

## Calcul scientifique et analyse de données en Python avec la suite scipy

https://scipy.org/

### numpy

<img height="200px" src="rc/numpy_logo.png" />

http://www.numpy.org/

* Calcul sur des NDArrays ($n$-dimensional array) : vecteurs, matrices, tenseurs...
* Utilisation similaire à Matlab
* Utilise des libraires en C compilées d'algèbre linéaire $\rightarrow$ performant
* Compatible avec de très nombreuse libraires de data science/machine learning/deep learning : pandas, scikit-learn, Tensorflow, MXNet, etc.

## Compatif de performance : produit matriciel

In [None]:
import random

In [None]:
# Création d'une matrice aléatoire sous forme de liste de listes
taille = 2
A = [[random.random() for _ in range(taille)] for _ in range(taille)]

In [None]:
print(A)

In [None]:
"""
EXERCICE - Afficher un tuple contenant les dimensions de la matrice A
"""
raise NotImplementedError

$$ (AB)_{ij} = \sum_k A_{ik} B_{kj} $$

In [None]:
"""
EXERCICE - Implémenter le produit matriciel de 2 matrices sous forme de listes de listes python
"""
raise NotImplementedError

In [None]:
# Vérification
assert(produit([[1, 2], [3, 4]], [[1, 2], [3, 4]]) == [[7, 10], [15, 22]])

In [None]:
produit(A, A)

In [None]:
# Sortons le chronomètre
%timeit produit(A, A)

In [None]:
# Et maintenant, avec numpy !
import numpy as np

In [None]:
A2 = np.array(A)
print(A2)

In [None]:
%timeit np.dot(A, A)

EXERCICE - Remplissez le tableau suivant avec les durées d'exécution constatées :

(Conseil : pour la taille 3000, essayez UNIQUEMENT avec numpy)

Taille | Python | numpy
-------|--------|-------
30     | XXX    | XXX
300    | XXX    | XXX
3000   | XXX    | XXX 

Sur ma machine : 

Taille | Python | numpy
-------|--------|-------
30     | 3.35 **ms** | 47.6 **$\mu$s**
300    | 3.29 **s** | 6.02 **ms**
3000   | NOPE | 1.65 **s** 


Sachant que le produit matriciel (naïf) a une complexité $\mathcal{O}(n^3)$, le calcul est vite fait...

### Fonctionnalités courantes de numpy

In [None]:
# Création d'un array à partir d'une liste
v = np.array([1.0, 2.0, 3.0])
# Création d'un array de taille (n,m) initialisé à 0
z = np.zeros((3,4))
z

In [None]:
# Taille d'un array
print(z.shape)
print(v.shape)

In [None]:
# Opérations courantes
A = np.ones((3,3)) + np.eye(3)
print('A = ')
print(A)
print('Av = ')
print(np.dot(A,v))
print('3*A = ')
print(3*A)
print('A*v = ')
print(A*v)
print('A + 1 = ')
print(A+1)
print('A + v = ')
print(A+v)
print('A^2 = ')
print(np.square(A))

### pandas

<img width="200px" src="rc/pandas-logo.png" />

http://pandas.pydata.org/

Traitement de données **structurées** sous forme d'une abstraction appelée **DataFrame** (type : `pd.DataFrame`) : données organisées par colonnes nommées (table relationnelle). Permet notamment de lire et traiter des fichiers de données structurées comme les fichiers CSV. Une donnée sous forme de colonne ou ligne (vecteur) a pour type `pd.Series`.

**À CONSULTER SANS MODÉRATION : la documentation**

* http://pandas.pydata.org/pandas-docs/stable/api.html#dataframe (pd.DataFrame)
* http://pandas.pydata.org/pandas-docs/stable/api.html#series (pd.Series)

In [None]:
import pandas as pd

In [None]:
df_exemple = pd.DataFrame({"ESN": ["E420912", "E420913", "E420914"], "panne": [False, False, True]})
df_exemple

### Lecture et prétraitement de données

In [None]:
!git clone https://github.com/FlorentF9/SupGalilee-tdstats.git

In [None]:
import os
os.chdir('SupGalilee-tdstats')

In [None]:
# Chargement d'un fichier CSV ou Excel
df = pd.read_csv("./data/Vol010.csv")
# Affichage des 5 premières lignes
df.head()

In [None]:
"""
EXERCICE - Dimensions d'un DataFrame
Affichez le nombre de colonnes et de ligne du DataFrame (indice : beaucoup de méthodes sont communes entre numpy et pandas)
"""
raise NotImplementedError
print('Nombre de colonnes :', )
print('Nombre de lignes :', )

Il est important de comprendre la structure des `DataFrame` pandas. Un DataFrame (abrégé DF) est constitué principalement de :

* Colonnes (_columns_), nommées. Le nom des colonnes est accessible via `df.columns`. Les colonnes peuvent être renommées. On sélectionne une colonne à l'aide de la syntaxe `df['nom_de_la_colonne']` (similaire aux dictionnaires python) ou `df.nom_de_la_colonne` (la syntaxe avec un point ne fonctionne pas si le nom de colonne contient des espaces). On peut accéder à plusieurs colonnes à la fois à l'aide d'une liste de noms de colonnes : `df[['colonne1', 'colonne2']]'`(attention aux doubles crochets).
* Lignes (_rows_), associées à un _index_. L'index par défaut est 0, 1, 2, etc. mais peut être constitué de clés différentes (ex : index temporel). L'index **n'est pas** une colonne. On accède à une ligne de deux façons. Soit via l'index de la colonne : `df.loc[idx]`, soit via le numéro de la ligne (i-ème ligne) : `df.iloc[i]`. On accède à un ensemble de lignes en utilisant une liste ou un _slice_ d'indices, e.g. `df.iloc[2:10]` pour accéder aux lignes 2 à **9**.

La sélection des lignes et colonnes peut être combinée avec loc/iloc. Par exemple, pour sélectionner les lignes 10 à 14 des colonnes EGT_SEL et FMV_SEL :
```
df.loc[10:15, ['EGT_SEL', 'FLIGHT_MOD']]
```
Ou, en utilisant les numéro d'indice associés aux lignes et aux colonnes :
```
df.iloc[10:15, [1, 3]]
```

Les colonnes des DF sont **typées**, à la manière d'une base de données relationnelle, contrairement aux variables python classiques. Les types des colonnes sont accessibles via `df.dtypes`. Les principaux types sont les numériques (int32, int64, float etc.

In [None]:
df.loc[10:15, ['EGT_SEL', 'FLIGHT_MOD']]

In [None]:
"""
EXERCICE - Extraction et suppression des unités
On remarque que la 1ère ligne ne contient pas de données mais les unités de chaque colonne.
Pour la suite des traitements, il faut supprimer cette ligne. On souhaite toutefois garder l'information des unités de chaque colonne.
1. Récupérez les unités et stockez les dans une structure adaptée.
2. Supprimez cette ligne du DataFrame en utilisant la méthode "drop"
"""
raise NotImplementedError

In [None]:
print(units)
df.head()

On remarque que toutes les colonnes ont été reconnues comme de type `object`, c'est-à-dire des chaînes de caractères, alors que ce sont des valeurs numériques. Cela est dû à la première ligne contenant les unités. Il faut donc convertir les colonnes en numérique. La colonne 't', quant à elle, doit être convertie en type `datetime`.

In [None]:
df['t'] = pd.to_datetime(df['t'])
df[df.columns[1:]] = df[df.columns[1:]].apply(pd.to_numeric)

In [None]:
df.dtypes

In [None]:
"""
Exercice - Index temporel
Comme nos données sont une série temporelle multivariée, on souhaite utiliser un index temporel.
1. Créez une copie de df, appelée df2, à l'aide de la méthode du même nom.
2. Affectez la colonne du temps ('t') en tant qu'indice du DataFrame.
3. Supprimez la colonne 't' du DF résultant.
"""
raise NotImplementedError

On constate que pandas a automatiquement reconnu un `DatetimeIndex`, adapté pour des manipulations de séries temporelles (moyennes glissantes, etc) !

**Indispensable : ** La doc http://pandas.pydata.org/pandas-docs/stable/api.html#dataframe



### Valeurs manquantes

**NaN = Not a Number**

Les valeurs NaN doivent être éliminées ou imputées (i.e. remplacées par une certaine valeur) avant la suite des traitements. Ce choix dépend du cas d'usage. Dans un premier temps, nous allons apprendre à :

* trouver les données manquantes (méthode `isna`)
* éliminer les données manquantes d'un DataFrame (méthode `dropna`)
* les remplacer par une constante (méthode (`fillna`)

In [None]:
"""
EXERCICE - La méthode isna
1. Testez la méthode isna sur le DataFrame df2, puis sur une colonne ou une ligne. Que renvoie-t-elle ?
2. En appliquant les méthodes any(axis=...), mean() et max()/idxmax() sur les résultats de isna(), répondez aux questions suivantes :
    2.1 Quelles colonnes contiennent des valeurs manquantes, lesquelles n'en contiennent pas ?
    2.2 Quel est le pourcentage de valeurs manquantes dans le DF (a) par colonne (b) globalement ? Quelle variable contient le plus de NaN ?
    2.3 Quel est le pourcentage d'indices du DF pour lesquels toutes les variables sont présentes ?
"""
print('Question 2.1')
raise NotImplementedError
print('Question 2.2')
raise NotImplementedError
print('Question 2.3')
raise NotImplementedError

In [None]:
"""
EXERCICE - La méthode dropna
La méthode dropna permet d'éliminer les valeurs manquantes (NaN). Lisez d'abord sa documentation.
1. À quoi correspondent les arguments "axis" et "how" ?
2. Éliminez toutes les lignes contenant uniquement des valeurs manquantes.
3. Éliminez toutes les lignes contenant au moins une valeur manquante. Combien y a-t-il de lignes de différence ?
4. Éliminez toutes les colonnes contenant au moins une valeur manquante.
"""
raise NotImplementedError


In [None]:
"""
EXERCICE - La méthode fillna
La méthode dropna permet d'imputer les valeurs manquantes (NaN). Lisez d'abord sa documentation.
1. Quelles sont les différentes stratégies de remplissage des valeurs manquantes ?
2. Imputez les valeurs manquantes de la colonne age du DF donné en exemple par :
    - 0
    - la dernière valeur précédente/suivante valide
    - la moyenne
    - la valeur la plus courante (mode)
3. Quel est le meilleur choix dans ce cas ? Et pour le cas d'une variable temporelle, par exemple la température 'EGT_SEL' de notre jeu de données ?
"""
exemple = pd.DataFrame({'nom': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [24, pd.np.nan, 99, 24]})

raise NotImplementedError

### Pour aller plus loin

Il est possible de sous-échantillonner un DF avec un indice temporel, en indiquant une fréquence à la méthode `asfreq` (http://pandas.pydata.org/pandas-docs/stable/generated/pandas.PeriodIndex.asfreq.html#pandas.PeriodIndex.asfreq).

In [None]:
df3 = df2.asfreq('1s')

In [None]:
df3.index

In [None]:
# Quelle est maintenant la taille du DataFrame ?
raise NotImplementedError

---

<img src="rc/44582958_1164602683690726_9096620181785935872_n.jpg" />