# TD 1 | Introduction à Python pour l'analyse de données

Florent FOREST

forest@lipn.univ-paris13.fr

---

Objectifs du TD :

* découvrir Python, installer les outils et modules (suite Anaconda)
* se familiariser avec le langage et le notebook Jupyter
* découvrir et maîtriser les bases des librairies de calcul numérique et d'analyse de données numpy et pandas

---

## Python

<img height="200px" src="rc/python-logo.png" />

**Quick facts**
* Langage généraliste "à tout faire" (_"glue language"_)
* Milliers de librairies (appelées **modules**) disponibles pour à peu près n'importe quelle application
* Langage le plus utilisé pour l'analyse de données et l'apprentissage (aux côté de R, Matlab, Scala...)
* Impératif, orienté objet
* IPortable/multi-plateforme
* **FACILE** (à définir)
* Fortement typé
* Dynamiquement typé

**Quelques défauts**

Performance médiocre par rapport à C/C++, Java, Scala etc (interprété), typage dynamique ($\rightarrow$ erreurs à l'exécution), pas le plus adapté au déploiement en production.

**2 versions principalement utilisées** : **2.7** et **3** (surtout 3.5, 3.6 et récemment 3.7).

**Installation**

* Linux : préinstallé sur la quasi-totalité des distributions.
* Mac OS : ?
* Windows : installer manuellement (voir la suite).

**Les 3 façons classiques d'utiliser Python :**

* Interpréteur Python ou IPython
* Exécution d'un script Python (`fichier.py`) contenant une méthode "main"
* Notebook Jupyter*

**Installer des packages Python**

Gestionnaires de paquets :

* pip
* conda

**Distributions scientifiques Python**

Il existe des distributions de Python intégrant par défaut un (très) grand nombre de librairies utiles pour le calcul scientifique et l'analyse de données.

Ex : Anaconda

<img height="200px" src="rc/logo-anaconda.png" />

**Principaux IDE**

* Spyder
* PyCharm
* autres éditeurs de code avec extensions Python (vim, emacs, sublime text, VS code...)

*Jupyter = Julia + Python + R


## Installation

### Linux

**Choix : utilisation de Python 3, installation manuelle de juptyer et des paquets avec pip**

Vérifier votre version de Python :

```shell
$ python --version
$ python3 --version
```

Vérifier que la commande `pip3` est installée. Sinon, l'installer (exemple pour Debian/Ubuntu/Linux Mint, à adapter selon votre distribution) :

```shell
$ sudo apt install python3-pip
```

Ensuite, installez les paquets suivants que nous utiliserons lors de ce cours:

```shell
$ pip3 install -U jupyterlab numpy pandas matplotlib sklearn xlrd
```

Ensuite, placez-vous dans votre dossier de travail et lancez un notebook :

```shell
$ jupyter-lab
```

### Mac OS

Les étapes devraient être les mêmes que sous Linux.

### Windows

**Choix** : La solution la plus simple est d'installer Anaconda, une distribution de Python pour l'analyse de données, constituée de :

* Python 3.7
* de très nombreux packages Python
* Jupyter (notebook)
* Spyder (IDE pour Python)
* divers autres outils

Lien : https://www.anaconda.com/download/ (téléchargement lourd)

Installation clic-bouton. Ensuite, ouvrez un terminal (`cmd`), déplacez-vous dans votre dossier de travail avec `cd` et lancez un notebook avec la commande :

```
> jupyter notebook
```

Il est aussi possible d'utiliser Anaconda sous Linux/Mac OS mais cela installe énormément de paquets inutiles. Il est préférable de gérer ses paquets manuellement avee pip ou conda.

#### Ouvrez le notebook TD1-eleve.ipynb, et c'est parti !

## Découverte (ou rappel) de la syntaxe de base

### Variables, structures de contrôle

In [1]:
a = 33
b = 9
print(a+b)

42


In [2]:
a+b

42

In [3]:
type(a)

int

In [4]:
a = 'hello'
type(a)

str

In [5]:
# Affiche les entiers pairs de 1 à 10
for i in range(1, 11):
    if i % 2 == 0:
        print(i)

2
4
6
8
10


### Listes

In [6]:
l = [1, 'un', 2]
l.append('deux')
l += [3, 'trois']
print(type(l))
l

<class 'list'>


[1, 'un', 2, 'deux', 3, 'trois']

In [7]:
a = l[3], l[-1]
print(type(a))
a

<class 'tuple'>


('deux', 'trois')

In [8]:
a[0]

'deux'

In [9]:
[2**p for p in range(10)] # "Compréhension de liste"

[1, 2, 4, 8, 16, 32, 64, 128, 256, 512]

### Les générateurs

In [15]:
generateur = (x**2 for x in range(100) if x % 2 != 0)
print(generateur)

<generator object <genexpr> at 0x7f40a817f938>


In [11]:
next(generateur)

1

In [None]:
list(generateur)

In [12]:
generateur[5]

TypeError: 'generator' object is not subscriptable

In [13]:
limit = 10
for _ in range(limit):
    print(next(generateur))

9
25
49
81
121
169
225
289
361
441


In [16]:
stop = 169
for z in generateur:
    if z != stop:
        print(z)
    else:
        break

1
9
25
49
81
121


### Les fonctions

In [17]:
def fact(n):
    if n == 0:
        return 1
    else:
        return n*fact(n-1)

def fact2(n):
    return 0 if n == 0 else n*fact(n-1)

In [18]:
print(fact(5))
fact(5) == fact2(5)

120


True

### Les dictionnaires

In [19]:
# 1ère façon de créer un dictionnaire
dic = {"key1": "value1", "answer": 42}
# 2ème façon de créer un dictionnaire
dic2 = dict(key1="value1", answer=42)
print(dic)
print(dic2)
dic["answer"]

{'key1': 'value1', 'answer': 42}
{'key1': 'value1', 'answer': 42}


42

### Programmation Orientée Objet : les classes

In [20]:
"""
Exemple de classe en Python
"""
class Moteur:
    
    # Constructeur
    def __init__(self, esn, panne=False):
        self.esn = esn
        self.panne = panne
    
    # Méthodes
    def dire_bonjour(self):
        print('Bonjour, mon numéro de série est ' + self.esn)
    
    def fonctionne(self):
        return not self.panne 
    

In [21]:
mot1 = Moteur('420912')
mot2 = Moteur(panne=True, esn='420913')

mot1.dire_bonjour()
print(mot1.fonctionne())
print('BOUM!!')
mot1.panne = True
print(mot1.fonctionne())

print('\n')
mot2.dire_bonjour()
print(mot2.fonctionne())

Bonjour, mon numéro de série est 420912
True
BOUM!!
False


Bonjour, mon numéro de série est 420913
False


## Calcul scientifique et analyse de données en Python avec la suite scipy

https://scipy.org/

### numpy

<img height="200px" src="rc/numpy_logo.png" />

http://www.numpy.org/

* Calcul sur des NDArrays ($n$-dimensional array) : vecteurs, matrices, tenseurs...
* Utilisation similaire à Matlab
* Utilise des libraires en C compilées d'algèbre linéaire $\rightarrow$ performant
* Compatible avec de très nombreuse libraires de data science/machine learning/deep learning : pandas, scikit-learn, Tensorflow, MXNet, etc.

## Compatif de performance : produit matriciel

In [22]:
import random

In [23]:
T = [[1,0], [0,1]]

In [24]:
sum([1,2,3])

6

In [25]:
taille = 3
[[i+j for j in range(taille)] for i in range(taille)]

[[0, 1, 2], [1, 2, 3], [2, 3, 4]]

In [26]:
# Création d'une matrice aléatoire sous forme de liste de listes
taille = 300
A = [[random.random() for _ in range(taille)] for _ in range(taille)]

In [None]:
print(A)

In [28]:
"""
EXERCICE - Afficher un tuple contenant les dimensions de la matrice A
"""
len(A), len(A[0])

(300, 300)

$$ (AB)_{ij} = \sum_k A_{ik} B_{kj} $$

In [29]:
"""
EXERCICE - Implémenter le produit matriciel de 2 matrices sous forme de listes de listes python
"""
def produit(A, B):
    n1, m1 = len(A), len(A[0])
    n2, m2 = len(B), len(B[0])
    assert(m1 == n2) # vérifier la compatibilité de dimensions de matrics
    return [ [sum(A[i][k]*B[k][j] for k in range(m1)) for j in range(m2)] for i in range(n1)]

In [30]:
# Vérification
assert(produit([[1, 2], [3, 4]], [[1, 2], [3, 4]]) == [[7, 10], [15, 22]])

In [None]:
produit(A, A)

In [32]:
# Sortons le chronomètre
%timeit produit(A, A)

3.46 s ± 44.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [33]:
# Et maintenant, avec numpy !
import numpy as np

In [34]:
A2 = np.array(A)
print(A2)

[[0.72964036 0.95991296 0.21980741 ... 0.27192888 0.41045126 0.13111499]
 [0.06215693 0.70406459 0.38894336 ... 0.29467258 0.42824658 0.64603622]
 [0.61203304 0.18141558 0.66549781 ... 0.93675846 0.77479874 0.09062891]
 ...
 [0.98688609 0.29951872 0.61047818 ... 0.55392298 0.13535295 0.53572729]
 [0.53985456 0.52073759 0.85927325 ... 0.49235303 0.9641128  0.05998506]
 [0.2169645  0.77702882 0.90638817 ... 0.76797221 0.93666783 0.17480822]]


In [35]:
%timeit np.dot(A, A)

8 ms ± 1.01 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


EXERCICE - Remplissez le tableau suivant avec les durées d'exécution constatées :

(Conseil : pour la taille 3000, essayez UNIQUEMENT avec numpy)

Taille | Python | numpy
-------|--------|-------
30     | XXX    | XXX
300    | XXX    | XXX
3000   | XXX    | XXX 

Sur ma machine : 

Taille | Python | numpy
-------|--------|-------
30     | 3.35 **ms** | 47.6 **$\mu$s**
300    | 3.29 **s** | 6.02 **ms**
3000   | NOPE | 1.65 **s** 


Sachant que le produit matriciel (naïf) a une complexité $\mathcal{O}(n^3)$, le calcul est vite fait...

### Fonctionnalités courantes de numpy

In [36]:
# Création d'un array à partir d'une liste
v = np.array([1.0, 2.0, 3.0])
# Création d'un array de taille (n,m) initialisé à 0
z = np.zeros((3,4))
z

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [37]:
# Taille d'un array
print(z.shape)
print(v.shape)

(3, 4)
(3,)


In [None]:
A[-1]

In [39]:
# Opérations courantes
A = np.ones((3,3)) + np.eye(3)
print('A = ')
print(A)
print('Av = ')
print(np.dot(A,v))
print('3*A = ')
print(3*A)
print('A*v = ')
print(A*v)
print('A + 1 = ')
print(A+1)
print('A + v = ')
print(A+v)
print('A^2 = ')
print(np.square(A))

A = 
[[2. 1. 1.]
 [1. 2. 1.]
 [1. 1. 2.]]
Av = 
[7. 8. 9.]
3*A = 
[[6. 3. 3.]
 [3. 6. 3.]
 [3. 3. 6.]]
A*v = 
[[2. 2. 3.]
 [1. 4. 3.]
 [1. 2. 6.]]
A + 1 = 
[[3. 2. 2.]
 [2. 3. 2.]
 [2. 2. 3.]]
A + v = 
[[3. 3. 4.]
 [2. 4. 4.]
 [2. 3. 5.]]
A^2 = 
[[4. 1. 1.]
 [1. 4. 1.]
 [1. 1. 4.]]


### pandas

<img width="200px" src="rc/pandas-logo.png" />

http://pandas.pydata.org/

Traitement de données **structurées** sous forme d'une abstraction appelée **DataFrame** (type : `pd.DataFrame`) : données organisées par colonnes nommées (table relationnelle). Permet notamment de lire et traiter des fichiers de données structurées comme les fichiers CSV. Une donnée sous forme de colonne ou ligne (vecteur) a pour type `pd.Series`.

**À CONSULTER SANS MODÉRATION : la documentation**

* http://pandas.pydata.org/pandas-docs/stable/api.html#dataframe (pd.DataFrame)
* http://pandas.pydata.org/pandas-docs/stable/api.html#series (pd.Series)

In [40]:
import pandas as pd

In [41]:
df_exemple = pd.DataFrame({"ESN": ["E420912", "E420913", "E420914"], "panne": [False, False, True]})
df_exemple

Unnamed: 0,ESN,panne
0,E420912,False
1,E420913,False
2,E420914,True


### Lecture et prétraitement de données

In [None]:
!git clone https://github.com/FlorentF9/SupGalilee-tdstats.git

In [None]:
import os
os.chdir('SupGalilee-tdstats')

In [42]:
# Chargement d'un fichier CSV ou Excel
df = pd.read_csv("./data/Vol010.csv")
# Affichage des 5 premières lignes
df.head()

Unnamed: 0,t,EGT_SEL,FLIGHT_MOD,FMV_SEL,HPTC_SEL,LPTC_SEL,N1_SEL,N2_ACTSEL,OIL_P,OIL_TEMP,...,T25_SEL,T3_SEL,VBV_SEL,VIB_CN1,VIB_CN2,VIB_TN1,VIB_TN2,VSV_SEL,WFM_SEL,XM
0,datenum,deg_C,_,_,%,%,%,%_RPM,psi,_,...,_,_,DEG,_,_,_,_,DEG,lb/h,mach
1,15/09/2011 14:25:58.125,,,,,,,0,,,...,,,,,,,,,,
2,15/09/2011 14:25:58.375,,,,,,,0,,,...,,,,,,,,,,
3,15/09/2011 14:25:58.625,,,,,,,0,,,...,,,,,,,,,,
4,15/09/2011 14:25:58.875,,,,,,,0,,,...,,,,,,,,,7679.98,0.15


In [43]:
"""
EXERCICE - Dimensions d'un DataFrame
Affichez le nombre de colonnes et de ligne du DataFrame (indice : beaucoup de méthodes sont communes entre numpy et pandas)
"""
print('Nombre de colonnes :', df.shape[1])
print('Nombre de lignes :', df.shape[0])

Nombre de colonnes : 26
Nombre de lignes : 22945


In [44]:
df.size, len(df)

(596570, 22945)

Il est important de comprendre la structure des `DataFrame` pandas. Un DataFrame (abrégé DF) est constitué principalement de :

* Colonnes (_columns_), nommées. Le nom des colonnes est accessible via `df.columns`. Les colonnes peuvent être renommées. On sélectionne une colonne à l'aide de la syntaxe `df['nom_de_la_colonne']` (similaire aux dictionnaires python) ou `df.nom_de_la_colonne` (la syntaxe avec un point ne fonctionne pas si le nom de colonne contient des espaces). On peut accéder à plusieurs colonnes à la fois à l'aide d'une liste de noms de colonnes : `df[['colonne1', 'colonne2']]'`(attention aux doubles crochets).
* Lignes (_rows_), associées à un _index_. L'index par défaut est 0, 1, 2, etc. mais peut être constitué de clés différentes (ex : index temporel). L'index **n'est pas** une colonne. On accède à une ligne de deux façons. Soit via l'index de la ligne : `df.loc[idx]`, soit via le numéro de la ligne (i-ème ligne) : `df.iloc[i]`. On accède à un ensemble de lignes en utilisant une liste ou un _slice_ d'indices, e.g. `df.iloc[2:10]` pour accéder aux lignes 2 à **9**.

La sélection des lignes et colonnes peut être combinée avec loc/iloc. Par exemple, pour sélectionner les lignes 10 à 14 des colonnes EGT_SEL et FMV_SEL :
```
df.loc[10:15, ['EGT_SEL', 'FLIGHT_MOD']]
```
Ou, en utilisant les numéro d'indice associés aux lignes et aux colonnes :
```
df.iloc[10:15, [1, 3]]
```

Les colonnes des DF sont **typées**, à la manière d'une base de données relationnelle, contrairement aux variables python classiques. Les types des colonnes sont accessibles via `df.dtypes`. Les principaux types sont les numériques (int32, int64, float etc.

In [45]:
df.columns

Index(['t', 'EGT_SEL', 'FLIGHT_MOD', 'FMV_SEL', 'HPTC_SEL', 'LPTC_SEL',
       'N1_SEL', 'N2_ACTSEL', 'OIL_P', 'OIL_TEMP', 'PS3_SEL', 'PT2_SEL',
       'P0_SEL', 'TAT', 'TBV_SEL', 'TRA_SEL', 'T25_SEL', 'T3_SEL', 'VBV_SEL',
       'VIB_CN1', 'VIB_CN2', 'VIB_TN1', 'VIB_TN2', 'VSV_SEL', 'WFM_SEL', 'XM'],
      dtype='object')

In [46]:
df.loc[10:15, ['EGT_SEL', 'FLIGHT_MOD']]

Unnamed: 0,EGT_SEL,FLIGHT_MOD
10,0.00234327,
11,1.08032e-07,
12,3.12514e-12,
13,0.0,
14,72.0006,
15,215.996,


In [47]:
"""
EXERCICE - Extraction et suppression des unités
On remarque que la 1ère ligne ne contient pas de données mais les unités de chaque colonne.
Pour la suite des traitements, il faut supprimer cette ligne. On souhaite toutefois garder l'information des unités de chaque colonne.
1. Récupérez les unités et stockez les dans une structure adaptée.
2. Supprimez cette ligne du DataFrame en utilisant la méthode "drop"
"""
units = df.loc[0]
df.drop(0, inplace=True)

In [48]:
print(units)
df.head()

t             datenum
EGT_SEL         deg_C
FLIGHT_MOD          _
FMV_SEL             _
HPTC_SEL            %
LPTC_SEL            %
N1_SEL              %
N2_ACTSEL       %_RPM
OIL_P             psi
OIL_TEMP            _
PS3_SEL           psi
PT2_SEL            mb
P0_SEL            psi
TAT             deg_C
TBV_SEL             %
TRA_SEL           DEG
T25_SEL             _
T3_SEL              _
VBV_SEL           DEG
VIB_CN1             _
VIB_CN2             _
VIB_TN1             _
VIB_TN2             _
VSV_SEL           DEG
WFM_SEL          lb/h
XM               mach
Name: 0, dtype: object


Unnamed: 0,t,EGT_SEL,FLIGHT_MOD,FMV_SEL,HPTC_SEL,LPTC_SEL,N1_SEL,N2_ACTSEL,OIL_P,OIL_TEMP,...,T25_SEL,T3_SEL,VBV_SEL,VIB_CN1,VIB_CN2,VIB_TN1,VIB_TN2,VSV_SEL,WFM_SEL,XM
1,15/09/2011 14:25:58.125,,,,,,,0,,,...,,,,,,,,,,
2,15/09/2011 14:25:58.375,,,,,,,0,,,...,,,,,,,,,,
3,15/09/2011 14:25:58.625,,,,,,,0,,,...,,,,,,,,,,
4,15/09/2011 14:25:58.875,,,,,,,0,,,...,,,,,,,,,7679.98,0.15
5,15/09/2011 14:25:59.125,,,,,,0.0,0,647.998,,...,,,0.0,0.0,0.0,0.0,0.0,0.0,4607.86,0.15


On remarque que toutes les colonnes ont été reconnues comme de type `object`, c'est-à-dire des chaînes de caractères, alors que ce sont des valeurs numériques. Cela est dû à la première ligne contenant les unités. Il faut donc convertir les colonnes en numérique. La colonne 't', quant à elle, doit être convertie en type `datetime`.

In [49]:
df.columns

Index(['t', 'EGT_SEL', 'FLIGHT_MOD', 'FMV_SEL', 'HPTC_SEL', 'LPTC_SEL',
       'N1_SEL', 'N2_ACTSEL', 'OIL_P', 'OIL_TEMP', 'PS3_SEL', 'PT2_SEL',
       'P0_SEL', 'TAT', 'TBV_SEL', 'TRA_SEL', 'T25_SEL', 'T3_SEL', 'VBV_SEL',
       'VIB_CN1', 'VIB_CN2', 'VIB_TN1', 'VIB_TN2', 'VSV_SEL', 'WFM_SEL', 'XM'],
      dtype='object')

In [50]:
df['t'] = pd.to_datetime(df['t'])
df[df.columns[1:]] = df[df.columns[1:]].apply(pd.to_numeric)

In [51]:
df.dtypes

t             datetime64[ns]
EGT_SEL              float64
FLIGHT_MOD           float64
FMV_SEL              float64
HPTC_SEL             float64
LPTC_SEL             float64
N1_SEL               float64
N2_ACTSEL            float64
OIL_P                float64
OIL_TEMP             float64
PS3_SEL              float64
PT2_SEL              float64
P0_SEL               float64
TAT                  float64
TBV_SEL              float64
TRA_SEL              float64
T25_SEL              float64
T3_SEL               float64
VBV_SEL              float64
VIB_CN1              float64
VIB_CN2              float64
VIB_TN1              float64
VIB_TN2              float64
VSV_SEL              float64
WFM_SEL              float64
XM                   float64
dtype: object

In [None]:
"""
Exercice - Index temporel
Comme nos données sont une série temporelle multivariée, on souhaite utiliser un index temporel.
1. Créez une copie de df, appelée df2, à l'aide de la méthode du même nom.
2. Affectez la colonne du temps ('t') en tant qu'indice du DataFrame.
3. Supprimez la colonne 't' du DF résultant.
"""

In [52]:
df.index

Int64Index([    1,     2,     3,     4,     5,     6,     7,     8,     9,
               10,
            ...
            22935, 22936, 22937, 22938, 22939, 22940, 22941, 22942, 22943,
            22944],
           dtype='int64', length=22944)

In [53]:
df2 = df.copy()
df2.index = df2['t']
df2.drop('t', axis=1, inplace=True)
# OU : df2.set_index('t')

In [54]:
df2.head()

Unnamed: 0_level_0,EGT_SEL,FLIGHT_MOD,FMV_SEL,HPTC_SEL,LPTC_SEL,N1_SEL,N2_ACTSEL,OIL_P,OIL_TEMP,PS3_SEL,...,T25_SEL,T3_SEL,VBV_SEL,VIB_CN1,VIB_CN2,VIB_TN1,VIB_TN2,VSV_SEL,WFM_SEL,XM
t,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2011-09-15 14:25:58.125,,,,,,,0.0,,,,...,,,,,,,,,,
2011-09-15 14:25:58.375,,,,,,,0.0,,,,...,,,,,,,,,,
2011-09-15 14:25:58.625,,,,,,,0.0,,,,...,,,,,,,,,,
2011-09-15 14:25:58.875,,,,,,,0.0,,,,...,,,,,,,,,7679.98,0.15
2011-09-15 14:25:59.125,,,,,,0.0,0.0,647.998,,575.982,...,,,0.0,0.0,0.0,0.0,0.0,0.0,4607.86,0.15


In [55]:
df2.index

DatetimeIndex(['2011-09-15 14:25:58.125000', '2011-09-15 14:25:58.375000',
               '2011-09-15 14:25:58.625000', '2011-09-15 14:25:58.875000',
               '2011-09-15 14:25:59.125000', '2011-09-15 14:25:59.375000',
               '2011-09-15 14:25:59.625000', '2011-09-15 14:25:59.875000',
               '2011-09-15 14:26:00.125000', '2011-09-15 14:26:00.375000',
               ...
               '2011-09-15 16:01:31.625000', '2011-09-15 16:01:31.875000',
               '2011-09-15 16:01:32.125000', '2011-09-15 16:01:32.375000',
               '2011-09-15 16:01:32.625000', '2011-09-15 16:01:32.875000',
               '2011-09-15 16:01:33.125000', '2011-09-15 16:01:33.375000',
               '2011-09-15 16:01:33.625000', '2011-09-15 16:01:33.875000'],
              dtype='datetime64[ns]', name='t', length=22944, freq=None)

On constate que pandas a automatiquement reconnu un `DatetimeIndex`, adapté pour des manipulations de séries temporelles (moyennes glissantes, etc) !

**Indispensable :** La doc http://pandas.pydata.org/pandas-docs/stable/api.html#dataframe



### Valeurs manquantes

**NaN = Not a Number**

Les valeurs NaN doivent être éliminées ou imputées (i.e. remplacées par une certaine valeur) avant la suite des traitements. Ce choix dépend du cas d'usage. Dans un premier temps, nous allons apprendre à :

* trouver les données manquantes (méthode `isna`)
* éliminer les données manquantes d'un DataFrame (méthode `dropna`)
* les remplacer par une constante (méthode (`fillna`)

In [None]:
df2.isna()

In [56]:
"""
EXERCICE - La méthode isna
1. Testez la méthode isna sur le DataFrame df2, puis sur une colonne ou une ligne. Que renvoie-t-elle ?
2. En appliquant les méthodes any(axis=...), mean() et max()/idxmax() sur les résultats de isna(), répondez aux questions suivantes :
    2.1 Quelles colonnes contiennent des valeurs manquantes, lesquelles n'en contiennent pas ?
    2.2 Quel est le pourcentage de valeurs manquantes dans le DF (a) par colonne (b) globalement ? Quelle variable contient le plus de NaN ?
    2.3 Quel est le pourcentage d'indices du DF pour lesquels toutes les variables sont présentes ?
"""
print('Question 2.1')
print(df2.isna().any(axis=0))
print('Question 2.2')
print(df2.isna().mean()*100)
print(df2.isna().mean().idxmax())
print(df2.isna().mean().mean()*100)
print('Question 2.3')
print((1-df2.isna().any(axis=1).mean())*100)

Question 2.1
EGT_SEL       True
FLIGHT_MOD    True
FMV_SEL       True
HPTC_SEL      True
LPTC_SEL      True
N1_SEL        True
N2_ACTSEL     True
OIL_P         True
OIL_TEMP      True
PS3_SEL       True
PT2_SEL       True
P0_SEL        True
TAT           True
TBV_SEL       True
TRA_SEL       True
T25_SEL       True
T3_SEL        True
VBV_SEL       True
VIB_CN1       True
VIB_CN2       True
VIB_TN1       True
VIB_TN2       True
VSV_SEL       True
WFM_SEL       True
XM            True
dtype: bool
Question 2.2
EGT_SEL       0.348675
FLIGHT_MOD    0.444561
FMV_SEL       0.444561
HPTC_SEL      0.422768
LPTC_SEL      0.457636
N1_SEL        0.418410
N2_ACTSEL     0.252789
OIL_P         0.379184
OIL_TEMP      0.383543
PS3_SEL       0.300732
PT2_SEL       0.370467
P0_SEL        0.370467
TAT           0.300732
TBV_SEL       0.296374
TRA_SEL       0.300732
T25_SEL       0.470711
T3_SEL        0.470711
VBV_SEL       0.292015
VIB_CN1       0.292015
VIB_CN2       0.283298
VIB_TN1       0.283298
VIB_

In [None]:
df.dropna?

In [57]:
"""
EXERCICE - La méthode dropna
La méthode dropna permet d'éliminer les valeurs manquantes (NaN). Lisez d'abord sa documentation.
1. À quoi correspondent les arguments "axis" et "how" ?
2. Éliminez toutes les lignes contenant uniquement des valeurs manquantes.
3. Éliminez toutes les lignes contenant au moins une valeur manquante. Combien y a-t-il de lignes de différence ?
4. Éliminez toutes les colonnes contenant au moins une valeur manquante.
"""
df2.dropna(how='all')
df2.dropna(how='any')
print(df2.dropna(how='all').shape[0]-df2.dropna(how='any').shape[0])
df2.dropna(axis=1);


64


In [58]:
"""
EXERCICE - La méthode fillna
La méthode dropna permet d'imputer les valeurs manquantes (NaN). Lisez d'abord sa documentation.
1. Quelles sont les différentes stratégies de remplissage des valeurs manquantes ?
2. Imputez les valeurs manquantes de la colonne age du DF donné en exemple par :
    - 0
    - la dernière valeur précédente/suivante valide
    - la moyenne
    - la valeur la plus courante (mode)
3. Quel est le meilleur choix dans ce cas ? Et pour le cas d'une variable temporelle, par exemple la température 'EGT_SEL' de notre jeu de données ?
"""
exemple = pd.DataFrame({'nom': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [24, pd.np.nan, 99, 24]})

print(exemple)
print()
print(exemple['age'].fillna(0))
print(exemple['age'].fillna(method='ffill'))
print(exemple['age'].fillna(method='bfill'))
print(exemple['age'].fillna(exemple['age'].mean()))
print(exemple['age'].fillna(exemple['age'].dropna().mode()[0]))

    age      nom
0  24.0    Alice
1   NaN      Bob
2  99.0  Charlie
3  24.0    David

0    24.0
1     0.0
2    99.0
3    24.0
Name: age, dtype: float64
0    24.0
1    24.0
2    99.0
3    24.0
Name: age, dtype: float64
0    24.0
1    99.0
2    99.0
3    24.0
Name: age, dtype: float64
0    24.0
1    49.0
2    99.0
3    24.0
Name: age, dtype: float64
0    24.0
1    24.0
2    99.0
3    24.0
Name: age, dtype: float64


### Pour aller plus loin

Il est possible de sous-échantillonner un DF avec un indice temporel, en indiquant une fréquence à la méthode `asfreq` (http://pandas.pydata.org/pandas-docs/stable/generated/pandas.PeriodIndex.asfreq.html#pandas.PeriodIndex.asfreq).

In [59]:
df3 = df2.asfreq('1s')

In [60]:
df2.index

DatetimeIndex(['2011-09-15 14:25:58.125000', '2011-09-15 14:25:58.375000',
               '2011-09-15 14:25:58.625000', '2011-09-15 14:25:58.875000',
               '2011-09-15 14:25:59.125000', '2011-09-15 14:25:59.375000',
               '2011-09-15 14:25:59.625000', '2011-09-15 14:25:59.875000',
               '2011-09-15 14:26:00.125000', '2011-09-15 14:26:00.375000',
               ...
               '2011-09-15 16:01:31.625000', '2011-09-15 16:01:31.875000',
               '2011-09-15 16:01:32.125000', '2011-09-15 16:01:32.375000',
               '2011-09-15 16:01:32.625000', '2011-09-15 16:01:32.875000',
               '2011-09-15 16:01:33.125000', '2011-09-15 16:01:33.375000',
               '2011-09-15 16:01:33.625000', '2011-09-15 16:01:33.875000'],
              dtype='datetime64[ns]', name='t', length=22944, freq=None)

In [61]:
df3.index

DatetimeIndex(['2011-09-15 14:25:58.125000', '2011-09-15 14:25:59.125000',
               '2011-09-15 14:26:00.125000', '2011-09-15 14:26:01.125000',
               '2011-09-15 14:26:02.125000', '2011-09-15 14:26:03.125000',
               '2011-09-15 14:26:04.125000', '2011-09-15 14:26:05.125000',
               '2011-09-15 14:26:06.125000', '2011-09-15 14:26:07.125000',
               ...
               '2011-09-15 16:01:24.125000', '2011-09-15 16:01:25.125000',
               '2011-09-15 16:01:26.125000', '2011-09-15 16:01:27.125000',
               '2011-09-15 16:01:28.125000', '2011-09-15 16:01:29.125000',
               '2011-09-15 16:01:30.125000', '2011-09-15 16:01:31.125000',
               '2011-09-15 16:01:32.125000', '2011-09-15 16:01:33.125000'],
              dtype='datetime64[ns]', name='t', length=5736, freq='S')

In [62]:
# Quelle est maintenant la taille du DataFrame ?
df3.shape

(5736, 25)

---

<img src="rc/44582958_1164602683690726_9096620181785935872_n.jpg" />