# TD 1 | Introduction à Python pour l'analyse de données

---

Objectifs du TD :

* découvrir Python
* se familiariser avec le langage et le notebook Jupyter
* découvrir et maîtriser les bases des librairies de calcul numérique et d'analyse de données numpy et pandas

---

##  Installation de Python et Jupyter

### Windows

#### Installation Python

Vérifiez si vous avez déjà une version de python installée en ouvrant l'invite de commande et en exécutant l'une des deux commandes python suivantes : 
> python --version   

> python3 --version 

Si ce n'est pas le cas, vous pouvez procéder à l'installation comme suit :
 
1. Allez sur le site web : https://www.python.org/downloads/windows/
2. Cliquez sur "Latest Python 3 Release - Python 3.10.7".
3. Si votre ordinateur utilise une version 64 bits de Windows, téléchargez le Windows installer (64-bit). Sinon, téléchargez Windows installer (32-bit).
4. Après avoir téléchargé le Windows installer, vous devez l'exécuter (double-cliquez dessus) et suivre les instructions qui s'y trouvent.

NB : Au début de l'installation, assurez-vous de cocher la case "Add Python 3.10 to PATH" ou "Add Python to your environment variables" avant de cliquer sur "Install Now".


#### Installation Jupyter

Ouvrir l'invite de commande et exécuter la commande suivante en remplaçant Pseudo_de_votre_user par le nom de l'utilisateur de votre session : 
> cd "C:\Users\Pseudo_de_votre_user\AppData\Local\Programs\Python\Python310\Scripts"

Ensuite, executer la commande suivante :
> pip install jupyterlab

Une fois l'installation terminée avec succès, vous pouvez lancer JupyterLab avec la commande suivante : 
> jupyter-lab


### Linux & Mac OS

#### Installation Python

Normalement, Python est préinstallé sur la quasi-totalité des distributions. Vous n'avez pas besoin de le réinstaller, mais vous pouvez mettre à jour la version si vous le souhaitez.

Vérifiez la version Python installée en exécutant l'une des deux commandes python suivantes sur votre terminal : 
> python --version   

> python3 --version 

#### Installation Jupyter

Vérifier que la commande pip3 est installée. Sinon, l'installer (exemple pour Debian/Ubuntu/Linux Mint, à adapter selon votre distribution) :

> sudo apt install python3-pip

Ensuite, installer JupyterLab en executant la commande suivante:
> pip3 install -U jupyterlab

Enfin, placez-vous dans votre dossier de travail et lancez un notebook :

> jupyter-lab

## Syntaxe et Concepts de base

In [None]:
a = 33
b = 9
c = 2.0

In [None]:
a+b

In [None]:
print(a+b)

In [None]:
type(a)

In [None]:
type(c)

In [None]:
a = 'hello'
type(a)

In [None]:
# Affiche les entiers pairs de 1 à 10
for i in range(1, 11):
    if i % 2 == 0:
        print(i)

### List

In [None]:
l = [1,2,3,4,4]

#### len, max, min

In [None]:
print('longueur de la liste =', len(l))
print("Valeur max de l =", max(l))
print("Valeur min de l =", min(l))

#### Ajout d'un élément d'une liste

In [None]:
l.append(6)
l

In [None]:
l = l+[7]
l

In [None]:
l+=[7]
l

#### Modifier un élément

In [None]:
l[0] = 29
l

In [None]:
l.insert(1,9)
l

#### Suppression des éléments d'une liste

In [None]:
l.remove(7)
l

In [None]:
l.pop(2)
l

#### Trier une liste

In [None]:
l.sort(reverse=True)
print(l)

In [None]:
l_sorted = sorted(l)
print('Sorted list:', l_sorted)

#### Liste non homogène

In [None]:
l = [1, 'un', 2]
l.append('deux')
l += [3, 'trois']
print(type(l))
l

In [None]:
a = l[3], l[-1]
print(type(a))
a

In [None]:
a[0]

In [None]:
[2**p for p in range(10)] # "Compréhension de liste"

In [None]:
# Liste des entiers pairs de 1 à 10
l = [i for i in range(1, 11) if i % 2 == 0]
print(l)

### Tuple

In [None]:
p = tuple(range(1,5))
print("p=", p)
print("p[0] = ", p[0])

In [None]:
p = ([1,2],5)

print(p)

p[0][0] = 8

print(p)

In [None]:
# Les éléments du tuple sont fixes
p[0] = 6

In [None]:
p1 = (1,2)
p2 = (2,1)

print(p1 == p2)

### Set

In [None]:
s = set((1,2,'l'))
print(s)

s = {4,5,9,9,9,9}
print(s)

In [None]:
#Ajout d'un élément au set
s.add(6)
print(s)

In [None]:
#Suppression d'un élément du set
s.discard(5)
print(s)

In [None]:
s.clear()
print(s)

In [None]:
A = {1,2,3,4,5}
B = {2,4,6,7}
C = {1,2,3}

In [None]:
#Intersection
print("Intersection de A et B =", A&B)

#Union
print("Union entre A et B =", A|B)

#Exclusion
print("Exclusion de B de A =", A-B)

#Différence symétrique
print("Diff sym. A et B =", A^B)

In [None]:
print("B est inclus strict dans A") if A>B else print(False)
print("C est inclus dans A") if A>=C else print(False)

### Dictionary

In [None]:
# 1ère façon de créer un dictionnaire
dic = {"key1": "value1", "answer": 42}
# 2ème façon de créer un dictionnaire
dic2 = dict(key1="value1", answer=42)
# 3ème façon de créer un dictionnaire
dic3 = dict([("key1","value1"), ("answer",42)])
print(dic)
print(dic2)
print(dic3)

dic["answer"]

In [None]:
dic['new'] = [1,2,3]
dic

In [None]:
dic.keys()

In [None]:
dic.items()

In [None]:
dic.values()

In [None]:
a,b,c = dic.items()
print(a)

## Programmation Orientée Objet

In [None]:
"""
Exemple de classe en Python
"""
class Moteur:
    
    # Constructeur
    def __init__(self, esn, panne=False):
        self.esn = esn
        self.panne = panne
    
    # Méthodes
    def dire_bonjour(self):
        print('Bonjour, mon numéro de série est ' + self.esn)
    
    def fonctionne(self):
        return not self.panne 
    

In [None]:
mot1 = Moteur('420912')
mot2 = Moteur(panne=True, esn='420913')

mot1.dire_bonjour()
print(mot1.fonctionne())

mot1.panne = True
print(mot1.fonctionne())

print('\n')
mot2.dire_bonjour()
print(mot2.fonctionne())

### Méthode récurcive vs Méthode itérative

In [None]:
# Méthode récursive
def fact1(n):
    if n == 0:
        return 1
    else:
        return n*fact1(n-1)

# Méthode itérative
def fact2(n):
    s=1
    for i in range(1,n+1):
        s*=i
    return s

print(fact1(5))
print(fact2(5))

In [None]:
"""
App.1 : Ecrire une fonction qui retourne le plus grand commun diviseur (pgcd) entre deux nombres a et b.
"""

In [None]:
"""
App.1 : Correction
"""

#Méthode itérative
def pgcd1(a,b):
    while (a%b) != 0:
        s = a%b
        a = b
        b = s
    return b


#Méthode récurcive
def pgcd2(a,b):
    if a==b : return a 
    if a<b : a,b = b,a
    return pgcd2(a-b,b)

a = 230
b = 25

print("pgcd1(a,b) = ", pgcd1(a,b))
print("pgcd2(a,b) = ", pgcd2(a,b))

## Libraries

> pip install numpy pandas

> pip3 install -U numpy pandas

### Math

In [None]:
import math

In [None]:
x = 4

print("sqrt(x) =", math.sqrt(x))
print("cos(x) =", math.cos(x))
print("sin(x) =", math.sin(x))
print("factorial(x) =", math.factorial(x))

### Numpy

In [None]:
import numpy as np

In [None]:
# Création d'un array à partir d'une liste
v = np.array([1.0, 2.0, 3.0])
# Création d'un array de taille (n,m) initialisé à 0
z = np.zeros((3,4))
z

In [None]:
# Taille d'un array
print(z.shape)
print(v.shape)

In [None]:
# Opérations courantes
A = np.ones((3,3)) + np.eye(3)
print('A = ', A)
print('Av = ', np.dot(A,v))
print('3*A = ', 3*A)
print('A*v = ', A*v)
print('A + 1 = ', A+1)
print('A + v = ', A+v)
print('A^2 = ', np.square(A))

In [None]:
B = np.array([5, 2, 9, 1])

print(np.sort(B))

#### Compatif de performance : produit matriciel


In [3]:
import random

In [None]:
# Création d'une matrice aléatoire sous forme de liste de listes
taille = 2
A = [[random.random() for _ in range(taille)] for _ in range(taille)]

In [None]:
print(A)

In [None]:
"""
EXERCICE - Afficher un tuple contenant les dimensions de la matrice A
"""
raise NotImplementedError

In [None]:
(np.size(A,0), np.size(A,1))

$$ (AB)_{ij} = \sum_k A_{ik} B_{kj} $$

In [None]:
"""
EXERCICE - Implémenter le produit matriciel de 2 matrices sous forme de listes de listes python
"""
raise NotImplementedError

In [None]:
def produit(A,B):
    l = []
    res = np.dot(np.array(A),(np.array(B)))
    for i in range(np.size(res, 0)):
        l.append(res[i].tolist())
    return l


In [None]:
# Vérification
assert(produit([[1, 2], [3, 4]], [[1, 2], [3, 4]]) == [[7, 10], [15, 22]])

In [None]:
produit(A, A)

In [None]:
# Sortons le chronomètre
%timeit produit(A, A)

In [None]:
# Et maintenant, avec numpy !
import numpy as np

In [None]:
A2 = np.array(A)
print(A2)

In [None]:
%timeit np.dot(A, A)

EXERCICE - Remplissez le tableau suivant avec les durées d'exécution constatées :

(Conseil : pour la taille 3000, essayez UNIQUEMENT avec numpy)

Taille | Python | numpy
-------|--------|-------
30     | XXX    | XXX
300    | XXX    | XXX
3000   | XXX    | XXX 

###  Pandas

In [1]:
import pandas as pd

In [2]:
df_exemple = pd.DataFrame({"ESN": ["E420912", "E420913", "E420914"], "panne": [False, False, True]})
df_exemple

Unnamed: 0,ESN,panne
0,E420912,False
1,E420913,False
2,E420914,True


#### Lecture et prétraitement de données


In [None]:
#!git clone https://github.com/MadaneA/MACS3-Statistiques-Descriptives-TDs.git

In [3]:
import os
os.chdir('MACS3-Statistiques-Descriptives-TDs')

FileNotFoundError: [Errno 2] No such file or directory: 'MACS3-Statistiques-Descriptives-TDs'

In [4]:
os.getcwd()

'/home/valentin/Documents/Cours/MACS/MACS3/madane/MACS3-Statistiques-Descriptives-TDs/TD1'

In [5]:
# Chargement d'un fichier CSV ou Excel
df = pd.read_csv("../data/Vol010.csv")
# Affichage des 5 premières lignes
df.head()

Unnamed: 0,t,EGT_SEL,FLIGHT_MOD,FMV_SEL,HPTC_SEL,LPTC_SEL,N1_SEL,N2_ACTSEL,OIL_P,OIL_TEMP,...,T25_SEL,T3_SEL,VBV_SEL,VIB_CN1,VIB_CN2,VIB_TN1,VIB_TN2,VSV_SEL,WFM_SEL,XM
0,datenum,deg_C,_,_,%,%,%,%_RPM,psi,_,...,_,_,DEG,_,_,_,_,DEG,lb/h,mach
1,15/09/2011 14:25:58.125,,,,,,,0,,,...,,,,,,,,,,
2,15/09/2011 14:25:58.375,,,,,,,0,,,...,,,,,,,,,,
3,15/09/2011 14:25:58.625,,,,,,,0,,,...,,,,,,,,,,
4,15/09/2011 14:25:58.875,,,,,,,0,,,...,,,,,,,,,7679.98,0.15


In [6]:
"""
EXERCICE - Dimensions d'un DataFrame
Affichez le nombre de colonnes et de ligne du DataFrame (indice : beaucoup de méthodes sont communes entre numpy et pandas)
"""
#raise NotImplementedError
print('Nombre de colonnes :', len(df.columns) )
print('Nombre de lignes :', len(df.index) )

Nombre de colonnes : 26
Nombre de lignes : 22945


In [7]:
df.size, len(df)

(596570, 22945)

In [8]:
df.columns

Index(['t', 'EGT_SEL', 'FLIGHT_MOD', 'FMV_SEL', 'HPTC_SEL', 'LPTC_SEL',
       'N1_SEL', 'N2_ACTSEL', 'OIL_P', 'OIL_TEMP', 'PS3_SEL', 'PT2_SEL',
       'P0_SEL', 'TAT', 'TBV_SEL', 'TRA_SEL', 'T25_SEL', 'T3_SEL', 'VBV_SEL',
       'VIB_CN1', 'VIB_CN2', 'VIB_TN1', 'VIB_TN2', 'VSV_SEL', 'WFM_SEL', 'XM'],
      dtype='object')

Les colonnes des DF sont typées, à la manière d'une base de données relationnelle, contrairement aux variables python classiques. Les types des colonnes sont accessibles via df.dtypes. Les principaux types sont les numériques (int32, int64, float etc.

In [9]:
df.loc[10:15, ['EGT_SEL', 'FLIGHT_MOD']]

Unnamed: 0,EGT_SEL,FLIGHT_MOD
10,0.00234327,
11,1.08032e-07,
12,3.12514e-12,
13,0.0,
14,72.0006,
15,215.996,


In [10]:
"""
EXERCICE - Extraction et suppression des unités
On remarque que la 1ère ligne ne contient pas de données mais les unités de chaque colonne.
Pour la suite des traitements, il faut supprimer cette ligne. On souhaite toutefois garder l'information des unités de chaque colonne.
1. Récupérez les unités et stockez les dans une structure adaptée.
2. Supprimez cette ligne du DataFrame en utilisant la méthode "drop"
"""
#raise NotImplementedError

'\nEXERCICE - Extraction et suppression des unités\nOn remarque que la 1ère ligne ne contient pas de données mais les unités de chaque colonne.\nPour la suite des traitements, il faut supprimer cette ligne. On souhaite toutefois garder l\'information des unités de chaque colonne.\n1. Récupérez les unités et stockez les dans une structure adaptée.\n2. Supprimez cette ligne du DataFrame en utilisant la méthode "drop"\n'

In [11]:
units = df.loc[0]
df.drop(0, inplace=True)
df.reset_index(inplace=True)

In [13]:
print(units)
df.head()

t             datenum
EGT_SEL         deg_C
FLIGHT_MOD          _
FMV_SEL             _
HPTC_SEL            %
LPTC_SEL            %
N1_SEL              %
N2_ACTSEL       %_RPM
OIL_P             psi
OIL_TEMP            _
PS3_SEL           psi
PT2_SEL            mb
P0_SEL            psi
TAT             deg_C
TBV_SEL             %
TRA_SEL           DEG
T25_SEL             _
T3_SEL              _
VBV_SEL           DEG
VIB_CN1             _
VIB_CN2             _
VIB_TN1             _
VIB_TN2             _
VSV_SEL           DEG
WFM_SEL          lb/h
XM               mach
Name: 0, dtype: object


Unnamed: 0,index,t,EGT_SEL,FLIGHT_MOD,FMV_SEL,HPTC_SEL,LPTC_SEL,N1_SEL,N2_ACTSEL,OIL_P,...,T25_SEL,T3_SEL,VBV_SEL,VIB_CN1,VIB_CN2,VIB_TN1,VIB_TN2,VSV_SEL,WFM_SEL,XM
0,1,15/09/2011 14:25:58.125,,,,,,,0,,...,,,,,,,,,,
1,2,15/09/2011 14:25:58.375,,,,,,,0,,...,,,,,,,,,,
2,3,15/09/2011 14:25:58.625,,,,,,,0,,...,,,,,,,,,,
3,4,15/09/2011 14:25:58.875,,,,,,,0,,...,,,,,,,,,7679.98,0.15
4,5,15/09/2011 14:25:59.125,,,,,,0.0,0,647.998,...,,,0.0,0.0,0.0,0.0,0.0,0.0,4607.86,0.15


On remarque que toutes les colonnes ont été reconnues comme de type object, c'est-à-dire des chaînes de caractères, alors que ce sont des valeurs numériques. Cela est dû à la première ligne contenant les unités. Il faut donc convertir les colonnes en numérique. La colonne 't', quant à elle, doit être convertie en type datetime.

In [13]:
df['t'] = pd.to_datetime(df['t'])
df[df.columns[1:]] = df[df.columns[1:]].apply(pd.to_numeric)

  df['t'] = pd.to_datetime(df['t'])


In [14]:
df.dtypes

index           int64
t               int64
EGT_SEL       float64
FLIGHT_MOD    float64
FMV_SEL       float64
HPTC_SEL      float64
LPTC_SEL      float64
N1_SEL        float64
N2_ACTSEL     float64
OIL_P         float64
OIL_TEMP      float64
PS3_SEL       float64
PT2_SEL       float64
P0_SEL        float64
TAT           float64
TBV_SEL       float64
TRA_SEL       float64
T25_SEL       float64
T3_SEL        float64
VBV_SEL       float64
VIB_CN1       float64
VIB_CN2       float64
VIB_TN1       float64
VIB_TN2       float64
VSV_SEL       float64
WFM_SEL       float64
XM            float64
dtype: object

In [18]:
"""
Exercice - Index temporel
Comme nos données sont une série temporelle multivariée, on souhaite utiliser un index temporel.
1. Créez une copie de df, appelée df2, à l'aide de la méthode du même nom.
2. Affectez la colonne du temps ('t') en tant qu'indice du DataFrame.
3. Supprimez la colonne 't' du DF résultant.
"""
#raise NotImplementedError

"\nExercice - Index temporel\nComme nos données sont une série temporelle multivariée, on souhaite utiliser un index temporel.\n1. Créez une copie de df, appelée df2, à l'aide de la méthode du même nom.\n2. Affectez la colonne du temps ('t') en tant qu'indice du DataFrame.\n3. Supprimez la colonne 't' du DF résultant.\n"

In [39]:
df2 = df.copy().reset_index()
df2.set_index('t', inplace=True)
df2.drop(columns='index', inplace=True)
df2

Unnamed: 0_level_0,level_0,EGT_SEL,FLIGHT_MOD,FMV_SEL,HPTC_SEL,LPTC_SEL,N1_SEL,N2_ACTSEL,OIL_P,OIL_TEMP,...,T25_SEL,T3_SEL,VBV_SEL,VIB_CN1,VIB_CN2,VIB_TN1,VIB_TN2,VSV_SEL,WFM_SEL,XM
t,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
15/09/2011 14:25:58.125,0,,,,,,,0,,,...,,,,,,,,,,
15/09/2011 14:25:58.375,1,,,,,,,0,,,...,,,,,,,,,,
15/09/2011 14:25:58.625,2,,,,,,,0,,,...,,,,,,,,,,
15/09/2011 14:25:58.875,3,,,,,,,0,,,...,,,,,,,,,7679.98,0.15
15/09/2011 14:25:59.125,4,,,,,,0,0,647.998,,...,,,0,0,0,0,0,0,4607.86,0.15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15/09/2011 16:01:32.875,22939,,,,,,,,,,...,,,,,,,,,,
15/09/2011 16:01:33.125,22940,,,,,,,,,,...,,,,,,,,,,
15/09/2011 16:01:33.375,22941,,,,,,,,,,...,,,,,,,,,,
15/09/2011 16:01:33.625,22942,,,,,,,,,,...,,,,,,,,,,


On constate que pandas a automatiquement reconnu un DatetimeIndex, adapté pour des manipulations de séries temporelles (moyennes glissantes, etc) !

### Valeurs manquantes

**NaN = Not a Number**

Les valeurs NaN doivent être éliminées ou imputées (i.e. remplacées par une certaine valeur) avant la suite des traitements. Ce choix dépend du cas d'usage. Dans un premier temps, nous allons apprendre à :

* trouver les données manquantes (méthode `isna`)
* éliminer les données manquantes d'un DataFrame (méthode `dropna`)
* les remplacer par une constante (méthode (`fillna`)

In [40]:
df2

Unnamed: 0_level_0,level_0,EGT_SEL,FLIGHT_MOD,FMV_SEL,HPTC_SEL,LPTC_SEL,N1_SEL,N2_ACTSEL,OIL_P,OIL_TEMP,...,T25_SEL,T3_SEL,VBV_SEL,VIB_CN1,VIB_CN2,VIB_TN1,VIB_TN2,VSV_SEL,WFM_SEL,XM
t,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
15/09/2011 14:25:58.125,0,,,,,,,0,,,...,,,,,,,,,,
15/09/2011 14:25:58.375,1,,,,,,,0,,,...,,,,,,,,,,
15/09/2011 14:25:58.625,2,,,,,,,0,,,...,,,,,,,,,,
15/09/2011 14:25:58.875,3,,,,,,,0,,,...,,,,,,,,,7679.98,0.15
15/09/2011 14:25:59.125,4,,,,,,0,0,647.998,,...,,,0,0,0,0,0,0,4607.86,0.15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15/09/2011 16:01:32.875,22939,,,,,,,,,,...,,,,,,,,,,
15/09/2011 16:01:33.125,22940,,,,,,,,,,...,,,,,,,,,,
15/09/2011 16:01:33.375,22941,,,,,,,,,,...,,,,,,,,,,
15/09/2011 16:01:33.625,22942,,,,,,,,,,...,,,,,,,,,,


In [41]:
"""
EXERCICE - La méthode isna
1. Testez la méthode isna sur le DataFrame df2, puis sur une colonne ou une ligne. Que renvoie-t-elle ?
2. En appliquant les méthodes any(axis=...), mean() et max()/idxmax() sur les résultats de isna(), répondez aux questions suivantes :
    2.1 Quelles colonnes contiennent des valeurs manquantes, lesquelles n'en contiennent pas ?
    2.2 Quel est le pourcentage de valeurs manquantes dans le DF (a) par colonne (b) globalement ? Quelle variable contient le plus de NaN ?
    2.3 Quel est le pourcentage d'indices du DF pour lesquels toutes les variables sont présentes ?
"""
print('Question 2.1')
ans = df2.isna().any(axis=0)
ans # les variables avec l'information false correspondent aux variables qui n'ont pas de nan dans leur colonne


Question 2.1


level_0       False
EGT_SEL        True
FLIGHT_MOD     True
FMV_SEL        True
HPTC_SEL       True
LPTC_SEL       True
N1_SEL         True
N2_ACTSEL      True
OIL_P          True
OIL_TEMP       True
PS3_SEL        True
PT2_SEL        True
P0_SEL         True
TAT            True
TBV_SEL        True
TRA_SEL        True
T25_SEL        True
T3_SEL         True
VBV_SEL        True
VIB_CN1        True
VIB_CN2        True
VIB_TN1        True
VIB_TN2        True
VSV_SEL        True
WFM_SEL        True
XM             True
dtype: bool

2.1 Réponse : seul la colonnes level_0 ne contient aucun nan. Toutes les autres en contiennent.

In [56]:
print('Question 2.2')
print(f'Pourcentage max par colonne : {(df2.isna()*1).mean().idxmax()}')
print(f'Pourcentage max par ligne corresond au temps {(df2.isna()*1).mean(axis=1).idxmax()}')
print(f'Pourcentage de nan dans tout le dataframe {(df2.isna()*1).mean().mean()}')  

Question 2.2
Pourcentage max par colonne : T25_SEL
Pourcentage max par ligne corresond au temps 15/09/2011 14:28:10.125
Pourcentage de nan dans tout le dataframe 0.003335881343203519


In [61]:
(df2.isna().any(axis=1)*1).mean()

0.005186541143654114

In [None]:

print('Question 2.3')
print(f'le pourcentage dindices du DF pour lesquels toutes les variables sont présentes : {1-(df2.isna().any(axis=1)*1).mean()}')
# (df2.isna().any(axis=1)*1) renvoie 1 si il existe une valeur absente ligne par ligne. On fait la moyenne pour obtenir le pourcentage d'indice pour lequel il y a au moins une valeur absente
# on passse ensuite au complementaire

In [None]:
"""
EXERCICE - La méthode dropna
La méthode dropna permet d'éliminer les valeurs manquantes (NaN). Lisez d'abord sa documentation.
1. À quoi correspondent les arguments "axis" et "how" ?
2. Éliminez toutes les lignes contenant uniquement des valeurs manquantes.
3. Éliminez toutes les lignes contenant au moins une valeur manquante. Combien y a-t-il de lignes de différence ?
4. Éliminez toutes les colonnes contenant au moins une valeur manquante.
"""
raise NotImplementedError

1. L'argument axis determine si l'on souhaite supprimer des colonnes ou des lignes du dataframe.L'argument how spécifie si l'on supprime la ligne si une seule valeur n'est pas présente (any) ou si c'est le cas dans tout la ligne (resp la colonne)

In [69]:
print('Question 2')
qte_all = df2.dropna(axis = 0, how = 'all')
qte_all

Question 2


Unnamed: 0_level_0,level_0,EGT_SEL,FLIGHT_MOD,FMV_SEL,HPTC_SEL,LPTC_SEL,N1_SEL,N2_ACTSEL,OIL_P,OIL_TEMP,...,T25_SEL,T3_SEL,VBV_SEL,VIB_CN1,VIB_CN2,VIB_TN1,VIB_TN2,VSV_SEL,WFM_SEL,XM
t,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
15/09/2011 14:25:58.125,0,,,,,,,0,,,...,,,,,,,,,,
15/09/2011 14:25:58.375,1,,,,,,,0,,,...,,,,,,,,,,
15/09/2011 14:25:58.625,2,,,,,,,0,,,...,,,,,,,,,,
15/09/2011 14:25:58.875,3,,,,,,,0,,,...,,,,,,,,,7679.98,0.15
15/09/2011 14:25:59.125,4,,,,,,0,0,647.998,,...,,,0,0,0,0,0,0,4607.86,0.15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15/09/2011 16:01:32.875,22939,,,,,,,,,,...,,,,,,,,,,
15/09/2011 16:01:33.125,22940,,,,,,,,,,...,,,,,,,,,,
15/09/2011 16:01:33.375,22941,,,,,,,,,,...,,,,,,,,,,
15/09/2011 16:01:33.625,22942,,,,,,,,,,...,,,,,,,,,,


In [67]:
print('Question 3')
qte_any = df2.dropna(axis = 0, how = 'any')
qte_any

Question 3


Unnamed: 0_level_0,level_0,EGT_SEL,FLIGHT_MOD,FMV_SEL,HPTC_SEL,LPTC_SEL,N1_SEL,N2_ACTSEL,OIL_P,OIL_TEMP,...,T25_SEL,T3_SEL,VBV_SEL,VIB_CN1,VIB_CN2,VIB_TN1,VIB_TN2,VSV_SEL,WFM_SEL,XM
t,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
15/09/2011 14:26:02.875,19,335.984,1,0,0,0,0,0,0,177.374,...,-128,0,0,0,0,0,0,0,7679.84,0.15
15/09/2011 14:26:03.125,20,239.986,1,0,0,0,0,0,0,133.624,...,-128,0,0,0,0,0,0,0,4607.86,0.15
15/09/2011 14:26:03.375,21,167.991,1,0,0,0,0,0,0,89.8743,...,-128,0,0,0,0,0,0,0,1535.87,0.15
15/09/2011 14:26:03.625,22,119.994,1,0,0,0,0,0,0,68,...,-128,0,0,0,0,0,0,0,0,0.15
15/09/2011 14:26:03.875,23,72.0011,1,0,0,0,0,0,0,68,...,-128,0,0,0,0,0,0,0,0,0.15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15/09/2011 16:01:19.875,22887,230.825,1,-12.375,0,0,0,0,0,69,...,34.5,178,0,0,0,0,0,0,0,0.15
15/09/2011 16:01:20.125,22888,137.477,1,-12.375,0,0,0,0,0,69,...,34.5,178,0,0,0,0,0,0,0,0.15
15/09/2011 16:01:20.375,22889,113.453,1,-12.375,0,0,0,0,0,69,...,34.5,178,0,0,0,0,0,0,0,0.15
15/09/2011 16:01:20.625,22890,158.808,1,-12.375,0,0,0,0,0,69,...,34.5,178,0,0,0,0,0,0,0,0.15


In [72]:
print(f'difference de nombre de parametre supprimes {len(qte_all)-len(qte_any)}')

difference de nombre de parametre supprimes 119


On élimine beaucoup plus de données lorsque l'on utilise how = "all". Cela correspond à toutes les lignes où l'on a aucune information. La donnée est donc inexistante

In [79]:
print('question4')
# Éliminez toutes les colonnes contenant au moins une valeur manquante.
df2.dropna(axis = 1, how = 'any')

question4


Unnamed: 0_level_0,level_0
t,Unnamed: 1_level_1
15/09/2011 14:25:58.125,0
15/09/2011 14:25:58.375,1
15/09/2011 14:25:58.625,2
15/09/2011 14:25:58.875,3
15/09/2011 14:25:59.125,4
...,...
15/09/2011 16:01:32.875,22939
15/09/2011 16:01:33.125,22940
15/09/2011 16:01:33.375,22941
15/09/2011 16:01:33.625,22942


Le résultat était évident étant donné la question 2.1 de l'exercice précédent. 

In [None]:
"""
EXERCICE - La méthode fillna
La méthode dropna permet d'imputer les valeurs manquantes (NaN). Lisez d'abord sa documentation.
1. Quelles sont les différentes stratégies de remplissage des valeurs manquantes ?
2. Imputez les valeurs manquantes de la colonne age du DF donné en exemple par :
    - 0
    - la dernière valeur précédente/suivante valide
    - la moyenne
    - la valeur la plus courante (mode)
3. Quel est le meilleur choix dans ce cas ? Et pour le cas d'une variable temporelle, par exemple la température 'EGT_SEL' de notre jeu de données ?
"""
exemple = pd.DataFrame({'nom': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [24, pd.np.nan, 99, 24]})

raise NotImplementedError

1. La méthode fillna permet de remplacer les nan par des valeurs que l'on peut fixer. Il existe plusieurs stratégies de remplissage :
- bfill/backfill : utilise la prochaine valeur disponible pour remplir le trou
- ffill : utilise la valeur précédente pour remplir le trou
- a défaut on peut fixer nous même cette valeur. 

In [80]:
print('2 . Remplir avec des zeros :')
df2.fillna(0)

2 . Remplir avec des zeros :


Unnamed: 0_level_0,level_0,EGT_SEL,FLIGHT_MOD,FMV_SEL,HPTC_SEL,LPTC_SEL,N1_SEL,N2_ACTSEL,OIL_P,OIL_TEMP,...,T25_SEL,T3_SEL,VBV_SEL,VIB_CN1,VIB_CN2,VIB_TN1,VIB_TN2,VSV_SEL,WFM_SEL,XM
t,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
15/09/2011 14:25:58.125,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15/09/2011 14:25:58.375,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15/09/2011 14:25:58.625,2,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15/09/2011 14:25:58.875,3,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,7679.98,0.15
15/09/2011 14:25:59.125,4,0,0,0,0,0,0,0,647.998,0,...,0,0,0,0,0,0,0,0,4607.86,0.15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15/09/2011 16:01:32.875,22939,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15/09/2011 16:01:33.125,22940,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15/09/2011 16:01:33.375,22941,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15/09/2011 16:01:33.625,22942,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [82]:
print('2 . Remplir avec la valeur precedente :')
df2.fillna(method='bfill') # resp bfill

2 . Remplir avec la valeur precedente :


  df2.fillna(method='bfill')


Unnamed: 0_level_0,level_0,EGT_SEL,FLIGHT_MOD,FMV_SEL,HPTC_SEL,LPTC_SEL,N1_SEL,N2_ACTSEL,OIL_P,OIL_TEMP,...,T25_SEL,T3_SEL,VBV_SEL,VIB_CN1,VIB_CN2,VIB_TN1,VIB_TN2,VSV_SEL,WFM_SEL,XM
t,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
15/09/2011 14:25:58.125,0,167.995,1,0,0,0,0,0,647.998,746.124,...,-128,0,0,0,0,0,0,0,7679.98,0.15
15/09/2011 14:25:58.375,1,167.995,1,0,0,0,0,0,647.998,746.124,...,-128,0,0,0,0,0,0,0,7679.98,0.15
15/09/2011 14:25:58.625,2,167.995,1,0,0,0,0,0,647.998,746.124,...,-128,0,0,0,0,0,0,0,7679.98,0.15
15/09/2011 14:25:58.875,3,167.995,1,0,0,0,0,0,647.998,746.124,...,-128,0,0,0,0,0,0,0,7679.98,0.15
15/09/2011 14:25:59.125,4,167.995,1,0,0,0,0,0,647.998,746.124,...,-128,0,0,0,0,0,0,0,4607.86,0.15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15/09/2011 16:01:32.875,22939,,,,,,,,,,...,,,,,,,,,,
15/09/2011 16:01:33.125,22940,,,,,,,,,,...,,,,,,,,,,
15/09/2011 16:01:33.375,22941,,,,,,,,,,...,,,,,,,,,,
15/09/2011 16:01:33.625,22942,,,,,,,,,,...,,,,,,,,,,


In [147]:
print('remplacer par la moyenne')
L = []
for col in list(df2.columns):
    L.append(np.nanmean(df2[col], dtype=np.double))

df_mean = pd.Series(L, index = df2.columns)
df2.fillna(df_mean)

remplacer par la moyenne


Unnamed: 0_level_0,level_0,EGT_SEL,FLIGHT_MOD,FMV_SEL,HPTC_SEL,LPTC_SEL,N1_SEL,N2_ACTSEL,OIL_P,OIL_TEMP,...,T25_SEL,T3_SEL,VBV_SEL,VIB_CN1,VIB_CN2,VIB_TN1,VIB_TN2,VSV_SEL,WFM_SEL,XM
t,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
15/09/2011 14:25:58.125,0,580.544016,5.793276,27.939115,54.995392,42.207959,62.800453,0,38.423942,102.242308,...,54.078199,342.260291,11.567355,0.157961,0.070502,0.237319,0.14723,10.924924,2436.991096,0.5348
15/09/2011 14:25:58.375,1,580.544016,5.793276,27.939115,54.995392,42.207959,62.800453,0,38.423942,102.242308,...,54.078199,342.260291,11.567355,0.157961,0.070502,0.237319,0.14723,10.924924,2436.991096,0.5348
15/09/2011 14:25:58.625,2,580.544016,5.793276,27.939115,54.995392,42.207959,62.800453,0,38.423942,102.242308,...,54.078199,342.260291,11.567355,0.157961,0.070502,0.237319,0.14723,10.924924,2436.991096,0.5348
15/09/2011 14:25:58.875,3,580.544016,5.793276,27.939115,54.995392,42.207959,62.800453,0,38.423942,102.242308,...,54.078199,342.260291,11.567355,0.157961,0.070502,0.237319,0.14723,10.924924,7679.98,0.15
15/09/2011 14:25:59.125,4,580.544016,5.793276,27.939115,54.995392,42.207959,0,0,647.998,102.242308,...,54.078199,342.260291,0,0,0,0,0,0,4607.86,0.15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15/09/2011 16:01:32.875,22939,580.544016,5.793276,27.939115,54.995392,42.207959,62.800453,81.783034,38.423942,102.242308,...,54.078199,342.260291,11.567355,0.157961,0.070502,0.237319,0.14723,10.924924,2436.991096,0.5348
15/09/2011 16:01:33.125,22940,580.544016,5.793276,27.939115,54.995392,42.207959,62.800453,81.783034,38.423942,102.242308,...,54.078199,342.260291,11.567355,0.157961,0.070502,0.237319,0.14723,10.924924,2436.991096,0.5348
15/09/2011 16:01:33.375,22941,580.544016,5.793276,27.939115,54.995392,42.207959,62.800453,81.783034,38.423942,102.242308,...,54.078199,342.260291,11.567355,0.157961,0.070502,0.237319,0.14723,10.924924,2436.991096,0.5348
15/09/2011 16:01:33.625,22942,580.544016,5.793276,27.939115,54.995392,42.207959,62.800453,81.783034,38.423942,102.242308,...,54.078199,342.260291,11.567355,0.157961,0.070502,0.237319,0.14723,10.924924,2436.991096,0.5348


In [103]:
print('remplir avec la valeur la plus frequente')
df2.fillna(df2.mode().loc[0])

remplir avec la valeur la plus frequente


Unnamed: 0_level_0,level_0,EGT_SEL,FLIGHT_MOD,FMV_SEL,HPTC_SEL,LPTC_SEL,N1_SEL,N2_ACTSEL,OIL_P,OIL_TEMP,...,T25_SEL,T3_SEL,VBV_SEL,VIB_CN1,VIB_CN2,VIB_TN1,VIB_TN2,VSV_SEL,WFM_SEL,XM
t,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
15/09/2011 14:25:58.125,0,621,6,34,99.375,63.9375,86.125,0,41,105,...,57.75,417,0,0.28,0.03,0.03,0.07,31.8164,704,0.15
15/09/2011 14:25:58.375,1,621,6,34,99.375,63.9375,86.125,0,41,105,...,57.75,417,0,0.28,0.03,0.03,0.07,31.8164,704,0.15
15/09/2011 14:25:58.625,2,621,6,34,99.375,63.9375,86.125,0,41,105,...,57.75,417,0,0.28,0.03,0.03,0.07,31.8164,704,0.15
15/09/2011 14:25:58.875,3,621,6,34,99.375,63.9375,86.125,0,41,105,...,57.75,417,0,0.28,0.03,0.03,0.07,31.8164,7679.98,0.15
15/09/2011 14:25:59.125,4,621,6,34,99.375,63.9375,0,0,647.998,105,...,57.75,417,0,0,0,0,0,0,4607.86,0.15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15/09/2011 16:01:32.875,22939,621,6,34,99.375,63.9375,86.125,71.9063,41,105,...,57.75,417,0,0.28,0.03,0.03,0.07,31.8164,704,0.15
15/09/2011 16:01:33.125,22940,621,6,34,99.375,63.9375,86.125,71.9063,41,105,...,57.75,417,0,0.28,0.03,0.03,0.07,31.8164,704,0.15
15/09/2011 16:01:33.375,22941,621,6,34,99.375,63.9375,86.125,71.9063,41,105,...,57.75,417,0,0.28,0.03,0.03,0.07,31.8164,704,0.15
15/09/2011 16:01:33.625,22942,621,6,34,99.375,63.9375,86.125,71.9063,41,105,...,57.75,417,0,0.28,0.03,0.03,0.07,31.8164,704,0.15


3. Quel est le meilleur choix dans ce cas ? Et pour le cas d'une variable temporelle, par exemple la température \'EGT_SEL\' de notre jeu de données ?

Le choix de remplacer par la moyenne, 0 ou la valeur la plus fréquente n'a pas de sens pour une variable temporelle. En effet, si l'on souhaite faire une régression de fourier / faire un smooth des values pour débruiter le jeu de données par exemple, une valeur comme celle ci viendrait briser la continuité et donc perturber la traitement a posteriori. 

Dans le cas d'un signal déjà traité, remplacer par la moyenne ou la valeur la plus fréquente viendrait fausser les résultats de variances. Ce n'est pas non plus l'ideal. 

On préfera prendre la valeur précédente ou suivante pour s'assurer la continuité (si le NAN ne se propage pas dans une période temporelle trop grande). Sinon, le plus simple reste toujours de ne pas considérer ce point pour l'analyse et de toujours préciser le nombre de points de l'étude. Un jeu de données sans NaN lorsque cela est possible est toujours préférable

## Git

Créer un compte GitHub : https://github.com/

Créer un nouveau repository :
1. Sélectionner "Nouveau dépôt" dans le menu déroulant avec le signe +. 
2. Saisisser un nom pour votre dépôt (par exemple, "TDs statistiques descriptives") 
3. Cliquer sur "Créer un dépôt". Ne vous souciez pas des autres options.



Télécharger Git Bash : https://git-scm.com/downloads

Sur Git Bash, positionnez-vous dans le répertoire où votre projet figure.

Ensuite

> git init

> git remote add origin https://github.com/********

> git add .

> git commit -m "Ajout du TD1"

> git push origin master

C'est tout ! Vous avez créé votre repo GitHub ! 