# TD 1 | Introduction à Python pour l'analyse de données

---

Objectifs du TD :

* découvrir Python
* se familiariser avec le langage et le notebook Jupyter
* découvrir et maîtriser les bases des librairies de calcul numérique et d'analyse de données numpy et pandas

---

##  Installation de Python et Jupyter

### Windows

#### Installation Python

Vérifiez si vous avez déjà une version de python installée en ouvrant l'invite de commande et en exécutant l'une des deux commandes python suivantes : 
> python --version   

> python3 --version 

Si ce n'est pas le cas, vous pouvez procéder à l'installation comme suit :
 
1. Allez sur le site web : https://www.python.org/downloads/windows/
2. Cliquez sur "Latest Python 3 Release - Python 3.10.7".
3. Si votre ordinateur utilise une version 64 bits de Windows, téléchargez le Windows installer (64-bit). Sinon, téléchargez Windows installer (32-bit).
4. Après avoir téléchargé le Windows installer, vous devez l'exécuter (double-cliquez dessus) et suivre les instructions qui s'y trouvent.

NB : Au début de l'installation, assurez-vous de cocher la case "Add Python 3.10 to PATH" ou "Add Python to your environment variables" avant de cliquer sur "Install Now".


#### Installation Jupyter

Ouvrir l'invite de commande et exécuter la commande suivante en remplaçant Pseudo_de_votre_user par le nom de l'utilisateur de votre session : 
> cd "C:\Users\Pseudo_de_votre_user\AppData\Local\Programs\Python\Python310\Scripts"

Ensuite, executer la commande suivante :
> pip install jupyterlab

Une fois l'installation terminée avec succès, vous pouvez lancer JupyterLab avec la commande suivante : 
> jupyter-lab


### Linux & Mac OS

#### Installation Python

Normalement, Python est préinstallé sur la quasi-totalité des distributions. Vous n'avez pas besoin de le réinstaller, mais vous pouvez mettre à jour la version si vous le souhaitez.

Vérifiez la version Python installée en exécutant l'une des deux commandes python suivantes sur votre terminal : 
> python --version   

> python3 --version 

#### Installation Jupyter

Vérifier que la commande pip3 est installée. Sinon, l'installer (exemple pour Debian/Ubuntu/Linux Mint, à adapter selon votre distribution) :

> sudo apt install python3-pip

Ensuite, installer JupyterLab en executant la commande suivante:
> pip3 install -U jupyterlab

Enfin, placez-vous dans votre dossier de travail et lancez un notebook :

> jupyter-lab

## Syntaxe et Concepts de base

In [1]:
a = 33
b = 9
c = 2.0

In [2]:
a+b

42

In [None]:
print(a+b)

In [None]:
type(a)

In [None]:
type(c)

In [None]:
a = 'hello'
type(a)

In [None]:
# Affiche les entiers pairs de 1 à 10
for i in range(1, 11):
    if i % 2 == 0:
        print(i)

### List

In [None]:
l = [1,2,3,4,4]

#### len, max, min

In [None]:
print('longueur de la liste =', len(l))
print("Valeur max de l =", max(l))
print("Valeur min de l =", min(l))

#### Ajout d'un élément d'une liste

In [None]:
l.append(6)
l

In [None]:
l = l+[7]
l

In [None]:
l+=[7]
l

#### Modifier un élément

In [None]:
l[0] = 29
l

In [None]:
l.insert(0,9)
l

#### Suppression des éléments d'une liste

In [None]:
l.remove(4)
l

In [None]:
l.pop(0)
l

#### Trier une liste

In [None]:
l.sort(reverse=True)
print(l)

In [None]:
l_sorted = sorted(l)
print('Sorted list:', l_sorted)

#### Liste non homogène

In [None]:
l = [1, 'un', 2]
l.append('deux')
l += [3, 'trois']
print(type(l))
l

In [None]:
a = l[3], l[-1]
print(type(a))
a

In [None]:
a[0]

In [None]:
[2**p for p in range(10)] # "Compréhension de liste"

In [None]:
# Liste des entiers pairs de 1 à 10
l = [i for i in range(1, 11) if i % 2 == 0]
print(l)

### Tuple

In [None]:
p = tuple(range(1,5))
print("p=", p)
print("p[0] = ", p[0])

In [None]:
p = ([1,2],5)

print(p)



print(p[1])

In [None]:
# Les éléments du tuple sont fixes
p[0] = 6

In [None]:
p1 = (1,2)
p2 = (2,1)

print(p1 == p2)

### Set

In [None]:
s = set((1,2,'l'))
print(s)

s = {4,5,9,9,9,9}
print(s)

In [None]:
#Ajout d'un élément au set
s.add(6)
print(s)

In [None]:
#Suppression d'un élément du set
s.discard(5)
print(s)

In [None]:
s.clear()
print(s)

In [None]:
A = {1,2,3,4,5}
B = {2,4,6,7}
C = {1,2,3}

In [None]:
#Intersection
print("Intersection de A et B =", A&B)

#Union
print("Union entre A et B =", A|B)

#Exclusion
print("Exclusion de B de A =", A-B)

#Différence symétrique
print("Diff sym. A et B =", A^B)

In [None]:
print("B est inclus strict dans A") if A>B else print(False)
print("C est inclus dans A") if A>=C else print(False)

### Dictionary

In [None]:
# 1ère façon de créer un dictionnaire
dic = {"key1": "value1", "answer": 42}
# 2ème façon de créer un dictionnaire
dic2 = dict(key1="value1", answer=42)
# 3ème façon de créer un dictionnaire
dic3 = dict([("key1","value1"), ("answer",42)])
print(dic)
print(dic2)
print(dic3)

dic["answer"]

In [None]:
dic['new'] = [1,2,3]

In [None]:
dic.keys()

In [None]:
dic.items()

In [None]:
dic.values()

In [None]:
a = dic.items()
print(a)

## Programmation Orientée Objet

In [None]:
"""
Exemple de classe en Python
"""
class Moteur:
    
    # Constructeur
    def __init__(self, esn, panne=False):
        self.esn = esn
        self.panne = panne
    
    # Méthodes
    def dire_bonjour(self):
        print('Bonjour, mon numéro de série est ' + self.esn)
    
    def fonctionne(self):
        return not self.panne 
    

In [None]:
mot1 = Moteur('420912')
mot2 = Moteur(panne=True, esn='420913')

mot1.dire_bonjour()
print(mot1.fonctionne())

mot1.panne = True
print(mot1.fonctionne())

print('\n')
mot2.dire_bonjour()
print(mot2.fonctionne())

### Méthode récurcive vs Méthode itérative

In [None]:
# Méthode récursive
def fact1(n):
    if n == 0:
        return 1
    else:
        return n*fact1(n-1)

# Méthode itérative
def fact2(n):
    s=1
    for i in range(1,n+1):
        s*=i
    return s

print(fact1(5))
print(fact2(5))

In [None]:
"""
App.1 : Ecrire une fonction qui retourne le plus grand commun diviseur (pgcd) entre deux nombres a et b.
"""
#Methode iterative
def pgcd1(a,b):
    while (a%b) != 0:
        s = a%b
        a = b
        b = s
    return b

pgcd1(21,7)

In [None]:
"""
App.1 : Correction
"""

#Méthode itérative
def pgcd1(a,b):
    while (a%b) != 0:
        s = a%b
        a = b
        b = s
    return b


#Méthode récurcive
def pgcd2(a,b):
    if a==b : return a 
    if a<b : a,b = b,a
    return pgcd(a-b,b)

a = 230
b = 25

print("pgcd1(a,b) = ", pgcd1(a,b))
print("pgcd2(a,b) = ", pgcd2(a,b))

## Libraries

> pip install numpy pandas

> pip3 install -U numpy pandas

### Math

In [None]:
import math

In [None]:
x = 4

print("sqrt(x) =", math.sqrt(x))
print("cos(x) =", math.cos(x))
print("sin(x) =", math.sin(x))
print("factorial(x) =", math.factorial(x))

### Numpy

In [38]:
import numpy as np

In [39]:
# Création d'un array à partir d'une liste
v = np.array([1.0, 2.0, 3.0])
# Création d'un array de taille (n,m) initialisé à 0
z = np.zeros((3,4))
z

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [40]:
# Taille d'un array
print(z.shape)
print(v.shape)

(3, 4)
(3,)


In [41]:
# Opérations courantes
A = np.ones((3,3)) + np.eye(3)
print('A = ', A)
print('Av = ', np.dot(A,v))
print('3*A = ', 3*A)
print('A*v = ', A*v)
print('A + 1 = ', A+1)
print('A + v = ', A+v)
print('A^2 = ', np.square(A))

A =  [[2. 1. 1.]
 [1. 2. 1.]
 [1. 1. 2.]]
Av =  [7. 8. 9.]
3*A =  [[6. 3. 3.]
 [3. 6. 3.]
 [3. 3. 6.]]
A*v =  [[2. 2. 3.]
 [1. 4. 3.]
 [1. 2. 6.]]
A + 1 =  [[3. 2. 2.]
 [2. 3. 2.]
 [2. 2. 3.]]
A + v =  [[3. 3. 4.]
 [2. 4. 4.]
 [2. 3. 5.]]
A^2 =  [[4. 1. 1.]
 [1. 4. 1.]
 [1. 1. 4.]]


In [42]:
B = np.array([5, 2, 9, 1])

print(np.sort(B))

[1 2 5 9]


#### Compatif de performance : produit matriciel


In [43]:
import random

In [70]:
# Création d'une matrice aléatoire sous forme de liste de listes
taille = 3000
A = [[random.random() for _ in range(taille)] for _ in range(taille)]

In [63]:
print(A)

[[0.3238628351739098, 0.5152466475156908], [0.6543210598135564, 0.9533158156418651]]


In [46]:
"""
EXERCICE - Afficher un tuple contenant les dimensions de la matrice A
"""
dim = tuple(np.shape(A))
print(dim)

(2, 2)


$$ (AB)_{ij} = \sum_k A_{ik} B_{kj} $$

In [49]:
"""
EXERCICE - Implémenter le produit matriciel de 2 matrices sous forme de listes de listes python
"""
def produit(A,B):
    n=len(A) # nombre de lignes de A
    m=len(B[0]) # nombre de colonnes de B
    p=len(B) # nombre de lignes de B 
 
    C = [[0]*m for i in range(n)] # matrice de n lignes et m colonnes
 
    # parcourir les lignes de A
    for i in range(n):
        # parcourir les colonnes de B
        for j in range(m):
            # parcourir les lignes de B
            for k in range(p):
                C[i][j] += A[i][k] * B[k][j]
    return C

In [50]:
# Vérification
assert(produit([[1, 2], [3, 4]], [[1, 2], [3, 4]]) == [[7, 10], [15, 22]])

In [51]:
produit(A, A)

[[0.3236571822395225, 0.14822202110243746],
 [0.15683468313028137, 0.39441380052208014]]

In [68]:
# Sortons le chronomètre
%timeit produit(A, A)

4.42 s ± 71.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [53]:
# Et maintenant, avec numpy !
import numpy as np

In [54]:
A2 = np.array(A)
print(A2)

[[0.00199302 0.55306385]
 [0.58520045 0.26600863]]


In [71]:
%timeit np.dot(A, A)

1.89 s ± 89.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


EXERCICE - Remplissez le tableau suivant avec les durées d'exécution constatées :

(Conseil : pour la taille 3000, essayez UNIQUEMENT avec numpy)

Taille | Python | numpy
-------|--------|-------
30     | 5.28 ms| 127 µs
300    | 4.42 s | 13.7 ms
3000   | XXX    | 1.89 s 

###  Pandas

In [7]:
import pandas as pd

In [None]:
df_exemple = pd.DataFrame({"ESN": ["E420912", "E420913", "E420914"], "panne": [False, False, True]})
df_exemple

#### Lecture et prétraitement de données


In [None]:
!git clone https://github.com/MadaneA/MACS3-Statistiques-Descriptives-TDs.git

In [8]:
import os
os.chdir('MACS3-Statistiques-Descriptives-TDs')

FileNotFoundError: [WinError 2] Le fichier spécifié est introuvable: 'MACS3-Statistiques-Descriptives-TDs'

In [9]:
# Chargement d'un fichier CSV ou Excel
df = pd.read_csv("./data/Vol010.csv")
# Affichage des 5 premières lignes
df.head()

Unnamed: 0,t,EGT_SEL,FLIGHT_MOD,FMV_SEL,HPTC_SEL,LPTC_SEL,N1_SEL,N2_ACTSEL,OIL_P,OIL_TEMP,...,T25_SEL,T3_SEL,VBV_SEL,VIB_CN1,VIB_CN2,VIB_TN1,VIB_TN2,VSV_SEL,WFM_SEL,XM
0,datenum,deg_C,_,_,%,%,%,%_RPM,psi,_,...,_,_,DEG,_,_,_,_,DEG,lb/h,mach
1,15/09/2011 14:25:58.125,,,,,,,0,,,...,,,,,,,,,,
2,15/09/2011 14:25:58.375,,,,,,,0,,,...,,,,,,,,,,
3,15/09/2011 14:25:58.625,,,,,,,0,,,...,,,,,,,,,,
4,15/09/2011 14:25:58.875,,,,,,,0,,,...,,,,,,,,,7679.98,0.15


In [None]:
"""
EXERCICE - Dimensions d'un DataFrame
Affichez le nombre de colonnes et de ligne du DataFrame (indice : beaucoup de méthodes sont communes entre numpy et pandas)
"""
print('Nombre de colonnes :', np.shape(df)[0])
print('Nombre de lignes :', np.shape(df)[1])

In [None]:
df.size, len(df)

In [None]:
df.columns

Les colonnes des DF sont typées, à la manière d'une base de données relationnelle, contrairement aux variables python classiques. Les types des colonnes sont accessibles via df.dtypes. Les principaux types sont les numériques (int32, int64, float etc.

In [None]:
df.loc[10:15, ['EGT_SEL', 'FLIGHT_MOD']]

In [6]:
"""
EXERCICE - Extraction et suppression des unités
On remarque que la 1ère ligne ne contient pas de données mais les unités de chaque colonne.
Pour la suite des traitements, il faut supprimer cette ligne. On souhaite toutefois garder l'information des unités de chaque colonne.
1. Récupérez les unités et stockez les dans une structure adaptée.
2. Supprimez cette ligne du DataFrame en utilisant la méthode "drop"
"""
units = df.loc[0,:]
df = df.drop(0)

In [35]:
df.head()

Unnamed: 0,t,EGT_SEL,FLIGHT_MOD,FMV_SEL,HPTC_SEL,LPTC_SEL,N1_SEL,N2_ACTSEL,OIL_P,OIL_TEMP,...,T25_SEL,T3_SEL,VBV_SEL,VIB_CN1,VIB_CN2,VIB_TN1,VIB_TN2,VSV_SEL,WFM_SEL,XM
1,2011-09-15 14:25:58.125,,,,,,,0.0,,,...,,,,,,,,,,
2,2011-09-15 14:25:58.375,,,,,,,0.0,,,...,,,,,,,,,,
3,2011-09-15 14:25:58.625,,,,,,,0.0,,,...,,,,,,,,,,
4,2011-09-15 14:25:58.875,,,,,,,0.0,,,...,,,,,,,,,7679.98,0.15
5,2011-09-15 14:25:59.125,,,,,,0.0,0.0,647.998,,...,,,0.0,0.0,0.0,0.0,0.0,0.0,4607.86,0.15


On remarque que toutes les colonnes ont été reconnues comme de type object, c'est-à-dire des chaînes de caractères, alors que ce sont des valeurs numériques. Cela est dû à la première ligne contenant les unités. Il faut donc convertir les colonnes en numérique. La colonne 't', quant à elle, doit être convertie en type datetime.

In [6]:
df['t'] = pd.to_datetime(df['t'])
df[df.columns[1:]] = df[df.columns[1:]].apply(pd.to_numeric)

In [None]:
df.dtypes

In [28]:
"""
Exercice - Index temporel
Comme nos données sont une série temporelle multivariée, on souhaite utiliser un index temporel.
1. Créez une copie de df, appelée df2, à l'aide de la méthode du même nom.
2. Affectez la colonne du temps ('t') en tant qu'indice du DataFrame.
3. Supprimez la colonne 't' du DF résultant. 
"""
df2 = df.copy()
df2.set_index('t')



Unnamed: 0_level_0,EGT_SEL,FLIGHT_MOD,FMV_SEL,HPTC_SEL,LPTC_SEL,N1_SEL,N2_ACTSEL,OIL_P,OIL_TEMP,PS3_SEL,...,T25_SEL,T3_SEL,VBV_SEL,VIB_CN1,VIB_CN2,VIB_TN1,VIB_TN2,VSV_SEL,WFM_SEL,XM
t,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
datenum,deg_C,_,_,%,%,%,%_RPM,psi,_,psi,...,_,_,DEG,_,_,_,_,DEG,lb/h,mach
15/09/2011 14:25:58.125,,,,,,,0,,,,...,,,,,,,,,,
15/09/2011 14:25:58.375,,,,,,,0,,,,...,,,,,,,,,,
15/09/2011 14:25:58.625,,,,,,,0,,,,...,,,,,,,,,,
15/09/2011 14:25:58.875,,,,,,,0,,,,...,,,,,,,,,7679.98,0.15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15/09/2011 16:01:32.875,,,,,,,,,,,...,,,,,,,,,,
15/09/2011 16:01:33.125,,,,,,,,,,,...,,,,,,,,,,
15/09/2011 16:01:33.375,,,,,,,,,,,...,,,,,,,,,,
15/09/2011 16:01:33.625,,,,,,,,,,,...,,,,,,,,,,


On constate que pandas a automatiquement reconnu un DatetimeIndex, adapté pour des manipulations de séries temporelles (moyennes glissantes, etc) !

### Valeurs manquantes

**NaN = Not a Number**

Les valeurs NaN doivent être éliminées ou imputées (i.e. remplacées par une certaine valeur) avant la suite des traitements. Ce choix dépend du cas d'usage. Dans un premier temps, nous allons apprendre à :

* trouver les données manquantes (méthode `isna`)
* éliminer les données manquantes d'un DataFrame (méthode `dropna`)
* les remplacer par une constante (méthode (`fillna`)

In [48]:
"""
EXERCICE - La méthode isna
1. Testez la méthode isna sur le DataFrame df2, puis sur une colonne ou une ligne. Que renvoie-t-elle ?
2. En appliquant les méthodes any(axis=...), mean() et max()/idxmax() sur les résultats de isna(), répondez aux questions suivantes :
    2.1 Quelles colonnes contiennent des valeurs manquantes, lesquelles n'en contiennent pas ?
        la colonne "t" ne contient pas de valeur manquantes
    2.2 Quel est le pourcentage de valeurs manquantes dans le DF (a) par colonne (b) globalement ? Quelle variable contient le plus de NaN ?
    2.3 Quel est le pourcentage d'indices du DF pour lesquels toutes les variables sont présentes ?
"""

df.isna()
df.loc[1,:].isna()
df.OIL_P.isna()

print('Question 2.1')
df.isna().any()

Question 2.1


t             False
EGT_SEL        True
FLIGHT_MOD     True
FMV_SEL        True
HPTC_SEL       True
LPTC_SEL       True
N1_SEL         True
N2_ACTSEL      True
OIL_P          True
OIL_TEMP       True
PS3_SEL        True
PT2_SEL        True
P0_SEL         True
TAT            True
TBV_SEL        True
TRA_SEL        True
T25_SEL        True
T3_SEL         True
VBV_SEL        True
VIB_CN1        True
VIB_CN2        True
VIB_TN1        True
VIB_TN2        True
VSV_SEL        True
WFM_SEL        True
XM             True
dtype: bool

In [55]:
print('Question 2.2')
df.isna().mean()
df.isna().mean().idxmax()

Question 2.2


'T25_SEL'

In [75]:
print('Question 2.3')
df.isna().any(axis=1)

Question 2.3


0        False
1         True
2         True
3         True
4         True
         ...  
22940     True
22941     True
22942     True
22943     True
22944     True
Length: 22945, dtype: bool

In [13]:
"""
EXERCICE - La méthode dropna
La méthode dropna permet d'éliminer les valeurs manquantes (NaN). Lisez d'abord sa documentation.
1. À quoi correspondent les arguments "axis" et "how" ?
    "axis" correspond à "index" ou "columns", càd si on regarde selon les lignes ou les colonnes
    "how" correspond quand doit on supprimer la ligne/colonne : si il y'a une seule valeur NA ou si laligne/colonne est compsé entièrement de valeurs NA
2. Éliminez toutes les lignes contenant uniquement des valeurs manquantes.
3. Éliminez toutes les lignes contenant au moins une valeur manquante. Combien y a-t-il de lignes de différence ?
    Il y a une différence de 119 lignes
4. Éliminez toutes les colonnes contenant au moins une valeur manquante.
"""
df2.dropna(0,"all")
df2.dropna(0,"any")
df2.dropna(1,"any")

Unnamed: 0,t
1,15/09/2011 14:25:58.125
2,15/09/2011 14:25:58.375
3,15/09/2011 14:25:58.625
4,15/09/2011 14:25:58.875
5,15/09/2011 14:25:59.125
...,...
22940,15/09/2011 16:01:32.875
22941,15/09/2011 16:01:33.125
22942,15/09/2011 16:01:33.375
22943,15/09/2011 16:01:33.625


In [36]:
"""
EXERCICE - La méthode fillna
La méthode dropna permet d'imputer les valeurs manquantes (NaN). Lisez d'abord sa documentation.
1. Quelles sont les différentes stratégies de remplissage des valeurs manquantes ?
    Il y a 4 manière de remplissage de Na : { ‘bfill’, ‘pad’, ‘ffill’}
2. Imputez les valeurs manquantes de la colonne age du DF donné en exemple par :
    - 0
    - la dernière valeur précédente/suivante valide
    - la moyenne
    - la valeur la plus courante (mode)
3. Quel est le meilleur choix dans ce cas ? Et pour le cas d'une variable temporelle, par exemple la température 'EGT_SEL' de notre jeu de données ?*
    Dans ce cas, c'est la moyenne
"""
exemple = pd.DataFrame({'nom': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [24, pd.np.nan, 99, 24]})

exemple.fillna(0)
exemple.fillna(method = 'ffill')
exemple.fillna(method = 'bfill')
exemple.fillna(exemple['age'].mean())
exemple.fillna(exemple['age'].mode())





  


Unnamed: 0,nom,age
0,Alice,24.0
1,Bob,
2,Charlie,99.0
3,David,24.0


## Git

Créer un compte GitHub : https://github.com/

Créer un nouveau repository :
1. Sélectionner "Nouveau dépôt" dans le menu déroulant avec le signe +. 
2. Saisisser un nom pour votre dépôt (par exemple, "TDs statistiques descriptives") 
3. Cliquer sur "Créer un dépôt". Ne vous souciez pas des autres options.



Télécharger Git Bash : https://git-scm.com/downloads

Sur Git Bash, positionnez-vous dans le répertoire où votre projet figure.

Ensuite

> git init

> git remote add origin https://github.com/********

> git add .

> git commit -m "Ajout du TD1"

> git push origin master

C'est tout ! Vous avez créé votre repo GitHub ! 