# TD 1 | Introduction à Python pour l'analyse de données

---

Objectifs du TD :

* découvrir Python
* se familiariser avec le langage et le notebook Jupyter
* découvrir et maîtriser les bases des librairies de calcul numérique et d'analyse de données numpy et pandas

---

##  Installation de Python et Jupyter

### Windows

#### Installation Python

Vérifiez si vous avez déjà une version de python installée en ouvrant l'invite de commande et en exécutant l'une des deux commandes python suivantes : 
> python --version   

> python3 --version 

Si ce n'est pas le cas, vous pouvez procéder à l'installation comme suit :
 
1. Allez sur le site web : https://www.python.org/downloads/windows/
2. Cliquez sur "Latest Python 3 Release - Python 3.10.7".
3. Si votre ordinateur utilise une version 64 bits de Windows, téléchargez le Windows installer (64-bit). Sinon, téléchargez Windows installer (32-bit).
4. Après avoir téléchargé le Windows installer, vous devez l'exécuter (double-cliquez dessus) et suivre les instructions qui s'y trouvent.

NB : Au début de l'installation, assurez-vous de cocher la case "Add Python 3.10 to PATH" ou "Add Python to your environment variables" avant de cliquer sur "Install Now".


#### Installation Jupyter

Ouvrir l'invite de commande et exécuter la commande suivante en remplaçant Pseudo_de_votre_user par le nom de l'utilisateur de votre session : 
> cd "C:\Users\Pseudo_de_votre_user\AppData\Local\Programs\Python\Python310\Scripts"

Ensuite, executer la commande suivante :
> pip install jupyterlab

Une fois l'installation terminée avec succès, vous pouvez lancer JupyterLab avec la commande suivante : 
> jupyter-lab


### Linux & Mac OS

#### Installation Python

Normalement, Python est préinstallé sur la quasi-totalité des distributions. Vous n'avez pas besoin de le réinstaller, mais vous pouvez mettre à jour la version si vous le souhaitez.

Vérifiez la version Python installée en exécutant l'une des deux commandes python suivantes sur votre terminal : 
> python --version   

> python3 --version 

#### Installation Jupyter

Vérifier que la commande pip3 est installée. Sinon, l'installer (exemple pour Debian/Ubuntu/Linux Mint, à adapter selon votre distribution) :

> sudo apt install python3-pip

Ensuite, installer JupyterLab en executant la commande suivante:
> pip3 install -U jupyterlab

Enfin, placez-vous dans votre dossier de travail et lancez un notebook :

> jupyter-lab

## Syntaxe et Concepts de base

In [None]:
a = 33
b = 9
c = 2.0

In [None]:
a+b

In [None]:
print(a+b)

In [None]:
type(a)

In [None]:
type(c)

In [None]:
a = 'hello'
type(a)

In [None]:
# Affiche les entiers pairs de 1 à 10
for i in range(1, 11):
    if i % 2 == 0:
        print(i)

### List

In [None]:
l = [1,2,3,4,4]

#### len, max, min

In [None]:
print('longueur de la liste =', len(l))
print("Valeur max de l =", max(l))
print("Valeur min de l =", min(l))

#### Ajout d'un élément d'une liste

In [None]:
l.append(6)
l

In [None]:
l = l+[7]
l

In [None]:
l+=[7]
l

#### Modifier un élément

In [None]:
l[0] = 29
l

In [None]:
l.insert(1,9)
l

#### Suppression des éléments d'une liste

In [None]:
l.remove(7)
l

In [None]:
l.pop(2)
l

#### Trier une liste

In [None]:
l.sort(reverse=True)
print(l)

In [None]:
l_sorted = sorted(l)
print('Sorted list:', l_sorted)

#### Liste non homogène

In [None]:
l = [1, 'un', 2]
l.append('deux')
l += [3, 'trois']
print(type(l))
l

In [None]:
a = l[3], l[-1]
print(type(a))
a

In [None]:
a[0]

In [None]:
[2**p for p in range(10)] # "Compréhension de liste"

In [None]:
# Liste des entiers pairs de 1 à 10
l = [i for i in range(1, 11) if i % 2 == 0]
print(l)

### Tuple

In [None]:
p = tuple(range(1,5))
print("p=", p)
print("p[0] = ", p[0])

In [None]:
p = ([1,2],5)

print(p)

p[0][0] = 8

print(p)

In [None]:
# Les éléments du tuple sont fixes
p[0] = 6

In [None]:
p1 = (1,2)
p2 = (2,1)

print(p1 == p2)

### Set

In [None]:
s = set((1,2,'l'))
print(s)

s = {4,5,9,9,9,9}
print(s)

In [None]:
#Ajout d'un élément au set
s.add(6)
print(s)

In [None]:
#Suppression d'un élément du set
s.discard(5)
print(s)

In [None]:
s.clear()
print(s)

In [None]:
A = {1,2,3,4,5}
B = {2,4,6,7}
C = {1,2,3}

In [None]:
#Intersection
print("Intersection de A et B =", A&B)

#Union
print("Union entre A et B =", A|B)

#Exclusion
print("Exclusion de B de A =", A-B)

#Différence symétrique
print("Diff sym. A et B =", A^B)

In [None]:
print("B est inclus strict dans A") if A>B else print(False)
print("C est inclus dans A") if A>=C else print(False)

### Dictionary

In [None]:
# 1ère façon de créer un dictionnaire
dic = {"key1": "value1", "answer": 42}
# 2ème façon de créer un dictionnaire
dic2 = dict(key1="value1", answer=42)
# 3ème façon de créer un dictionnaire
dic3 = dict([("key1","value1"), ("answer",42)])
print(dic)
print(dic2)
print(dic3)

dic["answer"]

In [None]:
dic['new'] = [1,2,3]

In [None]:
dic.keys()

In [None]:
dic.items()

In [None]:
dic.values()

In [None]:
a,b,c = dic.items()
print(a)

## Programmation Orientée Objet

In [None]:
"""
Exemple de classe en Python
"""
class Moteur:
    
    # Constructeur
    def __init__(self, esn, panne=False):
        self.esn = esn
        self.panne = panne
    
    # Méthodes
    def dire_bonjour(self):
        print('Bonjour, mon numéro de série est ' + self.esn)
    
    def fonctionne(self):
        return not self.panne 
    

In [None]:
mot1 = Moteur('420912')
mot2 = Moteur(panne=True, esn='420913')

mot1.dire_bonjour()
print(mot1.fonctionne())

mot1.panne = True
print(mot1.fonctionne())

print('\n')
mot2.dire_bonjour()
print(mot2.fonctionne())

### Méthode récurcive vs Méthode itérative

In [None]:
# Méthode récursive
def fact1(n):
    if n == 0:
        return 1
    else:
        return n*fact1(n-1)

# Méthode itérative
def fact2(n):
    s=1
    for i in range(1,n+1):
        s*=i
    return s

print(fact1(5))
print(fact2(5))

In [None]:
"""
App.1 : Ecrire une fonction qui retourne le plus grand commun diviseur (pgcd) entre deux nombres a et b.
"""

In [None]:
"""
App.1 : Correction
"""

#Méthode itérative
def pgcd1(a,b):
    while (a%b) != 0:
        s = a%b
        a = b
        b = s
    return b


#Méthode récurcive
def pgcd2(a,b):
    if a==b : return a 
    if a<b : a,b = b,a
    return pgcd(a-b,b)

a = 230
b = 25

print("pgcd1(a,b) = ", pgcd1(a,b))
print("pgcd2(a,b) = ", pgcd2(a,b))

## Libraries

> pip install numpy pandas

> pip3 install -U numpy pandas

### Math

In [None]:
import math

In [None]:
x = 4

print("sqrt(x) =", math.sqrt(x))
print("cos(x) =", math.cos(x))
print("sin(x) =", math.sin(x))
print("factorial(x) =", math.factorial(x))

### Numpy

In [None]:
import numpy as np

In [None]:
# Création d'un array à partir d'une liste
v = np.array([1.0, 2.0, 3.0])
# Création d'un array de taille (n,m) initialisé à 0
z = np.zeros((3,4))
z

In [None]:
# Taille d'un array
print(z.shape)
print(v.shape)

In [None]:
# Opérations courantes
A = np.ones((3,3)) + np.eye(3)
print('A = ', A)
print('Av = ', np.dot(A,v))
print('3*A = ', 3*A)
print('A*v = ', A*v)
print('A + 1 = ', A+1)
print('A + v = ', A+v)
print('A^2 = ', np.square(A))

In [None]:
B = np.array([5, 2, 9, 1])

print(np.sort(B))

#### Compatif de performance : produit matriciel


In [None]:
import random

In [None]:
# Création d'une matrice aléatoire sous forme de liste de listes
taille = 2
A = [[random.random() for _ in range(taille)] for _ in range(taille)]

In [None]:
print(A)

In [None]:
"""
EXERCICE - Afficher un tuple contenant les dimensions de la matrice A
"""
raise NotImplementedError

$$ (AB)_{ij} = \sum_k A_{ik} B_{kj} $$

In [None]:
"""
EXERCICE - Implémenter le produit matriciel de 2 matrices sous forme de listes de listes python
"""
raise NotImplementedError

In [None]:
# Vérification
assert(produit([[1, 2], [3, 4]], [[1, 2], [3, 4]]) == [[7, 10], [15, 22]])

In [None]:
produit(A, A)

In [None]:
# Sortons le chronomètre
%timeit produit(A, A)

In [None]:
# Et maintenant, avec numpy !
import numpy as np

In [None]:
A2 = np.array(A)
print(A2)

In [None]:
%timeit np.dot(A, A)

EXERCICE - Remplissez le tableau suivant avec les durées d'exécution constatées :

(Conseil : pour la taille 3000, essayez UNIQUEMENT avec numpy)

Taille | Python | numpy
-------|--------|-------
30     | XXX    | XXX
300    | XXX    | XXX
3000   | XXX    | XXX 

###  Pandas

In [None]:
import pandas as pd

In [None]:
df_exemple = pd.DataFrame({"ESN": ["E420912", "E420913", "E420914"], "panne": [False, False, True]})
df_exemple

#### Lecture et prétraitement de données


In [None]:
!git clone https://github.com/MadaneA/MACS3-Statistiques-Descriptives-TDs.git

In [None]:
import os
os.chdir('MACS3-Statistiques-Descriptives-TDs')

In [None]:
 os.getcwd()

In [None]:
# Chargement d'un fichier CSV ou Excel
df = pd.read_csv("./data/Vol010.csv")
# Affichage des 5 premières lignes
df.head()

In [None]:
"""
EXERCICE - Dimensions d'un DataFrame
Affichez le nombre de colonnes et de ligne du DataFrame (indice : beaucoup de méthodes sont communes entre numpy et pandas)
"""
raise NotImplementedError
print('Nombre de colonnes :', )
print('Nombre de lignes :', )

In [None]:
df.size, len(df)

In [None]:
df.columns

Les colonnes des DF sont typées, à la manière d'une base de données relationnelle, contrairement aux variables python classiques. Les types des colonnes sont accessibles via df.dtypes. Les principaux types sont les numériques (int32, int64, float etc.

In [None]:
df.loc[10:15, ['EGT_SEL', 'FLIGHT_MOD']]

In [None]:
"""
EXERCICE - Extraction et suppression des unités
On remarque que la 1ère ligne ne contient pas de données mais les unités de chaque colonne.
Pour la suite des traitements, il faut supprimer cette ligne. On souhaite toutefois garder l'information des unités de chaque colonne.
1. Récupérez les unités et stockez les dans une structure adaptée.
2. Supprimez cette ligne du DataFrame en utilisant la méthode "drop"
"""
raise NotImplementedError

In [None]:
print(units)
df.head()

On remarque que toutes les colonnes ont été reconnues comme de type object, c'est-à-dire des chaînes de caractères, alors que ce sont des valeurs numériques. Cela est dû à la première ligne contenant les unités. Il faut donc convertir les colonnes en numérique. La colonne 't', quant à elle, doit être convertie en type datetime.

In [None]:
df['t'] = pd.to_datetime(df['t'])
df[df.columns[1:]] = df[df.columns[1:]].apply(pd.to_numeric)

In [None]:
df.dtypes

In [None]:
"""
Exercice - Index temporel
Comme nos données sont une série temporelle multivariée, on souhaite utiliser un index temporel.
1. Créez une copie de df, appelée df2, à l'aide de la méthode du même nom.
2. Affectez la colonne du temps ('t') en tant qu'indice du DataFrame.
3. Supprimez la colonne 't' du DF résultant.
"""
raise NotImplementedError

On constate que pandas a automatiquement reconnu un DatetimeIndex, adapté pour des manipulations de séries temporelles (moyennes glissantes, etc) !

### Valeurs manquantes

**NaN = Not a Number**

Les valeurs NaN doivent être éliminées ou imputées (i.e. remplacées par une certaine valeur) avant la suite des traitements. Ce choix dépend du cas d'usage. Dans un premier temps, nous allons apprendre à :

* trouver les données manquantes (méthode `isna`)
* éliminer les données manquantes d'un DataFrame (méthode `dropna`)
* les remplacer par une constante (méthode (`fillna`)

In [None]:
"""
EXERCICE - La méthode isna
1. Testez la méthode isna sur le DataFrame df2, puis sur une colonne ou une ligne. Que renvoie-t-elle ?
2. En appliquant les méthodes any(axis=...), mean() et max()/idxmax() sur les résultats de isna(), répondez aux questions suivantes :
    2.1 Quelles colonnes contiennent des valeurs manquantes, lesquelles n'en contiennent pas ?
    2.2 Quel est le pourcentage de valeurs manquantes dans le DF (a) par colonne (b) globalement ? Quelle variable contient le plus de NaN ?
    2.3 Quel est le pourcentage d'indices du DF pour lesquels toutes les variables sont présentes ?
"""
print('Question 2.1')
raise NotImplementedError
print('Question 2.2')
raise NotImplementedError
print('Question 2.3')
raise NotImplementedError

In [None]:
"""
EXERCICE - La méthode dropna
La méthode dropna permet d'éliminer les valeurs manquantes (NaN). Lisez d'abord sa documentation.
1. À quoi correspondent les arguments "axis" et "how" ?
2. Éliminez toutes les lignes contenant uniquement des valeurs manquantes.
3. Éliminez toutes les lignes contenant au moins une valeur manquante. Combien y a-t-il de lignes de différence ?
4. Éliminez toutes les colonnes contenant au moins une valeur manquante.
"""
raise NotImplementedError

In [None]:
"""
EXERCICE - La méthode fillna
La méthode dropna permet d'imputer les valeurs manquantes (NaN). Lisez d'abord sa documentation.
1. Quelles sont les différentes stratégies de remplissage des valeurs manquantes ?
2. Imputez les valeurs manquantes de la colonne age du DF donné en exemple par :
    - 0
    - la dernière valeur précédente/suivante valide
    - la moyenne
    - la valeur la plus courante (mode)
3. Quel est le meilleur choix dans ce cas ? Et pour le cas d'une variable temporelle, par exemple la température 'EGT_SEL' de notre jeu de données ?
"""
exemple = pd.DataFrame({'nom': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [24, pd.np.nan, 99, 24]})

raise NotImplementedError

## Git

Créer un compte GitHub : https://github.com/

Créer un nouveau repository :
1. Sélectionner "Nouveau dépôt" dans le menu déroulant avec le signe +. 
2. Saisisser un nom pour votre dépôt (par exemple, "TDs statistiques descriptives") 
3. Cliquer sur "Créer un dépôt". Ne vous souciez pas des autres options.



Télécharger Git Bash : https://git-scm.com/downloads

Sur Git Bash, positionnez-vous dans le répertoire où votre projet figure.

Ensuite

> git init

> git remote add origin https://github.com/********

> git add .

> git commit -m "Ajout du TD1"

> git push origin master

C'est tout ! Vous avez créé votre repo GitHub ! 