# <center>TD1 de modèlisation Mathématique: *numpy*</center>

Nous allons dans ce premier TD voir (ou revoir) certaines bibliothèques *python* que nous utiliserons sans modèration pour développer nos applications d'apprentissage automatique.

Nous allons d'abord étudier *numpy*.

## La bibliothèque Numpy

Vous allez utiliser ce [tutoriel](https://thedatafrog.com/fr/articles/numpy-crash-course-machine-learning/) pour apprendre à utiliser *numpy*.

Voici 2 liens [numpy](https://www.python-simple.com/python-numpy/creation-numpy.php) et [numpy en anglais](https://sites.engineering.ucsb.edu/%7Eshell/che210d/numpy.pdf) qui vous seront utiles pour l'utilisation de *numpy*


Un autre lien en anglais => https://numpy.org/doc/stable/user/absolute_beginners.html


### 1) Exercice 1

**Pourquoi utiliser numpy ? ben c'est rapide !**

Vous devez écrire deux objets python:
- une liste python nommée *liste* de 1 million d'entier
- un tableau numpy nommé *tableau* qui contiendra la liste précèdente.  

Faire afficher *tableau*

In [None]:
import numpy as np
#TODO
liste = range(1000000)
tableau = np.array(liste)
tableau

On va maintenant calculer le carré de tous les éléments de *liste* en affichant le temps de traitement.

In [None]:
#%timeit affiche le temps d'exécution de l'expression qui le suit. Exemple: %timeit a=3**2
#TODO
%timeit listeCarre = [x**2 for x in liste]

On va maintenant calculer le carré de tous les éléments de *tableau* en affichant le temps de traitement (même boucle que précédemment). 

In [None]:
#TODO
%timeit tableauCarre = [x**2 for x in tableau] 

On peut faire beaucoup mieux avec les tableaux *numpy*.  
On va maintenant calculer le carré de tous les éléments de *tableau* en affichant le temps de traitement mais sans boucle.  
Vous allez être agréablement surpris(e)

In [None]:
#TODO
%timeit tableauCarre = tableau**2

> ***Conclusion***
> - Il faut utiliser les tableaux numpy plutôt que les listes python
> - surtout ne pas itèrer directement sur ces tableaux.


### 2) Exercice 2 (sans boucle)

- Créer un tableau de 10 entiers aléatoires choisis entre 1 et 50 (50 exclus)
- visualiser le tableau
- Afficher le troisième élément du tableau.
- Afficher le quatrième et le cinquième élement
- Afficher les trois derniers éléments du tableau.
- afficher tous les éléments du tableau sauf les deux premiers.
- Afficher les éléments qui sont en position paire
- Afficher les éléments du tableau inversé
- Afficher les éléments qui sont en position paire en inversant le tableau
 

- Créer un tableau de 2 lignes et 3 colonnes contenat des nombres d'une distribution gaussienne standard
- Afficher le tableau et son nombre de ligne et de colonne
- Afficher la première ligne de valeurs
- Afficher la 3ème colonne de valeurs
- Transformer le tableau en un tableau 3 lignes et 2 colonnes
- Transformer le tableau en un tableau à une dimension


In [None]:
import numpy as np

data=np.random.randint(1, 50, 10)
#data = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
print(data)

# Afficher le troisième élément du tableau.
print(data[2])

#Afficher le quatrième et le cinquième élement
print(data[3:5])

# Afficher les trois derniers éléments du tableau.
print(data[-3:])

#afficher tous les éléments du tableau sauf les deux premiers.
print(data[2:])

#Afficher les éléments qui sont en position paire
print(data[::2])

#Afficher les éléments du tableau inversé
print(data[::-1])

#Afficher les éléments qui sont en position paire en inversant le tableau
print((data[::2])[::-1])





#Créer un tableau de 2 lignes et 3 colonnes contenant des nombres d'une distribution gaussienne standard
matrice=np.random.randn(2,3)

#Afficher le tableau et son nombre de ligne et de colonne
print(matrice)
print(matrice.shape)

#Afficher la première ligne de valeurs
print(matrice[0,:])

#Afficher la 3ème colonne de valeurs
print(matrice[:,2])

#Transformer le tableau en un tableau 3 lignes et 2 colonnes
print(matrice.reshape(3,2))

#Transformer le tableau en un tableau à une dimension
print(matrice.ravel())




### 3) Exercice 3

Supposons que vous ayez le tableau suivant représentant les ventes quotidiennes d'un produit pour une semaine (7 jours) :  

> daily_sales = [120, 80, 150, 200, 90, 110, 160]  

Sans faire de boucle et en utilisant exclusivement des fonctions dédiées de *numpy*

- calculer la somme totale des ventes pour la semaine.
- calculer la moyenne des ventes quotidiennes.
- trouver le jour avec le plus grand nombre de ventes.

In [30]:
import numpy as np

#TODO

daily_sales = np.array([120, 80, 150, 200, 90, 110, 160])

# Calculer la somme totale des ventes pour la semaine.
total_sales = np.sum(daily_sales)

# Calculer la moyenne des ventes quotidiennes.
average_sales = np.mean(daily_sales)

# Trouver le jour avec le plus grand nombre de ventes.
max_sales_day = np.argmax(daily_sales) + 1  # l'indice des tableaux commencent à 0

### 4) D'autres spécificités de *numpy*

les exercices qui suivent ont été repris de ce [tutoriel](https://thedatafrog.com/fr/articles/numpy-crash-course-machine-learning/).

Nous allons travailler avec le jeu de données *MNIST* qui sont ici simplifiées. Ce sont des images de chiffres écrits manuellement qui ont été beaucoup utilisées pour mettre au point et tester des algorithmes de reconnaissance automatique d'écriture manuscrite. Le package *scikit-learn* que nous utiliserons plus tard donne accès directement à ces données.

In [None]:
#chargement de scikit-learn et des données MNIST
from sklearn import datasets
digits = datasets.load_digits()
print("affichage des spécificités de ce jeu de donnée")
print( type(digits) ) 
print( dir(digits) )
print("affichage du type des attributs images et target")
print( type(digits.images) )
print( type(digits.target) )
print("target: les chiffres associés")
print(digits.target)
print("affichage de la forme de ces 2 tableaux numpy")
print( "shape du tableau images:",digits.images.shape)
print( "shape du tableau target:",digits.target.shape)

#### Exercice 1

- D'après l'affichage précédent, combien d'exemples avez-vous dans le jeu de données?  
- Quelle est la taille des images en pixels ?  
- Quelle est la valeur min et la valeur max des pixels ?

- afficher les données relatives à la dixième image (dans l'attribut images) et à la dixième étiquette (dans l'attribut target)
- afficher l'image
> *import matplotlib.pyplot as plt*  
> *plt.imshow(**image**)*


In [None]:
#TODO
# 1797 exemples
# taille => 8X8
# 1 pixel => 0 - 256 mais ils ont été ramené sur 16
import matplotlib.pyplot as plt
import numpy as np
print(digits.images[10])
#pas terrible car normalisé
plt.imshow(digits.images[10])
print(digits.target[10])

#### Exercice 2

Les modèles de *scikit-learn* attendent un tableau 1D d'étiquettes, comme celui que nous avons ici. Mais d'autres modèles comme *Keras* ou *Tensorflow* attendent un vecteur colonne d'étiquettes. Convertissez le tableau d'étiquettes en un tableau comportant une seule colonne.


In [None]:
#TODO
etiquette1D=np.c_[digits.target]
print(digits.target)
print(etiquette1D)
print(etiquette1D.shape)


### 5) Pour aller plus loin

#### Exercice 1:

La précision est une mesure de la performance des algorithmes de classification.  
Elle définit la probabilité de bien classer un exemple et est calculée comme suit:

précision = $1 - \dfrac{M}{N}$

où *N* est le nombre total d'exemples et *M* le nombre d'exemples mal classés.

Supposons que nous travaillons toujours sur l'ensemble de données de chiffres manuscrits MNIST et que l'ensemble de données de test contient 10 exemples, avec les étiquettes suivantes :

- Calculer la précision en pourcentage.  Aucune boucle n'est autorisée.  
Les ensembles sont données ci-dessous:

In [None]:
import numpy as np 

#true_labels contient les nombres qui ont été écrits
true_labels = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
print(true_labels)
#result contient les chiffres qui ont été prédits par la système de reconnaissance
results = np.array([0, 1, 2, 9, 4, 5, 6, 1, 8, 9])
print(results)
#TODO
N=true_labels.size
vecteurM=true_labels[true_labels!=results]
M=vecteurM.size
print(M)
mask=(true_labels!=results)

print(mask)
vecteurMask=true_labels[mask]
print(vecteurMask)
print(vecteurMask.size)
M1=vecteurMask.size
precision=1-(M/N)
precision


#### Exercice 2: redimensionnement des niveaux de gris de l'image¶

Les réseaux de neurones n'aiment pas les grands nombres.

Donc, généralement, les entrées du réseau de neurones sont redimensionnées pour être de l'ordre de l'unité avant d'être transmises au réseau.

    - quel est le plus grand niveau de gris que l'on puisse trouver dans digits.image ? 
    - redimensionnez l'ensemble de données de sorte que le plus grand nombre soit 1.  

    Vérifiez vos résultats. Aucune boucle n'est autorisée !


In [None]:
#TODO plus grand nombre
max=np.max(digits.images)

# normalisation de l'image avec plus grand nombre à 1

norma=digits.images/max

print(norma)




#### Exercice 3: Standardiser les entrées d'un modèle


Il est courant de normaliser les données d'entrée d'un modèle. Les données sont donc exprimées avec le même facteur d'échelle ce qui facilite (améliore) les performances des algorithmes d'apprentissage.
La solution la plus souvent utilisée est de centrer la moyenne sur 0 et de ramener l'écart type à 1.

- commencez par construire le jeu de données que nous standardiserons ensuite. 



In [None]:
import numpy as np
#génération des deux ensembles X et Y de données qui comprennent 
# 1000 entiers définis de manière aléatoire  

X = np.random.randint(5, 100 ,1000)
Y = np.random.randint(10, 67, 1000)

#TODO
# on crée le tableau *dataset* de 2 colonnes avec X première colonne et Y seconde colonne (concatènation)
dataset = np.c_[X, Y]
#affichage des dimensions (shape) de *dataset*
print(dataset.shape)
dataset

#affichage de la moyenne et de l'écart type de chaque colonne:
print(np.mean(dataset, axis=0))
print(np.std(dataset, axis=0))


#normalisation: 
# on soustrait à chaque valeur la moyenne des données dans la colonne
#  et on divise par l'écart type des données dans la colonne
dataset_normalized=(dataset - np.mean(dataset, axis=0))/np.std(dataset, axis=0)
print(dataset_normalized)

