# Rappels de python et utilisation de Numpy

Les modèles d'apprentissage, comme beaucoup d'autres que vous verez (comme les modèles profonds), mettent en oeuvre des opérations sur les données d'entrées telles que des applications linéaires, des non-linéarités, des opérations d'aggrégation etc... Dans votre longue carrière d'expert en Machine Learning, vous serez donc souvent amenés à manipuler des jeux de données vectorielles et à effectuer toutes sortes d'opérations et calculs sur celles-ci. C'est pourquoi vous vous familliariserez dans un premier temps dans ce TP avec la librairie python $\texttt{numpy}$ qui implémente de multiples fonctions de calculs scientifiques.

Ce TP est divisé en deux parties. La première partie consiste simplement en un rappel des types de base en python (nombres entiers, flotant, booléens, liste) ainsi que des opérations élémentaires que l'on peut effectuer sur ces objets. Prenez un moment pour bien vérifier que ces opérations de bases vous soient bien acquises. La deuxième partie de l'exercice consiste à apprendre à effectuer des opérations sur les matrices et les vecteurs avec l'aide de la bibliothèque $\texttt{numpy}$, un outil crucial pour faire du calcul scientifique en python.

## Opérations et structures numériques de base en python

### Exemples d'operation sur les nombres

**Declarer un entier**

In [None]:
x = 3
print("x = %d" % x)
print("Le type de x est type(x): %s" % type(x)) 

**Declarer un floatant**

In [None]:
y = 4.2
print("y = %d" % y)
print("y = %.1f" % y)
print("Le type de y est type(y): %s" % type(y)) 

**Exemples d'opérations**

In [None]:
#### Exemple d'addition
print("x + 1 = %d" % (x+1))

#### Exemple d'addition entre int et float (le resultat est au format float)
print("x + y = %.3f" % (x+y))     

#### Incrémentation
x += 2
print("La nouvelle valeur de x = %d" % x) 

### Puissance d'un entier
print("x a la puissance 2: x**2 = %d" % (x**2))

### Les booléens

In [None]:
t = True
f = False

print(type(f)) 
print(t and f) 
print(t or f)  
print(not t) 

x=3; y=2
print(x == y) 
print(x==3)  

### Les listes

#### Declarer une liste vide

In [None]:
l_empty = []
print(l_empty)

#### Declarer une liste contenant des éléments

In [None]:
l = [11, 5, 9, 10]
print(l)

#### Acceder au i-eme element d'une liste

In [None]:
l[0]

#### Affichage du nombre d'element dans la liste

In [None]:
print("Le nombre d'elements dans l est len(l): %d" % len(l))
print("Le nombre d'elements dans l_empty est len(l_empty): %d" % len(l_empty))
print("Le dernier element de la liste est l[-1] = %d" % l[-1])

#### Parcourir les elements d'une liste

On boucle sur les elements de l pour les afficher un a un:

In [None]:
for i in range(len(l)):
    print(l[i])

In [None]:
for i in l:
    print(i)

On boucle sur les elements de l pour les afficher un à un avec leur indice correspondant avec la primitive 'enumerate'

In [None]:
for i, e in enumerate(l):
    print("Le %d eme element de la liste est l[%d] = %d" % (i, i, l[i]) )

## Manipulation des matrices et vecteurs avec Numpy

In [None]:
import numpy as np

Dans cet exercice, vous allez vous exercer à effectuer les opérations de bases nécéssaires pour apprendre les paramètres d'une régression linéaire ainsi qu'effectuer des prédictions à partir du modèle appris. Numpy est une bibliothèque logicielle open source qui fournit de multiples fonctions permettant notamment de manipuler et effectuer des opérations sur des structures matricielles et vectorielles. En Numpy, ces structures peuvent être obtenues à l'aide du même objet générique qui permet d'instancier n'importe quel tableau multidimensionnel : $\texttt{Ndarray}$.

$\texttt{Ndarray}$ est l'objet principal de NumPy, il s'agit d'une table d'éléments (généralement des nombres), tous du même type, indexés par un tuple d'entiers positifs (commençant par $0$, pas comme en Matlab). Les dimensions de la structure sont appelées axes. Ainsi, les vecteurs et les matrices peuvent être instanciés de manière générique avec un Ndarray comprenant respectivement 1 et 2 axes. 

### Opérations sur les vecteurs
Nous allons apprendre à créer et manipuler des vecteurs avec Numpy. Les premières lignes du code sont simplement à examiner pour comprendre les bases. Vous aurez ensuite à répondre à une série de questions pour apprendre à effectuer certaines opérations sur les vecteurs.

**Instancier des vecteurs :**
Il existe différentes manières de déclarer et instancier un vecteur d'un espace de dimension donnée. Les premières lignes de cette partie du code vous donnent différents exemples.

In [None]:
print("Instantiation d'un vecteur R^2 (2 dimension reelles):") 
np.ndarray(2)

In [None]:
print("Vecteur nul dans R 2 (2 dimension reelles):") 
np.zeros(2)

In [None]:
print("Vecteur remplie de 1 dans R 5:")   
np.ones(5)

In [None]:
print("Vecteur dans R 4 contenant des valeurs aléatoires:")  #     
x = np.random.random(4)
print(x)

**Accès aux valeurs des vecteurs :** Les valeurs des tableaux Numpy sont accessibles de façon similaire aux listes simples en python. Gardez bien en tête que le système d'indiçage/indexation pour accéder aux éléments d'une liste/tableau se fait bien dans l'interval $[0;N-1]$ pour un tableau à N éléments. Il est également possible d'accéder et retourner en une seule ligne de commande aux plusieurs valeurs du vecteur en spécifiant un interval d'indices que l'on veut retourner. 

Par exemple, pour retourner de la composante (dimension) 2 à la composante 4 d'un vecteur:


In [None]:
y = x[2:4]  
print(y)

Le resultat est retourné sous la forme d'un nouveau vecteur y. On peut aussi retourner les 3 premières composantes du tableau comme suit:

In [None]:
print(x[:3])     # ici, ":3" signifie du 1er aux 3 eme élément inclus

ou bien retourner de la 3eme composante à la dernière comme ceci:

In [None]:
y = x[3:]     # ici, "3:" signifie daux 3 eme au dernier élément

ou encore les deux dernières cases :

In [None]:
y = x[-2:]
print(y)

**Récuperation de la dimension d'un vecteur:** examiner les dimensions du tableau numpy :


Ici, on montre que l'on peut accéder aux dimensions des axes du tableau multidimensionel avec \textit{shape}. Cette dernière renvoit sous les dimensions sous la forme d'un tuple. Dans notre cas, notre vecteur correspond à un tableau à un seul axe. La dimension d'un vecteur $\mathbf{x}$ peut donc être obtenue comme suit:

In [None]:
print(x.shape)  #La valeur de la dimension du 1er (et seul) axe du tableau

**Parcours des valeurs du vecteur :**

Ici, on montre comment on peut boucler sur les éléments d'un vecteur de 3 façons: en itérant sur les indices puis acceder aux valeurs par les indices, en itérant directement sur les éléments du tableau, puis en itérant à la fois sur les indices ET les éléments avec enumerate.

Parcourez les valeurs du vecteur y avec en bouclant directement sur les elements du vecteur. Note ici on n'incremente plus directement sur les indices mais sur les element du vecteur, pour retrouver l'indice en cours, on doit faire l'incrementration a la main.

In [None]:
i=0
for x_i in x:
    print("La valeur de la %d eme composante est: %f" % (i,x_i))
    i += 1

Faites la meme chose avec la fonction enumerate pour avoir acces aux indices sans faire d'incrementation

In [None]:
for i, x_i in enumerate(x):
    print("La valeur de la %d eme composante est: %f" % (i,x_i))

**Recuperez les n derniere composante composantes**

Recuperez les 3 derniere composante composantes avec x[dim-3:] ou x[-3:] (on va de la composante dim-3 à la dernière (:):

In [None]:
dim = x.shape[0]
print( x[dim-3:] )
print(x[-3:])

Recuperez les composantes de 3 a la derniere

In [None]:
print(x[3:])

Recuperez les composantes alant de l'indice 3 a 7

In [None]:
print(x[3:7])

### PARTIE QUESTIONS : A VOUS DE JOUER !
Dans cette partie vous serez amenés à utiliser certaines fonctions de calcul numpy très pratiques pour effectuer des opération d'algèbre linéaire tel qu'un produit scalaire entre deux vecteurs $\mathbf{x}$ et $\mathbf{y}$ (avec np.dot(x,y)). Nous verrons par la suite qu'étant donnée que le ndarray est un objet générique cette fonction "produit scalaire" de numpy peut également être utilisé pour les produits matriciels.

Soit les deux vecteurs suivant:

In [None]:
x = np.random.normal(0,1,size=4)
y = np.random.normal(0,1,size=4)
print(x, y)

1) Addition des vecteur: x + y:

2) Combinaison lineaire des vecteurs 4.2 * x + 1.2 * y:

3) Lister avec une boucle les elements de x a la puissance 2:

4) Generer et mettre dans un vecteur elements de x a la puissance 2 en une seule commande:

5) La somme des elements de x avec une boucle:

6) La somme des elements de x avec la primitive 'sum' de numpy:

7) Calculer la norme L_2 de x avec une boucle en utilisant les points 3 et 5:

8) Calculer la norme L_2 de x sans boucle en utilisant les points 4 et 6:

9) Calculer le produit scalaire entre x et y avec une boucle:

11) Calculer le produit scalaire entre x et y avec la primitive 'dot' de numpy:

## Opérations sur les matrices
Cette partie est similaire à la précédente, un point général sur la manière d'instancier les objets sera d'abord fait, puis, vous répondrez à une série de questions en implémentant les bouts de codes demandés.

On notra simplement que la différence avec l'instantiation d'un vecteur consiste à préciser les dimensions de deux axes du tableau numpy au lieu d'un seul et que l'accès se fait (presque) maintenant comme pour un tableau classique à deux entrées:

**Matrice nulle dans 2x2: M1 = np.zeros((2,2))**

In [None]:
M1 = np.zeros((2,2))
print(M1)  

**Matrice 3x3 remplie de 1: M2 = np.ones((3,3))  :**

In [None]:
M2 = np.ones((3,3)) 
print(M2)  

**Matrice 4x4 aleatoire: M3 = np.random.random((4,4))**

In [None]:
M3 = np.random.random((4,4))
print(M3)

**Matrice identite 5x5: M4 = np.eye(5,5) :**

In [None]:
M4 = np.eye(5,5) 
print(M4)

**Trouver les dimensions du Numpy array: **

Soit deux matrices 4x4 M1 et M2

In [None]:
M1 = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12], [9,10,11,8]])
M2 = np.array([[9,10,11,3], [5,6,7,8], [1,2,3,8], [9,10,11,7]])

print(M1)
print(M2)

**Donnez les dimensions de la matrice M1**

In [None]:
size = M1.shape
nb_lignes = size[0]    
nb_colones= size[1]

print(size)
print(M1)

### Parcours des valeurs de la matrice

In [None]:
for i in range(nb_lignes):
    for j in range(nb_colones):
        print("La valeur de la composante %d%d est:  = %f" % (i, j, M1[i,j]))

**Donnez la valeure de l'element de la 1er ligne et 3 eme colone de M1**

In [None]:
M1[0,2]

**Parcourez les valeur de la matrice M2 avec en bouclant sur les indices**

In [None]:
for i in range(M1.shape[0]):
    for j in range(M1.shape[1]):
        print("La valeur de la composante M1_%d%d est:  = %d" % (i, j, M1[i,j]))

**Parcourez les vecteurs lignes de la matrice M2 en bouclant directement sur les elements du vecteur**

In [None]:
for v_i in M2:
    print(v_i)

**Parcourez les vecteurs colonnes de la matrice M2 en bouclant directement sur les elements du vecteur**

Astuce, baladez vous dans les vecteurs lignes de la transpose de la matrice.

In [None]:
for v_j in np.transpose(M2):
    print(v_j)

**Recuperez les 2 premier vecteurs ligne de M1 en une seule ligne de commande**

Quand on ne specifie pas les indices des 2 champs, on a implcitement access aux indices des lignes seuls

In [None]:
M1[:2] #Equivalent a M1[:2 , :]

**Recuperer en une seule ligne de commande les 2 derniers vecteurs colones de la matrices M1**

Ici on veut agir sur les colonnes, on doit donc specifer les intervals sur les lignes ET les colones.

In [None]:
nb_col = M1.shape[1]
M1_transpose = np.transpose(M1)
print(M1_transpose[nb_col - 2:])

 ### PARTIE QUESTIONS : A VOUS DE JOUER !

Dans les questions, vous aurez à comprendre comment on effectue un produit matriciel entre deux matrices ou bien entre une matrice et un vecteur. Vous verrez deux manières de procéder: avec une boucle, et avec la primitive $\texttt{dot(,)}$ de $\texttt{numpy}$. Le script vous permet de calculer le temps mis pour effecteur ces deux calculs. Pensez bien à écrire votre code entre les deux instructions suivante:

In [None]:
import time
start_time = time.time()
# Votre code pour le produit matricielle ici
stop_time =  time.time()

Comme vous le verrez, la fonction numpy dot est beaucoup plus rapide que votre implémentation à base de boucles car cette fonction optimise très bien les calculs de nature vectorielle. C'est pourquoi il sera toujours intéressant d'écrire vos équations en notation vectorielle afin de les implementer simplement et efficacement par la suite. \\

\noindent \textbf{Note importante: } L'important à retenir est qu'on peut considérer une matrice soit comme une application linéaire soit comme un ensemble de vecteurs (chaque ligne correspond à un vecteur d'apprentissage par exemple). Le produit matricielle entre une matrice $\mathbf{M1}$ de dimensions $n$ x $k$ ($n$ lignes et $k$ colonnes) et une autre $\mathbf{M2}$ de dimension $k$ x $m$ donnera un résultat $\mathbf{M1}\mathbf{M2}$ (calculé avec np.dot(M1,M2)) de dimensions $n$ x $m$. Autremment dit le nombre de colonnes de la première matrice doit être égale au nombre de lignes de la deuxième matrice. Un vecteur $\mathbf{x} \in \mathbb{R}^d$ correspond à une matrice de dimension $d$ x $1$. On pourra donc calculer le resultat de l'application linéaire décrite par la matrice $\mathbf{M}$ de dimensions $n$ x $d$ sur le vecteur $\mathbf{x}$ de dimensions $d$ x $1$ avec np.dot(M,x). Le résultat sera un vecteur $\mathbf{y} \in \mathbb{R}^n$ (représenté par un tableau de dimensions $n$ x $1$). \\

\noindent \textbf{Intuitivement}, appliquer linéairement $\mathbf{M}$ de dimensions $n$ x $d$ à $\mathbf{x} \in \mathbb{R}^d $ revient à "\textit{empiler}" les résultats des produits scalaires entre $\mathbf{x}$ et chacun des vecteurs colonne de $\mathbf{M}$. Si il y a $n$ colonnes, il y aura donc $n$ produits scalaires et donc $n$ valeurs dans le vecteur résultats. Les composantes du vecteur résultat correspondent ainsi aux similarités (au sens de la métrique du produit scalaire) entre $\mathbf{x} \in  \mathbb{R}^d$ et une base de $n$ vecteurs dans $\mathbb{R}^d$.


1) Addition de M1  M2:

2) Multiplication terme a terme de M1  M2:

3) Afficher avec une boucle les elements de M1 a la puissance 2:

4) Generer la matrice M3 contenant les elements de M1 a la puissance 2 en une seule commande:

5) La somme des elements de M1 avec une boucle:

6) La somme des elements de M1 avec la primitive 'sum' de numpy:

7) Cherchez dans vos souvenir ou sur internet et implementez la formule permettant de calculer le produit matricielle (different du produit terme a terme !) entre M1 et M2 avec une boucle:

In [None]:
#On va calculer le temps que cela met avec une boucle
#On comparera par la suite ce temps avec celui prit par une autre methode
start_time = time.time()
M1M2 = np.zeros(M1.shape)       
print(M1M2.shape)
## Your code here
stop_time =  time.time()

print(M1M2)
print("\nTemps de calcul = %f secondes" % (stop_time - start_time))

8) Calculer le produit matricielle entre M1 et M2 avec la primitive 'dot' de numpy:

In [None]:
start_time = time.time()
# Your code here
M1M2 = 0       #retourner le resultat
print(M1M2)
stop_time =  time.time()

print(M1M2)
print("\nTemps de calcul = %f secondes" % (stop_time - start_time))

9) Soit la matrice M3 suivante (aleatoire mais ce n'est pas ce qui est important ici). Calculer le produit matricielle entre M1 et M3 avec la primitive 'dot' de numpy (attention aux dimensions des deux matrices !) :

In [None]:
M3 = np.random.random((10,4)) 
#Your code here

11) Calculer le produit matricielle entre <x , M3> avec la primitive 'dot' de numpy:

12) Calculer le produit matricielle entre <M3 , x> avec la primitive 'dot' de numpy (qu'est ce qui change ?) :")
HINT: Pensez à la transposée de vos structures pour aligner leurs dimensions !