## TP1 Maths pour l'IA: Calcul de normes et de distances

Ce TP vous permettra de mettre en pratique le cours de Maths sur les normes et les distances calculées sur des vecteurs (ou des matrices) de grande dimension. Dans un première temps vous implémenterez les différents calculs de distance vus en cours et vous les validerez sur des exemples simples. Dans un deuxième temps, vous cherchez à identifier des locuteurs à partir d'une similarité obtenue sur des vecteurs de grande dimension.

## Partie 1: Implémentation des normes et distances

### 1.1. Normes $L^1$ et $L^2$, $L^{\infty}$

In [1]:
import numpy as np

x = np.array([2, 3, -1])
y = np.array([2, 3, 10])

Créer trois fonctions qui permettent de calculer les normes L$^1$, L$^2 $et L$^\infty$ d'un vecteur de dimension $n$. Calculer ces normes pour les vecteurs $x$ et $y$. Ce sont les vecteurs vus en cours, vous connaissez donc le résultat, sinon refaites le calcul pour vérifier.

In [17]:
def L1norm(x):
    return np.abs(x).sum()

def L2norm(x):
    return np.sqrt(np.square(x).sum())
    
def Linf(x):
    return np.abs(x).max()

print(f"L1: {L1norm(x)}, L2: {L2norm(x)}, Linf : {Linf(x)}")
print(f"L1: {L1norm(y)}, L2: {L2norm(y)}, Linf : {Linf(y)}")

L1: 6, L2: 3.7416573867739413, Linf : 3
L1: 15, L2: 10.63014581273465, Linf : 10


### 1.2. Norme de Froebenius
Créer une fonction permettant de calculer la norme de Froebenius d'une matrice $\mathbf{A}$.

In [19]:
A = np.array([[  2,  -5, -11,   0],
       [-10,   4,   6,  13],
       [  4,   7,  12,  -2]])

In [22]:
def Fnorm(A):
    return np.sqrt(np.square(A).sum())

print(Fnorm(A))

26.153393661244042


### 1.3. Comportement proche de 0

Q1. Est-ce que l'égalité suivante ```0.1 + 0.1 +0.1 == 0.3``` est vraie en Python ?

In [24]:
print(0.1 + 0.1 + 0.1 == 0.3)
print(0.1 + 0.1 + 0.1)

False
0.30000000000000004


Q2. La fraction décimale ```0.125``` peut s'écrire sous la forme $0\cdot 10^0 + 1\cdot 10^{-1} + 2\cdot 10^{-2} +5\cdot 10^{-3}$. Donner la forme des fractions binaires ```0.1``` et ```0.3``` ?

$0.1 = 0\cdot10^0 + 1\cdot10^{-1}$

$0.3 = 0\cdot10^0 + 3\cdot10^{-1}$

Q3. En utilisant le format d'affichage des flottants en Python, par exemple ```"%.2f" %0.1``` donner la valeur exacte en décimale de l'approximation en binaire stockées en machine pour ```0.1```.

In [32]:
print("%.100f" %0.1)
print("Aprox  = 0.55511151231257827021181583404541015625 * 10^17")

0.1000000000000000055511151231257827021181583404541015625000000000000000000000000000000000000000000000
Aprox  = 0.55511151231257827021181583404541015625 * 10^17


Q3. Expliquer le résultat obtenu à la première question.

Q4. Définir des vecteurs contenant des très petites valeurs (de l'ordre de $10^{-320}$). Vérifier que ces valeurs sont bien différentes de 0. Vérifier que les normes L1 et L2 de ces vecteurs sont bien différentes de 0. 


Qu'en concluez-vous sur le choix des normes L1 ou L2 ?

In [69]:
np.random.seed(6)

v1 = np.array([1e-320, 0.1e-320, 3.4e-320])
v2 = np.array([2e-320, 0.4e-320, 2.4e-320])

print(v1[1] == 0)
print(f"v1 : Norme L1 : {L1norm(v1)} == 0 ? {L1norm(v1) == 0} et Norme L2 : {L2norm(v1)} == 0 ? {L2norm(v1) == 0}")

print(f"v2 : Norme L1 : {L1norm(v2)} == 0 ? {L1norm(v2) == 0} et Norme L2 : {L2norm(v2)} == 0 ? {L2norm(v2) == 0}")

print("L1 mieux car L2 ecrase les valeurs")

False
v1 : Norme L1 : 4.5e-320 == 0 ? False et Norme L2 : 0.0 == 0 ? True
v2 : Norme L1 : 4.8003e-320 == 0 ? False et Norme L2 : 0.0 == 0 ? True
L1 mieux car L2 ecrase les valeurs


### 1.5. Calcul des distances

Q5. Définir plusieurs fonctions correspondantes aux distances vues en cours: Manhattan, Euclidienne, Tchebychev. Vous proposerez également une implémentation de la similarité cosinus. Vous vérifierez que les dimensions des deux vecteurs $x$ et $y$ sont égales.

In [89]:
def manhattan(x,y):
    assert x.shape == y.shape
    return np.abs((x - y)).sum()

def euclidienne(x,y):
    assert x.shape == y.shape
    return np.sqrt(((x-y)**2).sum())

def tchebychev(x,y):
    assert x.shape == y.shape
    return np.abs(x-y).max()

def sim_cos(x,y):
    assert x.shape == y.shape
    return x.dot(y.T) / (L2norm(x) * L2norm(y))

Q6. Le calcul de la similarité cosinus fait intervenir le produit scalaire. Nous avons vu en cours qu'il existait deux approches pour le calculer. En utilisant la librairie ```time``` évaluer le temps pris par chacune de ces approches quand les vecteurs sont de grande dimension et choisissez celle qui vous semble la plus pertinente.

In [94]:
import time
n = 800 # dimension du vecteur
a = np.linspace(0,1,n)
b = np.random.randn(n)
start = time.time()
prod_scalaire1 = a.dot(b.T)
print(f"temps méthode 1 {time.time() - start}")
print(prod_scalaire1)
start = time.time()
prod_scalaire2 = np.sum(a*b)
print(f"temps méthode 2 {time.time() - start}")
print(prod_scalaire2)

temps méthode 1 0.00013256072998046875
24.904335801507727
temps méthode 2 0.0001628398895263672
24.904335801507735


Q7. Calculer la distance entre les vecteurs $x$ et $y$ définis au tout début avec les différentes versions que vous aurez implémentées.

In [90]:
print(f"Manhattan : {manhattan(x,y)}")
print(f"Euclidienne : {euclidienne(x,y)}")
print(f"Tchebychev : {tchebychev(x,y)}")
print(f"Similarité cosinus : {sim_cos(x,y)}")

Manhattan : 11
Euclidienne : 11.0
Tchebychev : 11
Similarité cosinus : 0.07542546827314035


## Partie 2: Matrices de similarité sur le dataset Iris
Pour cette première partie on utilisera le dataset Iris que l'on peut récupérer directement dans la librairie ```sklearn```. Le corpus est organisé en dictionnaire, où la clé *data* correspond aux caractéristiques et la clé *target* aux labels.

Q1. Charger le corpus, et vérifier que vous avez bien 150 iris de 3 types différents et 4 caractéristiques (vous afficherez les dimensions des tableaux que vous récupérerez). La fonction vous permettant de récupérer les valeurs unique en python est ```set```. Afficher les caractéristiques et labels correspondant aux 3 premières données.

In [132]:
import matplotlib.pyplot as plt
%matplotlib notebook
from sklearn.datasets import load_iris
iris = load_iris() # La variable iris est un dictionnaire
print(iris.keys())
print(iris['data'].shape)
print(set(iris['target']))
iris

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])
(150, 4)
{0, 1, 2}


{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

Q2. Afficher l'ensemble des données suivant leurs caractéristiques suivant deux axes que vous choisirez parmi les 4 caractéristqiues. 

In [129]:
sepal_length = iris['data'][:,0]
petal_length = iris['data'][:,2]

plt.plot(sepal_length, petal_length, 'x')
plt.xlabel('longeur du sepal')
plt.ylabel('longeur du petal')
plt.title('Longueur du petal en fonction de la longueur du sepal')
plt.show()

<IPython.core.display.Javascript object>

Q3. On va maintenant chercher à calculer une matrice de similarité sur l'ensemble des données du dataset iris. Calculer la distance entre chacune des données deux à deux. Vous retournerez une matrice de similarité que vous afficherez (fonction ```imshow()```). Tester plusieurs mesures de distance et observez les modifications sur la matrice de similarité.

In [154]:
def similarite(datas, calcType):
    sim = np.ndarray((150,150))
    
    for i in range(len(datas)):
        for j in range(len(datas)):
            sim[i,j] = calcType(datas[i], datas[j])
            
    return sim
    
    

S = similarite(iris['data'], euclidienne)
plt.imshow(S)


<IPython.core.display.Javascript object>

<matplotlib.image.AxesImage at 0x7fd4b2829b20>

## Partie 3. Identifier un locuteur à partir d'une similarité
La tâche d'identification du locuteur consiste à apprendre des modèles de locuteurs connus suivant leur identifiant, et ensuite associer l'enregistrement d'un locuteur inconnu avec un des identifiants.
Pour cela, les techniques récentes utilisent des représentations de locuteurs apprises sur de grandes quantités de données appelées *speaker embeddings*. Ces représentations sont des vecteurs de grande dimension qui capturent l'identité vocale des locuteurs.

Les locuteurs apparaissent plusieurs fois dans le corpus, on a plusieurs extraits audio (segments de parole) où un même locuteur apparait.

A partir d'un signal de parole correspondant à un locuteur connu, on extrait un vecteur d'*embeddings*. Ces locuteurs feront partie de l'enrollement. On obtient alors une modélisation acoustique pour chaque locuteur de notre partition d'enrollement.

En phase de test, on récupère un extrait de signal de parole correspondant à un unique locuteur que l'on ne connait pas. On extrait à partir de ce signal le vecteur d'*embeddings* associé et on va chercher l'identifiant correspondant au vecteur d'*embeddings* du locuteur de l'enrollement le plus similaire. On calculera un taux d'erreur suivant la distance utilisée à partir des identifiants des locuteurs inconnus présent dans la partition de test.

In [157]:
enroll_ids = np.load("enroll_ids.npy")#identifiants des locuteurs connus
enroll_xv = np.load("enroll_xv.npy")  #vecteurs d'embeddings des loc connus

test_ids = np.load("test_ids.npy")    #identifiants des locuteurs inconnus => pour vérifier
test_xv = np.load("test_xv.npy")      #vecteurs d'embeddings des loc inconnus

### 3.1. Calculer les scores avec une similarité cosine

Q1. Calculer la similarité entre chaque locuteur connu de la partition d'enrollement et chaque locuteur inconnu de la partition de test.

Séparer les cas où les identifiants des locuteurs connus et inconnus sont les mêmes ou différents. Stocker les scores dans deux variables différentes et vérifier que la moyenne des scores entre deux locuteurs différents est plus petite (moins similaire) que celle obtenue entre deux locuteurs identiques (très similaire).

In [163]:
for i in range(enroll_ids):
    

1111

### 3.2. Calculer un taux d'erreur

Q2. Pour un locuteur inconnu de la partition de test, on cherchera l'identifiant du locuteur de la partition d'enrollement qui a le plus grand score de similarité. On considère alors que cet identifiant correspond au locuteur prédit. 

En comparant l'identifiant du locuteur prédit avec celui du locuteur de référence, on peut évaluer les performances de notre approche en calculant un taux d'erreur (nombre de bonnes réponses / nombre de locuteurs inconnus).

Q3. Le modèle qui a permis d'apprendre les *embeddings* a été entraîné avec une similarité cosinus. Est-ce que cette mesure de similarité est bien celle qui donne le meilleur taux de reconnaissance ?