# TP1 - Speaker verification

## Etape 1 : Installation du toolkit Kiwano

Kiwano est une boîte à outils open source pour la vérification des locuteurs basée sur PyTorch. L'objectif de ce TP est d'implémenter chaîne basique de vérification du locuteur en passant par les étapes suivantes : extraction de filtres de banques de fréquences,  normalisation CMVN, extraction d’embeddings du locuteur et calcul de la similarité avec une mesure du cosinus.


In [None]:
! git clone https://github.com/mrouvier/kiwano/
! cd kiwano/ && pwd
! cd kiwano/ && pip install -r requirements.txt
! cd kiwano/ && pip install -e .


## Etape 2 : Extraction des filter banks

### Objectif
L'objectif est d'analyser la manière dont les caractéristiques acoustiques d'un signal audio sont représentées à travers des coefficients issus des filter banks. Ce code permet de charger un fichier audio (ici enrollment.wav) et d'en extraire les filter banks.

### Questions
- A partir des filter banks, pouvez vous donnez la durée du fichier audio ?
- Quel est le nombre de coefficient extrait ?

In [None]:
import torchaudio
from IPython.display import Audio 
import kiwano
from kiwano.features import Fbank

#Initialisation de l'extracteur de features (Filter Bank)
feature_extractor = Fbank()

#Chargement d'un fichier audio
wav, sr = torchaudio.load("enrollment.wav")

#Lecture et affichage du fichier audio directement dans le notebook
display(Audio("enrollment.wav", autoplay=True))

#Extraction des features
f = feature_extractor.extract(wav, sampling_rate=sr)

#Affichage
print(f)

## Etape 3 : Normalisation CMVN

### Questions
- Que fait la normalisation CMVN dans le code ?
- Pourquoi est-il nécessaire de réaliser cette normalisation ?







In [None]:
import torch
import torchaudio
import kiwano
from kiwano.augmentation import CMVN

#Initialisation de la normalisation CMVN
cmvn = CMVN()

#Initialisation de l'extracteur de features (Filter Bank)
feature_extractor = Fbank()

#Chargement d'un fichier audio
wav, sr = torchaudio.load("enrollment.wav")

#Extraction des features
f = feature_extractor.extract(wav, sampling_rate=sr)

#Affichage de la matrice
print(f)

#Application de la normalisation CMVN
f_cmvn = cmvn(f)

#Affichage de la matrice
print(f_cmvn)

m = torch.mean(f, dim=0)

#Affichage de la matrice
print(f-m)



## Etape 4 : Extraction d'un speaker embedding

### Objectif
L'objectif de cette étape est d'extraire les embeddings du locuteur à l'aide d'un modèle pré-entraîné. Le code actuel permet d'extraire un embedding à partir du fichier audio "enrollment.wav".

### Exercice
- Extraire un embedding à partir du fichier "test1.wav".
- De quelle taille est l'embedding ?
- Comparer les embeddings issue du fichier "enrollment.wav" et "test1.wav". La comparaison se fait en calculant un score de similarité à l'aide de la distance cosinus (cosine similarity).

- Extraire un embedding à partir du fichier "enrollment.wav".
- Comparer les embeddings issue du fichier "enrollment.wav" et "test2.wav". La comparaison se fait en calculant un score de similarité à l'aide de la distance cosinus (cosine similarity).

- Ecouter les fichiers audio "enrollment.wav", "test1.wav" et "test2.wav". En fonction de ce que vous entendez, quel locuteur semble le plus proche de "enrollment.wav" ? Que révèlent les scores de similarité calculés à propos des ressemblances entre les locuteurs ?






In [None]:
import torch
import kiwano
from kiwano.features import Fbank
from kiwano.augmentation import CMVN
from kiwano.model import ResNetV2

#Lecture et affichage du fichier audio directement dans le notebook
display(Audio("enrollment.wav", autoplay=True))
display(Audio("test1.wav", autoplay=True))
display(Audio("test2.wav", autoplay=True))

#Initialisation de la normalisation CMVN et de l'extracteur de features
cmvn = CMVN()
feature_extractor = Fbank()

#Creation du modèle ResNet et initialisation des poids
resnet_model = ResNetV2(num_classes=21000)
resnet_model.load_state_dict(torch.load("model/model.ckpt", map_location="cpu")["model"])
resnet_model.eval()

#Chargement d'un fichier audio
wav, sr = torchaudio.load("enrollment.wav")

##Extraction des features et application de la normalisation CMVN
f = cmvn(
    feature_extractor.extract(wav, sampling_rate=sr)
)

#Extraction de l'embedding
f = f.unsqueeze(0).unsqueeze(1)
emb = resnet_model(f)

print(emb[0])



## Etape 5 : Bruit blanc

Le bruit blanc est un signal sonore qui comprend toutes les fréquences audibles (ou toutes les valeurs possibles dans un domaine donné), avec une intensité ou puissance uniforme pour chaque fréquence. Il se manifeste par un son constant, similaire à celui d'une télévision ou d'une radio mal réglée. Le terme "blanc" est employé par analogie avec la lumière blanche, qui contient toutes les longueurs d'onde du spectre visible. Dans cet exercice, nous allons appliquer du bruit blanc à chaque fichier audio et observer l'impact que cela a sur le modèle.

### Exercice
- Répondez aux questions de l'étape 4, mais cette fois en ajoutant du bruit blanc à chaque fichier audio.
- Pourquoi la distance entre les fichiers diffère-t-elle ? Quelle conclusion peut-on en tirer ?







In [None]:
import kiwano
from kiwano.features import Fbank
from kiwano.augmentation import CMVN
from kiwano.model import ResNetV2
import IPython.display as ipd

def white_noise(waveform):
    noise_level = 0.01
    white_noise = torch.randn(waveform.shape) * noise_level
    waveform_with_noise = waveform + white_noise
    waveform_with_noise = torch.clamp(waveform_with_noise, -1.0, 1.0)
    return waveform_with_noise


cmvn = CMVN()
feature_extractor = Fbank()
wav, sr = torchaudio.load("enrollment.wav")
wav_with_noise = white_noise(wav)

display(ipd.Audio(wav, rate=sr, autoplay=True))
display(ipd.Audio(wav_with_noise, rate=sr, autoplay=True))

resnet_model = ResNetV2(num_classes=21000)
resnet_model.load_state_dict(torch.load("model/model.ckpt", map_location="cpu")["model"])
resnet_model.eval()

f = cmvn(
    feature_extractor.extract(wav_with_noise, sampling_rate=sr)
)


f = f.unsqueeze(0).unsqueeze(1)
emb = resnet_model(f)
print(emb[0])

## Etape 6 : Calculer l'EER

### Objectif
L'objectif de cette étape est de calculer l'EER (Equal Error Rate) en utilisant un fichier de "trials". L'EER est une mesure utilisée pour évaluer les performances d'un système de reconnaissance vocale ou d'authentification de locuteur. Il représente le point où le taux de fausses acceptations (False Acceptance Rate, FAR) est égal au taux de faux rejets (False Rejection Rate, FRR).

Dans le fichier "trials.txt", chaque ligne contient trois colonnes :
- Première colonne : fichier d'enrollment (enregistrement de référence du locuteur).
- Deuxième colonne : fichier de test (enregistrement à comparer).
- Troisième colonne : indication si les deux fichiers appartiennent au même locuteur (target, noté par 1) ou à des locuteurs différents (non-target, noté par 0).


### Exercice
- Calculer l'EER du modèle en utilisant les paires d'enregistrement dans le fichier "trials.txt".
- Dessinez la courbe DET du système sur ce corpus.

### Fichier trials.txt

Quelques lignes du fichier trials.txt

In [None]:
! head trials.txt

### Calculer EER

Exemple pour calculer un EER. L'EER prend en entrée labels et scores.

In [None]:
import sklearn.metrics
import numpy as np

labels = [0, 0, 0, 1, 1, 1, 1]
scores = [0.1, 0.2, 0.3, 0.4, 0.5, 0.1, 0.6]

fpr, tpr, threshold = sklearn.metrics.roc_curve(labels, scores, pos_label=1)
fnr = 1 - tpr

eer_1 = fpr[np.nanargmin(np.absolute((fnr - fpr)))]
eer_2 = fnr[np.nanargmin(np.absolute((fnr - fpr)))]
eer = (eer_1 + eer_2) / 2

print(eer*100)



## Etape 7 : Normaliser les speaker embeddings

## Objectif
L'objectif de cette étape est de normaliser les *speaker embeddings* en les centrant par rapport à une moyenne calculée à partir des fichiers audio présents dans le répertoire train/. Cette normalisation permet de réduire les informations non pertinentes et d'obtenir une meilleure représentation des locuteurs.

### Exercice
- **Calcul des moyennes des speaker embeddings** : Calculez la moyenne des *speaker embeddings* issus des fichiers audio du répertoire train/. Cette moyenne servira de référence pour centrer les représentations des locuteurs.
- **Normalisation des embeddings** : Normalisez les *speaker embeddings* des enregistrements présents dans le fichier *trials.txt* en soustrayant cette moyenne calculée.
- **Recalculez l'EER en utilisant les speaker embeddings normalisés** : Recalculez l'EER en utilisant les *speaker embeddings* normalisés sur les paires d'enregistrement présentes dans le fichier *trials.txt*. Quels changements observez-vous après la normalisation ?



## Etape 8 : ResNet

### Question
- En regardant le code source de Kiwano, donnez l'architecture du ResNet ?

## Etape 9 : Voice Activity Detection (exercice optionnel)

### Objectif
Pour ceux qui ont terminé, certains fichiers audio peuvent contenir des zones de silence. Ces silences peuvent affecter la qualité des embeddings. L'objectif de cet exercice est de supprimer ces zones de silence dans chaque fichier audio en utilisant l'outil SILERO : https://github.com/snakers4/silero-vad

### Exercice
- Ouvrir un fichier audio.
- Détecter les zones de silence à l'aide de Silero VAD.
- Supprimer ces zones de silence.
- Calculer l'embedding à partir du fichier audio nettoyé.


In [None]:
from silero_vad import load_silero_vad, read_audio, get_speech_timestamps

model = load_silero_vad()
wav = read_audio("enrollment.wav")
speech_timestamps = get_speech_timestamps(wav, model)

wav_witout_silence = collect_chunks(speech_timestamps, wav)

