### 420-A58-SF - Algorithmes d'apprentissage non supervisé - Hiver 2023 - Spécialisation technique en Intelligence Artificielle<br/>
**Objectif: cette séance de travaux pratiques consiste en l'implémentation et la mise en oeuvre de l'algorithme LSH sur le jeu de données people_wiki. Les performances de regroupement et les temps d'exécution seront évalués**

In [None]:
%reload_ext autoreload
%autoreload 2
%matplotlib inline

In [None]:
import numpy as np
import pandas as pd

# Le reste des modules sera importé au fur et à mesure des exercices ...

Pour rappel, l'archive `people.zip` contient 4 fichiers:

* **people_wiki.csv**: jeu de données consituté des pages Wikipedia de personnalités
* **people_wiki_map_index_to_word.json**: mapping entre les mots et les indices
* **people_wiki_word_count.npz**: vecteurs d'occurence des mots (word count) pour chaque document
* **people_wiki_tf_idf.npz**: vecteurs TF-IDF pour chaque document

Dans l'énoncé de ce TP, les mots "article" et "document" sont interchangeables.

## 1 - Chargement des données

Ici, la **représentation TF-IDF** sera utilisée.

In [None]:
import json
from helpers import load_sparse_csr

# Chargement du jeu de données
wiki = pd.read_csv('../../data/people/people_wiki.csv')
wiki.index.name = 'id'

# Chargement des représentations TF-IDF
corpus = load_sparse_csr('../../data/people/people_wiki_tf_idf.npz')

# Chargement du mapping entre les mots et les indices
with open('../../data/people/people_wiki_map_index_to_word.json') as f:
     map_index_to_word = json.load(f)

## 2 - Modèle LSH - Travail préliminaire

LSH effectue une recherche de type plus proches voisins efficace en partitionnant de manière aléatoire toutes les observations dans différents **bins**. Nous allons ici construire une variante populaire de LSH connue sous le nom de **projection binaire aléatoire** (random binary projection).

**Exercice 2-1 - Créer une fonction permettant de générer une collection de vecteurs aléatoires à partir d'une distribution gaussienne. Les paramètres de cette fonction sont `dim` (dimension des vecteurs) et `num_vector` (nombre de vecteurs)**

In [None]:
# Compléter cette cellule ~ 2 lignes de code

**Exercice 2-2 - Afficher quelques vecteurs, par exemple 3 vecteurs de dimension 5. Afin de permettre la reproductibilité des résultats, nous choisissons un seed de 2020.**

In [None]:
np.random.seed(2020)
# Compléter cette cellule ~ 1 ligne de code

**Exercice 2-3 - Générer un nombre de vecteurs aléatoires de la même dimension que la taille du vocabulaire et permettant d'encoder sur 16 bits l'index du bin de chaque documents.**

In [None]:
np.random.seed(2020)
# Compléter cette cellule ~ 1-2 lignes de code

Nous aimerions maintenant décider dans quel bin le **document d'indice 0** devrait se retrouver. Ayant les 16 vecteurs aléatoires générés précédement, nous avons 16 bits pour représenter l'index du bin. Le premier bit est donné par **le signe du produit scalaire** entre le premier vecteur aléatoire et le vecteur TF-IDF du document.  Le deuxieme bit est donné par **le signe du produit scalaire** entre le deuxieme vecteur aléatoire et le vecteur TF-IDF du document.

**Exercice 2-4 - Calculer le premier et le second bit**

In [None]:
# Compléter cette cellule ~ 2-3 lignes de code

**Exercice 2-5 - En utilisant une méthode vectorisée, calculer tous les bits du bin correspondant au document d'indice 0. Utiliser les entiers 0/1 pour représenter les bits**

In [None]:
# Compléter cette cellule ~ 1 ligne de code

**Exercice 2-6 - En utilisant à nouveau une méthode vectorisée, calculer tous les bins pour l'ensemble des documents du jeu de données. Afficher la representation décimale (index du bin) des 10 premiers documents**

![](https://lh3.googleusercontent.com/proxy/133dre9Rzr5Olqa_XFHe8kaZzZxbcdh23QcbPIOD_AZ5oAruazhI5tqmDyCZbixE72tRI_mG3zutbz-bn946pfQxikGWYZcLoq1ZkfeZj9oUtzsn2NSqUGD3eySkMcINIUYJ6g4gYhjsJMbpYbwSYe9XqNwEFTZrb3_ZtEOT)

In [None]:
# Compléter cette cellule ~ 3-5 lignes de code

## 3 - Modèle LSH - Entraînement

En nous basant sur le travail préliminaire, nous pouvons maintenant compiler la liste des documents appartiennant à chaque bin.

**Exercice 3 - Créer une fonction `train_lsh` prenant en paramètre le jeu de données, le nombre de bits d'encodage et un seed par défaut à 2020**
**La fonction devra, pour chaque document du jeu de données:**
* **Obtenir l'indice du bin pour le document courant**
* **Obtenir la liste des ids des documents associés avec ce bin. Si la liste n'existe pas, créer une liste vide**
* **Ajouter l'id du document courant à la fin de la liste**

**La fonction devra retourner la structure de données suivante:**

`{'data': le jeu de données,
 'bin_index_bits': les indices des bins au format binaire,
 'bin_indices': les indices des bins au format décimal,
 'table': table de hachage (ids des documents pour chaque bin),
 'random_vectors': les vecteurs aléatoires,
 'num_vector': le nombre de vecteurs (taille de l'encodage)
}`

In [None]:
# Compléter cette cellule ~ 20 lignes de code
def train_lsh(data, num_vector=16, seed=2020):
    
    # Generer les vecteurs aleatoires
    
    # Partitionner les documents dans les bins (binaire et decimal)
    
    # Table de hachage
    table = {}
    # Iteration
    
    model = {'data': data,
     'bin_index_bits': None,
     'bin_indices': None,
     'table': None,
     'random_vectors': None,
     'num_vector': None
    }
                                          
    return model

Exécutez la cellule suivante pour vérifier l'implémentation de votre fonction

In [None]:
from helpers import checkcode_ex3

model = train_lsh(corpus, num_vector=16, seed=143)
checkcode_ex3(model)

## 4 - Modèle LSH - Inspection des bins

**Exercice 4-1 - Quel est l'index du bin contenant l'id du document correspondant à la page de Barack Obama ?**

In [None]:
# Compléter cette cellule ~ 1-2 lignes de code

**Exercice 4-2 - Le documents de Barack Obama et de Joe Biden sont-ils dans le même bin ? Si non, comparer la représentation binaire des bins pour ces deux personalités**

In [None]:
# Compléter cette cellule ~ 5 lignes de code

**Exercice 4-3 - Quels sont les documents présents dans le même bin que Barack Obama ? Sont-ils nécéssairement plus similaires que Joe Biden ?**

In [None]:
# Compléter cette cellule ~ 5 lignes de code

**Exercice 4-4 - Afficher les similarités cosinus avec le document de Barack Obama pour chaque document présents dans le même bin. Comparer avec Joe Biden. La fonction cosine_distance est fournie dans le fichier `helpers.py`**

In [None]:
# Compléter cette cellule ~ 7-10 lignes de code

## 5 - Modèle LSH - Recherche des plus proches voisins

Cette partie de la séance de travaux pratiques sera l'occasion de rechercher les plus proches voisins en se basant sur le modele LSH. La logique qui sera implémentée, consistant en l'inversion de bits, est la suivante:
1. Soit L la représentation binaire du bin contenant le document requête.
2. Trouver tous les documents du bin L.
3. Trouver tous les documents du bin  dont la représentation diffère de L de 1 bit.
4. Trouver tous les documents du bin  dont la représentation diffère de L de 2 bits.
5. etc ...

Afin d'obtenir les bins différant du bin "requête" d'un certain nombre de bits, nous pouvons utiliser [`itertools.combinations`](https://docs.python.org/3/library/itertools.html#itertools.combinations), qui produit tous les sous-ensembles possibles d'une liste donnée.

1. Choisir le rayon de recherche `r`. Ceci détermine le nombre de bits différents entre deux vecteurs.
2. Pour chaque sous ensemble (n_1, n_2, ..., n_r) de la liste [0, 1, 2, ..., num_vector-1], effectuer:
   * Inverser le bits (n_1, n_2, ..., n_r) du bin requête pour produire un nouveau vecteur.
   * Obtenir la liste des documents appartenant au bin indexé par ce nouveau vecteur.
   * Ajouter tous ce doucments à l'ensemble "candidat"

Chaque résultat de la cellule suivante est un 3-tuple indiquant la position où de le bin candidat diffère du bin requête. Par exemple, (0, 1, 3) indique que le bin candidat diffère du bin requête sur les premier, second et quatrième bits. Afin d'illustrer le concept détaillé ci-dessus, inspectez le résultat de la cellule ci-dessous

In [None]:
from itertools import combinations

num_vector = 16
search_radius = 3

for diff in combinations(range(num_vector), search_radius):
    print(diff)

**Exercice 5-1 - La fonction ci-dessous recherche les bins voisins du bin requête dans un rayon déterminé. Compléter cette fonction**

In [None]:
from copy import copy  # deep copies

def search_nearby_bins(query_bin_bits, table, search_radius=2, initial_candidates=set()):
    """
    Pour un vecteur requête donné et un model LSH entraîné,
    retourne tous les candidats, voisins de la requête dans tous les bins du rayon de recherche.
    
    Exemple:
    --------
    >>> model = train_lsh(corpus, num_vector=16, seed=143)
    >>> q = model['bin_index_bits'][0]  # vecteur du premier document
  
    >>> candidates = search_nearby_bins(q, model['table'])
    """
    num_vector = len(query_bin_bits)
    powers_of_two = 1 << np.arange(num_vector-1, -1, -1)
    
    # Permet de fournir un ensemble de candidats initial
    candidate_set = copy(initial_candidates)
    
    for different_bits in combinations(range(num_vector), search_radius):       
        # Inverser le bits (n_1, n_2, ..., n_r) du bin requête pour produire un nouveau vecteur.
        alternate_bits = copy(query_bin_bits)
        for i in different_bits:
            # ------------------------------------------------------------------------------
            # ICI: code pour l'inversion de bits ~ 1 ligne
            # ------------------------------------------------------------------------------
        
        # Conversion du nouveau vecteur binaire en index (entier)
        nearby_bin = alternate_bits.dot(powers_of_two)
        
        if nearby_bin in table:
            # -------------------------------------------------------------------------------
            # ICI: code pour mise à jour de candidate_set avec les documents bin
            # -------------------------------------------------------------------------------
            
    return candidate_set

Exécutez la cellule suivante pour vérifier l'implémentation de votre fonction

In [None]:
from helpers import checkcode_ex5_searchradius0, checkcode_ex5_searchradius1

candidate_set = checkcode_ex5_searchradius0(model, search_nearby_bins)
checkcode_ex5_searchradius1(model, search_nearby_bins, candidate_set)

**Exercice 5-2 - Compléter la fonction ci-dessous, puis réaliser une requête pour trouver les plus proches voisins du document sur Obama. Utilisez un rayon de 3 et affichez les 10 plus proches. Afficher le nom et la distance**

In [None]:
from sklearn.metrics.pairwise import pairwise_distances 

def query(vec, model, k, max_search_radius):
  
    data = model['data']
    table = model['table']
    random_vectors = model['random_vectors']
    num_vector = random_vectors.shape[1]
    
    # Calcul l'index du bin (en bianire) du vecteur de requête
    bin_index_bits = (vec.dot(random_vectors) >= 0).flatten()
   
    # Recherche de bin à proximité et collecte des candidats
    candidate_set = set()
    for search_radius in range(0, max_search_radius+1):
        candidate_set = search_nearby_bins(bin_index_bits, table, search_radius, initial_candidates=candidate_set)
   
    # Trie les candidats par leur distance à la requête
    nearest_neighbors = pd.DataFrame(candidate_set, columns=['id'])
    candidates = data[list(candidate_set),:]
    
    # -------------------------------------------------------------------------------------------------
    # ICI: nearest_neighbors['distance'] = ... calcul des distances entre candidates et vec ~ 1 ligne
    # -------------------------------------------------------------------------------------------------
        
    return nearest_neighbors.nsmallest(k, 'distance'), len(candidate_set)

In [None]:
# Compléter cette cellule ~ 2-3 lignes de code

## 6 - Modèle LSH - Expérimentation

Dans les sections suivantes, nous avons implémenté quelques expériences afin que vous puissiez acquérir une intuition sur le comportement de votre implémentation LSH dans différentes situations. Cela vous aidera à comprendre l'effet de la recherche de bins voisins et les performances de LSH par rapport au calcul des voisins les plus proches à l'aide d'une recherche par force brute.

Comment la recherche dans les bins à proximité affecte-t-elle le résultat du LSH? Trois variables sont affectées par le rayon de recherche:

* Nombre de documents candidats considérés
* Temps de requête
* Distance des voisins approximatifs de la requête

Exécutons LSH plusieurs fois, chacun avec des rayons différents pour la recherche des bins voisins. Nous mesurerons les trois variables comme discuté ci-dessus.

In [None]:
import time

num_candidates_history = []
query_time_history = []
max_distance_from_query_history = []
min_distance_from_query_history = []
average_distance_from_query_history = []

for max_search_radius in range(17):
    start=time.time()
    # Exécute la requête LSH pour Barack Obama
    result, num_candidates = query(corpus[35817,:], model, k=10, max_search_radius=max_search_radius)
    end=time.time()
    query_time = end-start
    
    print(f'Radius: {max_search_radius}')
    # Afficher les 10 NN incluant l'id du document et le nom
    print(result.join(wiki, on='id', how='inner').sort_values(by='distance', ascending=True)[['distance','name']])
    
    # Obtention des  statistiques sur les 10 NN
    average_distance_from_query = result['distance'][1:].mean()
    max_distance_from_query = result['distance'][1:].max()
    min_distance_from_query = result['distance'][1:].min()
    
    num_candidates_history.append(num_candidates)
    query_time_history.append(query_time)
    average_distance_from_query_history.append(average_distance_from_query)
    max_distance_from_query_history.append(max_distance_from_query)
    min_distance_from_query_history.append(min_distance_from_query)

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(7,4.5))
plt.plot(num_candidates_history, linewidth=4)
plt.xlabel('Rayon de recherche')
plt.ylabel('Nombre de documents cherchés')
plt.rcParams.update({'font.size':16})
plt.tight_layout()

plt.figure(figsize=(7,4.5))
plt.plot(query_time_history, linewidth=4)
plt.xlabel('Rayon de recherche')
plt.ylabel('Query time (seconds)')
plt.rcParams.update({'font.size':16})
plt.tight_layout()

plt.figure(figsize=(7,4.5))
plt.plot(average_distance_from_query_history, linewidth=4, label='Moyenne des 10 voisins')
plt.plot(max_distance_from_query_history, linewidth=4, label='Plus loin des 10 voisins')
plt.plot(min_distance_from_query_history, linewidth=4, label='Plus proche des 10 voisins')
plt.xlabel('Rayon de recherche')
plt.ylabel('Distance cosinus des voisins')
plt.legend(loc='best', prop={'size':15})
plt.rcParams.update({'font.size':16})
plt.tight_layout()

**Exercice 6-1 - Quel est le plus petit rayon de recherche qui a donné le voisin le plus proche correct, à savoir Joe Biden??**

In [None]:
# Votre réponse

**Exercice 6-2 - Supposons que notre objectif était de produire 10 voisins les plus proches approximatifs dont la distance moyenne par rapport au document de requête est inférieure à 0,01 de la moyenne des 10 vrais voisins les plus proches. Pour Barack Obama, les 10 vrais voisins les plus proches sont en moyenne d'environ 0,77. Quel était le plus petit rayon de recherche pour Barack Obama qui a produit une distance moyenne de 0,78 ou mieux?**

In [None]:
# Votre réponse

## 7 - Modèle LSH - Métriques

L'analyse ci-dessus est limitée par le fait qu'elle a été exécutée avec une seule requête, à savoir Barack Obama. Nous devons répéter l'analyse pour l'intégralité des données. Itérer sur tous les documents prendrait beaucoup de temps, alors choisissons au hasard 10 documents pour notre analyse.

Pour chaque document, nous calculons d'abord les 25 vrais voisins les plus proches, puis exécutons LSH plusieurs fois. Nous examinons deux mesures:

* Précision @ 10: Combien des 10 voisins donnés par LSH sont parmi les 25 vrais voisins les plus proches?
* Distance cosinus moyenne des voisins de la requête

Ensuite, nous exécutons LSH plusieurs fois avec différents rayons de recherche.

In [None]:
def brute_force_query(vec, data, k):
    num_data_points = data.shape[0]
    
    # Calcul les distances pour tous les points du jeu de données
    nearest_neighbors = pd.DataFrame(range(num_data_points), columns=['id'])
    nearest_neighbors['distance'] = pairwise_distances(data, vec, metric='cosine').flatten()
    
    return nearest_neighbors.nsmallest(k, 'distance')

La cellule suivante exécutera LSH avec plusieurs rayons de recherche et calculera les métriques de qualité pour chaque exécution.

In [None]:
max_radius = 17
precision = {i:[] for i in range(max_radius)}
average_distance  = {i:[] for i in range(max_radius)}
query_time  = {i:[] for i in range(max_radius)}

np.random.seed(0)
num_queries = 10
for i, ix in enumerate(np.random.choice(corpus.shape[0], num_queries, replace=False)):
    print('%s / %s' % (i, num_queries))
    ground_truth = set(brute_force_query(corpus[ix,:], corpus, k=25)['id'])
    # Obtient l'ensemble des 25 véritables plus proches voisins
    
    for r in range(1,max_radius):
        start = time.time()
        result, num_candidates = query(corpus[ix,:], model, k=10, max_search_radius=r)
        end = time.time()

        query_time[r].append(end-start)
        # precision = (# of neighbors both in result and ground_truth)/10.0
        precision[r].append(len(set(result['id']) & ground_truth)/10.0)
        average_distance[r].append(result['distance'][1:].mean())

In [None]:
plt.figure(figsize=(7,4.5))
plt.plot(range(1,17), [np.mean(average_distance[i]) for i in range(1,17)], linewidth=4, label='Average over 10 neighbors')
plt.xlabel('Search radius')
plt.ylabel('Cosine distance')
plt.legend(loc='best', prop={'size':15})
plt.rcParams.update({'font.size':16})
plt.tight_layout()

plt.figure(figsize=(7,4.5))
plt.plot(range(1,17), [np.mean(precision[i]) for i in range(1,17)], linewidth=4, label='Precison@10')
plt.xlabel('Search radius')
plt.ylabel('Precision')
plt.legend(loc='best', prop={'size':15})
plt.rcParams.update({'font.size':16})
plt.tight_layout()

plt.figure(figsize=(7,4.5))
plt.plot(range(1,17), [np.mean(query_time[i]) for i in range(1,17)], linewidth=4, label='Query time')
plt.xlabel('Search radius')
plt.ylabel('Query time (seconds)')
plt.legend(loc='best', prop={'size':15})
plt.rcParams.update({'font.size':16})
plt.tight_layout()

## 8 - Modèle LSH - Effets du nombre de vecteurs

Regardons maintenant le paramètre restant: le nombre de vecteurs aléatoires. Nous exécutons LSH avec un nombre différent de vecteurs aléatoires, allant de 5 à 20. Nous fixons le rayon de recherche à 3.

In [None]:
precision = {i:[] for i in range(5,20)}
average_distance  = {i:[] for i in range(5,20)}
query_time = {i:[] for i in range(5,20)}
num_candidates_history = {i:[] for i in range(5,20)}
ground_truth = {}

np.random.seed(0)
num_queries = 10
docs = np.random.choice(corpus.shape[0], num_queries, replace=False)

for i, ix in enumerate(docs):
    ground_truth[ix] = set(brute_force_query(corpus[ix,:], corpus, k=25)['id'])
    # Obtient l'ensemble des 25 véritables plus proches voisins

for num_vector in range(5,20):
    print('num_vector = %s' % (num_vector))
    model = train_lsh(corpus, num_vector, seed=143)
    
    for i, ix in enumerate(docs):
        start = time.time()
        result, num_candidates = query(corpus[ix,:], model, k=10, max_search_radius=3)
        end = time.time()
        
        query_time[num_vector].append(end-start)
        precision[num_vector].append(len(set(result['id']) & ground_truth[ix])/10.0)
        average_distance[num_vector].append(result['distance'][1:].mean())
        num_candidates_history[num_vector].append(num_candidates)

In [None]:
plt.figure(figsize=(7,4.5))
plt.plot(range(5,20), [np.mean(average_distance[i]) for i in range(5,20)], linewidth=4, label='Average over 10 neighbors')
plt.xlabel('# of random vectors')
plt.ylabel('Cosine distance')
plt.legend(loc='best', prop={'size':15})
plt.rcParams.update({'font.size':16})
plt.tight_layout()

plt.figure(figsize=(7,4.5))
plt.plot(range(5,20), [np.mean(precision[i]) for i in range(5,20)], linewidth=4, label='Precison@10')
plt.xlabel('# of random vectors')
plt.ylabel('Precision')
plt.legend(loc='best', prop={'size':15})
plt.rcParams.update({'font.size':16})
plt.tight_layout()

plt.figure(figsize=(7,4.5))
plt.plot(range(5,20), [np.mean(query_time[i]) for i in range(5,20)], linewidth=4, label='Query time (seconds)')
plt.xlabel('# of random vectors')
plt.ylabel('Query time (seconds)')
plt.legend(loc='best', prop={'size':15})
plt.rcParams.update({'font.size':16})
plt.tight_layout()

plt.figure(figsize=(7,4.5))
plt.plot(range(5,20), [np.mean(num_candidates_history[i]) for i in range(5,20)], linewidth=4,
         label='# of documents searched')
plt.xlabel('# of random vectors')
plt.ylabel('# of documents searched')
plt.legend(loc='best', prop={'size':15})
plt.rcParams.update({'font.size':16})
plt.tight_layout()

## Fin du TP