<a href="https://colab.research.google.com/github/gibranfp/CursoDatosMasivosI/blob/main/notebooks/3e_hnmslib.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Búsqueda del vecino más cercano aproximado mediante grafos jerárquicos navegables de mundo pequeño
En esta libreta se realiza un buscador del vecino más cercano aproximado usando grafos jerárquicos navegables de mundo pequeño (Hnswlib). 

In [1]:
from os import listdir
from os.path import isfile, join
import struct
import os 

import numpy as np

Instalamos la biblioteca [Hnswlib](https://github.com/nmslib/hnswlib)

In [2]:
!pip install hnswlib
import hnswlib



## Conjunto de datos
Para evaluar el buscador vamos usar el conjunto de vectores SIFT [ANN_SIFT10K](http://corpus-texmex.irisa.fr/) del grupo TEXMEX, el cual descargamos y extraemos.

In [3]:
!wget -q ftp://ftp.irisa.fr/local/texmex/corpus/siftsmall.tar.gz
!tar xvzf siftsmall.tar.gz

siftsmall/
siftsmall/siftsmall_base.fvecs
siftsmall/siftsmall_groundtruth.ivecs
siftsmall/siftsmall_learn.fvecs
siftsmall/siftsmall_query.fvecs


Definimos una función para leer los vectores de un archivo `.fvecs`.

In [4]:
import struct
import os 

def lee_fvecs(ruta):
  with open(ruta, 'rb') as f:
    d = struct.unpack('i', f.read(4))[0]
    n = f.seek(0, os.SEEK_END) // (4 + 4 * d)
    f.seek(0)
    vecs = np.zeros((n, d))
    for i in range(n):
      f.read(4)
      vecs[i] = struct.unpack('f' * d, f.read(d * 4))
  
  return vecs 

Leemos el conjunto de vectores base y consulta.

In [5]:
base = lee_fvecs('siftsmall/siftsmall_base.fvecs')
consultas = lee_fvecs('siftsmall/siftsmall_query.fvecs')

print('Base: {0} Consultas: {1}'.format(base.shape, consultas.shape))

Base: (10000, 128) Consultas: (100, 128)


Definimos una función para leer los vectores más cercanos reales (_groundtruth_) de un archivo `.ivecs`

In [6]:
def lee_ivecs(ruta):
  with open(ruta, 'rb') as f:
    d = struct.unpack('i', f.read(4))[0]
    n = f.seek(0, os.SEEK_END) // (4 + 4 * d)
    f.seek(0)
    vecs = np.zeros((n, d), dtype=np.int)
    for i in range(n):
      f.read(4)
      vecs[i] = struct.unpack('i' * d, f.read(d * 4))
  
  return vecs 

Leemos estos vectores.

In [7]:
gt = lee_ivecs('siftsmall/siftsmall_groundtruth.ivecs')
print('Groundtruth: {0}'.format(gt.shape))

Groundtruth: (100, 100)


## Distancia $\ell_2$
Creamos un índice de Hnswlib para la distancia $\ell_2$, configuramos los hiperparámetros y almacenamos el conjunto base.

In [8]:
p = hnswlib.Index(space='l2', dim=base.shape[1]) 
p.init_index(max_elements=base.shape[0], ef_construction=100, M=16)
p.set_ef(10)
p.set_num_threads(4)
p.add_items(base)

Realizamos las consultas usando este índice.

In [9]:
nns_l2, l2_dists = p.knn_query(consultas, k=1)

Extraemos los vecinos más cercanos encontrados por Hswlib y los de referencia y los comparamos.

In [10]:
vmc_real = [g[0] for g in gt]
correcto = [nns_l2[i] == vmc_real[i] for i in range(len(nns_l2))]
print('Promedio encontrados = {0}'.format(np.mean(correcto)))

Promedio encontrados = 0.95


## Ejercicio
 * Compara el desempeño de los algoritmos usando distintos hiperparámetros
 * Usa otro conjunto de datos para evaluar los algoritmos