In [1]:
import pandas as pd
import numpy as np
import faiss

## Loading the data

In [2]:
file_path = "samples/1_2_article_vects_200.tsv"
vecs = np.loadtxt(file_path, delimiter="\t")
vecs = vecs.astype(np.float32)

## Setting up FAISS

In [3]:
d = vecs.shape[1]
d

768

In [4]:
index = faiss.IndexFlatL2(d)
index.is_trained

True

In [5]:
index.add(vecs[1:])
print(index.ntotal)

199


## Making the search

In [6]:
k = 5
query = np.asarray(vecs[0])
query = np.expand_dims(query, axis=0)

In [7]:
%%time
D, I = index.search(query, k)  # search
print(I)

[[ 92  89   8 189  66]]
CPU times: total: 0 ns
Wall time: 0 ns


## Showing the articles titles

In [8]:
file_path = "samples/1_1_article_titles_200.tsv"
titles = pd.read_csv(file_path, delimiter="\t")
titles.head()

Unnamed: 0,title,preview
0,Miquel V,Pujà al tron a la mort del seu oncle Miquel IV...
1,John Wilbye,Actuà al servei de la família Kytson a Hengrav...
2,petrologia,Aquest terme és molt més ampli que el de petro...
3,Emma Bosch Castell,Formada al Centre d’Iniciativa Tècnica Esporti...
4,Indicador de Progrés Genuí,Més avançat que l’Índex de Benestar Econòmic c...


In [9]:
titles.iloc[0]

title                                               Miquel V
preview    Pujà al tron a la mort del seu oncle Miquel IV...
Name: 0, dtype: object

In [10]:
titles.iloc[I[0]]

Unnamed: 0,title,preview
92,Trident,Al principi foren instal·lats en substitució d...
89,"Es publica a Valls (Alt Camp) el periòdic ""El ...","Es publica a Valls (Alt Camp) el periòdic ""El ..."
8,Gemma Alegria Padró,"Membre del Club Nàutic d’Arenys de Mar (CNAM),..."
189,Onada de protestes antiausteritat a Tunísia,Unes mil persones són arrestades per la polici...
66,Julián Pérez Rodríguez,Membre del Club Natació Barcelona. El 1927 dis...
