# Recomendador basado en contenidos
Consiste en recomendar contenido similar a un determinado contenido

#### Principales caracteristicas
- Sólo necesita la información de un producto, por lo que no se necesita información histórica
- Se suele usar para evitar problemas de arranque en frio

#### Como lo hacemos
1. Definir una métrica de similitud para comparar los contenidos
2. Calcular la similitud entre todos los elementos con la métrica seleccionada
3. (Opcional) Definir vecindarios para optimizar


## Antes de comenzar... veamos el dataset
Recursos turisticos de Andalucia obtenidos de [TripAdvisor](https://www.tripadvisor.es)

In [1]:
import pandas as pd

recursos = pd.read_csv('./dataset/Recursos_turisticos.csv', sep='|')
recursos.head(5)

Unnamed: 0,_id,nombre_ws,strCategoria,strSubcategoria,strCiudad,strDescripcion
0,5880b148636e564ad8d9b952,Hotel Albucasis,Alojamientos,Hoteles,Córdoba,.El hotel tiene a disposición de sus clientes ...
1,5880b148636e564ad8d9b963,Hotel Sierra Hidalga,Alojamientos,Hoteles,Ronda,Enclavado en una situación privilegiada con fa...
2,5880b1f2636e564ad8d9b969,Hotel Virgen de los Reyes,Alojamientos,Hoteles,Sevilla,"El Hotel Virgen de los Reyes***, ubicado en el..."
3,5880b1f2636e564ad8d9b96a,Hotel An Santo Domingo,Alojamientos,Hoteles,Lucena,El Hotel Santo Domingo Lucena está situado en ...
4,5880b1f2636e564ad8d9b96f,Leflet Valme,Alojamientos,Hoteles,Dos Hermanas,El Hotel Leflet Valme está situado estratégica...


## Métrica de similitud para texto

Una de las técnicas más utilizadas para obtener similitude texto es TF-IDF, tecnica proveniente del campo de Informatin Retrieval.

TF-IDF permite realizar una representación vectorial de los textos. Por ejemplo:

> "En un lugar de la mancha"

|_|En|un |lugar|de|la|mancha|
|--|--|---|-----|--|--|------|
|TF |1|1|1|1|1|1|
|DF |200|1700|100|3000|4075|3|
|IDF|1/200|1/1700|1/100|1/3000|1/4075|1/3|

Al tener una representación vectorial de los textos podemos usar medidas tradicionale
<img src="./imagenes/similitudes.png">

### Ejemplo TF-IDF

**Paso 1** Preparacion y tokenizado de datos

In [2]:
import gensim
import nltk
import tempfile
import heapq

from nltk.tokenize import word_tokenize
nltk.download('punkt')
nltk.download('stopwords')

documentos = recursos['strDescripcion']
print ("Numero de documentos:", len(documentos))
print ("\n", documentos[1])

#Tokenización
docs_tokenizado = [[w for w in word_tokenize(text)] 
             for text in documentos]
print ("\n\nElementos tokenizados\n")
print (docs_tokenizado[1])

# Convertimos a minúsculas
docs_tokenizado = [[w.lower() for w in documento] 
             for documento in docs_tokenizado]
print ("\n\nTodo minúsculas\n")
print (docs_tokenizado[1])

#Quitamos puntaciones
import string
table = str.maketrans('', '', string.punctuation)
docs_tokenizado = [[w.translate(table) for w in documento] 
             for documento in docs_tokenizado]
docs_tokenizado = [[w for w in documento if w.isalpha()] 
             for documento in docs_tokenizado]

print ("\n\nPuntuaciones\n")
print (docs_tokenizado[1])

#Quitamos StopWords
from nltk.corpus import stopwords

stop_words = set(stopwords.words('spanish'))
docs_tokenizado = [[w for w in documento if not w in stop_words] 
             for documento in docs_tokenizado]

print ("\n\nSin stop words\n")
print (docs_tokenizado[1])


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Mario\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Mario\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Numero de documentos: 601

 Enclavado en una situación privilegiada con fantásticas vistas a la sierra, y a menos de 2 Km. del centro de la ciudad de Ronda y 45 Km. de la Costa del Sol, es un lugar ideal para disfrutar de la oferta cultural y gastronómica además del patrimonio histórico-artístico de la ciudad, pudiendo combinarla con actividades en su entorno natural como la Sierra de las Nieves (reserva de la biosfera). Su decoración de estilo moderno y actual ofrece un ambiente selecto y acogedor. En nuestro restaurante podrán degustar los platos de nuestro cocinero Antonio Castro Aguilar además de una exquisita carta de vinos..


Elementos tokenizados

['Enclavado', 'en', 'una', 'situación', 'privilegiada', 'con', 'fantásticas', 'vistas', 'a', 'la', 'sierra', ',', 'y', 'a', 'menos', 'de', '2', 'Km', '.', 'del', 'centro', 'de', 'la', 'ciudad', 'de', 'Ronda', 'y', '45', 'Km', '.', 'de', 'la', 'Costa', 'del', 'Sol', ',', 'es', 'un', 'lugar', 'ideal', 'para', 'disfrutar', 'de', 'la', 'o

**Paso 2** Creación de un un diccionario con todo el vocabulario

In [3]:
diccionario = gensim.corpora.Dictionary(docs_tokenizado)

print("Número de palabras en el diccionario:",len(diccionario))
for i in range(len(diccionario)):
    print(i, diccionario[i])

Número de palabras en el diccionario: 7189
0 albolafia
1 amantes
2 antiguo
3 aves
4 barrio
5 belleza
6 bus
7 calle
8 cama
9 ciudad
10 clientes
11 coche
12 cuna
13 córdoba
14 describir
15 diferentes
16 disposición
17 encuentra
18 especies
19 guadalquivir
20 hermosa
21 hotel
22 información
23 judería
24 mezquita
25 minutos
26 monumentos
27 morena
28 museos
29 naturaleza
30 observar
31 oficina
32 pelo
33 pie
34 posee
35 puede
36 pueden
37 recomendamos
38 relajarnos
39 restaurantes
40 ribera
41 rincón
42 rio
43 secador
44 sierra
45 situados
46 sotos
47 supletoria
48 tabernas
49 tanta
50 televisión
51 tranquilo
52 turismo
53 turísticaestamos
54 típica
55 visitar
56 acogedor
57 actividades
58 actual
59 además
60 aguilar
61 ambiente
62 antonio
63 biosfera
64 carta
65 castro
66 centro
67 cocinero
68 combinarla
69 costa
70 cultural
71 decoración
72 degustar
73 disfrutar
74 enclavado
75 entorno
76 estilo
77 exquisita
78 fantásticas
79 gastronómica
80 históricoartístico
81 ideal
82 km
83 lugar
84

**Paso 3** Generación del corpus de documentos, se calcula el número de veces que cada palabra aparece en el documento (TF)

In [4]:
corpus = [diccionario.doc2bow(gen_doc) for gen_doc in docs_tokenizado]
print(corpus[67])

[(21, 2), (66, 1), (96, 1), (162, 1), (164, 1), (287, 1), (311, 1), (573, 1), (683, 1), (1240, 1), (2054, 1), (2055, 1), (2056, 1), (2057, 1), (2058, 1), (2059, 1)]


**Paso 4** Generación del modelo para TF-IDF

In [5]:
tf_idf = gensim.models.TfidfModel(corpus)
print(tf_idf)
s = 0
for i in corpus:
    s += len(i)
print(s)
tf_idf[corpus[45]]

TfidfModel<num_docs=601, num_nnz=39167>
39167


[(9, 0.03818906765826256),
 (21, 0.007017519648339666),
 (44, 0.12833553278571688),
 (55, 0.08473806387007773),
 (81, 0.11309413793343841),
 (86, 0.06456064374157698),
 (96, 0.0904066592412939),
 (100, 0.06118525128123023),
 (116, 0.045641336075729434),
 (151, 0.12528442992852148),
 (183, 0.05303965194737251),
 (188, 0.13617475055844122),
 (196, 0.06377959427524632),
 (198, 0.07810027055817702),
 (208, 0.06702349777465344),
 (290, 0.038014339556300604),
 (296, 0.057170395569893305),
 (317, 0.39827942149950074),
 (392, 0.10720433948686617),
 (421, 0.06083101841742033),
 (477, 0.0870269193583654),
 (491, 0.09938779865872205),
 (498, 0.07870611968213573),
 (500, 0.10178978509753554),
 (520, 0.0819178524747632),
 (532, 0.06618158071405982),
 (546, 0.12833553278571688),
 (549, 0.1772957126616965),
 (567, 0.10720433948686617),
 (573, 0.09608881955656479),
 (578, 0.06048061517308904),
 (582, 0.1296706151036546),
 (583, 0.1772957126616965),
 (726, 0.09825041934773648),
 (738, 0.091242199324864

**Paso 5** Creación de un índice temporal

In [6]:
print (tempfile.gettempdir())
sims = gensim.similarities.Similarity(tempfile.gettempdir(),tf_idf[corpus],
                                      num_features=len(diccionario))
print (sims[tf_idf[corpus[45]]])

C:\Users\Mario\AppData\Local\Temp
[2.50748172e-02 4.67274413e-02 5.61061315e-03 1.50708761e-02
 4.91801463e-02 1.04745273e-02 2.41362154e-02 6.59954548e-02
 0.00000000e+00 2.94572264e-02 4.76162434e-02 1.40734226e-01
 6.46158308e-03 3.50262737e-03 2.03444567e-02 4.18958701e-02
 5.14933504e-02 2.20693485e-03 1.78291164e-02 2.28080709e-04
 4.02734727e-02 1.56663004e-02 4.14772741e-02 2.70768777e-02
 8.53183270e-02 1.04364552e-01 5.10980003e-02 8.83291513e-02
 3.23604280e-03 1.38040613e-02 4.02366593e-02 2.01346856e-02
 3.67798544e-02 0.00000000e+00 5.63181862e-02 2.58662701e-02
 3.72334570e-02 5.02345487e-02 3.63293141e-02 5.91653511e-02
 3.01821134e-03 1.89522840e-02 4.72832061e-02 4.33607809e-02
 1.80975571e-02 9.99999940e-01 1.93825066e-02 6.51541203e-02
 8.34397785e-03 1.39104128e-02 2.70864274e-02 1.81327143e-03
 5.38292155e-02 5.73998243e-02 3.42336074e-02 2.63522156e-02
 2.02940255e-02 6.90183043e-03 2.02929508e-02 1.19473413e-02
 6.09480310e-03 3.39296348e-02 4.56709713e-02 8.549

**Paso 6** Obtener elementos recomendados, los más similares

In [7]:
salida = sims[tf_idf[corpus[212]]]

heap = []
indice = 0
for medida in salida:
    heapq.heappush(heap, (medida, documentos[indice]))
    indice +=1

print (documentos[212])
heapq.nlargest(10,heap)

El tradicional diseño nazarí, la cúpula de azulejos, y las baldosas y arcos de estilo árabe encantan los huéspedes del Hotel Alhambra Palace. El hotel está situado a sólo 100 metros del monumento de La Alhambra, y está a 10-15 minutos a pie del centro de la ciudad de Granada. Las 126 habitaciones y suites ofrecen vistas impresionantes de la ciudad de Granada, Sierra Nevada y el bosque de la Alhambra, y muestran una bonita decoración tradicional y comodidades de lujo: climatización individual, conexión a Internet WIFI, TV de plasma y teléfono. Disfrute de una vista panorámica de la puesta de sol desde el restaurante o la terraza mientras saboreas nuestras delicias de gastronomía local.


[(0.9999999,
  'El tradicional diseño nazarí, la cúpula de azulejos, y las baldosas y arcos de estilo árabe encantan los huéspedes del Hotel Alhambra Palace. El hotel está situado a sólo 100 metros del monumento de La Alhambra, y está a 10-15 minutos a pie del centro de la ciudad de Granada. Las 126 habitaciones y suites ofrecen vistas impresionantes de la ciudad de Granada, Sierra Nevada y el bosque de la Alhambra, y muestran una bonita decoración tradicional y comodidades de lujo: climatización individual, conexión a Internet WIFI, TV de plasma y teléfono. Disfrute de una vista panorámica de la puesta de sol desde el restaurante o la terraza mientras saboreas nuestras delicias de gastronomía local.'),
 (0.22288907,
  'Este hotel en Granada de ambiente familiar está situado dentro de la ciudadela de la Alhambra. No solo es un Hotel cerca de la Alhambra, sino que es un Hotel en la Alhambra. Situación privilegiada que le permitirá disfrutar de la tranquilidad de la Alhambra estando cerc

## Primer técnicas de deep learning

Es una técnica dentro del aprendizaje automático, basado en la estructura de las redes neuronales, pero usando arquitecturas profundas (deep) en la que múltiples capas son conectadas.

La principal característica y ventaja del deep learning es el **feature discovering** sin la necesidad de la intervención humana.

### Paragraph vector

- Algoritmo de aprendizaje no supervisado capaz de generar una representacion vectorial a partir de texto.
- Paragraph vector es capaz de aprender la semántica de las palabras.

<img src="./imagenes/doc2vec.jpg">

#### Ejemplo

**Paso 1** Entrenamiento del modelo

In [8]:
from gensim.models.doc2vec import Doc2Vec, TaggedDocument

#Configuración
#-------------
__longitud_vector = 100
__ventana = 10
__frecuencia_minima = 5
__learning_rate = 0.025
__min_learning_rate = 0.025
__epoch = 100
#---------------------

                
tagged_data = [TaggedDocument(words=word_tokenize(_d .lower()), tags=[str(i)]) for i, _d in enumerate(documentos)]
model = gensim.models.Doc2Vec(vector_size=__longitud_vector, window=__ventana, min_count=__frecuencia_minima, workers=11,alpha=__learning_rate, min_alpha=__min_learning_rate, epochs=__epoch)
model.build_vocab(tagged_data)
model.train(tagged_data, epochs=model.epochs, total_examples=model.corpus_count)

#Recorrido de todos los documentos con los que se ha entrenado
for i in range(20):
    print (model.dv[i].tolist())
    


[-1.1197237968444824, -1.3514066934585571, -0.47672101855278015, -2.280557155609131, 3.28938627243042, -0.570570707321167, 0.6587054133415222, 0.9782642722129822, 0.1644168198108673, -0.0943647176027298, 0.3081722557544708, 0.3167415261268616, -1.1620399951934814, 1.1068705320358276, 1.9875694513320923, -2.4189841747283936, 1.1303635835647583, 2.6082236766815186, -2.805903911590576, -4.468486785888672, 0.9591068029403687, -0.49089109897613525, 1.1956193447113037, -3.176516532897949, 0.8004102110862732, -2.4404163360595703, 1.2283008098602295, -3.231703996658325, 1.0386443138122559, 3.022109270095825, 1.0037591457366943, -1.5628662109375, -1.1751621961593628, 1.520147681236267, 0.15823590755462646, -1.1294161081314087, -0.6279228925704956, -0.04818306118249893, 0.9976667165756226, -1.6483255624771118, 0.5834289789199829, -0.612800657749176, -0.818270206451416, -1.0332871675491333, 2.294276475906372, 1.0656812191009521, 1.1538794040679932, 0.4478064775466919, 0.8593549728393555, -3.63722

**Paso 2** Cálculo de similitud

In [9]:
from sklearn.metrics.pairwise import cosine_similarity

elemento =model.dv[100]

heap = []
for i in range(len(model.dv)):
    sim =cosine_similarity(elemento.reshape(1, -1), model.dv[i].reshape(1, -1))
    heapq.heappush(heap, (sim, documentos[i]))

print (documentos[100])
heapq.nlargest(10,heap)

Este bonito aparthotel se encuentra en la hermosa localidad de Zahara de los Atunes. Se trata de un complejo de apartamentos turísticos que ofrecen los servicios de un hotel. Ideal para un público con espí­ritu joven, ofrece estudios con literas, estudios con camas dobles, cunas, cocina equipada, microondas, baño privado con plato de ducha y secador, TV, DVD, calefacción, aire acondicionado y acceso a internet. Todo a muy buen precio, con un ambiente moderno y acogedor para que disfrute de la belleza de Cádiz y de las fabulosas playas de Zahara de los Atunes.


[(array([[1.0000001]], dtype=float32),
  'Este bonito aparthotel se encuentra en la hermosa localidad de Zahara de los Atunes. Se trata de un complejo de apartamentos turísticos que ofrecen los servicios de un hotel. Ideal para un público con espí\xadritu joven, ofrece estudios con literas, estudios con camas dobles, cunas, cocina equipada, microondas, baño privado con plato de ducha y secador, TV, DVD, calefacción, aire acondicionado y acceso a internet. Todo a muy buen precio, con un ambiente moderno y acogedor para que disfrute de la belleza de Cádiz y de las fabulosas playas de Zahara de los Atunes.'),
 (array([[0.5609529]], dtype=float32),
  'El Playalinda Hotel está ubicado en Roquetas de Mar, a 50m de playa, junto al paseo marítimo peatonal y a 800 m del campo de golf Playa Serena. Ideal para quienes busquen un hotel acogedor, tranquilo y detallista en la costa de Almería.'),
 (array([[0.513619]], dtype=float32),
  'El Hotel Argantonio ofrece servicios de cafetería con desayuno-

### Inferir vector para un nuevo texto
Una vez tenemos el modelo podemos inferir el vector para un nuevo texto, a continuación realizaremos un ejemplo

In [10]:
text = ["comer","marisco"]

#Obtener el texto de un nuevo vector
vector = model.infer_vector(text)
print(vector)

[-0.07463618 -0.02596828 -0.0215035   0.11900699 -0.14254126 -0.24099635
  0.03088163  0.13628207 -0.12381653 -0.11159886 -0.28768262 -0.2836826
  0.00663483 -0.04738681  0.1439392  -0.382578    0.17946327 -0.09978503
 -0.18308458 -0.43406126  0.5168117   0.26605782  0.25891665 -0.12604365
 -0.02528094 -0.04855002 -0.22236902  0.05716065 -0.2489606   0.5294703
  0.35761887  0.15874776 -0.5570415  -0.10725676  0.20565432  0.28294444
 -0.09328427 -0.01105043 -0.31669495 -0.28364056  0.27986982 -0.04071182
 -0.14230539 -0.3574753   0.26640946  0.18017186 -0.28383562  0.00099169
  0.43142682 -0.20806937  0.4353212  -0.26140586  0.01130801 -0.02551004
 -0.18176183  0.49071547  0.09563491  0.12301744 -0.19868593  0.102099
 -0.19582522  0.09981679 -0.03763303 -0.23635897 -0.27840883  0.3429589
  0.09851084 -0.01556954 -0.03420614  0.05406174 -0.18026923 -0.18335244
  0.12304442  0.0566747  -0.15746056 -0.0404883  -0.04400393  0.04669192
 -0.22427     0.00209048  0.5278721   0.08584044 -0.3826

# Técnicas basadas en *transformers*

Transformer es una arquitectura de red neuronal que revolucionó el procesamiento de datos secuenciales desde su introducción en 2017 ([Attention Is All You Need](https://arxiv.org/abs/1706.03762)). Su innovador mecanismo de atención permite capturar relaciones a largo plazo en secuencias, prescindiendo de la dependencia secuencial y facilitando la paralelización del entrenamiento. Esto ha llevado a un rendimiento destacado en tareas como traducción automática y procesamiento de lenguaje natural, convirtiéndolos en una pieza clave en diversas aplicaciones de aprendizaje automático.

## Transformers

### Librería
Para este ejemplo usaremos la liberia *SentenceTransformers*, la cual contiene los principales modelos para la generacion de embedding usando transformers en python.

### Modelo a usar
En este ejemplo estaremos usando el modelo [all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2) el cual es un modelo que mapea las frase de entrada a un vector de longitud 384.

## Busqueda vectorial

En este caso vamos a usar el proyecto [*Faiss*](https://engineering.fb.com/2017/03/29/data-infrastructure/faiss-a-library-for-efficient-similarity-search/), el cual consiste un una base de datos de vectores para Python. Una de sus principales caracteristicas es la velocidad.

### Generar un embedidng
A continuaicon usaremos el modelo 'all-MiniLM-L6-v2' para generar el embedding de un texto

In [12]:
from sentence_transformers import SentenceTransformer

frase = "Esta es la frease a transformar"

model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
embeddings = model.encode(frase)
print(embeddings)

[-5.19492961e-02  6.43296912e-02  5.80458902e-03 -1.54482536e-02
  6.26368169e-03  3.70183997e-02  8.91443249e-03  3.03176008e-02
  5.46543039e-02  2.03952193e-02  5.92389666e-02  3.31048109e-02
 -7.89364502e-02 -1.57209020e-02 -1.87105872e-02 -1.75507646e-02
 -1.86545119e-01  5.51354326e-02 -3.06347087e-02 -2.32702377e-03
  1.22654371e-01  5.13815740e-03 -3.49320844e-02  3.49216610e-02
 -1.22106917e-01  2.66202334e-02  2.02060342e-02 -5.31039126e-02
 -1.33065749e-02 -8.75317976e-02 -1.92724466e-02  1.03709444e-01
 -4.13014218e-02 -6.62250863e-03 -7.62049630e-02 -1.62362447e-03
  8.95032361e-02 -5.92237562e-02  1.46267852e-02  4.29126509e-02
 -9.71143916e-02 -3.05358358e-02 -4.72850399e-03 -5.62819690e-02
  1.65881012e-02 -1.83371603e-02  6.39724508e-02  8.33033845e-02
  6.69627497e-03 -1.88698620e-02  6.23930469e-02 -6.61773309e-02
  2.84436718e-02  3.17827985e-02 -2.17400566e-02  3.10013462e-02
 -9.29595903e-03 -4.36919443e-02  9.91254672e-02  9.79404971e-02
  5.33650117e-03 -1.34385

### Creación de la base de datos de vectores
A continuacion crearemos la base de datos de vectores en la que iremos indexando los vectores

In [13]:

import faiss 
index = faiss.IndexFlatL2(384)   

### Generar embedding e indexar
Generamos el embedding para las descripciones de los recuros y los indexamos

In [14]:
embeddings = model.encode(recursos["strDescripcion"])
index.add(embeddings)

### Realizamos una búsqueda

In [22]:
k = 5 #número de resultados
i = 10 #elemento sobre el que recomendar

elemento = [recursos.iloc[i].strDescripcion]
print(elemento)
embeddings = model.encode(elemento)
D, I = index.search(embeddings, k)

## TODO pintar los resultado

['El Hotel Pequeño Rocío es un complejo hotelero que consta de dos zonas visiblemente diferenciadas, las zonas comunes y la zona de alojamiento. La zona de alojamiento dispone de 22 casas rurales, dichas casas mantienen la fisonomía típica del lugar (La aldea Del Rocío), hecho que permite que nuestros clientes se sientan totalmente integrados en el entorno, manteniendo una decoración individual y personalizada. Casa Standard: Cada una de ellas tiene un porche de entrada y un patio trasero, amplio salón comedor totalmente equipado (TV, cómodos sofás, climatiación, etc.), un cuarto de baño con ducha térmica, secador de pelo y todos los complementos necesarios para el aseo, dos dormitorios cada uno de ellos para dos personas. Todas las casas disponen de calefacción y aire acondicionado en todas las dependencias. Las casas tienen una capacidad para 4 Pax (sin incluir camas supletorias). Suites: Las suites tienen todas las comodidades de nuestras casas standard añadiéndoles más espacio en c

## ¿Podemos usar imágenes?
El uso de las nuevas técnicas de deep learning han provocado un gran avance en la visión artificial, una de las técnicas más usadas son las redes neuronales de convolución(CNN)

### CNN
<img src="./imagenes/cnn.png">

Extracción de *feature* de alto nivel, obteniendo los valores de la última capa antes de clasificación.

Algunos modelos de CNN:
* **AlexNet**: el primer modelo de CNN usado para el reto ILSVRC en 2012, mejoró más de un 10% los resultados anteriores.
* **GoogLenet** (2014):  aparecen bifucarciones en la arquitectura (inception) por primera vez.
* **ResNet**: arquitectura más "profunda", 152 capas.

### Ejemplo de extracción de features
<img src="./imagenes/Presentacion2.png">

In [None]:
featuresImagenes = pd.read_csv('./dataset/VectoresRopa.csv', sep='|', header=None)
featuresImagenes.head(5)

### Cálculo de similitud

In [None]:
from sklearn.metrics.pairwise import euclidean_distances
import numpy as np

imagenRecomendar = 5
imagen = np.array(featuresImagenes.iloc[imagenRecomendar][2:])

heap = []
#for i in range(len(featuresImagenes)):
for i in range(100):
    if(i!=5):
        imagenComparar = np.array(featuresImagenes.iloc[i][2:])
        sim =cosine_similarity(imagen.reshape(1, -1), imagenComparar.reshape(1, -1))
        heapq.heappush(heap, (sim, featuresImagenes.iloc[i][0]+ '-'  + str(featuresImagenes.iloc[i][1])))

#print documentos[45]
heapq.nlargest(10,heap)

<img src="./imagenes/Presentacion1.png">