# <p style="text-align: center;">Similitud entre Productos</p>

![downloadedImage%20%282%29.png](attachment:downloadedImage%20%282%29.png)


La similitud entre productos puede ser una oportunidad en la cual puede sacar provecho tanto el comprador como Mercado Libre en su plataforma siempre que se identifiquen de manera apropiada. Para un usuario puede facilitar su decisión de compra al hacer comparables los mismos productos, o aquellos con un grado de similaridad alta. En cuanto a la página e información que esto aporta a Mercado Libre se pueden, por ejemplo proponer estrategias para fijar un rango de precios en productos que se sabe son iguales y así mismo identificar aquellos que no como posibles fallos en la publicación del vendedor.

Para llevar a cabo esta importante labor, en el reto contamos con dos conjuntos, uno llamado items_titles con más de 30mil nombres de productos para Mercado Libre Brasil. Por otra parte, para el conjunto de items_titles, con cerca de 10mil registros 
es sobre el cual se quiere generar el entregable donde se encuentren todas sus parejas de productos ordenadas por score de similaridad.

La forma más eficiente de llevar a cabo una comparación entre dos cadenas de textos es a través de los **embeddings**, los cuales en pocas palabras convierten la información relevante del texto en vectores de números que permiten realizar operaciones matemáticas entre sí, como lo es el método de **similitud del coseno** para identificar cercanías semánticas entre sí. 

Entrenar y construir un modelo de este tipo requiere de un esfuerzo y recurso computacional grande, que por fortuna ya fueron realizados por grandes empresas y puestos a disposición para el uso en este tipo de casos. Lo anterior significa, que probaremos con modelos ya existentes y validados directamente en el conjunto de test, que al momento de generar las combinaciones de parejas ya contaría con cerca de 500 millones de registros en sus filas.

Esta técnica nos permite optimizar esfuerzos y recursos computacionales, garantizando unos resultados consistentes. Vamos a realizarlo:

In [1]:
''''
!pip install itables
!pip install -U sentence-transformers
!pip3 install seaborn
!pip install absl-py
!pip install tensorflow
!pip install tensorflow_hub








In [2]:
from itables import init_notebook_mode
import pandas as pd
import numpy as np
from absl import logging
import tensorflow as tf
import tensorflow_hub as hub
import matplotlib.pyplot as plt
import os
import re
import seaborn as sns


init_notebook_mode(all_interactive=True)







<IPython.core.display.Javascript object>

In [3]:
# Importar y ver un poco del conjunto grande
items_titles = pd.read_csv ("C:/Users/Garzonm1/Desktop/Teste Te╠ücnico - DS/items_titles.csv")

In [4]:
items_titles

ITE_ITEM_TITLE
Loading... (need help?)


In [5]:
# Importar el conjunto donde vamos a implementar los modelos
items_titles_test = pd.read_csv ("C:/Users/Garzonm1/Desktop/Teste Te╠ücnico - DS/items_titles_test.csv")

In [6]:
items_titles_test.size

10000

In [19]:
items_titles_test

ITE_ITEM_TITLE
Loading... (need help?)


### Vamos a hacerlo con 2 métodos 

- Sentence transformers: Aplican redes neuronales (BERT) para incrustar oraciones en vectores que facilitan la identificación eficiente de títulos similares mediante la comparación de su contenido semántico codificado.

- Universal sentence encoder: Transforma oraciones en vectores densos, utilizando un entrenamiento profundo y diverso que capta matices lingüísticos, lo que lo hace ideal para identificar títulos parecidos incluso con variaciones sutiles en el lenguaje.



## Método 1 - Sentence Transformers

Se escogió el modelo "paraphrase-multilingual-MiniLM-L12-v2" por ser aquel con mejor desempeño que aplicara para **portugués**, idioma en el que se encuentran los datos que acabamos de observar.

![image-2.png](attachment:image-2.png)

In [8]:
from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')  #multi-language model

In [9]:
#Convertir los items a la lista para luego hacer el embedding del título
items = items_titles_test['ITE_ITEM_TITLE'].values.tolist()

In [10]:
embedding = model.encode(items, convert_to_tensor=False)
embedding.shape

(10000, 384)

In [11]:
cosine_scores = util.cos_sim(embedding, embedding)

# Transformar el cosine similarity de -1 a 1 a un rango de 0 a 1
cosine_similarity_normalized = 0.5 * (cosine_scores + 1)

#Almacenar los resultados
result_list = []

#Recorrer la lista de items comparando pares de productos entre sí
for i, v1 in enumerate(items):
    for j, v2 in enumerate(items):
        if i >= j:
            continue
        item1 = v1
        item2 = v2
        score = cosine_similarity_normalized[i][j].item()
        result_list.append((item1, item2, score))

# Crear DataFrame de resultados
df = pd.DataFrame(result_list, columns=['item1', 'item2', 'score'])

# Ordenar por score
df_menores = df.sort_values(by='score', ascending=True).reset_index(drop=True)


In [12]:
df_menores.head()

item1,item2,score
Loading... (need help?),,


In [13]:
# Generar el DataFrame de mayor a menor en similaridad
similar_items_test = df.sort_values(by='score', ascending=False).reset_index(drop=True)

In [14]:
similar_items_test.head(10)

item1,item2,score
Loading... (need help?),,


In [None]:
# Exportar csv 



# Modelo 2 - Universal Sentence Encoder

In [20]:
module_url = "https://tfhub.dev/google/universal-sentence-encoder/4"
model = hub.load(module_url)

def embed(input):
  return model(input)

In [25]:
titles_list = items_titles_test['ITE_ITEM_TITLE'].tolist()
titles_list = titles_list[:3000]  

# Reduce logging output.
logging.set_verbosity(logging.ERROR)

message_embeddings = embed(titles_list)


In [26]:
def compare_pairs(labels, features):
    corr = np.inner(features, features)
    comparisons = []

    for i in range(len(labels)):
        for j in range(i + 1, len(labels)):
            comparisons.append({
                'item1': labels[i],
                'item2': labels[j],
                'score': corr[i, j]
            })

    return pd.DataFrame(comparisons)

def run_and_compare(messages_):
    message_embeddings_ = embed(messages_)
    return compare_pairs(messages_, message_embeddings_)


In [27]:
df_comparisons = run_and_compare(titles_list)
df_comparisons = df_comparisons.sort_values(by='score', ascending=False).reset_index(drop=True)

In [28]:
df_comparisons

item1,item2,score
Loading... (need help?),,


Usando este método, se excedió la capacidad computacional al usar los 10 mil registros que se encuentran en train, sin embargo se ejecutó para los primeros 3mil registros con el fin de observar que arroja unos resultados similares a los del primer modelo mencionado y que a simple vista parecen tener mucho sentido.

# Conclusiones y Recomendaciones


- Si bien los modelos aplicados ya están validados y entrenados, con el objetivo de hacerlos más específicos a nuestro casi de uso se recomienda buscar la manera de validar los resultados (ej: si se va a mostrar en el marketplace, boton manito arriba si el producto se parece a lo que está buscando) y de esta manera hacer un "Fine Tuning" del modelo que se ajuste a los productos en Mercado Libre.

- Para mejorar el rendimiento computacional, implementar metodologías como Árboles KD que permiten hacer la búsqueda más eficiente reduciendo el espacio de búsqueda en sistemas de recomendación, no comparando con los millones de productos sino con los más cercanos en su partición.

- Complementar la información de los títulos de los productos con adicional como las categorías que fueron mencionadas, o las imágenes usadas en la publicación, para unirlos y usar modelos que combinan imagen y texto como lo es por ejemplo **clip-ViT-B-32-multilingual-v1** que además de funcionar para múltiples idiomas incluido el portugués, es capaz de identificar relaciones entre las imágenes y el texto generando resultados más robustos.