## Reducción de dimensiones de vectores

Cuando un modelo de embeddings soporta MRL (Matryoshka Representation Learning o Aprendizaje de Representación Matryoshka), podemos usarlo para reducir la dimensionalidad de los vectores. Para índices vectoriales grandes, esto puede ayudar a acelerar la búsqueda y reducir los costos de almacenamiento.

In [None]:
# Cargamos los vectores desde movies.json, {movie: [vector]}
import json

with open('embeddings/peliculas_text-embedding-3-small-1536.json') as f:
    movies_1536 = json.load(f)

with open('embeddings/peliculas_text-embedding-3-small-256.json') as f:
    movies_256t = json.load(f)

print(len(movies_1536['El Rey León']))
print(movies_1536['El Rey León'][0:4])

print(len(movies_256t['El Rey León']))
print(movies_256t['El Rey León'][0:4])

In [None]:
import matplotlib.pyplot as plt


def render_vector(vector):
    """Visualizar los valores del vector en un bar chart"""
    plt.bar(range(len(vector)), vector)
    plt.xlabel('Dimension')
    plt.ylabel('Value')
    plt.show()

render_vector(movies_1536['El Rey León'])
render_vector(movies_256t['El Rey León'])

## Effect on similarity space

In [None]:
# 10 peliculas mas similares 
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity

def most_similar(movie, movies):
    movie_vec = movies[movie]
    similarities = {k: cosine_similarity([movie_vec], [v])[0][0] for k, v in movies.items()}
    closest = sorted(similarities.items(), key=lambda x: x[1], reverse=True)
    df = pd.DataFrame(closest, columns=['pelicula', 'similitud'])
    return df

most_similar('El Rey León', movies_1536)[:10]

In [None]:
most_similar('El Rey León', movies_256t)[:10]

## Comparación de tamaño

In [None]:
import sys

pd.DataFrame({
    '1536': [sys.getsizeof(movies_1536['El Rey León'])],
    '256': [sys.getsizeof(movies_256t['El Rey León'])],
})

In [None]:
sys.getsizeof(movies_1536['El Rey León'])/sys.getsizeof(movies_256t['El Rey León'])

## Recursos

* [Unboxing Nomic Embed v1.5: Resizable Production Embeddings with MRL](https://www.nomic.ai/blog/posts/nomic-embed-matryoshka)
* [MRL from the Ground Up](https://aniketrege.github.io/blog/2024/mrl/)
