# Embeddings: Representaciones Vectoriales de Texto

## Introducci√≥n

### ¬øQu√© son los Embeddings?

Los **embeddings** son una tecnolog√≠a fundamental en el procesamiento de lenguaje natural (NLP) que permite convertir texto en representaciones matem√°ticas que las m√°quinas pueden entender y procesar eficientemente.

**Definici√≥n Simple**: Un embedding es una representaci√≥n vectorial (lista de n√∫meros) de un texto que captura su significado sem√°ntico.

### ¬øPor qu√© son Importantes?

1. **Comprensi√≥n Sem√°ntica**: Capturan el significado, no solo las palabras
2. **B√∫squeda Inteligente**: Encuentran contenido relacionado por significado
3. **Agrupaci√≥n**: Organizan informaci√≥n similar autom√°ticamente
4. **RAG (Retrieval-Augmented Generation)**: Base para sistemas de IA conversacional

### Objetivos de este Tutorial

En este notebook aprender√°s a:

1. üéØ **Comprender** qu√© son los embeddings y c√≥mo funcionan
2. üîß **Generar** embeddings usando modelos de OpenAI (2025)
3. üìä **Visualizar** c√≥mo se agrupan los textos por significado
4. üîç **Implementar** b√∫squeda sem√°ntica b√°sica
5. üí∞ **Comparar** modelos y costos

### Casos de Uso Reales

- **Chatbots**: Entender preguntas de usuarios
- **Recomendaciones**: Sugerir contenido similar
- **Traducci√≥n**: Encontrar equivalencias sem√°nticas
- **An√°lisis de Sentimientos**: Clasificar opiniones

In [None]:
#!pip install plotly openai langchain-openai scikit-learn pandas umap-learn

## Paso 2: Importaci√≥n de Bibliotecas

### Importaci√≥n de Bibliotecas

Vamos a importar las bibliotecas necesarias para este proyecto.

In [None]:
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from openai import OpenAI
from langchain_openai.embeddings import OpenAIEmbeddings
from sklearn.decomposition import PCA
import pandas as pd
import umap

In [None]:
import os
from dotenv import load_dotenv

# Carga las variables de entorno desde un archivo .env si existe
load_dotenv()

## Paso 3: Configuraci√≥n de OpenAI

### Modelos de Embeddings de OpenAI (2025)

OpenAI ofrece dos modelos principales de embeddings:

- **text-embedding-3-small**: Modelo m√°s eficiente y econ√≥mico
  - Dimensiones: hasta 1536
  - Precio: $0.00002 por 1K tokens
  - Ideal para aplicaciones generales

- **text-embedding-3-large**: Modelo de mayor rendimiento
  - Dimensiones: hasta 3072
  - Precio: $0.00013 por 1K tokens
  - Mejor precisi√≥n para casos complejos

**Caracter√≠sticas clave:**
- Soporte para dimensiones personalizables
- Mejor rendimiento que modelos anteriores
- T√©cnica de Matryoshka Representation Learning (MRL)

In [None]:
# Configurar cliente de OpenAI
client = OpenAI()

# Configurar clientes de embeddings con LangChain
embeddings_small = OpenAIEmbeddings(
    model="text-embedding-3-small",
    dimensions=256  # Dimensiones reducidas para visualizaci√≥n
)

embeddings_large = OpenAIEmbeddings(
    model="text-embedding-3-large",
    dimensions=3072  # Dimensiones reducidas para visualizaci√≥n
)

In [None]:
test = embeddings_small.embed_documents(["Hola mundo", "¬øC√≥mo est√°s?", "¬°Buen d√≠a!"])

len(test[0])

In [None]:
# Despu√©s de la secci√≥n de configuraci√≥n de OpenAI, a√±adir:

def get_embedding_models_info():
    """
    Informaci√≥n actualizada de modelos de embeddings (2025)
    """
    models_info = {
        "text-embedding-3-small": {
            "max_dimensions": 1536,
            "price_per_1k_tokens": 0.00002,
            "performance": "Bueno",
            "use_case": "Aplicaciones generales, b√∫squeda r√°pida"
        },
        "text-embedding-3-large": {
            "max_dimensions": 3072,
            "price_per_1k_tokens": 0.00013,
            "performance": "Excelente",
            "use_case": "Alta precisi√≥n, aplicaciones cr√≠ticas"
        }
    }
    
    # Crear tabla comparativa
    df_models = pd.DataFrame(models_info).T
    return df_models

# Mostrar informaci√≥n
models_df = get_embedding_models_info()
print("üìä Comparaci√≥n de Modelos de Embeddings OpenAI (2025)")
print(models_df.to_string())

## Paso 4: ¬øQu√© son los Embeddings?

### Concepto Fundamental

Los **embeddings** son representaciones vectoriales de texto que capturan significado sem√°ntico:

- **Vector num√©rico**: Cada palabra/frase se convierte en una lista de n√∫meros reales
- **Espacio sem√°ntico**: Textos similares tienen vectores cercanos
- **Dimensiones**: Cada posici√≥n del vector captura diferentes aspectos del significado
- **Similitud**: Se mide usando distancias como coseno o euclidiana

### ¬øC√≥mo funcionan?

1. **Entrada**: Texto en lenguaje natural
2. **Procesamiento**: Modelo de IA analiza contexto y significado
3. **Salida**: Vector de n√∫meros (ej: [0.1, -0.3, 0.8, ...])
4. **Uso**: B√∫squeda, comparaci√≥n, agrupaci√≥n sem√°ntica

In [None]:
def generate_openai_embeddings(texts, model="text-embedding-3-small", dimensions=512):
    """
    Genera embeddings usando OpenAI y LangChain
    
    Args:
        texts: Lista de textos para convertir en embeddings
        model: Modelo de OpenAI a usar
        dimensions: N√∫mero de dimensiones del embedding
    
    Returns:
        np.array: Array de embeddings
    """
    embeddings_client = OpenAIEmbeddings(
        model=model,
        dimensions=dimensions
    )
    
    embeddings = embeddings_client.embed_documents(texts)
    return np.array(embeddings)

def calculate_cosine_similarity(vec1, vec2):
    """Calcula similitud coseno entre dos vectores"""
    dot_product = np.dot(vec1, vec2)
    norm1 = np.linalg.norm(vec1)
    norm2 = np.linalg.norm(vec2)
    return dot_product / (norm1 * norm2)

In [None]:
vector_01 = [1,0,1,1]
vector_02 = [0,0,1,0]
vector_03 = [1,0,1,0]

calculate_cosine_similarity(vector_01, vector_03)

## Paso 5: Textos de Ejemplo para Aprendizaje

### Textos Diversos para Explorar Relaciones Sem√°nticas

Usaremos textos de diferentes dominios para entender c√≥mo los embeddings capturan significado:

In [None]:
# Textos organizados por categor√≠as sem√°nticas
texts = [
    # Animales dom√©sticos
    "El gato est√° durmiendo en el sof√° de la sala",
    "Mi perro est√° ladrando en el jard√≠n trasero",
    "El cachorro juega con una pelota en el parque",
    
    # Tecnolog√≠a
    "La computadora est√° procesando datos complejos",
    "El smartphone tiene una bater√≠a de larga duraci√≥n",
    "La inteligencia artificial est√° revolucionando la medicina",
    
    # Naturaleza
    "El cielo est√° azul y claro esta ma√±ana",
    "Las monta√±as est√°n cubiertas de nieve blanca",
    "El oc√©ano tiene olas muy grandes hoy",
    
    # Educaci√≥n/Aprendizaje
    "Estamos aprendiendo sobre embeddings de texto",
    "Los estudiantes est√°n estudiando matem√°ticas avanzadas",
    "La profesora explica conceptos de machine learning",

    # Temporalidad
    "Ayer fuimos al cine con mis amigos",
    "La semana pasada termin√© un proyecto importante",
    "Ayer llovi√≥ durante toda la tarde",
    "La semana pasada hubo una conferencia sobre IA"
]

print(f"Total de textos: {len(texts)}")
for i, text in enumerate(texts, 1):
    print(f"{i:2d}. {text}")

## Paso 6: Generar Embeddings con OpenAI

### Comparaci√≥n entre Modelos text-embedding-3-small y text-embedding-3-large

Generaremos embeddings usando ambos modelos para comparar sus representaciones.

In [None]:
# Generar embeddings con ambos modelos
print("Generando embeddings con text-embedding-3-small...")
embeddings_small = generate_openai_embeddings(texts, model="text-embedding-3-small", dimensions=1536)

print("Generando embeddings con text-embedding-3-large...")
embeddings_large = generate_openai_embeddings(texts, model="text-embedding-3-large", dimensions=3072)

print(f"\nInformaci√≥n de los embeddings:")
print(f"Modelo small - Shape: {embeddings_small.shape}")
print(f"Modelo large - Shape: {embeddings_large.shape}")

# Ejemplo: mostrar primeras 5 dimensiones del primer texto
print(f"\nPrimeras 5 dimensiones del texto 1 con modelo small:")
print(embeddings_small[0][:5])
print(f"\nPrimeras 5 dimensiones del texto 1 con modelo large:")
print(embeddings_large[0][:5])

In [None]:
"El gato est√° durmiendo en el sof√° de la sala"

embeddings_large[0][:5]

In [None]:
from pprint import pprint

print("Texto original:")
print(texts[0])
print("\nPrimeras 10 dimensiones del embedding (large):")
pprint(embeddings_large[0][:10])

## Paso 7: Visualizaci√≥n de Embeddings

### Reducci√≥n de Dimensionalidad

Para visualizar embeddings de 512 dimensiones en 2D, usamos t√©cnicas de reducci√≥n de dimensionalidad:

- **PCA (Principal Component Analysis)**: M√©todo lineal, r√°pido, preserva varianza global
- **UMAP (Uniform Manifold Approximation)**: M√©todo no-lineal, preserva estructura local y global

### ¬øPor qu√© es Importante Visualizar?

1. **Comprensi√≥n Intuitiva**: Ver c√≥mo se agrupan textos similares
2. **Validaci√≥n**: Verificar que el modelo captura relaciones sem√°nticas
3. **Debugging**: Identificar problemas en los datos o modelo
4. **Comunicaci√≥n**: Explicar conceptos a stakeholders

## Paso 8: Comparaci√≥n Visual - PCA vs UMAP

### Diferencia entre PCA y UMAP

- **PCA (Principal Component Analysis)**:

    - Es un m√©todo lineal de reducci√≥n de dimensionalidad.
    - Busca las direcciones (componentes principales) que maximizan la varianza global de los datos.
    - Es r√°pido y f√°cil de interpretar, pero puede no capturar relaciones complejas o no lineales.
    - √ötil para entender la estructura global y la varianza principal de los datos.

- **UMAP (Uniform Manifold Approximation and Projection)**:

    - Es un m√©todo no lineal basado en teor√≠a de grafos y topolog√≠a.
    - Preserva tanto la estructura local como global de los datos en espacios de alta dimensi√≥n.
    - Puede capturar agrupaciones y relaciones complejas que PCA no detecta.
    - Es especialmente √∫til para visualizar agrupaciones sem√°nticas y relaciones no lineales en los embeddings.

In [None]:
def create_visualization_comparison(embeddings, texts, title_prefix=""):
    """
    Crea visualizaciones comparativas usando PCA y UMAP
    """
    # Crear categor√≠as para colorear
    categories = []
    for text in texts:
        if any(word in text.lower() for word in ['gato', 'perro', 'cachorro']):
            categories.append('Animales')
        elif any(word in text.lower() for word in ['computadora', 'smartphone', 'inteligencia artificial']):
            categories.append('Tecnolog√≠a')
        elif any(word in text.lower() for word in ['cielo', 'monta√±a', 'oc√©ano']):
            categories.append('Naturaleza')
        elif any(word in text.lower() for word in ['ayer', 'semana pasada', 'cine', 'proyecto', 'conferencia', 'llovi√≥']):
            categories.append('Temporalidad')
        else:
            categories.append('Educaci√≥n')
    
    # PCA
    pca = PCA(n_components=2, random_state=42)
    embeddings_pca = pca.fit_transform(embeddings)
    
    # UMAP
    umap_reducer = umap.UMAP(n_components=2, random_state=42, n_neighbors=5, min_dist=0.1)
    embeddings_umap = umap_reducer.fit_transform(embeddings)
    
    # Crear DataFrames
    df_pca = pd.DataFrame({
        'x': embeddings_pca[:, 0],
        'y': embeddings_pca[:, 1],
        'text': texts,
        'category': categories,
        'method': 'PCA'
    })
    
    df_umap = pd.DataFrame({
        'x': embeddings_umap[:, 0],
        'y': embeddings_umap[:, 1],
        'text': texts,
        'category': categories,
        'method': 'UMAP'
    })
    
    # Visualizaci√≥n PCA
    fig_pca = px.scatter(
        df_pca, x='x', y='y', 
        color='category',
        hover_data=['text'],
        title=f'{title_prefix} - Reducci√≥n con PCA',
        labels={'x': f'PC1 ({pca.explained_variance_ratio_[0]:.1%} varianza)', 
                'y': f'PC2 ({pca.explained_variance_ratio_[1]:.1%} varianza)'}
    )
    fig_pca.update_traces(textposition="top center")
    fig_pca.show()
    
    # Visualizaci√≥n UMAP
    fig_umap = px.scatter(
        df_umap, x='x', y='y',
        color='category',
        hover_data=['text'],
        title=f'{title_prefix} - Reducci√≥n con UMAP',
        labels={'x': 'UMAP 1', 'y': 'UMAP 2'}
    )
    fig_umap.update_traces(textposition="top center")
    fig_umap.show()
    
    return df_pca, df_umap

# Visualizar embeddings del modelo small
print("=== Visualizaci√≥n: text-embedding-3-small ===")
df_pca_small, df_umap_small = create_visualization_comparison(embeddings_large, texts, "OpenAI Small")

In [None]:
texts = [
    # Animales dom√©sticos
    "El gato est√° durmiendo en el sof√° de la sala",
    "Mi perro est√° ladrando en el jard√≠n trasero",
    "El cachorro juega con una pelota en el parque",
    
    # Tecnolog√≠a
    "La computadora est√° procesando datos complejos",
    "El smartphone tiene una bater√≠a de larga duraci√≥n",
    "La inteligencia artificial est√° revolucionando la medicina",
    
    # Naturaleza
    "El cielo est√° azul y claro esta ma√±ana",
    "Las monta√±as est√°n cubiertas de nieve blanca",
    "El oc√©ano tiene olas muy grandes hoy",
    
    # Educaci√≥n/Aprendizaje
    "Estamos aprendiendo sobre embeddings de texto",
    "Los estudiantes est√°n estudiando matem√°ticas avanzadas",
    "La profesora explica conceptos de machine learning",

    # Temporalidad
    "Ayer fuimos al cine con mis amigos",
    "La semana pasada termin√© un proyecto importante",
    "Ayer llovi√≥ durante toda la tarde",
    "La semana pasada hubo una conferencia sobre IA"
]

## Paso 9: Comparaci√≥n entre Modelos de OpenAI

### An√°lisis de Diferencias entre text-embedding-3-small y text-embedding-3-large

In [None]:
# Visualizar embeddings del modelo large
print("=== Visualizaci√≥n: text-embedding-3-large ===")
df_pca_large, df_umap_large = create_visualization_comparison(embeddings_large, texts, "OpenAI Large")

# Comparar similitudes entre modelos
print("\n=== An√°lisis de Similitudes ===")
print("Calculando similitudes coseno entre los primeros 3 textos...\n")

for i in range(3):
    for j in range(i+1, 5):
        sim_small = calculate_cosine_similarity(embeddings_small[i], embeddings_small[j])
        sim_large = calculate_cosine_similarity(embeddings_large[i], embeddings_large[j])
        
        print(f"Textos {i+1} y {j+1}:")
        print(f"  Small: {sim_small:.4f}")
        print(f"  Large: {sim_large:.4f}")
        print(f"  Diferencia: {abs(sim_small - sim_large):.4f}")
        print(f"  Texto {i+1}: {texts[i][:50]}...")
        print(f"  Texto {j+1}: {texts[j][:50]}...")
        print()

## Paso 10: An√°lisis de Costos y Tokens

### Comparaci√≥n Econ√≥mica entre Modelos

Entender los costos es crucial para aplicaciones en producci√≥n:

In [None]:
import tiktoken

def analyze_costs(texts):
    """
    Analiza costos de embedding para diferentes modelos
    """
    # Encoder para contar tokens
    encoding = tiktoken.encoding_for_model("gpt-4")
    
    # Contar tokens total
    total_tokens = sum(len(encoding.encode(text)) for text in texts)
    
    # Precios por 1K tokens (2025)
    prices = {
        "text-embedding-3-small": 0.00002,
        "text-embedding-3-large": 0.00013,
        "text-embedding-ada-002": 0.0001  # Modelo anterior para comparaci√≥n
    }
    
    print(f"üìä An√°lisis de Costos para {len(texts)} textos")
    print(f"{'='*50}")
    print(f"Total de tokens: {total_tokens:,}")
    print(f"Promedio por texto: {total_tokens/len(texts):.1f} tokens")
    print()
    
    print("üí∞ Costo por Modelo:")
    for model, price in prices.items():
        cost = (total_tokens / 1000) * price
        print(f"  {model:25} ${cost:.6f}")
    
    print()
    print("üìà Escalamiento (para 1M textos similares):")
    estimated_tokens_1m = (total_tokens / len(texts)) * 1_000_000
    for model, price in prices.items():
        cost_1m = (estimated_tokens_1m / 1000) * price
        print(f"  {model:25} ${cost_1m:,.2f}")

# Analizar nuestros textos
analyze_costs(texts)

## Paso 11: B√∫squeda Sem√°ntica

### Implementaci√≥n de Similarity Search

La b√∫squeda sem√°ntica permite encontrar textos relacionados por significado, no solo por palabras clave:

**Proceso:**
1. Convertir consulta en embedding
2. Calcular similitud con todos los textos
3. Ordenar por relevancia
4. Mostrar resultados m√°s similares

In [None]:
def semantic_search(query, embeddings, texts, top_k=5, model="text-embedding-3-large"):
    """
    Realiza b√∫squeda sem√°ntica usando embeddings
    """
    # Generar embedding para la consulta
    embeddings_client = OpenAIEmbeddings(
        model=model,
        dimensions=3072  # Dimensiones reducidas para visualizaci√≥n
    )
    
    query_embedding = np.array(embeddings_client.embed_query(query))
    
    # Calcular similitudes
    similarities = []
    for i, doc_embedding in enumerate(embeddings):
        similarity = calculate_cosine_similarity(query_embedding, doc_embedding)
        similarities.append((i, similarity, texts[i]))
    
    # Ordenar por similitud
    similarities.sort(key=lambda x: x[1], reverse=True)
    
    return query_embedding, similarities[:top_k]

def visualize_search_results(query, query_embedding, similarities, embeddings, texts, model_name=""):
    """
    Visualiza los resultados de b√∫squeda sem√°ntica
    """
    # Preparar datos para visualizaci√≥n
    all_embeddings = np.vstack([embeddings, query_embedding.reshape(1, -1)])
    all_texts = texts + [f"üîç CONSULTA: {query}"]
    
    # Crear categor√≠as (incluyendo la consulta)
    categories = []
    for text in texts:
        if any(word in text.lower() for word in ['gato', 'perro', 'cachorro']):
            categories.append('Animales')
        elif any(word in text.lower() for word in ['computadora', 'smartphone', 'inteligencia artificial']):
            categories.append('Tecnolog√≠a')
        elif any(word in text.lower() for word in ['cielo', 'monta√±a', 'oc√©ano']):
            categories.append('Naturaleza')
        else:
            categories.append('Educaci√≥n')
    categories.append('Consulta')  # Para la consulta
    
    # PCA para visualizaci√≥n
    pca = PCA(n_components=2, random_state=42)
    embeddings_2d = pca.fit_transform(all_embeddings)
    
    # Crear DataFrame
    df = pd.DataFrame({
        'x': embeddings_2d[:, 0],
        'y': embeddings_2d[:, 1],
        'text': all_texts,
        'category': categories,
        'is_query': [False] * len(texts) + [True]
    })
    
    # Crear gr√°fico
    fig = px.scatter(
        df, x='x', y='y',
        color='category',
        symbol='is_query',
        size=[20 if is_query else 10 for is_query in df['is_query']],
        hover_data=['text'],
        title=f'B√∫squeda Sem√°ntica {model_name}',
        labels={'x': f'PC1 ({pca.explained_variance_ratio_[0]:.1%})', 
                'y': f'PC2 ({pca.explained_variance_ratio_[1]:.1%})'}
    )
    
    # Destacar los resultados m√°s similares
    top_indices = [s[0] for s in similarities[:3]]
    for idx in top_indices:
        fig.add_shape(
            type="circle",
            xref="x", yref="y",
            x0=embeddings_2d[idx][0] - 0.1, y0=embeddings_2d[idx][1] - 0.1,
            x1=embeddings_2d[idx][0] + 0.1, y1=embeddings_2d[idx][1] + 0.1,
            line=dict(color="red", width=2, dash="dash"),
            fillcolor="red", opacity=0.1
        )
    
    fig.show()
    
    return df

# Ejemplos de b√∫squeda sem√°ntica
queries = [
    "Me gusta estar en casa con mi mascota",
    "Dispositivos modernos y tecnolog√≠a avanzada",
    "Paisajes naturales y belleza del mundo",
    "La semana pasada que hice con mi perro"
]

print("üîç Ejemplos de B√∫squeda Sem√°ntica")
print("="*50)

for query in queries:
    print(f"\nüìù Consulta: '{query}'")
    print("-" * 30)
    
    # B√∫squeda con modelo large
    query_emb, results = semantic_search(query, embeddings_large, texts, top_k=3)
    
    print("üéØ Resultados m√°s similares:")
    for i, (idx, similarity, text) in enumerate(results, 1):
        print(f"  {i}. Similitud: {similarity:.4f}")
        print(f"     Texto: {text}")
        print()
    
    # Visualizar solo la primera consulta
    if query == queries[0]:
        print("üìä Visualizaci√≥n de la primera b√∫squeda:")
        visualize_search_results(query, query_emb, results, embeddings_large, texts, "(text-embedding-3-large)")

In [None]:
def semantic_search(query, embeddings, texts, top_k=5, model="text-embedding-3-large"):
    """
    Realiza b√∫squeda sem√°ntica usando embeddings
    """
    # Generar embedding para la consulta
    embeddings_client = OpenAIEmbeddings(
        model=model,
        dimensions=3072  # Dimensiones reducidas para visualizaci√≥n
    )
    
    query_embedding = np.array(embeddings_client.embed_query(query))
    
    # Calcular similitudes
    similarities = []
    for i, doc_embedding in enumerate(embeddings):
        similarity = calculate_cosine_similarity(query_embedding, doc_embedding)
        similarities.append((i, similarity, texts[i]))
    
    # Ordenar por similitud
    similarities.sort(key=lambda x: x[1], reverse=True)
    
    return query_embedding, similarities[:top_k]


In [None]:
# Generar embedding para la consulta
embeddings_client = OpenAIEmbeddings(
    model="text-embedding-3-large",
    dimensions=3072  # Dimensiones reducidas para visualizaci√≥n
)

In [None]:
query = "Me gusta estar en casa con mi mascota"

query_embedding = np.array(embeddings_client.embed_query(query))

query_embedding[:5]

In [None]:
# Calcular similitudes
similarities = []
for i, doc_embedding in enumerate(embeddings_large):
    similarity = calculate_cosine_similarity(query_embedding, doc_embedding)
    similarities.append((i, similarity, texts[i]))

In [None]:
similarities

In [None]:
similarities.sort(key=lambda x: x[1], reverse=True)

In [None]:
similarities[:5]

## üéØ Resumen y Pr√≥ximos Pasos

### ‚úÖ Conceptos Aprendidos

1. **Embeddings**: Representaciones vectoriales que capturan significado sem√°ntico
2. **Modelos OpenAI**: Diferencias entre text-embedding-3-small y text-embedding-3-large
3. **Visualizaci√≥n**: PCA vs UMAP para entender agrupaciones sem√°nticas
4. **B√∫squeda Sem√°ntica**: Encontrar contenido por significado, no palabras exactas
5. **Costos**: Consideraciones econ√≥micas para proyectos reales

### üöÄ Aplicaciones en RAG

Los embeddings son fundamentales para:
- **Indexaci√≥n**: Convertir documentos en vectores buscables
- **Retrieval**: Encontrar documentos relevantes para una pregunta
- **Re-ranking**: Mejorar la relevancia de resultados
- **Chunking Sem√°ntico**: Dividir textos por significado

### üî¨ Ejercicios Propuestos

1. **Experimenta con dimensiones**: Prueba diferentes valores (256, 1024, 1536)
2. **Textos biling√ºes**: Agrega textos en ingl√©s y observa agrupaciones
3. **Dominios espec√≠ficos**: Usa textos de tu √°rea de expertise
4. **Threshold tuning**: Experimenta con diferentes umbrales de similitud

### üìö Para Profundizar

- **LangChain Documentation**: Integraci√≥n con bases de datos vectoriales
- **FAISS/Qdrant**: Escalamiento para millones de documentos
- **Evaluation**: M√©tricas para evaluar calidad de embeddings
- **Fine-tuning**: Personalizaci√≥n para dominios espec√≠ficos