# Anexo: MongoDB y Pinecone con Python

## Contenido
1. [MongoDB - Base de Datos NoSQL](#mongodb)
2. [Pinecone - Base de Datos Vectorial](#pinecone)
3. [Integraci√≥n MongoDB + Pinecone](#integracion)

---

## 1. MongoDB - Base de Datos NoSQL <a id='mongodb'></a>

### 1.1 Introducci√≥n

MongoDB es una base de datos NoSQL orientada a documentos que almacena informaci√≥n en formato JSON-like (BSON - Binary JSON). A diferencia de las bases de datos relacionales tradicionales, MongoDB no utiliza tablas y filas, sino colecciones y documentos.

**Caracter√≠sticas principales:**
- Esquema flexible y din√°mico
- Alta escalabilidad horizontal
- Consultas ricas y expresivas
- Soporte para √≠ndices complejos
- Replicaci√≥n y sharding integrados
- Almacenamiento de documentos JSON

**Casos de uso:**
- Aplicaciones web y m√≥viles
- Cat√°logos de productos
- Gesti√≥n de contenidos
- An√°lisis en tiempo real
- Internet of Things (IoT)

### 1.2 Instalaci√≥n y Configuraci√≥n

In [None]:
# Instalaci√≥n de PyMongo (driver oficial de MongoDB para Python)
!pip install pymongo

# Para MongoDB Atlas (servicio en la nube)
!pip install pymongo[srv]

# Para motor as√≠ncrono (opcional)
!pip install motor

### 1.3 Conceptos Fundamentales

#### Jerarqu√≠a de Datos en MongoDB

```
Base de Datos (Database)
  ‚îî‚îÄ‚îÄ Colecci√≥n (Collection) ~ Equivalente a Tabla en SQL
       ‚îî‚îÄ‚îÄ Documento (Document) ~ Equivalente a Fila en SQL
            ‚îî‚îÄ‚îÄ Campo (Field) ~ Equivalente a Columna en SQL
```

#### Estructura de un Documento

```json
{
  "_id": ObjectId("507f1f77bcf86cd799439011"),
  "nombre": "Juan P√©rez",
  "edad": 30,
  "email": "juan@example.com",
  "direccion": {
    "calle": "Av. Principal 123",
    "ciudad": "Madrid",
    "codigo_postal": "28001"
  },
  "hobbies": ["lectura", "deportes", "m√∫sica"],
  "fecha_registro": ISODate("2025-01-15T10:30:00Z")
}
```

### 1.4 Conexi√≥n a MongoDB

In [None]:
from pymongo import MongoClient
from datetime import datetime
from bson.objectid import ObjectId

# Conexi√≥n local
client = MongoClient('mongodb://localhost:27017/')

# Conexi√≥n a MongoDB Atlas (cloud)
# client = MongoClient('mongodb+srv://usuario:password@cluster.mongodb.net/')

# Seleccionar base de datos
db = client['mi_base_datos']

# Seleccionar colecci√≥n
coleccion_usuarios = db['usuarios']

# Verificar conexi√≥n
try:
    client.server_info()
    print("‚úÖ Conexi√≥n exitosa a MongoDB")
except Exception as e:
    print(f"‚ùå Error de conexi√≥n: {e}")

### 1.5 Operaciones CRUD

#### Create (Insertar Documentos)

In [None]:
# Insertar un solo documento
usuario = {
    "nombre": "Mar√≠a Garc√≠a",
    "edad": 28,
    "email": "maria@example.com",
    "ciudad": "Barcelona",
    "activo": True,
    "fecha_registro": datetime.now(),
    "puntuacion": 4.5
}

resultado = coleccion_usuarios.insert_one(usuario)
print(f"Documento insertado con ID: {resultado.inserted_id}")

# Insertar m√∫ltiples documentos
usuarios = [
    {
        "nombre": "Carlos L√≥pez",
        "edad": 35,
        "email": "carlos@example.com",
        "ciudad": "Valencia",
        "activo": True,
        "puntuacion": 4.8
    },
    {
        "nombre": "Ana Mart√≠nez",
        "edad": 42,
        "email": "ana@example.com",
        "ciudad": "Sevilla",
        "activo": False,
        "puntuacion": 3.9
    },
    {
        "nombre": "Pedro S√°nchez",
        "edad": 29,
        "email": "pedro@example.com",
        "ciudad": "Madrid",
        "activo": True,
        "puntuacion": 4.2
    }
]

resultado = coleccion_usuarios.insert_many(usuarios)
print(f"\nDocumentos insertados: {len(resultado.inserted_ids)}")
print(f"IDs: {resultado.inserted_ids}")

#### Read (Consultar Documentos)

In [None]:
# Encontrar un documento
usuario = coleccion_usuarios.find_one({"nombre": "Mar√≠a Garc√≠a"})
print("Usuario encontrado:")
print(usuario)

# Encontrar m√∫ltiples documentos
print("\nUsuarios activos:")
for usuario in coleccion_usuarios.find({"activo": True}):
    print(f"- {usuario['nombre']} ({usuario['ciudad']})")

# Proyecci√≥n (seleccionar campos espec√≠ficos)
print("\nNombres y emails:")
for usuario in coleccion_usuarios.find({}, {"nombre": 1, "email": 1, "_id": 0}):
    print(f"- {usuario['nombre']}: {usuario['email']}")

# Limitar resultados
print("\nPrimeros 2 usuarios:")
for usuario in coleccion_usuarios.find().limit(2):
    print(f"- {usuario['nombre']}")

# Ordenar resultados
print("\nUsuarios ordenados por edad (descendente):")
for usuario in coleccion_usuarios.find().sort("edad", -1):
    print(f"- {usuario['nombre']}: {usuario['edad']} a√±os")

#### Update (Actualizar Documentos)

In [None]:
# Actualizar un documento
resultado = coleccion_usuarios.update_one(
    {"nombre": "Mar√≠a Garc√≠a"},
    {"$set": {"edad": 29, "ciudad": "M√°laga"}}
)
print(f"Documentos modificados: {resultado.modified_count}")

# Actualizar m√∫ltiples documentos
resultado = coleccion_usuarios.update_many(
    {"activo": True},
    {"$inc": {"puntuacion": 0.1}}  # Incrementar puntuaci√≥n
)
print(f"\nDocumentos actualizados: {resultado.modified_count}")

# Operadores de actualizaci√≥n comunes:
# $set: Establece el valor de un campo
# $unset: Elimina un campo
# $inc: Incrementa/decrementa un valor num√©rico
# $push: A√±ade un elemento a un array
# $pull: Elimina elementos de un array
# $addToSet: A√±ade a un array sin duplicados

# Ejemplo con arrays
coleccion_usuarios.update_one(
    {"nombre": "Mar√≠a Garc√≠a"},
    {"$push": {"hobbies": "viajar"}}
)

# Upsert (insertar si no existe, actualizar si existe)
coleccion_usuarios.update_one(
    {"email": "nuevo@example.com"},
    {"$set": {"nombre": "Usuario Nuevo", "edad": 25}},
    upsert=True
)

#### Delete (Eliminar Documentos)

In [None]:
# Eliminar un documento
resultado = coleccion_usuarios.delete_one({"nombre": "Usuario Nuevo"})
print(f"Documentos eliminados: {resultado.deleted_count}")

# Eliminar m√∫ltiples documentos
resultado = coleccion_usuarios.delete_many({"activo": False})
print(f"Documentos eliminados: {resultado.deleted_count}")

# Eliminar todos los documentos de una colecci√≥n
# coleccion_usuarios.delete_many({})

# Eliminar una colecci√≥n completa
# coleccion_usuarios.drop()

### 1.6 Operadores de Consulta

In [None]:
# Operadores de comparaci√≥n
# $eq: igual a
# $ne: no igual a
# $gt: mayor que
# $gte: mayor o igual que
# $lt: menor que
# $lte: menor o igual que
# $in: est√° en un array
# $nin: no est√° en un array

# Usuarios mayores de 30 a√±os
print("Usuarios mayores de 30:")
for usuario in coleccion_usuarios.find({"edad": {"$gt": 30}}):
    print(f"- {usuario['nombre']}: {usuario['edad']} a√±os")

# Usuarios entre 25 y 35 a√±os
print("\nUsuarios entre 25 y 35 a√±os:")
for usuario in coleccion_usuarios.find({"edad": {"$gte": 25, "$lte": 35}}):
    print(f"- {usuario['nombre']}: {usuario['edad']} a√±os")

# Usuarios de ciudades espec√≠ficas
print("\nUsuarios de Madrid o Barcelona:")
for usuario in coleccion_usuarios.find({"ciudad": {"$in": ["Madrid", "Barcelona"]}}):
    print(f"- {usuario['nombre']} ({usuario['ciudad']})")

# Operadores l√≥gicos
# $and: todas las condiciones deben cumplirse
# $or: al menos una condici√≥n debe cumplirse
# $not: invierte la condici√≥n
# $nor: ninguna condici√≥n debe cumplirse

print("\nUsuarios activos mayores de 30:")
for usuario in coleccion_usuarios.find({
    "$and": [
        {"activo": True},
        {"edad": {"$gt": 30}}
    ]
}):
    print(f"- {usuario['nombre']}")

# Operadores de elementos
# $exists: el campo existe
# $type: el campo es de un tipo espec√≠fico

print("\nUsuarios con campo 'hobbies':")
for usuario in coleccion_usuarios.find({"hobbies": {"$exists": True}}):
    print(f"- {usuario['nombre']}")

# Operadores de array
# $all: el array contiene todos los elementos especificados
# $elemMatch: al menos un elemento del array cumple la condici√≥n
# $size: el array tiene un tama√±o espec√≠fico

# Expresiones regulares
print("\nUsuarios cuyo nombre empieza con 'M':")
for usuario in coleccion_usuarios.find({"nombre": {"$regex": "^M"}}):
    print(f"- {usuario['nombre']}")

### 1.7 Agregaciones (Aggregation Pipeline)

El framework de agregaci√≥n permite realizar operaciones complejas de procesamiento de datos.

In [None]:
# Crear datos de ejemplo para agregaciones
coleccion_ventas = db['ventas']
coleccion_ventas.delete_many({})  # Limpiar colecci√≥n

ventas = [
    {"producto": "Laptop", "cantidad": 5, "precio": 1000, "categoria": "Electr√≥nica", "fecha": datetime(2025, 1, 15)},
    {"producto": "Mouse", "cantidad": 20, "precio": 25, "categoria": "Electr√≥nica", "fecha": datetime(2025, 1, 16)},
    {"producto": "Teclado", "cantidad": 15, "precio": 75, "categoria": "Electr√≥nica", "fecha": datetime(2025, 1, 17)},
    {"producto": "Silla", "cantidad": 10, "precio": 150, "categoria": "Muebles", "fecha": datetime(2025, 1, 18)},
    {"producto": "Escritorio", "cantidad": 5, "precio": 300, "categoria": "Muebles", "fecha": datetime(2025, 1, 19)},
    {"producto": "Monitor", "cantidad": 8, "precio": 250, "categoria": "Electr√≥nica", "fecha": datetime(2025, 2, 1)},
]
coleccion_ventas.insert_many(ventas)

# Etapas del pipeline de agregaci√≥n:
# $match: Filtra documentos (como find)
# $group: Agrupa documentos y realiza operaciones
# $project: Modifica la estructura de los documentos
# $sort: Ordena los documentos
# $limit: Limita el n√∫mero de documentos
# $skip: Salta documentos
# $unwind: Descompone arrays
# $lookup: Join con otra colecci√≥n

# Ejemplo 1: Total de ventas por categor√≠a
print("Total de ventas por categor√≠a:")
pipeline = [
    {
        "$group": {
            "_id": "$categoria",
            "total_ventas": {"$sum": {"$multiply": ["$cantidad", "$precio"]}},
            "cantidad_productos": {"$sum": "$cantidad"},
            "productos_vendidos": {"$sum": 1}
        }
    },
    {"$sort": {"total_ventas": -1}}
]

for resultado in coleccion_ventas.aggregate(pipeline):
    print(f"- {resultado['_id']}: ${resultado['total_ventas']:,.2f}")
    print(f"  Productos vendidos: {resultado['productos_vendidos']}")
    print(f"  Cantidad total: {resultado['cantidad_productos']}")

# Ejemplo 2: Producto m√°s vendido
print("\nProducto m√°s vendido:")
pipeline = [
    {
        "$project": {
            "producto": 1,
            "total": {"$multiply": ["$cantidad", "$precio"]}
        }
    },
    {"$sort": {"total": -1}},
    {"$limit": 1}
]

for resultado in coleccion_ventas.aggregate(pipeline):
    print(f"- {resultado['producto']}: ${resultado['total']:,.2f}")

# Ejemplo 3: Estad√≠sticas agregadas
print("\nEstad√≠sticas de ventas:")
pipeline = [
    {
        "$group": {
            "_id": None,
            "precio_promedio": {"$avg": "$precio"},
            "precio_maximo": {"$max": "$precio"},
            "precio_minimo": {"$min": "$precio"},
            "total_items": {"$sum": "$cantidad"}
        }
    }
]

for resultado in coleccion_ventas.aggregate(pipeline):
    print(f"- Precio promedio: ${resultado['precio_promedio']:.2f}")
    print(f"- Precio m√°ximo: ${resultado['precio_maximo']:.2f}")
    print(f"- Precio m√≠nimo: ${resultado['precio_minimo']:.2f}")
    print(f"- Total items vendidos: {resultado['total_items']}")

### 1.8 √çndices

Los √≠ndices mejoran significativamente el rendimiento de las consultas.

In [None]:
# Crear √≠ndice simple
coleccion_usuarios.create_index("email")
print("√çndice creado en campo 'email'")

# Crear √≠ndice √∫nico (no permite duplicados)
coleccion_usuarios.create_index("email", unique=True)

# Crear √≠ndice compuesto (m√∫ltiples campos)
coleccion_usuarios.create_index([("ciudad", 1), ("edad", -1)])
print("√çndice compuesto creado en 'ciudad' (ascendente) y 'edad' (descendente)")

# Crear √≠ndice de texto (para b√∫squedas de texto completo)
coleccion_usuarios.create_index([("nombre", "text")])
print("√çndice de texto creado en 'nombre'")

# Listar todos los √≠ndices
print("\n√çndices en la colecci√≥n:")
for indice in coleccion_usuarios.list_indexes():
    print(f"- {indice['name']}: {indice['key']}")

# Buscar usando √≠ndice de texto
resultados = coleccion_usuarios.find({"$text": {"$search": "Mar√≠a"}})
print("\nB√∫squeda de texto:")
for usuario in resultados:
    print(f"- {usuario['nombre']}")

# Eliminar √≠ndice
# coleccion_usuarios.drop_index("email_1")

### 1.9 Transacciones

MongoDB soporta transacciones ACID desde la versi√≥n 4.0.

In [None]:
# Las transacciones requieren una replica set
# Este es un ejemplo conceptual

from pymongo import MongoClient

def transferir_saldo(cliente, cuenta_origen, cuenta_destino, monto):
    """
    Ejemplo de transacci√≥n: transferir dinero entre cuentas
    """
    with cliente.start_session() as session:
        with session.start_transaction():
            # Retirar de cuenta origen
            db.cuentas.update_one(
                {"_id": cuenta_origen},
                {"$inc": {"saldo": -monto}},
                session=session
            )
            
            # Depositar en cuenta destino
            db.cuentas.update_one(
                {"_id": cuenta_destino},
                {"$inc": {"saldo": monto}},
                session=session
            )
            
            # Si todo va bien, la transacci√≥n se confirma autom√°ticamente
            # Si hay error, se hace rollback autom√°ticamente

# Uso:
# transferir_saldo(client, "cuenta1", "cuenta2", 100)

print("Ejemplo de transacci√≥n mostrado arriba")

### 1.10 Mejores Pr√°cticas MongoDB

1. **Dise√±o de esquema:**
   - Dise√±a el esquema seg√∫n tus patrones de consulta
   - Usa documentos embebidos para datos que se consultan juntos
   - Usa referencias para datos que cambian frecuentemente o son muy grandes

2. **√çndices:**
   - Crea √≠ndices para campos que usas frecuentemente en consultas
   - No crees demasiados √≠ndices (afectan el rendimiento de escritura)
   - Usa √≠ndices compuestos cuando consultas m√∫ltiples campos

3. **Consultas:**
   - Usa proyecci√≥n para limitar los campos devueltos
   - Aprovecha el aggregation pipeline para consultas complejas
   - Usa explain() para analizar el rendimiento de tus consultas

4. **Seguridad:**
   - Siempre usa autenticaci√≥n
   - Implementa control de acceso basado en roles
   - Usa SSL/TLS para conexiones
   - No expongas MongoDB directamente a internet

5. **Rendimiento:**
   - Monitorea el uso de memoria y disco
   - Implementa sharding para escalar horizontalmente
   - Usa connection pooling
   - Limita el tama√±o de los documentos (m√°ximo 16MB)

6. **Mantenimiento:**
   - Implementa estrategia de backup
   - Usa replica sets para alta disponibilidad
   - Monitorea logs y m√©tricas
   - Mant√©n MongoDB actualizado

---

## 2. Pinecone - Base de Datos Vectorial <a id='pinecone'></a>

### 2.1 Introducci√≥n

Pinecone es una base de datos vectorial completamente administrada dise√±ada para aplicaciones de IA y Machine Learning. Permite almacenar, indexar y buscar vectores de alta dimensi√≥n de manera eficiente.

**Caracter√≠sticas principales:**
- B√∫squeda de similitud vectorial ultrarr√°pida
- Escalabilidad autom√°tica
- Baja latencia (milisegundos)
- Soporte para filtrado de metadatos
- Actualizaciones en tiempo real
- API simple y f√°cil de usar

**Casos de uso:**
- B√∫squeda sem√°ntica
- Sistemas de recomendaci√≥n
- Detecci√≥n de anomal√≠as
- Deduplicaci√≥n de contenido
- B√∫squeda de im√°genes similares
- Chatbots con memoria a largo plazo
- Retrieval Augmented Generation (RAG)

### 2.2 Instalaci√≥n y Configuraci√≥n

In [None]:
# Instalaci√≥n de Pinecone
!pip install pinecone-client

# Para trabajar con embeddings (opcional)
!pip install sentence-transformers
!pip install openai  # Si usas OpenAI para embeddings

### 2.3 Conceptos Fundamentales

#### ¬øQu√© es un Vector?

Un vector es una representaci√≥n num√©rica de datos (texto, im√°genes, audio, etc.) en un espacio multidimensional. Por ejemplo:

```python
# Vector de 3 dimensiones
vector = [0.5, -0.2, 0.8]

# Vector de embeddings de texto (t√≠picamente 384, 768, 1536 dimensiones)
vector_texto = [0.012, -0.045, 0.123, ..., 0.089]  # 768 valores
```

#### Jerarqu√≠a en Pinecone

```
Proyecto
  ‚îî‚îÄ‚îÄ √çndice (Index)
       ‚îî‚îÄ‚îÄ Vector (con ID, valores y metadatos)
```

#### Componentes de un Vector en Pinecone

```python
{
  "id": "doc1",                           # Identificador √∫nico
  "values": [0.1, 0.2, ..., 0.9],        # Vector de n√∫meros (embeddings)
  "metadata": {                           # Informaci√≥n adicional (opcional)
    "texto": "Ejemplo de documento",
    "categoria": "tecnolog√≠a",
    "fecha": "2025-01-15"
  }
}
```

### 2.4 Conexi√≥n e Inicializaci√≥n

In [None]:
from pinecone import Pinecone, ServerlessSpec
import os

# Inicializar Pinecone con tu API key
# Obt√©n tu API key desde: https://app.pinecone.io/
pc = Pinecone(api_key="tu-api-key-aqui")

# O desde variable de entorno
# pc = Pinecone(api_key=os.environ.get("PINECONE_API_KEY"))

print("‚úÖ Conexi√≥n a Pinecone establecida")

### 2.5 Crear y Gestionar √çndices

In [None]:
# Nombre del √≠ndice
index_name = "mi-indice-vectorial"

# Verificar si el √≠ndice ya existe
if index_name not in pc.list_indexes().names():
    # Crear √≠ndice
    pc.create_index(
        name=index_name,
        dimension=384,  # Dimensi√≥n de los vectores (depende del modelo de embeddings)
        metric="cosine",  # M√©trica de similitud: cosine, euclidean, dotproduct
        spec=ServerlessSpec(
            cloud="aws",  # Proveedor de nube: aws, gcp, azure
            region="us-east-1"  # Regi√≥n
        )
    )
    print(f"‚úÖ √çndice '{index_name}' creado")
else:
    print(f"‚ÑπÔ∏è El √≠ndice '{index_name}' ya existe")

# Conectar al √≠ndice
index = pc.Index(index_name)

# Obtener estad√≠sticas del √≠ndice
stats = index.describe_index_stats()
print(f"\nEstad√≠sticas del √≠ndice:")
print(f"- Vectores totales: {stats['total_vector_count']}")
print(f"- Dimensi√≥n: {stats['dimension']}")

# Listar todos los √≠ndices
print("\n√çndices disponibles:")
for idx in pc.list_indexes():
    print(f"- {idx['name']}")

### 2.6 Generar Embeddings

Para usar Pinecone, primero necesitas convertir tus datos (texto, im√°genes, etc.) en vectores.

In [None]:
from sentence_transformers import SentenceTransformer

# Cargar modelo de embeddings (384 dimensiones)
model = SentenceTransformer('all-MiniLM-L6-v2')

# Textos de ejemplo
textos = [
    "Python es un lenguaje de programaci√≥n vers√°til",
    "MongoDB es una base de datos NoSQL",
    "Pinecone permite b√∫squedas vectoriales r√°pidas",
    "Machine Learning es una rama de la inteligencia artificial",
    "Los vectores representan datos en forma num√©rica"
]

# Generar embeddings
embeddings = model.encode(textos)

print(f"Forma de los embeddings: {embeddings.shape}")
print(f"Primer embedding (primeros 10 valores): {embeddings[0][:10]}")

# Alternativa con OpenAI (requiere API key)
# from openai import OpenAI
# client = OpenAI(api_key="tu-api-key")
# 
# def get_embedding(text):
#     response = client.embeddings.create(
#         model="text-embedding-3-small",  # 1536 dimensiones
#         input=text
#     )
#     return response.data[0].embedding

### 2.7 Operaciones CRUD en Pinecone

#### Upsert (Insertar/Actualizar Vectores)

In [None]:
# Preparar vectores para inserci√≥n
vectores_para_insertar = []

for i, (texto, embedding) in enumerate(zip(textos, embeddings)):
    vectores_para_insertar.append({
        "id": f"doc{i}",
        "values": embedding.tolist(),
        "metadata": {
            "texto": texto,
            "categoria": "tecnolog√≠a",
            "indice": i
        }
    })

# Insertar vectores (upsert = insert or update)
index.upsert(vectors=vectores_para_insertar)
print(f"‚úÖ {len(vectores_para_insertar)} vectores insertados")

# Insertar un solo vector
nuevo_texto = "Las bases de datos vectoriales son esenciales para IA"
nuevo_embedding = model.encode([nuevo_texto])[0]

index.upsert(
    vectors=[
        {
            "id": "doc5",
            "values": nuevo_embedding.tolist(),
            "metadata": {
                "texto": nuevo_texto,
                "categoria": "base_de_datos"
            }
        }
    ]
)
print("‚úÖ Vector adicional insertado")

# Verificar cantidad de vectores
import time
time.sleep(1)  # Esperar a que se indexen
stats = index.describe_index_stats()
print(f"\nTotal de vectores en el √≠ndice: {stats['total_vector_count']}")

#### Fetch (Obtener Vectores por ID)

In [None]:
# Obtener vectores espec√≠ficos por ID
resultado = index.fetch(ids=["doc0", "doc1", "doc2"])

print("Vectores obtenidos:")
for id, vector in resultado['vectors'].items():
    print(f"\nID: {id}")
    print(f"Metadata: {vector['metadata']}")
    print(f"Valores (primeros 5): {vector['values'][:5]}")

#### Query (B√∫squeda por Similitud)

In [None]:
# Consulta: buscar documentos similares
query_text = "¬øQu√© es inteligencia artificial?"
query_embedding = model.encode([query_text])[0]

# Buscar los 3 vectores m√°s similares
resultados = index.query(
    vector=query_embedding.tolist(),
    top_k=3,
    include_metadata=True,
    include_values=False  # No necesitamos los valores del vector en el resultado
)

print(f"Consulta: '{query_text}'\n")
print("Resultados m√°s similares:")
for i, match in enumerate(resultados['matches'], 1):
    print(f"\n{i}. Score: {match['score']:.4f}")
    print(f"   ID: {match['id']}")
    print(f"   Texto: {match['metadata']['texto']}")

# B√∫squeda con filtros de metadata
print("\n" + "="*50)
print("B√∫squeda con filtro (solo categor√≠a 'tecnolog√≠a'):")

resultados_filtrados = index.query(
    vector=query_embedding.tolist(),
    top_k=3,
    include_metadata=True,
    filter={"categoria": {"$eq": "tecnolog√≠a"}}
)

for i, match in enumerate(resultados_filtrados['matches'], 1):
    print(f"\n{i}. Score: {match['score']:.4f}")
    print(f"   Texto: {match['metadata']['texto']}")
    print(f"   Categor√≠a: {match['metadata']['categoria']}")

#### Update (Actualizar Metadata)

In [None]:
# Actualizar metadata de un vector
index.update(
    id="doc0",
    set_metadata={
        "texto": "Python es un lenguaje de programaci√≥n vers√°til y poderoso",
        "categoria": "programaci√≥n",
        "actualizado": True
    }
)

print("‚úÖ Metadata actualizada")

# Verificar actualizaci√≥n
resultado = index.fetch(ids=["doc0"])
print("\nMetadata actualizada:")
print(resultado['vectors']['doc0']['metadata'])

#### Delete (Eliminar Vectores)

In [None]:
# Eliminar vectores por ID
index.delete(ids=["doc5"])
print("‚úÖ Vector 'doc5' eliminado")

# Eliminar vectores con filtro
# index.delete(filter={"categoria": {"$eq": "obsoleto"}})

# Eliminar todos los vectores del √≠ndice
# index.delete(delete_all=True)

# Verificar
time.sleep(1)
stats = index.describe_index_stats()
print(f"Total de vectores despu√©s de eliminar: {stats['total_vector_count']}")

### 2.8 Filtros de Metadata

Pinecone permite filtrar resultados usando metadata durante las b√∫squedas.

In [None]:
# Operadores de filtro disponibles:
# $eq: igual a
# $ne: no igual a
# $gt: mayor que
# $gte: mayor o igual que
# $lt: menor que
# $lte: menor o igual que
# $in: est√° en lista
# $nin: no est√° en lista

# Ejemplo: Insertar vectores con metadata num√©rica
documentos_con_score = [
    {"id": "doc_a", "values": model.encode(["Documento A"]).tolist()[0], 
     "metadata": {"score": 8.5, "categoria": "ciencia"}},
    {"id": "doc_b", "values": model.encode(["Documento B"]).tolist()[0], 
     "metadata": {"score": 6.2, "categoria": "tecnolog√≠a"}},
    {"id": "doc_c", "values": model.encode(["Documento C"]).tolist()[0], 
     "metadata": {"score": 9.1, "categoria": "ciencia"}},
]

index.upsert(vectors=documentos_con_score)
time.sleep(1)

# Filtro simple: score mayor a 7
query_embedding = model.encode(["documento"])[0]
resultados = index.query(
    vector=query_embedding.tolist(),
    top_k=10,
    include_metadata=True,
    filter={"score": {"$gt": 7.0}}
)

print("Documentos con score > 7:")
for match in resultados['matches']:
    print(f"- {match['id']}: score={match['metadata']['score']}")

# Filtro compuesto: score > 7 Y categor√≠a = ciencia
resultados = index.query(
    vector=query_embedding.tolist(),
    top_k=10,
    include_metadata=True,
    filter={
        "$and": [
            {"score": {"$gt": 7.0}},
            {"categoria": {"$eq": "ciencia"}}
        ]
    }
)

print("\nDocumentos con score > 7 Y categor√≠a = ciencia:")
for match in resultados['matches']:
    print(f"- {match['id']}: score={match['metadata']['score']}, categoria={match['metadata']['categoria']}")

# Filtro con $in
resultados = index.query(
    vector=query_embedding.tolist(),
    top_k=10,
    include_metadata=True,
    filter={"categoria": {"$in": ["ciencia", "tecnolog√≠a"]}}
)

print("\nDocumentos de categor√≠a ciencia o tecnolog√≠a:")
for match in resultados['matches']:
    print(f"- {match['id']}: {match['metadata']['categoria']}")

### 2.9 Namespaces (Espacios de Nombres)

Los namespaces permiten organizar vectores dentro de un mismo √≠ndice.

In [None]:
# Insertar vectores en diferentes namespaces
# Namespace para documentos en espa√±ol
index.upsert(
    vectors=[
        {
            "id": "es_doc1",
            "values": model.encode(["Documento en espa√±ol"]).tolist()[0],
            "metadata": {"idioma": "espa√±ol"}
        }
    ],
    namespace="espanol"
)

# Namespace para documentos en ingl√©s
index.upsert(
    vectors=[
        {
            "id": "en_doc1",
            "values": model.encode(["English document"]).tolist()[0],
            "metadata": {"idioma": "ingl√©s"}
        }
    ],
    namespace="ingles"
)

print("‚úÖ Vectores insertados en diferentes namespaces")

# Buscar solo en namespace espa√±ol
query_embedding = model.encode(["documento"]).tolist()[0]
resultados = index.query(
    vector=query_embedding,
    top_k=3,
    namespace="espanol",
    include_metadata=True
)

print("\nResultados en namespace 'espanol':")
for match in resultados['matches']:
    print(f"- {match['id']}")

# Estad√≠sticas por namespace
time.sleep(1)
stats = index.describe_index_stats()
print("\nEstad√≠sticas por namespace:")
for ns, info in stats['namespaces'].items():
    print(f"- {ns}: {info['vector_count']} vectores")

### 2.10 Caso de Uso: Sistema de B√∫squeda Sem√°ntica

In [None]:
# Ejemplo completo: Sistema de b√∫squeda de documentaci√≥n

class SistemaBusquedaSemantica:
    def __init__(self, index, model):
        self.index = index
        self.model = model
    
    def agregar_documentos(self, documentos):
        """
        Agregar documentos al √≠ndice
        documentos: lista de diccionarios con 'id', 'texto' y 'metadata'
        """
        vectores = []
        for doc in documentos:
            embedding = self.model.encode([doc['texto']])[0]
            vectores.append({
                "id": doc['id'],
                "values": embedding.tolist(),
                "metadata": {
                    "texto": doc['texto'],
                    **doc.get('metadata', {})
                }
            })
        
        self.index.upsert(vectors=vectores)
        return len(vectores)
    
    def buscar(self, consulta, top_k=5, filtros=None):
        """
        Buscar documentos similares a la consulta
        """
        query_embedding = self.model.encode([consulta])[0]
        
        resultados = self.index.query(
            vector=query_embedding.tolist(),
            top_k=top_k,
            include_metadata=True,
            filter=filtros
        )
        
        return [
            {
                "id": match['id'],
                "score": match['score'],
                "texto": match['metadata']['texto'],
                "metadata": match['metadata']
            }
            for match in resultados['matches']
        ]

# Usar el sistema
sistema = SistemaBusquedaSemantica(index, model)

# Agregar documentaci√≥n
documentos = [
    {
        "id": "py_001",
        "texto": "Python es un lenguaje interpretado de alto nivel con tipado din√°mico",
        "metadata": {"tipo": "definici√≥n", "tema": "python"}
    },
    {
        "id": "py_002",
        "texto": "Las listas en Python son estructuras de datos mutables y ordenadas",
        "metadata": {"tipo": "tutorial", "tema": "python"}
    },
    {
        "id": "ml_001",
        "texto": "El aprendizaje supervisado requiere datos etiquetados para entrenar modelos",
        "metadata": {"tipo": "definici√≥n", "tema": "machine_learning"}
    },
]

num_docs = sistema.agregar_documentos(documentos)
print(f"‚úÖ {num_docs} documentos agregados\n")

# Realizar b√∫squedas
time.sleep(1)
print("B√∫squeda: '¬øQu√© son las listas?'")
resultados = sistema.buscar("¬øQu√© son las listas?", top_k=3)
for i, resultado in enumerate(resultados, 1):
    print(f"\n{i}. Score: {resultado['score']:.4f}")
    print(f"   Texto: {resultado['texto']}")

# B√∫squeda con filtro
print("\n" + "="*50)
print("B√∫squeda filtrada por tema 'python':")
resultados = sistema.buscar(
    "caracter√≠sticas del lenguaje",
    top_k=3,
    filtros={"tema": {"$eq": "python"}}
)
for i, resultado in enumerate(resultados, 1):
    print(f"\n{i}. Score: {resultado['score']:.4f}")
    print(f"   Texto: {resultado['texto']}")

### 2.11 M√©tricas de Similitud

Pinecone soporta tres m√©tricas de similitud:

1. **Cosine Similarity** (cosine): Mide el √°ngulo entre vectores. Rango: [-1, 1], donde 1 es id√©ntico.
   - Uso: B√∫squeda sem√°ntica de texto, recomendaciones
   - F√≥rmula: `cos(Œ∏) = (A ¬∑ B) / (||A|| ||B||)`

2. **Euclidean Distance** (euclidean): Mide la distancia en l√≠nea recta entre vectores.
   - Uso: Cuando la magnitud importa (im√°genes, coordenadas)
   - F√≥rmula: `d = ‚àöŒ£(Ai - Bi)¬≤`

3. **Dot Product** (dotproduct): Producto punto entre vectores.
   - Uso: Cuando los vectores est√°n normalizados
   - F√≥rmula: `A ¬∑ B = Œ£(Ai √ó Bi)`

**Nota:** La m√©trica se define al crear el √≠ndice y no puede cambiarse despu√©s.

### 2.12 Mejores Pr√°cticas Pinecone

1. **Dimensionalidad:**
   - Usa la dimensionalidad apropiada para tu modelo de embeddings
   - Dimensiones comunes: 384 (MiniLM), 768 (BERT), 1536 (OpenAI)
   - Mayor dimensi√≥n = mayor precisi√≥n pero m√°s costoso

2. **Metadata:**
   - Usa metadata para filtros y contexto adicional
   - Limita el tama√±o de metadata (m√°ximo 40KB por vector)
   - Indexa campos que usar√°s en filtros

3. **IDs:**
   - Usa IDs √∫nicos y descriptivos
   - Considera usar UUIDs para evitar colisiones
   - Los IDs son inmutables una vez creados

4. **Rendimiento:**
   - Usa batch operations para insertar m√∫ltiples vectores
   - Limita top_k a lo necesario (m√°s resultados = mayor latencia)
   - Usa namespaces para organizar datos relacionados

5. **Embeddings:**
   - Normaliza embeddings si usas m√©trica cosine
   - Usa el mismo modelo de embeddings consistentemente
   - Cachea embeddings para consultas frecuentes

6. **Costos:**
   - Monitorea el uso de vectores almacenados
   - Limpia vectores obsoletos regularmente
   - Considera usar namespaces para separar datos temporales

7. **Seguridad:**
   - Mant√©n tu API key segura (variables de entorno)
   - No expongas API keys en c√≥digo p√∫blico
   - Usa diferentes proyectos para dev/prod

---

## 3. Integraci√≥n MongoDB + Pinecone <a id='integracion'></a>

### 3.1 Arquitectura H√≠brida

Una arquitectura com√∫n combina MongoDB y Pinecone:

- **MongoDB**: Almacena datos estructurados completos, metadata, y gestiona CRUD tradicional
- **Pinecone**: Almacena embeddings vectoriales para b√∫squeda sem√°ntica r√°pida

```
Aplicaci√≥n
    |
    |-- MongoDB: Datos completos + Metadata
    |   ‚îî‚îÄ‚îÄ {id, titulo, contenido, autor, fecha, categoria}
    |
    ‚îî‚îÄ‚îÄ Pinecone: Vectores + ID de referencia
        ‚îî‚îÄ‚îÄ {id, values[...], metadata: {mongodb_id, categoria}}
```

### 3.2 Sistema Completo: B√∫squeda Sem√°ntica con Almacenamiento Persistente

In [None]:
from pymongo import MongoClient
from pinecone import Pinecone
from sentence_transformers import SentenceTransformer
from datetime import datetime
from bson.objectid import ObjectId
import time

class SistemaDocumentosHibrido:
    """
    Sistema que combina MongoDB para almacenamiento y Pinecone para b√∫squeda vectorial
    """
    
    def __init__(self, mongo_uri, pinecone_api_key, index_name):
        # Conexi√≥n a MongoDB
        self.mongo_client = MongoClient(mongo_uri)
        self.db = self.mongo_client['sistema_documentos']
        self.coleccion = self.db['documentos']
        
        # Conexi√≥n a Pinecone
        self.pc = Pinecone(api_key=pinecone_api_key)
        self.index = self.pc.Index(index_name)
        
        # Modelo de embeddings
        self.model = SentenceTransformer('all-MiniLM-L6-v2')
        
        print("‚úÖ Sistema h√≠brido MongoDB + Pinecone inicializado")
    
    def agregar_documento(self, titulo, contenido, autor, categoria):
        """
        Agrega un documento a MongoDB y su embedding a Pinecone
        """
        # 1. Guardar en MongoDB
        documento_mongo = {
            "titulo": titulo,
            "contenido": contenido,
            "autor": autor,
            "categoria": categoria,
            "fecha_creacion": datetime.now(),
            "vistas": 0
        }
        
        resultado = self.coleccion.insert_one(documento_mongo)
        doc_id = str(resultado.inserted_id)
        
        # 2. Generar embedding y guardar en Pinecone
        texto_completo = f"{titulo}. {contenido}"
        embedding = self.model.encode([texto_completo])[0]
        
        self.index.upsert(
            vectors=[{
                "id": doc_id,
                "values": embedding.tolist(),
                "metadata": {
                    "mongodb_id": doc_id,
                    "titulo": titulo,
                    "autor": autor,
                    "categoria": categoria
                }
            }]
        )
        
        print(f"‚úÖ Documento '{titulo}' agregado con ID: {doc_id}")
        return doc_id
    
    def buscar_semantica(self, consulta, top_k=5, filtro_categoria=None):
        """
        Realiza b√∫squeda sem√°ntica usando Pinecone y recupera datos completos de MongoDB
        """
        # 1. Buscar vectores similares en Pinecone
        query_embedding = self.model.encode([consulta])[0]
        
        filtros = None
        if filtro_categoria:
            filtros = {"categoria": {"$eq": filtro_categoria}}
        
        resultados_pinecone = self.index.query(
            vector=query_embedding.tolist(),
            top_k=top_k,
            include_metadata=True,
            filter=filtros
        )
        
        # 2. Recuperar documentos completos de MongoDB
        resultados_completos = []
        
        for match in resultados_pinecone['matches']:
            mongo_id = match['metadata']['mongodb_id']
            
            # Obtener documento completo de MongoDB
            doc_mongo = self.coleccion.find_one({"_id": ObjectId(mongo_id)})
            
            if doc_mongo:
                # Incrementar contador de vistas
                self.coleccion.update_one(
                    {"_id": ObjectId(mongo_id)},
                    {"$inc": {"vistas": 1}}
                )
                
                resultados_completos.append({
                    "score": match['score'],
                    "titulo": doc_mongo['titulo'],
                    "contenido": doc_mongo['contenido'],
                    "autor": doc_mongo['autor'],
                    "categoria": doc_mongo['categoria'],
                    "fecha_creacion": doc_mongo['fecha_creacion'],
                    "vistas": doc_mongo['vistas'] + 1
                })
        
        return resultados_completos
    
    def actualizar_documento(self, doc_id, **kwargs):
        """
        Actualiza un documento en MongoDB y Pinecone si cambia el contenido
        """
        # Actualizar MongoDB
        self.coleccion.update_one(
            {"_id": ObjectId(doc_id)},
            {"$set": kwargs}
        )
        
        # Si cambi√≥ titulo o contenido, actualizar embedding
        if 'titulo' in kwargs or 'contenido' in kwargs:
            doc = self.coleccion.find_one({"_id": ObjectId(doc_id)})
            texto_completo = f"{doc['titulo']}. {doc['contenido']}"
            embedding = self.model.encode([texto_completo])[0]
            
            self.index.update(
                id=doc_id,
                values=embedding.tolist(),
                set_metadata={
                    "titulo": doc['titulo'],
                    "autor": doc['autor'],
                    "categoria": doc['categoria']
                }
            )
        
        print(f"‚úÖ Documento {doc_id} actualizado")
    
    def eliminar_documento(self, doc_id):
        """
        Elimina un documento de MongoDB y Pinecone
        """
        # Eliminar de MongoDB
        self.coleccion.delete_one({"_id": ObjectId(doc_id)})
        
        # Eliminar de Pinecone
        self.index.delete(ids=[doc_id])
        
        print(f"‚úÖ Documento {doc_id} eliminado")
    
    def estadisticas(self):
        """
        Muestra estad√≠sticas del sistema
        """
        # Estad√≠sticas de MongoDB
        total_docs = self.coleccion.count_documents({})
        
        # Documentos por categor√≠a
        pipeline = [
            {"$group": {"_id": "$categoria", "count": {"$sum": 1}}}
        ]
        docs_por_categoria = list(self.coleccion.aggregate(pipeline))
        
        # Estad√≠sticas de Pinecone
        stats_pinecone = self.index.describe_index_stats()
        
        return {
            "total_documentos": total_docs,
            "por_categoria": docs_por_categoria,
            "vectores_pinecone": stats_pinecone['total_vector_count']
        }

# Ejemplo de uso
# sistema = SistemaDocumentosHibrido(
#     mongo_uri="mongodb://localhost:27017/",
#     pinecone_api_key="tu-api-key",
#     index_name="mi-indice"
# )

print("‚úÖ Clase SistemaDocumentosHibrido definida")

### 3.3 Ejemplo de Uso del Sistema H√≠brido

In [None]:
# Nota: Este c√≥digo requiere conexiones activas a MongoDB y Pinecone
# Descomenta para usar con tus credenciales

# # Inicializar sistema
# sistema = SistemaDocumentosHibrido(
#     mongo_uri="mongodb://localhost:27017/",
#     pinecone_api_key=os.environ.get("PINECONE_API_KEY"),
#     index_name="documentos"
# )

# # Agregar documentos
# doc1 = sistema.agregar_documento(
#     titulo="Introducci√≥n a Python",
#     contenido="Python es un lenguaje de programaci√≥n vers√°til y f√°cil de aprender...",
#     autor="Juan P√©rez",
#     categoria="programaci√≥n"
# )

# doc2 = sistema.agregar_documento(
#     titulo="Bases de Datos NoSQL",
#     contenido="Las bases de datos NoSQL ofrecen flexibilidad en el esquema de datos...",
#     autor="Mar√≠a Garc√≠a",
#     categoria="bases_de_datos"
# )

# doc3 = sistema.agregar_documento(
#     titulo="Machine Learning B√°sico",
#     contenido="El aprendizaje autom√°tico permite a las m√°quinas aprender de los datos...",
#     autor="Carlos L√≥pez",
#     categoria="inteligencia_artificial"
# )

# # Esperar a que se indexen
# time.sleep(2)

# # Realizar b√∫squeda sem√°ntica
# print("\nB√∫squeda: '¬øC√≥mo aprender a programar?'\n")
# resultados = sistema.buscar_semantica("¬øC√≥mo aprender a programar?", top_k=3)

# for i, resultado in enumerate(resultados, 1):
#     print(f"{i}. {resultado['titulo']} (Score: {resultado['score']:.4f})")
#     print(f"   Autor: {resultado['autor']}")
#     print(f"   Categor√≠a: {resultado['categoria']}")
#     print(f"   Vistas: {resultado['vistas']}")
#     print()

# # B√∫squeda con filtro
# print("\nB√∫squeda filtrada por categor√≠a 'programaci√≥n':\n")
# resultados = sistema.buscar_semantica(
#     "lenguajes de programaci√≥n",
#     top_k=3,
#     filtro_categoria="programaci√≥n"
# )

# for resultado in resultados:
#     print(f"- {resultado['titulo']}")

# # Actualizar documento
# sistema.actualizar_documento(
#     doc1,
#     contenido="Python es un lenguaje interpretado, orientado a objetos y de alto nivel..."
# )

# # Ver estad√≠sticas
# stats = sistema.estadisticas()
# print("\nEstad√≠sticas del sistema:")
# print(f"Total de documentos: {stats['total_documentos']}")
# print(f"Vectores en Pinecone: {stats['vectores_pinecone']}")
# print("\nDocumentos por categor√≠a:")
# for cat in stats['por_categoria']:
#     print(f"- {cat['_id']}: {cat['count']}")

print("Ejemplo de uso comentado arriba (requiere conexiones activas)")

### 3.4 Ventajas de la Arquitectura H√≠brida

**Por qu√© usar MongoDB + Pinecone juntos:**

1. **Separaci√≥n de responsabilidades:**
   - MongoDB: CRUD tradicional, queries complejos, transacciones
   - Pinecone: B√∫squeda vectorial especializada y optimizada

2. **Mejor rendimiento:**
   - Pinecone indexa y busca vectores en milisegundos
   - MongoDB gestiona relaciones y datos estructurados eficientemente

3. **Escalabilidad:**
   - Ambos sistemas escalan independientemente
   - Puedes ajustar recursos seg√∫n necesidad

4. **Flexibilidad:**
   - Usa b√∫squeda sem√°ntica cuando la necesites
   - Usa queries SQL-like para an√°lisis tradicionales
   - Combina ambos para resultados h√≠bridos

5. **Costos optimizados:**
   - Solo pagas por vectores en Pinecone
   - Metadata completa en MongoDB (m√°s barato)

**Casos de uso ideales:**
- Sistemas de b√∫squeda de documentaci√≥n
- E-commerce con recomendaciones sem√°nticas
- Chatbots con memoria y contexto
- Sistemas de gesti√≥n de conocimiento
- Plataformas de contenido con b√∫squeda inteligente

### 3.5 Limpieza de Recursos

In [None]:
# Cerrar conexiones
client.close()
print("‚úÖ Conexiones cerradas")

# Para eliminar √≠ndice de Pinecone (solo si es necesario)
# pc.delete_index(index_name)
# print(f"‚úÖ √çndice '{index_name}' eliminado")

---

## üìö Recursos Adicionales

### MongoDB
- Documentaci√≥n oficial: https://docs.mongodb.com/
- MongoDB University (cursos gratuitos): https://university.mongodb.com/
- PyMongo docs: https://pymongo.readthedocs.io/

### Pinecone
- Documentaci√≥n oficial: https://docs.pinecone.io/
- Ejemplos y tutoriales: https://www.pinecone.io/learn/
- API Reference: https://docs.pinecone.io/reference/

### Embeddings
- Sentence Transformers: https://www.sbert.net/
- OpenAI Embeddings: https://platform.openai.com/docs/guides/embeddings
- Hugging Face Models: https://huggingface.co/models

---

## üéØ Resumen de Conceptos Clave

### MongoDB
- Base de datos NoSQL orientada a documentos
- Esquema flexible con documentos JSON/BSON
- Operaciones CRUD: insert, find, update, delete
- Agregaciones poderosas con pipeline
- √çndices para optimizar consultas
- Ideal para datos estructurados y semiestructurados

### Pinecone
- Base de datos vectorial especializada
- B√∫squeda por similitud ultrarr√°pida
- Almacena vectores (embeddings) de alta dimensi√≥n
- Filtrado por metadata
- Tres m√©tricas: cosine, euclidean, dotproduct
- Ideal para IA, ML y b√∫squeda sem√°ntica

### Arquitectura H√≠brida
- MongoDB para datos completos y CRUD tradicional
- Pinecone para b√∫squeda vectorial r√°pida
- Sincronizaci√≥n entre ambos sistemas
- Mejor rendimiento y escalabilidad
- Flexibilidad en tipos de b√∫squeda
