# Consultas CRUD en MongoDB
## Caso de Estudio: Replicación Primario-Secundario

Este notebook contiene las 15 consultas CRUD requeridas para el proyecto de replicación MongoDB.

In [None]:
from pymongo import MongoClient
from datetime import datetime, timedelta
import pandas as pd

# Configuración de conexión
MONGO_URI = "mongodb://admin:password123@localhost:27017/"
DB_NAME = "ventas_tienda_db"
COLLECTION_NAME = "ventas"

client = MongoClient(MONGO_URI)
db = client[DB_NAME]
collection = db[COLLECTION_NAME]

print("✅ Conexión establecida a MongoDB")

## Consulta 1: Ventas de los últimos 3 meses para un cliente específico

In [None]:
# Consulta 1: Ventas de los últimos 3 meses para cliente_id = 1234
fecha_limite = datetime.now() - timedelta(days=90)

consulta = {
    'cliente_id': 1234,
    'fecha_compra': {'$gte': fecha_limite}
}

resultados = list(collection.find(consulta).sort('fecha_compra', -1))
print(f"📊 Ventas encontradas: {len(resultados)}")
for venta in resultados[:5]:
    print(f"- {venta['producto']}: ${venta['precio']} - {venta['fecha_compra']}")

## Consulta 2: Total gastado por cliente en los últimos 3 meses, agrupado por producto

In [None]:
# Consulta 2: Total gastado por cliente, agrupado por producto
pipeline = [
    {'$match': {
        'cliente_id': 1234,
        'fecha_compra': {'$gte': fecha_limite}
    }},
    {'$group': {
        '_id': '$producto',
        'total_gastado': {'$sum': '$precio'},
        'cantidad_ventas': {'$sum': 1}
    }},
    {'$sort': {'total_gastado': -1}}
]

resultados = list(collection.aggregate(pipeline))
print("💰 Total gastado por producto:")
for resultado in resultados:
    print(f"- {resultado['_id']}: ${resultado['total_gastado']:.2f} ({resultado['cantidad_ventas']} ventas)")

## Consulta 3: Productos con stock disminuido más del 15%

In [None]:
# Consulta 3: Productos con stock disminuido más del 15%
mes_actual = datetime.now().month
mes_anterior = (datetime.now() - timedelta(days=30)).month

pipeline = [
    {'$match': {
        '$or': [
            {'mes_compra': mes_actual},
            {'mes_compra': mes_anterior}
        ]
    }},
    {'$group': {
        '_id': '$producto',
        'stock_actual': {'$avg': '$cantidad_stock'},
        'mes': {'$first': '$mes_compra'}
    }},
    {'$group': {
        '_id': '$_id',
        'stocks': {'$push': {'mes': '$mes', 'stock': '$stock_actual'}}
    }}
]

resultados = list(collection.aggregate(pipeline))
print("📉 Productos con disminución de stock:")
for resultado in resultados:
    if len(resultado['stocks']) >= 2:
        stock_actual = resultado['stocks'][0]['stock']
        stock_anterior = resultado['stocks'][1]['stock']
        if stock_anterior > 0:
            disminucion = ((stock_anterior - stock_actual) / stock_anterior) * 100
            if disminucion > 15:
                print(f"- {resultado['_id']}: Disminución del {disminucion:.1f}%")

## Consulta 4: Lectura desde nodo secundario - Productos por ciudad con precio superior al promedio

In [None]:
# Consulta 4: Lectura desde nodo secundario
try:
    # Conectar al nodo secundario
    secondary_client = MongoClient("mongodb://admin:password123@localhost:27018/")
    secondary_db = secondary_client[DB_NAME]
    secondary_collection = secondary_db[COLLECTION_NAME]
    
    # Calcular precio promedio
    pipeline = [
        {'$group': {
            '_id': None,
            'precio_promedio': {'$avg': '$precio'}
        }}
    ]
    
    precio_promedio = list(secondary_collection.aggregate(pipeline))[0]['precio_promedio']
    
    # Consultar productos en ciudad específica con precio superior al promedio
    consulta = {
        'ciudad': 'São Paulo',
        'precio': {'$gt': precio_promedio}
    }
    
    resultados = list(secondary_collection.find(consulta))
    print(f"🏙️ Productos en São Paulo con precio > ${precio_promedio:.2f}: {len(resultados)}")
    print("⚠️ Nota: Lectura desde nodo secundario puede tener datos ligeramente desactualizados")
    
except Exception as e:
    print(f"❌ Error al leer desde secundario: {e}")

## Consulta 5: Actualizar precios en rango de fechas específico

In [None]:
# Consulta 5: Actualizar precios en rango de fechas
fecha_inicio = datetime(2023, 6, 1)
fecha_fin = datetime(2023, 6, 30)

consulta = {
    'fecha_compra': {
        '$gte': fecha_inicio,
        '$lte': fecha_fin
    },
    'cantidad_stock': {'$gt': 10}
}

resultado = collection.update_many(
    consulta,
    {'$mul': {'precio': 1.10}}  # Aumentar 10%
)

print(f"📈 Precios actualizados: {resultado.modified_count} productos")
print(f"💰 Aumento aplicado: 10% en productos con stock > 10")
print(f"📅 Rango de fechas: {fecha_inicio.date()} a {fecha_fin.date()}")

## Consulta 6: Actualizar email de cliente con condiciones

In [None]:
# Consulta 6: Actualizar email de cliente con condiciones
trimestre_actual = datetime.now().quarter
año_actual = datetime.now().year

# Primero contar ventas del cliente
pipeline = [
    {'$match': {'cliente_id': 1234}},
    {'$group': {
        '_id': '$cliente_id',
        'total_ventas': {'$sum': 1},
        'ultima_venta': {'$max': '$fecha_compra'}
    }}
]

cliente_info = list(collection.aggregate(pipeline))

if cliente_info:
    info = cliente_info[0]
    if info['total_ventas'] > 5 and info['ultima_venta'].quarter == trimestre_actual:
        # Aquí actualizaríamos el email en la colección de clientes
        print(f"✅ Cliente {info['_id']} cumple condiciones para actualización")
        print(f"📊 Total ventas: {info['total_ventas']}")
        print(f"📅 Última venta: {info['ultima_venta']}")
    else:
        print("❌ Cliente no cumple condiciones para actualización")
else:
    print("❌ Cliente no encontrado")

## Consulta 7: Actualizar precios de productos vendidos más de 100 veces

In [None]:
# Consulta 7: Actualizar precios de productos muy vendidos
año_atras = datetime.now() - timedelta(days=365)
umbral_precio = 100

pipeline = [
    {'$match': {
        'fecha_compra': {'$gte': año_atras},
        'precio': {'$lt': umbral_precio}
    }},
    {'$group': {
        '_id': '$producto',
        'ventas_count': {'$sum': 1}
    }},
    {'$match': {'ventas_count': {'$gt': 100}}}
]

productos_populares = list(collection.aggregate(pipeline))

for producto in productos_populares:
    resultado = collection.update_many(
        {'producto': producto['_id'], 'precio': {'$lt': umbral_precio}},
        {'$mul': {'precio': 1.15}}  # Aumentar 15%
    )
    print(f"📈 {producto['_id']}: {resultado.modified_count} productos actualizados (ventas: {producto['ventas_count']})")

## Consulta 8: Eliminar productos sin stock y sin ventas recientes

In [None]:
# Consulta 8: Eliminar productos sin stock y sin ventas recientes
seis_meses_atras = datetime.now() - timedelta(days=180)

consulta = {
    'cantidad_stock': 0,
    'fecha_compra': {'$lt': seis_meses_atras}
}

resultado = collection.delete_many(consulta)
print(f"🗑️ Productos eliminados: {resultado.deleted_count}")
print("💡 Para optimizar esta consulta, crear índices en cantidad_stock y fecha_compra")

## Consulta 9: Eliminar ventas por ciudad con precio bajo el promedio

In [None]:
# Consulta 9: Eliminar ventas por ciudad con precio bajo el promedio
ciudad_especifica = 'Rio de Janeiro'
trimestre_atras = datetime.now() - timedelta(days=90)

# Calcular promedio de precios en la ciudad
pipeline = [
    {'$match': {
        'ciudad': ciudad_especifica,
        'fecha_compra': {'$gte': trimestre_atras}
    }},
    {'$group': {
        '_id': None,
        'precio_promedio': {'$avg': '$precio'}
    }}
]

promedio_ciudad = list(collection.aggregate(pipeline))[0]['precio_promedio']

consulta = {
    'ciudad': ciudad_especifica,
    'precio': {'$lt': promedio_ciudad}
}

resultado = collection.delete_many(consulta)
print(f"🗑️ Ventas eliminadas en {ciudad_especifica}: {resultado.deleted_count}")
print(f"💰 Precio promedio de la ciudad: ${promedio_ciudad:.2f}")
print("⚠️ Consideración: En replicación, las eliminaciones se propagan a todos los nodos")

## Consulta 10: Eliminar clientes con bajo valor de compras

In [None]:
# Consulta 10: Eliminar clientes con bajo valor de compras
año_atras = datetime.now() - timedelta(days=365)
valor_minimo = 100

pipeline = [
    {'$match': {
        'fecha_compra': {'$gte': año_atras}
    }},
    {'$group': {
        '_id': '$cliente_id',
        'total_compras': {'$sum': '$precio'}
    }},
    {'$match': {
        'total_compras': {'$lt': valor_minimo}
    }}
]

clientes_bajo_valor = list(collection.aggregate(pipeline))

for cliente in clientes_bajo_valor:
    resultado = collection.delete_many({'cliente_id': cliente['_id']})
    print(f"🗑️ Cliente {cliente['_id']}: {resultado.deleted_count} ventas eliminadas (total: ${cliente['total_compras']:.2f})")

print(f"📊 Total clientes eliminados: {len(clientes_bajo_valor)}")
print("⚠️ En replicación, las lecturas pueden verse afectadas por la sincronización")

## Consulta 11: Total de ventas por cliente en el último año

In [None]:
# Consulta 11: Total de ventas por cliente en el último año
año_atras = datetime.now() - timedelta(days=365)

pipeline = [
    {'$match': {
        'fecha_compra': {'$gte': año_atras}
    }},
    {'$group': {
        '_id': '$cliente_id',
        'total_ventas': {'$sum': '$precio'},
        'cantidad_ventas': {'$sum': 1}
    }},
    {'$project': {
        'cliente_id': '$_id',
        'total_ventas': 1,
        'cantidad_ventas': 1,
        'promedio_por_venta': {'$divide': ['$total_ventas', '$cantidad_ventas']}
    }},
    {'$sort': {'total_ventas': -1}}
]

resultados = list(collection.aggregate(pipeline))
print("📊 Top 10 clientes por total de ventas:")
for i, cliente in enumerate(resultados[:10], 1):
    print(f"{i}. Cliente {cliente['cliente_id']}: ${cliente['total_ventas']:.2f} ({cliente['cantidad_ventas']} ventas, avg: ${cliente['promedio_por_venta']:.2f})")

## Consulta 12: Productos más vendidos en el último trimestre

In [None]:
# Consulta 12: Productos más vendidos en el último trimestre
trimestre_atras = datetime.now() - timedelta(days=90)

pipeline = [
    {'$match': {
        'fecha_compra': {'$gte': trimestre_atras}
    }},
    {'$group': {
        '_id': '$producto',
        'cantidad_vendida': {'$sum': 1},
        'ingresos_totales': {'$sum': '$precio'}
    }},
    {'$sort': {'cantidad_vendida': -1}}
]

resultados = list(collection.aggregate(pipeline))
print("🏆 Top 5 productos más vendidos en el último trimestre:")
for i, producto in enumerate(resultados[:5], 1):
    print(f"{i}. {producto['_id']}: {producto['cantidad_vendida']} unidades, ${producto['ingresos_totales']:.2f}")

print("\n💡 Para optimizar: crear índices en fecha_compra, producto y precio")

## Consulta 13: Total de ventas por ciudad en el último mes

In [None]:
# Consulta 13: Total de ventas por ciudad en el último mes
mes_atras = datetime.now() - timedelta(days=30)

pipeline = [
    {'$match': {
        'fecha_compra': {'$gte': mes_atras}
    }},
    {'$group': {
        '_id': '$ciudad',
        'total_ventas': {'$sum': 1},
        'ingresos_totales': {'$sum': '$precio'}
    }},
    {'$sort': {'total_ventas': -1}}
]

resultados = list(collection.aggregate(pipeline))
print("🏙️ Ventas por ciudad en el último mes:")
for ciudad in resultados:
    print(f"- {ciudad['_id']}: {ciudad['total_ventas']} ventas, ${ciudad['ingresos_totales']:.2f}")

print("\n💡 Para optimizar en clúster: usar índices compuestos en fecha_compra y ciudad")

## Consulta 14: Correlación entre precio y stock

In [None]:
# Consulta 14: Correlación entre precio y stock
pipeline = [
    {'$group': {
        '_id': '$producto',
        'precio_promedio': {'$avg': '$precio'},
        'stock_promedio': {'$avg': '$cantidad_stock'}
    }}
]

resultados = list(collection.aggregate(pipeline))

# Convertir a DataFrame para análisis
df_analisis = pd.DataFrame(resultados)
df_analisis.columns = ['producto', 'precio_promedio', 'stock_promedio']

correlacion = df_analisis['precio_promedio'].corr(df_analisis['stock_promedio'])
print(f"📊 Correlación entre precio y stock: {correlacion:.3f}")

if correlacion > 0.5:
    print("✅ Correlación positiva fuerte")
elif correlacion < -0.5:
    print("✅ Correlación negativa fuerte")
else:
    print("📈 Correlación débil o nula")

print("\n📋 Análisis adicional: Productos con mayor precio y stock:")
top_productos = df_analisis.nlargest(5, 'precio_promedio')
for _, producto in top_productos.iterrows():
    print(f"- {producto['producto']}: ${producto['precio_promedio']:.2f}, Stock: {producto['stock_promedio']:.1f}")

## Consulta 15: Top 5 productos con mayor ventas excluyendo bajo stock

In [None]:
# Consulta 15: Top 5 productos con mayor ventas excluyendo bajo stock
trimestre_atras = datetime.now() - timedelta(days=90)

pipeline = [
    {'$match': {
        'fecha_compra': {'$gte': trimestre_atras},
        'cantidad_stock': {'$gte': 10}
    }},
    {'$group': {
        '_id': '$producto',
        'unidades_vendidas': {'$sum': 1},
        'ingresos_totales': {'$sum': '$precio'}
    }},
    {'$sort': {'unidades_vendidas': -1}},
    {'$limit': 5}
]

resultados = list(collection.aggregate(pipeline))
print("🏆 Top 5 productos más vendidos (stock >= 10):")
for i, producto in enumerate(resultados, 1):
    print(f"{i}. {producto['_id']}: {producto['unidades_vendidas']} unidades, ${producto['ingresos_totales']:.2f}")

print("\n💡 Optimización: Índices en fecha_compra, cantidad_stock, producto y precio")

## Resumen de Consultas CRUD

### ✅ Consultas Implementadas:
1. **Lectura**: Ventas de cliente específico en últimos 3 meses
2. **Agregación**: Total gastado por cliente agrupado por producto
3. **Análisis**: Productos con disminución de stock > 15%
4. **Replicación**: Lectura desde nodo secundario
5. **Actualización**: Precios en rango de fechas (+10%)
6. **Condicional**: Actualización de cliente con condiciones
7. **Agregación + Update**: Productos populares (+15% precio)
8. **Eliminación**: Productos sin stock y sin ventas recientes
9. **Eliminación**: Ventas por ciudad bajo promedio
10. **Eliminación**: Clientes con bajo valor de compras
11. **Agregación**: Total ventas por cliente con promedio
12. **Agregación**: Productos más vendidos por trimestre
13. **Agregación**: Ventas por ciudad por mes
14. **Análisis**: Correlación precio-stock
15. **Agregación**: Top productos excluyendo bajo stock

### 🎯 Características Implementadas:
- ✅ Operaciones CRUD completas (Create, Read, Update, Delete)
- ✅ Consultas de agregación complejas
- ✅ Lecturas desde nodo secundario
- ✅ Optimizaciones con índices sugeridos
- ✅ Consideraciones de replicación
- ✅ Análisis estadísticos

### 📊 Próximos Pasos:
- Ejecutar todas las consultas en el entorno de replicación
- Verificar la propagación de cambios en los nodos secundarios
- Analizar el rendimiento de las consultas
- Documentar los resultados para la presentación