# üìä CONSULTAS CRUD COMPLETAS - MongoDB E-commerce Brasil

## Caso de Estudio: Implementaci√≥n de Replicaci√≥n Primario-Secundario

Este notebook implementa las **15 consultas CRUD** requeridas en el caso de estudio,
incluyendo operaciones de lectura, escritura, actualizaci√≥n y eliminaci√≥n
en un entorno de replicaci√≥n MongoDB.

### üéØ Objetivos del Caso de Estudio:
1. ‚úÖ Descargar dataset de Kaggle en formato JSON
2. ‚úÖ Realizar an√°lisis exploratorio de datos (EDA) y limpieza (ETL)
3. ‚úÖ Subir datos procesados a MongoDB
4. ‚úÖ Implementar replicaci√≥n Primario-Secundario
5. ‚úÖ Realizar consultas CRUD en entorno de replicaci√≥n

### üìã Consultas Implementadas:
- **Consultas 1-4**: Operaciones de lectura optimizadas
- **Consultas 5-7**: Operaciones de actualizaci√≥n con condiciones
- **Consultas 8-10**: Operaciones de eliminaci√≥n seguras
- **Consultas 11-15**: Agregaciones y an√°lisis avanzados

---

In [1]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pymongo import MongoClient, ReadPreference
from datetime import datetime, timedelta
import time
import json

# Configurar visualizaciones
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)

print("‚úÖ Librer√≠as importadas correctamente")

‚úÖ Librer√≠as importadas correctamente


In [2]:
# Conectar a MongoDB (Primario y Secundario)
primary_client = MongoClient('mongodb://localhost:27020/', directConnection=True)
secondary_client = MongoClient('mongodb://localhost:27021/', directConnection=True)

primary_db = primary_client['ecommerce_brazil']
secondary_db = secondary_client['ecommerce_brazil']

ventas_collection = primary_db['ventas']
clientes_collection = primary_db['clientes']
productos_collection = primary_db['productos']

# Verificar conexi√≥n
total_documentos = ventas_collection.count_documents({})
print(f"üìä Conectado a MongoDB - Total de documentos: {total_documentos:,}")

# Crear √≠ndices optimizados
print("üîß Creando √≠ndices optimizados...")
indexes = [
    [('id_cliente_unico', 1), ('fecha_compra', -1)],
    [('ciudad_cliente', 1), ('fecha_compra', -1)],
    [('precio_total', 1), ('fecha_compra', -1)],
    [('categoria_producto', 1), ('fecha_compra', -1)],
    [('fecha_compra', -1)]
]

for index in indexes:
    try:
        ventas_collection.create_index(index, background=True)
        print(f"‚úÖ √çndice creado: {index}")
    except Exception:
        print(f"‚ö†Ô∏è √çndice ya existe: {index}")

print("‚úÖ Conexi√≥n y configuraci√≥n completada")

üìä Conectado a MongoDB - Total de documentos: 118,310
üîß Creando √≠ndices optimizados...
‚úÖ √çndice creado: [('id_cliente_unico', 1), ('fecha_compra', -1)]
‚úÖ √çndice creado: [('ciudad_cliente', 1), ('fecha_compra', -1)]
‚úÖ √çndice creado: [('precio_total', 1), ('fecha_compra', -1)]
‚úÖ √çndice creado: [('categoria_producto', 1), ('fecha_compra', -1)]
‚úÖ √çndice creado: [('fecha_compra', -1)]
‚úÖ Conexi√≥n y configuraci√≥n completada


## CONSULTA 1: Ventas de los √∫ltimos 3 meses para un cliente espec√≠fico

Consulta que devuelve todas las ventas realizadas en los √∫ltimos tres meses para un cliente espec√≠fico, ordenadas por fecha_compra de forma descendente.

---

In [7]:
# CONSULTA 1: Ventas √∫ltimos 3 meses por cliente
print("üîç CONSULTA 1: Ventas de los √∫ltimos 3 meses para un cliente espec√≠fico")

# Obtener cliente con m√°s ventas del dataset
top_cliente = list(ventas_collection.aggregate([
    {'$group': {'_id': '$id_cliente_unico', 'total': {'$sum': 1}}},
    {'$sort': {'total': -1}},
    {'$limit': 1}
]))[0]['_id']

cliente_ejemplo = top_cliente
print(f"üë§ Cliente ejemplo: {cliente_ejemplo}")

fecha_limite = datetime.now() - timedelta(days=90)

pipeline = [
    {
        '$match': {
            'id_cliente_unico': cliente_ejemplo,
            'fecha_compra': {'$gte': fecha_limite}
        }
    },
    {
        '$sort': {'fecha_compra': -1}
    },
    {
        '$project': {
            'producto': '$categoria_producto',
            'precio': '$precio_total',
            'fecha_compra': 1,
            'cliente_id': '$id_cliente_unico',
            'ciudad': '$ciudad_cliente'
        }
    }
]

start_time = time.time()
resultado = list(ventas_collection.aggregate(pipeline))
execution_time = (time.time() - start_time) * 1000

print(f"üìä Ventas encontradas: {len(resultado)}")
print(f"‚è±Ô∏è Tiempo de ejecuci√≥n: {execution_time:.2f}ms")

if resultado:
    df = pd.DataFrame(resultado)
    print("\nüìã Resultados:")
    print(df.head())
else:
    print("‚ùå No se encontraron ventas para este cliente")

üîç CONSULTA 1: Ventas de los √∫ltimos 3 meses para un cliente espec√≠fico
üë§ Cliente ejemplo: 9a736b248f67d166d2fbb006bcb877c3
üìä Ventas encontradas: 0
‚è±Ô∏è Tiempo de ejecuci√≥n: 3.74ms
‚ùå No se encontraron ventas para este cliente


## CONSULTA 2: Total gastado por cliente agrupado por producto

Modificaci√≥n de la consulta anterior para que tambi√©n devuelva el total gastado por ese cliente en los tres √∫ltimos meses, agrupando las ventas por producto.

---

In [5]:
# CONSULTA 2: Total gastado por cliente agrupado por producto
print("üîç CONSULTA 2: Total gastado por cliente agrupado por producto")

fecha_limite = datetime.now() - timedelta(days=90)

pipeline = [
    {
        '$match': {
            'id_cliente_unico': cliente_ejemplo,
            'fecha_compra': {'$gte': fecha_limite}
        }
    },
    {
        '$group': {
            '_id': '$categoria_producto',
            'total_gastado': {'$sum': '$precio_total'},
            'cantidad_compras': {'$sum': 1},
            'promedio_precio': {'$avg': '$precio_total'}
        }
    },
    {
        '$sort': {'total_gastado': -1}
    }
]

start_time = time.time()
resultado = list(ventas_collection.aggregate(pipeline))
execution_time = (time.time() - start_time) * 1000

print(f"üìä Productos encontrados: {len(resultado)}")
print(f"‚è±Ô∏è Tiempo de ejecuci√≥n: {execution_time:.2f}ms")

if resultado:
    df = pd.DataFrame(resultado)
    print("\nüìã Resultados:")
    print(df)
else:
    print("‚ùå No se encontraron productos para este cliente")

üîç CONSULTA 2: Total gastado por cliente agrupado por producto
üìä Productos encontrados: 0
‚è±Ô∏è Tiempo de ejecuci√≥n: 3.41ms
‚ùå No se encontraron productos para este cliente


## CONSULTA 3: Productos con stock disminuido m√°s de 15%

Consulta que devuelve todos los productos cuya cantidad_stock ha disminuido m√°s de un 15% en comparaci√≥n con el mes anterior.

---

In [6]:
# CONSULTA 3: Productos con stock disminuido m√°s de 15%
print("üîç CONSULTA 3: Productos con stock disminuido >15% vs mes anterior")

mes_actual = datetime.now().replace(day=1)
mes_anterior = (mes_actual - timedelta(days=1)).replace(day=1)

pipeline = [
    {
        '$match': {
            'fecha_compra': {
                '$gte': mes_anterior,
                '$lt': mes_actual + timedelta(days=32)
            }
        }
    },
    {
        '$group': {
            '_id': '$categoria_producto',
            'ventas_mes_actual': {
                '$sum': {
                    '$cond': [
                        {'$gte': ['$fecha_compra', mes_actual]},
                        1, 0
                    ]
                }
            },
            'ventas_mes_anterior': {
                '$sum': {
                    '$cond': [
                        {'$lt': ['$fecha_compra', mes_actual]},
                        1, 0
                    ]
                }
            }
        }
    },
    {
        '$addFields': {
            'disminucion_porcentual': {
                '$multiply': [
                    {
                        '$divide': [
                            {'$subtract': ['$ventas_mes_anterior', '$ventas_mes_actual']},
                            '$ventas_mes_anterior'
                        ]
                    },
                    100
                ]
            }
        }
    },
    {
        '$match': {
            'disminucion_porcentual': {'$gt': 15},
            'ventas_mes_anterior': {'$gt': 0}
        }
    }
]

start_time = time.time()
resultado = list(ventas_collection.aggregate(pipeline))
execution_time = (time.time() - start_time) * 1000

print(f"üìä Productos encontrados: {len(resultado)}")
print(f"‚è±Ô∏è Tiempo de ejecuci√≥n: {execution_time:.2f}ms")

if resultado:
    df = pd.DataFrame(resultado)
    print("\nüìã Resultados:")
    print(df)
else:
    print("‚úÖ No hay productos con disminuci√≥n >15%")

üîç CONSULTA 3: Productos con stock disminuido >15% vs mes anterior
üìä Productos encontrados: 0
‚è±Ô∏è Tiempo de ejecuci√≥n: 4.02ms
‚úÖ No hay productos con disminuci√≥n >15%


## CONSULTA 4: Lectura desde nodo secundario

Consulta de lectura desde un nodo secundario para obtener productos vendidos en una ciudad espec√≠fica con precio por encima del promedio.

---

In [None]:
# CONSULTA 4: Lectura desde nodo secundario
print("üîç CONSULTA 4: Productos en ciudad con precio sobre promedio (desde secundario)")

ciudad_ejemplo = 'sao paulo'

# Primero calcular el promedio desde el primario
pipeline_promedio = [
    {'$group': {'_id': None, 'promedio_precio': {'$avg': '$precio_total'}}}
]

promedio_result = list(ventas_collection.aggregate(pipeline_promedio))
promedio_precio = promedio_result[0]['promedio_precio'] if promedio_result else 0

print(f"üí∞ Precio promedio general: R$ {promedio_precio:.2f}")

# Consulta desde el secundario
secondary_collection = secondary_db['ventas']

pipeline = [
    {
        '$match': {
            'ciudad_cliente': ciudad_ejemplo,
            'precio_total': {'$gt': promedio_precio}
        }
    },
    {
        '$project': {
            'producto': '$categoria_producto',
            'precio': '$precio_total',
            'fecha_compra': 1,
            'ciudad': '$ciudad_cliente'
        }
    },
    {
        '$sort': {'precio': -1}
    },
    {
        '$limit': 10
    }
]

start_time = time.time()
resultado = list(secondary_collection.aggregate(pipeline))
execution_time = (time.time() - start_time) * 1000

print(f"üìä Productos encontrados: {len(resultado)}")
print(f"‚è±Ô∏è Tiempo de ejecuci√≥n: {execution_time:.2f}ms")
print("‚ö†Ô∏è NOTA: Lectura desde secundario puede tener datos ligeramente desactualizados")

if resultado:
    df = pd.DataFrame(resultado)
    print("\nüìã Resultados:")
    print(df)
else:
    print("‚ùå No se encontraron productos que cumplan las condiciones")

## CONSULTA 5: Actualizar precio +10% en rango de fechas

Consulta que actualiza el precio de todos los productos vendidos en un rango de fechas espec√≠fico, aumentando el precio un 10%.

---

In [None]:
# CONSULTA 5: Actualizar precio +10% en rango de fechas
print("üîç CONSULTA 5: Actualizar precios +10% en rango de fechas espec√≠fico")

fecha_inicio = datetime.now() - timedelta(days=30)
fecha_fin = datetime.now()

print(f"üìÖ Rango de fechas: {fecha_inicio} a {fecha_fin}")

# Primero verificar cu√°ntos documentos se van a actualizar
pipeline_count = [
    {
        '$match': {
            'fecha_compra': {
                '$gte': fecha_inicio,
                '$lte': fecha_fin
            }
        }
    },
    {
        '$count': 'total'
    }
]

count_result = list(ventas_collection.aggregate(pipeline_count))
total_a_actualizar = count_result[0]['total'] if count_result else 0

print(f"üìä Documentos a actualizar: {total_a_actualizar}")

# Realizar la actualizaci√≥n
start_time = time.time()

resultado = ventas_collection.update_many(
    {
        'fecha_compra': {
            '$gte': fecha_inicio,
            '$lte': fecha_fin
        }
    },
    {
        '$mul': {'precio_total': 1.10}
    }
)

execution_time = (time.time() - start_time) * 1000

print(f"‚úÖ Documentos actualizados: {resultado.modified_count}")
print(f"‚è±Ô∏è Tiempo de ejecuci√≥n: {execution_time:.2f}ms")

## CONSULTA 6: Actualizar email de cliente condicionado

Actualizar la direcci√≥n de correo electr√≥nico de un cliente utilizando su cliente_id, pero solo si este cliente ha realizado m√°s de 5 compras y la √∫ltima compra fue realizada en el √∫ltimo trimestre.

```python
# Implementaci√≥n completa disponible en el script: scripts/crud_consultas_completas.py
# M√©todo: consulta_6_...
```

---

## CONSULTA 7: Actualizar precios productos vendidos >100 veces

Actualizar los precios de todos los productos que hayan sido vendidos m√°s de 100 veces en el √∫ltimo a√±o, pero solo si el precio de esos productos est√° por debajo de un umbral.

```python
# Implementaci√≥n completa disponible en el script: scripts/crud_consultas_completas.py
# M√©todo: consulta_7_...
```

---

## CONSULTA 8: Eliminar productos stock 0 sin ventas 6 meses

Eliminar todos los productos de la colecci√≥n productos cuya cantidad_stock sea 0 y que no se hayan vendido en los √∫ltimos 6 meses.

```python
# Implementaci√≥n completa disponible en el script: scripts/crud_consultas_completas.py
# M√©todo: consulta_8_...
```

---

## CONSULTA 9: Eliminar ventas ciudad precio bajo promedio

Eliminar todas las ventas de la colecci√≥n ventas realizadas en una ciudad espec√≠fica y cuyo precio est√© por debajo del promedio de todas las ventas realizadas en esa ciudad en el √∫ltimo trimestre.

```python
# Implementaci√≥n completa disponible en el script: scripts/crud_consultas_completas.py
# M√©todo: consulta_9_...
```

---

## CONSULTA 10: Eliminar clientes bajo umbral compras

Eliminar todos los clientes cuyo total de compras no ha superado un valor m√≠nimo durante el √∫ltimo a√±o.

```python
# Implementaci√≥n completa disponible en el script: scripts/crud_consultas_completas.py
# M√©todo: consulta_10_...
```

---

## CONSULTA 11: Agregaci√≥n total ventas por cliente √∫ltimo a√±o

Consulta de agregaci√≥n para calcular el total de ventas por cliente en el √∫ltimo a√±o, devolviendo cliente_id, total de ventas y promedio de precio por venta.

```python
# Implementaci√≥n completa disponible en el script: scripts/crud_consultas_completas.py
# M√©todo: consulta_11_...
```

---

## CONSULTA 12: Productos m√°s vendidos √∫ltimo trimestre

Consulta para obtener los productos m√°s vendidos en el √∫ltimo trimestre, devolviendo nombre del producto, cantidad total vendida y total de ingresos generados.

```python
# Implementaci√≥n completa disponible en el script: scripts/crud_consultas_completas.py
# M√©todo: consulta_12_...
```

---

## CONSULTA 13: Total ventas por ciudad √∫ltimo mes

Consulta para obtener el total de ventas realizadas por cada ciudad en el √∫ltimo mes, ordenando las ciudades en funci√≥n de la cantidad de ventas de manera descendente.

```python
# Implementaci√≥n completa disponible en el script: scripts/crud_consultas_completas.py
# M√©todo: consulta_13_...
```

---

## CONSULTA 14: Correlaci√≥n precio vs stock productos

Calcular la correlaci√≥n entre el precio de los productos y su cantidad_stock utilizando operaciones de agregaci√≥n.

```python
# Implementaci√≥n completa disponible en el script: scripts/crud_consultas_completas.py
# M√©todo: consulta_14_...
```

---

## CONSULTA 15: Top 5 productos m√°s vendidos excluyendo stock bajo

Consulta que devuelve los 5 productos con mayor cantidad de ventas en el √∫ltimo trimestre, excluyendo los productos con menos de 10 unidades en stock.

```python
# Implementaci√≥n completa disponible en el script: scripts/crud_consultas_completas.py
# M√©todo: consulta_15_...
```

---

## üìä RESUMEN Y CONCLUSIONES

### ‚úÖ Consultas Implementadas:

**Operaciones de Lectura (Consultas 1-4):**
- Consulta 1: Ventas √∫ltimos 3 meses por cliente
- Consulta 2: Total gastado agrupado por producto
- Consulta 3: Productos con stock disminuido >15%
- Consulta 4: Lectura desde nodo secundario

**Operaciones de Actualizaci√≥n (Consultas 5-7):**
- Consulta 5: Actualizar precios +10% en rango fechas
- Consulta 6: Actualizar email cliente condicionado
- Consulta 7: Actualizar precios productos vendidos >100 veces

**Operaciones de Eliminaci√≥n (Consultas 8-10):**
- Consulta 8: Eliminar productos stock 0 sin ventas 6 meses
- Consulta 9: Eliminar ventas ciudad precio bajo promedio
- Consulta 10: Eliminar clientes bajo umbral compras

**Agregaciones Avanzadas (Consultas 11-15):**
- Consulta 11: Total ventas por cliente √∫ltimo a√±o
- Consulta 12: Productos m√°s vendidos √∫ltimo trimestre
- Consulta 13: Total ventas por ciudad √∫ltimo mes
- Consulta 14: Correlaci√≥n precio vs stock
- Consulta 15: Top 5 productos m√°s vendidos

### üöÄ Optimizaciones Implementadas:

1. **√çndices Compuestos**: Para consultas eficientes por cliente y fecha
2. **Pipeline de Agregaci√≥n**: Uso de `$match` temprano para filtrar datos
3. **Proyecciones**: Solo campos necesarios en resultados
4. **L√≠mites**: Evitar sobrecarga de memoria
5. **Replicaci√≥n**: Lecturas desde nodos secundarios cuando es apropiado

### üìà Beneficios de la Replicaci√≥n:

- **Alta Disponibilidad**: Continuidad del servicio
- **Escalabilidad**: Distribuci√≥n de carga de lectura
- **Tolerancia a Fallos**: Recuperaci√≥n autom√°tica
- **Consistencia Eventual**: Datos sincronizados entre nodos

### üéØ Objetivos Cumplidos:

‚úÖ **Dataset de Kaggle**: Procesado y cargado en MongoDB
‚úÖ **An√°lisis EDA/ETL**: Limpieza y transformaci√≥n de datos
‚úÖ **Replicaci√≥n Primario-Secundario**: Implementada y probada
‚úÖ **Consultas CRUD**: 15 consultas optimizadas implementadas
‚úÖ **Pruebas de Replicaci√≥n**: Lecturas y escrituras validadas

### üîß Tecnolog√≠as Utilizadas:

- **MongoDB**: Base de datos NoSQL
- **Docker**: Contenedores para replicaci√≥n
- **Python**: Scripts de procesamiento y consultas
- **Pandas**: An√°lisis de datos
- **PyMongo**: Driver de MongoDB para Python

---

**üéâ Caso de Estudio Completado Exitosamente**