#Fase 1: MongoDB

Diseño de la Base de Datos

Caso de Uso

Título: Sistema de Gestión de Ventas de Automóviles.

Justificación para MongoDB:

    Datos semi-estructurados (ej: clientes con ubicaciones variables, productos con categorías dinámicas).

    Escalabilidad horizontal para manejar grandes volúmenes de transacciones.

    Agregaciones rápidas para reportes de ventas.

Esquema en MongoDB

Colección: sales
Documento Ejemplo (con validaciones):

In [None]:
{
  "orderNumber": { "type": "int", "required": True, "unique": True },
  "orderDate": { "type": "date", "required": True },
  "status": {
    "type": "string",
    "enum": ["Shipped", "Cancelled", "Resolved", "Disputed"]
  },
  "customer": {
    "name": { "type": "string", "required": True },
    "contact": {
      "firstName": { "type": "string" },
      "lastName": { "type": "string" }
    },
    "address": {
      "line1": { "type": "string" },
      "city": { "type": "string" },
      "postalCode": { "type": "string" },
      "country": { "type": "string" }
    },
    "phone": { "type": "string" }
  },
  "product": {
    "code": { "type": "string" },
    "line": {
      "type": "string",
      "enum": ["Motorcycles", "Classic Cars", "Vintage Cars"]
    },
    "msrp": { "type": "double" }
  },
  "quantityOrdered": { "type": "int", "min": 1 },
  "priceEach": { "type": "double" },
  "dealSize": {
    "type": "string",
    "enum": ["Small", "Medium", "Large"]
  },
  "sales": { "type": "double", "required": True }
}

{'orderNumber': {'type': 'int', 'required': True, 'unique': True},
 'orderDate': {'type': 'date', 'required': True},
 'status': {'type': 'string',
  'enum': ['Shipped', 'Cancelled', 'Resolved', 'Disputed']},
 'customer': {'name': {'type': 'string', 'required': True},
  'contact': {'firstName': {'type': 'string'}, 'lastName': {'type': 'string'}},
  'address': {'line1': {'type': 'string'},
   'city': {'type': 'string'},
   'postalCode': {'type': 'string'},
   'country': {'type': 'string'}},
  'phone': {'type': 'string'}},
 'product': {'code': {'type': 'string'},
  'line': {'type': 'string',
   'enum': ['Motorcycles', 'Classic Cars', 'Vintage Cars']},
  'msrp': {'type': 'double'}},
 'quantityOrdered': {'type': 'int', 'min': 1},
 'priceEach': {'type': 'double'},
 'dealSize': {'type': 'string', 'enum': ['Small', 'Medium', 'Large']},
 'sales': {'type': 'double', 'required': True}}

## Crear la Base de Datos:

In [None]:
!pip install pymongo pandas
import pandas as pd
from pymongo import MongoClient
from datetime import datetime
from pymongo.errors import ConnectionFailure, OperationFailure

# --- Configuración de Conexión ---
def connect_to_mongodb():
    try:
        # Conexión a MongoDB Atlas
        client = MongoClient("mongodb+srv://alpolo1991:yxBhJQTS1Xu5k5T0@cluster0.08k5kve.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0")

        # Validación de conexión
        client.server_info()  # Intenta obtener información del servidor
        print("✅ Conexión exitosa a MongoDB Atlas")
        # Validación de conexión
        client.admin.command('ping')
        print("✅ Conexión exitosa")
        return client
    except ConnectionFailure as e:
        print(f"❌ Error de conexión: {e}")
        return None
    except Exception as e:
        print(f"❌ Error inesperado: {e}")
        return None

client = connect_to_mongodb()
db = client["automobile_sales_data"]
collection = db["sales_test"]
print(f"✅ Colección 'sales_test' lista para usar")
# collection = db["sales"]
# print(f"✅ Colección 'sales' lista para usar")

✅ Conexión exitosa a MongoDB Atlas
✅ Conexión exitosa
✅ Colección 'sales_test' lista para usar


## Ejecutar validación

In [None]:
# --- Ejecutar validación ---
if client:

    # --- Validación 1: Insertar documento de prueba ---
    test_doc = {
        "sale_id": "TEST_001",
        "date": datetime.now(),
        "customer": {"customer_id": "TEST_CUST", "name": "Test User"},
        "product": {"product_id": "TEST_PROD", "name": "Test Car", "price": 10000.0},
        "quantity": 1,
        "total_price": 10000.0,
        "payment_method": "Cash"
    }

    try:
        collection.insert_one(test_doc)
        print("✅ Documento de prueba insertado correctamente")
    except OperationFailure as e:
        print(f"❌ Error al insertar: {e}")

    # --- Validación 2: Contar documentos ---
    try:
        count = collection.count_documents({})
        print(f"📊 Total de documentos en la colección: {count}")
    except Exception as e:
        print(f"❌ Error al contar documentos: {e}")

    # --- Validación 3: Eliminar documento de prueba ---
    try:
        collection.delete_one({"sale_id": "TEST_001"})
        print("✅ Documento de prueba eliminado")
    except Exception as e:
        print(f"❌ Error al eliminar: {e}")

   ## client.close()
else:
    print("⚠️ No se pudo completar la validación por errores de conexión")
    client.close()

✅ Documento de prueba insertado correctamente
📊 Total de documentos en la colección: 1
✅ Documento de prueba eliminado


## Configurar esquema con validación

In [None]:
# Configurar esquema con validación
def setup_collection(db):
    validator = {
        "$jsonSchema": {
            "bsonType": "object",
            "required": ["orderNumber", "orderDate", "sales"],
            "properties": {
                "orderNumber": {"bsonType": "int"},
                "orderDate": {"bsonType": "date"},
                "status": {"enum": ["Shipped", "Cancelled", "Resolved", "Disputed", "In Process", "On Hold"]},
                "dealSize": {"enum": ["Small", "Medium", "Large"]},
                "sales": {"bsonType": "double"}
            }
        }
    }

    try:
        db.create_collection("sales", validator=validator)
        print("✅ Colección creada con validación")
    except OperationFailure as e:
        print(f"⚠️ Error creando colección: {e}")

setup_collection(db)

✅ Colección creada con validación


## Cargar el dataset "Insertar datos desde CSV"

In [None]:
# Insertar datos desde CSV
def import_data(file_path, db):
    df = pd.read_csv(file_path)
    print("Valores únicos en 'STATUS':", df['STATUS'].unique())

    # Convertir campos clave
    df['ORDERDATE'] = pd.to_datetime(df['ORDERDATE'], dayfirst=True)

    documents = []
    for _, row in df.iterrows():
        doc = {
            "orderNumber": row['ORDERNUMBER'],
            "orderDate": row['ORDERDATE'],
            "status": row['STATUS'],
            "customer": {
                "name": row['CUSTOMERNAME'],
                "contact": {
                    "firstName": row['CONTACTFIRSTNAME'],
                    "lastName": row['CONTACTLASTNAME']
                },
                "address": {
                    "line1": row['ADDRESSLINE1'],
                    "city": row['CITY'],
                    "postalCode": str(row['POSTALCODE']),
                    "country": row['COUNTRY']
                },
                "phone": str(row['PHONE'])
            },
            "product": {
                "code": row['PRODUCTCODE'],
                "line": row['PRODUCTLINE'],
                "msrp": row['MSRP']
            },
            "quantityOrdered": row['QUANTITYORDERED'],
            "priceEach": row['PRICEEACH'],
            "dealSize": row['DEALSIZE'],
            "sales": row['SALES']
        }
        documents.append(doc)

    try:
        db.sales.insert_many(documents)
        print(f"✅ Insertados {len(documents)} documentos")
    except Exception as e:
        print(f"❌ Error en inserción: {e}")

import_data("auto-sales-data.csv", db)

Valores únicos en 'STATUS': ['Shipped' 'Disputed' 'In Process' 'Cancelled' 'On Hold' 'Resolved']
✅ Insertados 2747 documentos


### Mostramos los primero valores que tiene el dataset.

In [None]:
df = pd.read_csv("auto_sales_data.csv")

df.head(5)

Unnamed: 0,ORDERNUMBER,QUANTITYORDERED,PRICEEACH,ORDERLINENUMBER,SALES,ORDERDATE,DAYS_SINCE_LASTORDER,STATUS,PRODUCTLINE,MSRP,PRODUCTCODE,CUSTOMERNAME,PHONE,ADDRESSLINE1,CITY,POSTALCODE,COUNTRY,CONTACTLASTNAME,CONTACTFIRSTNAME,DEALSIZE
0,10107,30,95.7,2,2871.0,24/02/2018,828,Shipped,Motorcycles,95,S10_1678,Land of Toys Inc.,2125557818,897 Long Airport Avenue,NYC,10022,USA,Yu,Kwai,Small
1,10121,34,81.35,5,2765.9,07/05/2018,757,Shipped,Motorcycles,95,S10_1678,Reims Collectables,26.47.1555,59 rue de l'Abbaye,Reims,51100,France,Henriot,Paul,Small
2,10134,41,94.74,2,3884.34,01/07/2018,703,Shipped,Motorcycles,95,S10_1678,Lyon Souveniers,+33 1 46 62 7555,27 rue du Colonel Pierre Avia,Paris,75508,France,Da Cunha,Daniel,Medium
3,10145,45,83.26,6,3746.7,25/08/2018,649,Shipped,Motorcycles,95,S10_1678,Toys4GrownUps.com,6265557265,78934 Hillside Dr.,Pasadena,90003,USA,Young,Julie,Medium
4,10168,36,96.66,1,3479.76,28/10/2018,586,Shipped,Motorcycles,95,S10_1678,Technics Stores Inc.,6505556809,9408 Furth Circle,Burlingame,94217,USA,Hirano,Juri,Medium


##  Consultas Básicas (CRUD)

###  Inserción Manul de Documento

In [None]:
# Insertar una nueva venta
new_order = {
    "orderNumber": 99999,
    "orderDate": datetime(2024, 5, 15),
    "status": "Shipped",
    "customer": {
        "name": "Tech Auto Solutions",
        "contact": {"firstName": "Ana", "lastName": "López"},
        "address": {
            "line1": "123 Tech Street",
            "city": "San Francisco",
            "postalCode": "94105",
            "country": "USA"
        },
        "phone": "415-555-1234"
    },
    "product": {
        "code": "S99_9999",
        "line": "Classic Cars",
        "msrp": 150.0
    },
    "quantityOrdered": 5,
    "priceEach": 200.0,
    "dealSize": "Medium",
    "sales": 1000.0
}

result = db.sales.insert_one(new_order)
print(f"✅ Documento insertado con ID: {result.inserted_id}")

✅ Documento insertado con ID: 6818f03c7bd6486f6b88a367


### Selección de Documentos

In [None]:
# Encontrar todas las órdenes "Shipped" en USA
orders = db.sales.find({
    "status": "Shipped",
    "customer.address.country": "USA"
}).limit(3)

for order in orders:
    print(f"Orden {order['orderNumber']} - Cliente: {order['customer']['name']}")

Orden 10145 - Cliente: Toys4GrownUps.com
Orden 10168 - Cliente: Technics Stores Inc.
Orden 10237 - Cliente: Vitachrome Inc.


### Actualización de Documentos

In [None]:
# Actualizar el estado de una orden específica
result = db.sales.update_one(
    {"orderNumber": 10107},
    {"$set": {"status": "Cancelled"}}
)

print(f"📝 Documentos modificados: {result.modified_count}")

📝 Documentos modificados: 1


### Encontrar todas las órdenes "Cancelled" en USA

In [None]:
# Encontrar todas las órdenes "Shipped" en USA
orders = db.sales.find({
    "status": "Cancelled",
    "customer.address.country": "USA"
}).limit(3)

for order in orders:
    print(f"Orden {order['orderNumber']} - Cliente: {order['customer']['name']}")

Orden 10107 - Cliente: Land of Toys Inc.
Orden 10248 - Cliente: Land of Toys Inc.
Orden 10248 - Cliente: Land of Toys Inc.


### Eliminación de Documentos

In [None]:
# Eliminar la orden de prueba insertada
result = db.sales.delete_one({"orderNumber": 99999})
print(f"🗑️ Documentos eliminados: {result.deleted_count}")

🗑️ Documentos eliminados: 1


## Consultas con Filtros y Operadores

### Operadores de Comparación

In [None]:
# Ventas mayores a $10,000 en Classic Cars
high_sales = db.sales.find({
    "product.line": "Classic Cars",
    "sales": {"$gt": 10000}
})

for sale in high_sales:
    print(f"Orden {sale['orderNumber']} - Total: ${sale['sales']}")

Orden 10150 - Total: $10993.5
Orden 10304 - Total: $10172.7
Orden 10312 - Total: $11623.7
Orden 10424 - Total: $12001.0
Orden 10127 - Total: $11279.2
Orden 10247 - Total: $10606.2
Orden 10412 - Total: $11887.8
Orden 10406 - Total: $10468.9
Orden 10405 - Total: $11739.7


### Operadores Lógicos ($and, $or)

In [None]:
# Ventas en USA o España de tamaño "Large"
query = {
    "$or": [
        {"customer.address.country": "USA"},
        {"customer.address.country": "Spain"}
    ],
    "dealSize": "Large"
}

results = db.sales.find(query)
for doc in results:
    print(f"Orden {doc['orderNumber']} - País: {doc['customer']['address']['country']}")

Orden 10417 - País: Spain
Orden 10126 - País: Spain
Orden 10140 - País: USA
Orden 10312 - País: USA
Orden 10424 - País: Spain
Orden 10237 - País: USA
Orden 10251 - País: USA
Orden 10263 - País: USA
Orden 10318 - País: USA
Orden 10417 - País: Spain
Orden 10400 - País: USA
Orden 10281 - País: USA
Orden 10135 - País: USA
Orden 10147 - País: USA
Orden 10276 - País: USA
Orden 10127 - País: USA
Orden 10142 - País: USA
Orden 10196 - País: USA
Orden 10231 - País: Spain
Orden 10282 - País: USA
Orden 10413 - País: USA
Orden 10424 - País: Spain
Orden 10145 - País: USA
Orden 10251 - País: USA
Orden 10127 - País: USA
Orden 10413 - País: USA
Orden 10127 - País: USA
Orden 10142 - País: USA
Orden 10153 - País: Spain
Orden 10185 - País: USA
Orden 10196 - País: USA
Orden 10272 - País: USA
Orden 10424 - País: Spain
Orden 10369 - País: USA
Orden 10407 - País: USA
Orden 10250 - País: USA
Orden 10307 - País: USA
Orden 10182 - País: USA
Orden 10312 - País: USA
Orden 10407 - País: USA
Orden 10192 - País: USA


### Operador $regex (Búsqueda de Texto)

In [None]:
# Clientes con nombre que contiene "Toys"
toys_clients = db.sales.find({
    "customer.name": {"$regex": "Toys", "$options": "i"}
})

for client in toys_clients:
    print(f"Cliente: {client['customer']['name']}")

Cliente: Land of Toys Inc.
Cliente: Toys4GrownUps.com
Cliente: Toys of Finland, Co.
Cliente: Land of Toys Inc.
Cliente: Land of Toys Inc.
Cliente: Toys4GrownUps.com
Cliente: Land of Toys Inc.
Cliente: Land of Toys Inc.
Cliente: Toys4GrownUps.com
Cliente: Toys of Finland, Co.
Cliente: Land of Toys Inc.
Cliente: Toys of Finland, Co.
Cliente: Land of Toys Inc.
Cliente: Land of Toys Inc.
Cliente: Land of Toys Inc.
Cliente: Toys4GrownUps.com
Cliente: Toys4GrownUps.com
Cliente: Toys of Finland, Co.
Cliente: Land of Toys Inc.
Cliente: Land of Toys Inc.
Cliente: Boards & Toys Co.
Cliente: Land of Toys Inc.
Cliente: Toys of Finland, Co.
Cliente: Land of Toys Inc.
Cliente: Land of Toys Inc.
Cliente: Toys of Finland, Co.
Cliente: Toys of Finland, Co.
Cliente: Toys4GrownUps.com
Cliente: Toys of Finland, Co.
Cliente: Toys4GrownUps.com
Cliente: Land of Toys Inc.
Cliente: Toys of Finland, Co.
Cliente: Toys of Finland, Co.
Cliente: Land of Toys Inc.
Cliente: Toys4GrownUps.com
Cliente: Land of Toys Inc

## Consultas de Agregación

### Calcular el Total de Ventas por País

In [None]:
pipeline = [
    {"$group": {
        "_id": "$customer.address.country",
        "total_sales": {"$sum": "$sales"},
        "order_count": {"$sum": 1}
    }},
    {"$sort": {"total_sales": -1}}
]

results = db.sales.aggregate(pipeline)
print("Total de ventas por país:")
for res in results:
    print(f"{res['_id']}: ${res['total_sales']} ({res['order_count']} órdenes)")

Total de ventas por país:
USA: $3355575.69 (928 órdenes)
Spain: $1215686.92 (342 órdenes)
France: $1110916.52 (314 órdenes)
Australia: $630623.1 (185 órdenes)
UK: $478880.46 (144 órdenes)
Italy: $374674.31 (113 órdenes)
Finland: $329581.91 (92 órdenes)
Norway: $307463.7 (85 órdenes)
Singapore: $288488.41 (79 órdenes)
Denmark: $245637.15 (63 órdenes)
Canada: $224078.56 (70 órdenes)
Germany: $220472.09 (62 órdenes)
Sweden: $210014.21 (57 órdenes)
Austria: $202062.53 (55 órdenes)
Japan: $188167.81 (52 órdenes)
Switzerland: $117713.56 (31 órdenes)
Belgium: $108412.62 (33 órdenes)
Philippines: $94015.73 (26 órdenes)
Ireland: $57756.43 (16 órdenes)


### Promedio de Ventas por Línea de Producto

In [None]:
pipeline = [
    {"$group": {
        "_id": "$product.line",
        "avg_sales": {"$avg": "$sales"},
        "min_sales": {"$min": "$sales"},
        "max_sales": {"$max": "$sales"}
    }}
]

results = db.sales.aggregate(pipeline)
print("Estadísticas por línea de producto:")
for res in results:
    print(f"{res['_id']}: Promedio=${res['avg_sales']:.2f}")

Estadísticas por línea de producto:
Trucks and Buses: Promedio=$3768.00
Planes: Promedio=$3188.56
Classic Cars: Promedio=$4049.39
Motorcycles: Promedio=$3525.60
Vintage Cars: Promedio=$3120.34
Trains: Promedio=$2938.23
Ships: Promedio=$3043.65


### Conteo de Órdenes por Tamaño de Trato (dealSize)

In [None]:
pipeline = [
    {"$group": {
        "_id": "$dealSize",
        "count": {"$sum": 1}
    }},
    {"$project": {
        "_id": 0,
        "deal_size": "$_id",
        "count": 1
    }}
]

results = db.sales.aggregate(pipeline)
print("Órdenes por tamaño de trato:")
for res in results:
    print(f"{res['deal_size']}: {res['count']}")

Órdenes por tamaño de trato:
Large: 152
Small: 1246
Medium: 1349


## Análisis de los Resultados

    Ventas por País:

        Estados Unidos (USA) lidera en número de órdenes, pero España tiene la venta individual más grande ($12,001).

        Oportunidad: Explorar mercados en países con menos presencia (ej: Austria, Noruega).

    Líneas de Producto:

        Vintage Cars tiene el promedio de ventas más alto (12,001),seguidode ∗∗ClassicCars∗∗(12,001), seguidode∗∗ClassicCars∗∗(7,737.93).

        Acción: Incrementar el inventario de líneas de alta rentabilidad.

    Tamaño de Tratos:

        La mayoría de las órdenes son de tamaño Medium (10), lo que sugiere un cliente objetivo promedio.

        Recomendación: Crear promociones para convertir tratos "Small" en "Medium".

In [None]:
# Cierre de conexión
client.close()