In [1]:
!pip install Faker # Paso 1: Descargo faker para solicitarle 3 bases de datos random para este ejercicio

Collecting Faker
  Downloading faker-37.1.0-py3-none-any.whl.metadata (15 kB)
Downloading faker-37.1.0-py3-none-any.whl (1.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.9/1.9 MB[0m [31m13.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Faker
Successfully installed Faker-37.1.0


In [2]:
import csv
import random
from datetime import datetime, timedelta
from faker import Faker
import os

# --- Parámetros ---
NUM_ROWS = 2000
# Usar localización en español para datos más realistas
fake = Faker('es_ES')

# --- Función para generar CSV Clientes ---
def generate_clientes(filename='clientes_ficticios.csv', num_rows=2000):
    headers = [
        'ID_Cliente', 'Nombre', 'Apellido', 'Email', 'Telefono', 'Fecha_Registro',
        'Pais', 'Ciudad', 'Direccion', 'Codigo_Postal', 'Tipo_Cliente',
        'Ultima_Compra_Fecha', 'Total_Gastado_EUR', 'Numero_Compras',
        'Fuente_Adquisicion', 'Activo', 'Notas_Internas'
    ]
    tipos_cliente = ['Premium', 'Standard', 'Basic']
    fuentes = ['Web', 'Referido', 'Anuncio Online', 'Redes Sociales', 'Evento']
    cliente_ids = []

    with open(filename, 'w', newline='', encoding='utf-8') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(headers) # Escribir cabecera

        for i in range(1, num_rows + 1):
            cliente_id = f'CL{str(i).zfill(4)}'
            cliente_ids.append(cliente_id)
            nombre = fake.first_name()
            apellido = fake.last_name()
            email = f"{nombre.lower().split(' ')[0]}.{apellido.lower().split(' ')[0]}@{fake.free_email_domain()}"
            telefono = fake.phone_number() # Puede generar formatos variados
            fecha_registro = fake.date_between(start_date='-3y', end_date='today')
            pais = fake.country()
            ciudad = fake.city()
            direccion = fake.street_address()
            codigo_postal = fake.postcode()
            tipo_cliente = random.choice(tipos_cliente)
            ultima_compra = fake.date_between(start_date=fecha_registro, end_date='today') if random.random() > 0.1 else None
            total_gastado = round(random.uniform(0, 5000), 2) if ultima_compra else 0
            num_compras = random.randint(0, 50) if ultima_compra else 0
            fuente = random.choice(fuentes)
            activo = random.choice([True, False])
            notas = fake.sentence(nb_words=6) if random.random() < 0.2 else ''

            writer.writerow([
                cliente_id, nombre, apellido, email, telefono, fecha_registro,
                pais, ciudad, direccion, codigo_postal, tipo_cliente,
                ultima_compra, total_gastado, num_compras, fuente, activo, notas
            ])
    print(f"Archivo '{filename}' generado con {num_rows} filas.")
    return cliente_ids

# --- Función para generar CSV Productos ---
def generate_productos(filename='productos_inventario.csv', num_rows=2000):
    headers = [
        'SKU', 'Nombre_Producto', 'Descripcion', 'Categoria', 'Subcategoria', 'Marca',
        'Precio_Unitario_EUR', 'Costo_Unitario_EUR', 'Stock_Actual', 'Stock_Minimo',
        'Ubicacion_Almacen', 'Proveedor_ID', 'Fecha_Ultima_Recepcion', 'Peso_Kg',
        'Dimensiones_cm_LxAxH', 'Color', 'Material', 'Estado_Producto'
    ]
    categorias = {
        'Electrónica': ['Computadoras', 'Móviles', 'Accesorios', 'Audio', 'TV'],
        'Ropa': ['Camisetas', 'Pantalones', 'Abrigos', 'Vestidos', 'Calzado'],
        'Hogar': ['Cocina', 'Decoración', 'Muebles', 'Limpieza', 'Jardín'],
        'Libros': ['Ficción', 'No Ficción', 'Infantil', 'Académico', 'Revistas'],
        'Juguetes': ['Construcción', 'Educativos', 'Muñecas', 'Exterior', 'Peluches'],
        'Alimentación': ['Bebidas', 'Snacks', 'Conservas', 'Fresco', 'Congelado'],
        'Cosmética': ['Cuidado Facial', 'Maquillaje', 'Cuidado Corporal', 'Perfumes', 'Cabello']
    }
    marcas_por_cat = {
        'Electrónica': ['TechNova', 'ConnectPhone', 'AudioMax', 'VisionPlus'],
        'Ropa': ['ModaFlex', 'UrbanStyle', 'ComfortWear', 'Elegance'],
        'Hogar': ['CocinaFácil', 'DecoHome', 'MuebleRústico', 'CleanFast'],
        'Libros': ['Ediciones Saber', 'MundoLiterario', 'PequesLeen'],
        'Juguetes': ['DivertiKids', 'ConstruBlock', 'EduPlay'],
        'Alimentación': ['SaborNatural', 'QuickBite', 'DeliciasGourmet'],
        'Cosmética': ['BellaPiel', 'ColorVibrante', 'AromaEsencial']
    }
    colores = ['Rojo', 'Azul', 'Verde', 'Negro', 'Blanco', 'Gris', 'Amarillo', 'Naranja', 'Multicolor', 'Transparente', 'Plateado']
    materiales = ['Algodón', 'Poliéster', 'Plástico', 'Metal', 'Madera', 'Vidrio', 'Cerámica', 'Papel', 'Cuero', 'Silicona', 'Aluminio']
    estados = ['Activo', 'Descontinuado', 'Bajo Pedido', 'Próximamente']
    proveedores = [f'PROV-{str(i).zfill(3)}' for i in range(1, 50)]
    skus = []

    with open(filename, 'w', newline='', encoding='utf-8') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(headers) # Escribir cabecera

        for i in range(1, num_rows + 1):
            categoria = random.choice(list(categorias.keys()))
            subcategoria = random.choice(categorias[categoria])
            marca = random.choice(marcas_por_cat[categoria])
            sku = f'PROD-{categoria[:3].upper()}-{str(i).zfill(4)}'
            skus.append(sku)
            nombre_prod = f"{subcategoria} {marca} {fake.word().capitalize()} {random.choice(['XL', 'Pro', 'Basic', 'Eco', ''])}{random.randint(1,1000)}"
            descripcion = fake.sentence(nb_words=10)
            precio = round(random.uniform(5.50, 2500.00), 2)
            costo = round(precio * random.uniform(0.3, 0.7), 2)
            stock = random.randint(0, 1000)
            stock_min = random.randint(10, 50)
            ubicacion = f"{random.choice(['A','B','C','D'])}{random.randint(1,5)}-S{random.randint(1,10)}-B{random.randint(1,5)}"
            proveedor = random.choice(proveedores)
            fecha_recepcion = fake.date_between(start_date='-1y', end_date='today')
            peso = round(random.uniform(0.05, 25.0), 2)
            dims = f"{random.randint(5,100)}x{random.randint(5,80)}x{random.randint(1,50)}" if categoria != 'Libros' else f"15x23x{random.randint(1,5)}"
            color = random.choice(colores) if categoria not in ['Libros', 'Alimentación'] else 'N/A'
            material = random.choice(materiales) if categoria not in ['Alimentación'] else 'N/A'
            estado = random.choice(estados)

            writer.writerow([
                sku, nombre_prod, descripcion, categoria, subcategoria, marca,
                precio, costo, stock, stock_min, ubicacion, proveedor,
                fecha_recepcion, peso, dims, color, material, estado
            ])
    print(f"Archivo '{filename}' generado con {num_rows} filas.")
    return skus

# --- Función para generar CSV Ventas ---
def generate_ventas(cliente_ids, skus, filename='ventas_detalle.csv', num_rows=2000):
    headers = [
        'ID_Detalle_Venta', 'ID_Venta', 'ID_Cliente', 'SKU_Producto', 'Fecha_Hora_Venta',
        'Cantidad', 'Precio_Unitario_Venta_EUR', 'Descuento_Aplicado_Porc',
        'Precio_Total_Linea_EUR', 'Metodo_Pago', 'ID_Vendedor', 'ID_Tienda_o_Canal',
        'Impuestos_IVA_EUR', 'Costo_Envio_Aplicado_EUR', 'Estado_Pedido',
        'Numero_Seguimiento_Envio', 'Moneda'
    ]
    metodos_pago = ['Tarjeta Crédito', 'Tarjeta Débito', 'PayPal', 'Transferencia', 'Efectivo', 'Bizum', 'Contra Reembolso']
    vendedores = [f'VEND{str(i).zfill(2)}' for i in range(1, 16)] + ['VEND_ONLINE']
    canales = ['ONLINE', 'TIENDA-MAD', 'TIENDA-BCN', 'TIENDA-MEX', 'TIENDA-BOG', 'APP', 'TELEFONO']
    estados = ['Entregado', 'Enviado', 'Procesando', 'Pendiente Pago', 'Cancelado', 'Devuelto']
    monedas = ['EUR', 'USD', 'MXN', 'COP', 'ARS'] # Considero para este ejercicio que la empresa tiene varias sucursales intl.

    with open(filename, 'w', newline='', encoding='utf-8') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(headers) # Escribir cabecera

        num_ventas_unicas = int(num_rows * 0.7) # Asumo que algunas ventas tienen multiples items
        venta_id_actual = 0
        venta_base_id = f'VNT-{datetime.now().year}-{str(random.randint(1000,5000))}' # Base para ID venta

        for i in range(1, num_rows + 1):
            detalle_id = f'DET{str(i).zfill(5)}'
            # Agrupo algunos detalles bajo el mismo ID de venta
            if random.random() < 0.7 or venta_id_actual == 0:
                 venta_id_actual += 1
                 id_venta = f'{venta_base_id}-{str(venta_id_actual).zfill(4)}'
                 fecha_venta = fake.date_time_between(start_date='-1y', end_date='now')
                 cliente_id = random.choice(cliente_ids)
                 metodo_pago = random.choice(metodos_pago)
                 vendedor = random.choice(vendedores)
                 canal = random.choice(canales)
                 estado = random.choice(estados)
                 moneda = random.choice(monedas)
                 costo_envio = round(random.uniform(0, 25), 2) if canal == 'ONLINE' else 0
                 tracking = f'TRK{random.randint(100000000, 999999999)}{random.choice(["ES","MX","CO","US"])}' if estado in ['Enviado', 'Entregado'] else ''

            sku = random.choice(skus)
            cantidad = random.randint(1, 5)
            # Simulo precio
            precio_unitario = round(random.uniform(5.50, 500.00), 2)
            descuento = round(random.choice([0.0, 0.05, 0.10, 0.15, 0.20]), 2)
            precio_total = round(cantidad * precio_unitario * (1 - descuento), 2)
            iva = round(precio_total * 0.21, 2) # Asumo 21% IVA

            writer.writerow([
                detalle_id, id_venta, cliente_id, sku, fecha_venta.strftime("%Y-%m-%d %H:%M:%S"),
                cantidad, precio_unitario, descuento, precio_total, metodo_pago,
                vendedor, canal, iva, costo_envio, estado, tracking, moneda
            ])
    print(f"Archivo '{filename}' generado con {num_rows} filas.")

# --- Ejecución Principal ---
if __name__ == "__main__":
    print("Generando archivos CSV...")

    lista_clientes = generate_clientes(filename='clientes_ficticios.csv', num_rows=NUM_ROWS)
    lista_skus = generate_productos(filename='productos_inventario.csv', num_rows=NUM_ROWS)
    generate_ventas(lista_clientes, lista_skus, filename='ventas_detalle.csv', num_rows=NUM_ROWS)

    print("\n¡Proceso completado! Los 3 archivos CSV han sido generados.")

Generando archivos CSV...
Archivo 'clientes_ficticios.csv' generado con 2000 filas.
Archivo 'productos_inventario.csv' generado con 2000 filas.
Archivo 'ventas_detalle.csv' generado con 2000 filas.

¡Proceso completado! Los 3 archivos CSV han sido generados.


In [5]:
# -*- coding: utf-8 -*-
"""
Celda para cargar los Datasets desde GitHub usando Pandas
"""

import pandas as pd

# Reemplazo estas URLs con las URLs "Raw" de archivos en GitHub ---
# Obtener la URL Raw:
# 1. Ve a tu repo en GitHub.
# 2. Haz clic en el archivo CSV (ej: clientes_ficticios.csv).
# 3. Busca y haz clic derecho en el botón [Raw].
# 4. Selecciona "Copiar dirección de enlace". Pega esa URL aquí.

url_clientes = 'https://raw.githubusercontent.com/aricaldoni/Datasets-Ricaldoni/main/clientes_ficticios.csv'
url_productos = 'https://raw.githubusercontent.com/aricaldoni/Datasets-Ricaldoni/main/productos_inventario.csv'
url_ventas = 'https://raw.githubusercontent.com/aricaldoni/Datasets-Ricaldoni/main/ventas_detalle.csv'

# -----------------------------------------------------------------------------------------

# --- Cargar los archivos CSV en DataFrames de Pandas ---
try:
    print(f"Intentando cargar archivo de clientes desde: {url_clientes}")
    df_clientes = pd.read_csv(url_clientes)
    print("-> DataFrame 'df_clientes' cargado.")

    print(f"Intentando cargar archivo de productos desde: {url_productos}")
    df_productos = pd.read_csv(url_productos)
    print("-> DataFrame 'df_productos' cargado.")

    print(f"Intentando cargar archivo de ventas desde: {url_ventas}")
    df_ventas = pd.read_csv(url_ventas)
    print("-> DataFrame 'df_ventas' cargado.")

    print("\n¡Archivos cargados exitosamente en DataFrames!")

    # --- Verificación básica (muestra las primeras filas de cada DataFrame) ---
    print("\n--- Primeras 5 filas de Clientes ---")
    print(df_clientes.head())

    print("\n--- Primeras 5 filas de Productos ---")
    print(df_productos.head())

    print("\n--- Primeras 5 filas de Ventas ---")
    print(df_ventas.head())

    # --- Verificación de dimensiones (Filas, Columnas) ---
    print("\n--- Dimensiones de los DataFrames ---")
    print(f"Clientes:  {df_clientes.shape}")
    print(f"Productos: {df_productos.shape}")
    print(f"Ventas:    {df_ventas.shape}")


except Exception as e:
    print(f"\n****** ERROR AL CARGAR LOS ARCHIVOS ******")
    print(f"Error detallado: {e}")
    print("\nPosibles causas:")
    print("1. Las URLs 'Raw' no son correctas (verifica usuario, repositorio, nombre de archivo y rama 'main'/'master').")
    print("2. El repositorio de GitHub es privado y no se puede acceder.")
    print("3. Hubo un problema de conexión de red.")
    print("4. El formato del archivo CSV podría tener algún problema inesperado.")
    print("Por favor, revisa las URLs y la configuración de tu repositorio.")


Intentando cargar archivo de clientes desde: https://raw.githubusercontent.com/aricaldoni/Datasets-Ricaldoni/main/clientes_ficticios.csv
-> DataFrame 'df_clientes' cargado.
Intentando cargar archivo de productos desde: https://raw.githubusercontent.com/aricaldoni/Datasets-Ricaldoni/main/productos_inventario.csv
-> DataFrame 'df_productos' cargado.
Intentando cargar archivo de ventas desde: https://raw.githubusercontent.com/aricaldoni/Datasets-Ricaldoni/main/ventas_detalle.csv
-> DataFrame 'df_ventas' cargado.

¡Archivos cargados exitosamente en DataFrames!

--- Primeras 5 filas de Clientes ---
  ID_Cliente   Nombre Apellido                       Email          Telefono  \
0     CL0001    Rubén    Reina     rubén.reina@hotmail.com   +34 975 093 321   
1     CL0002  Eusebio  Alberdi   eusebio.alberdi@yahoo.com  +34 823 99 71 26   
2     CL0003   Poncio   Valera     poncio.valera@gmail.com   +34844 83 67 64   
3     CL0004  Bárbara   Alcalá  bárbara.alcalá@hotmail.com   +34824 68 92 27   

### Descripción de Variables Interesantes

A continuación, se describen las variables más relevantes identificadas en cada uno de los datasets cargados:

**1. Dataset de Clientes (`df_clientes`)**

Este dataset contiene información demográfica y de comportamiento de los clientes. Las variables más interesantes podrían ser:

*   `ID_Cliente`: Identificador único, clave para conectar con las ventas.
*   `Fecha_Registro`: Permite analizar cuánto tiempo llevan los clientes con nosotros.
*   `Pais`, `Ciudad`: Útil para análisis geográficos de ventas y marketing.
*   `Tipo_Cliente`: (Premium, Standard, Basic) Fundamental para segmentar clientes y analizar el valor de cada segmento.
*   `Ultima_Compra_Fecha`: Indica la actividad reciente del cliente.
*   `Total_Gastado_EUR`: Métrica del valor monetario del cliente.
*   `Numero_Compras`: Métrica clave de la frecuencia de compra.
*   `Fuente_Adquisicion`: Ayuda a entender qué canales de marketing son más efectivos.
*   `Activo`: Permite filtrar clientes que ya no interactúan con la empresa.

**2. Dataset de Productos (`df_productos`)**

Contiene detalles del inventario de productos. Variables clave:

*   `SKU`: Identificador único del producto, clave para conectar con las ventas.
*   `Nombre_Producto`: Para identificar los productos.
*   `Categoria`, `Subcategoria`, `Marca`: Permiten agrupar productos y analizar ventas por tipo.
*   `Precio_Unitario_EUR`, `Costo_Unitario_EUR`: Esenciales para calcular ingresos y márgenes de beneficio por producto.
*   `Stock_Actual`, `Stock_Minimo`: Cruciales para la gestión de inventario (evitar roturas de stock o exceso).
*   `Proveedor_ID`: Para analizar el rendimiento de los proveedores.
*   `Estado_Producto`: Para filtrar productos activos o descontinuados.

**3. Dataset de Ventas (`df_ventas`)**

Registra el detalle de cada transacción. Variables de interés:

*   `ID_Venta`: Agrupa los diferentes productos comprados en una misma transacción.
*   `ID_Cliente`, `SKU_Producto`: Claves foráneas para conectar esta tabla con las de clientes y productos. ¡Son fundamentales para cruzar datos!
*   `Fecha_Hora_Venta`: Permite análisis temporales (ventas por día, mes, hora).
*   `Cantidad`: Número de unidades vendidas de un producto en una transacción.
*   `Precio_Unitario_Venta_EUR`, `Descuento_Aplicado_Porc`, `Precio_Total_Linea_EUR`: Claves para calcular el valor de las ventas y el impacto de los descuentos.
*   `Metodo_Pago`: Puede indicar preferencias de los clientes.
*   `ID_Tienda_o_Canal`: Muy importante para comparar el rendimiento de ventas online vs. tiendas físicas, app, etc.
*   `Estado_Pedido`: Útil para análisis operativos (ej. identificar cancelaciones o devoluciones).