## Ejercicio 2: Diseño y construcción de modelo data warehouse. (4pts)
**Descripción**: Se plantea diseñar un modelo data warehouse sencillo a partir del resultado del ejercicio 1, construido directamente con notebooks jupyter, para ello el modelo debe satisfacer las siguientes necesidades:
- Productos más vendidos
- Clientes con el mayor número de pedidos
- Corresponsal con el mayor número de pedidos
- Total de pagos diario y mensual por productos
- Total de pagos diario y mensual por clientes
- Total de pagos diario y mensual por corresponsal

**Requisitos:**
- Diseñar un modelo de data warehouse de tipo estrella, incluir tablas de hechos y dimensiones que satisfagan los reportes de BI
- Construcción de diagrama data warehouse.

**Entregables:**
Incluir dentro del proyecto:
- Diagrama de data warehouse (1p)
- Notebook Jupyter que realice lo siguiente:
    - Limpieza de datos: (2p)
        - Nombres en mayúsculas, sin tildes, sin ñ, sin guiones bajos y medios.
        - Valores numéricos con solo dos decimales redondeados al inmediato superior.
    - Integración de los datos: (1p)
        - Scripts con la creación de las tablas de dimensiones
        - Scripts con la creación de las tablas de hechos

In [1]:
!pip install sqlalchemy psycopg2-binary pandas

Collecting sqlalchemy
  Downloading sqlalchemy-2.0.40-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.1 MB)
[K     |████████████████████████████████| 3.1 MB 1.9 MB/s eta 0:00:01
[?25hCollecting psycopg2-binary
  Downloading psycopg2_binary-2.9.10-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.0 MB)
[K     |████████████████████████████████| 3.0 MB 21.7 MB/s eta 0:00:01
Collecting greenlet>=1
  Downloading greenlet-3.2.1-cp39-cp39-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (579 kB)
[K     |████████████████████████████████| 579 kB 31.7 MB/s eta 0:00:01
Installing collected packages: greenlet, sqlalchemy, psycopg2-binary
Successfully installed greenlet-3.2.1 psycopg2-binary-2.9.10 sqlalchemy-2.0.40


In [7]:
#Conexión a la base de datos de postgres

from sqlalchemy import create_engine
import pandas as pd

usuario = 'postgres'       
contrasena = 'postgres'  
host = 'localhost'         
puerto = '5432'           
bd = 'mp3_db'       

conexion = f'postgresql+psycopg2://{usuario}:{contrasena}@{host}:{puerto}/{bd}'

engine = create_engine(conexion)

#Verificación de la conexión
df_clientes = pd.read_sql('SELECT * FROM Clientes', engine)
df_clientes

Unnamed: 0,id_cliente,nombre,email,telefono,direccion,fecha_registro
0,1,Andrés Pérez,andres_perez@gmail.com,987654321,Calle Olmedo 123,2025-04-29 14:29:04.310816
1,2,María-Luisa Ñáñez,maria_luisa@gmail.com,991234567,Av. América 45-67,2025-04-29 14:29:04.310816
2,3,Juan Rodríguez,juan.rodriguez@hotmail.com,987651234,Av. Quito 01-12,2025-04-29 14:29:04.310816
3,4,Carla Gómez,carla_gomez@yahoo.com,981234567,Calle Bolívar 45-78,2025-04-29 14:29:04.310816
4,5,José Martínez,jose.martinez@gmail.com,998765432,Calle Juan Montalvo 12-34,2025-04-29 14:29:04.310816
5,6,Ana-Lucia Ñiquiz,ana_niquiz@gmail.com,984321786,Calle del Sol 23-67,2025-04-29 14:29:04.310816
6,7,Luis Torres,luis.torres@gmail.com,997651234,Av. Loja 45-89,2025-04-29 14:29:04.310816
7,8,Mónica Fernández,monica_fernandez@gmail.com,986453210,Barrio Los Andes,2025-04-29 14:29:04.310816
8,9,Pedro García,pedro_garcia@yahoo.com,989876543,Calle Villavicencio,2025-04-29 14:29:04.310816
9,10,Gabriela Núñez,gabriela_nunez@hotmail.com,994321678,Calle Mercurio 67-45,2025-04-29 14:29:04.310816


## *Limpieza de datos: (2p)*

- Nombres en mayúsculas, sin tildes, sin ñ, sin guiones bajos y medios.
- Valores numéricos con solo dos decimales redondeados al inmediato superior.

In [10]:
#Importación de librerias

import unicodedata
import numpy as np

In [11]:
# Limpieza de texto
def limpiar_texto(texto):
    if pd.isnull(texto): return texto
    texto = texto.upper().replace("_", " ").replace("-", " ")
    texto = unicodedata.normalize('NFKD', texto).encode('ASCII', 'ignore').decode('utf-8')
    texto = texto.replace('Ñ', 'N')
    return texto

In [15]:
# Limpieza a Clientes
df_clientes = pd.read_sql('SELECT * FROM Clientes', engine)
df_clientes['nombre'] = df_clientes['nombre'].apply(limpiar_texto)
df_clientes['email'] = df_clientes['email'].apply(limpiar_texto)
df_clientes

Unnamed: 0,id_cliente,nombre,email,telefono,direccion,fecha_registro
0,1,ANDRES PEREZ,ANDRES PEREZ@GMAIL.COM,987654321,Calle Olmedo 123,2025-04-29 14:29:04.310816
1,2,MARIA LUISA NANEZ,MARIA LUISA@GMAIL.COM,991234567,Av. América 45-67,2025-04-29 14:29:04.310816
2,3,JUAN RODRIGUEZ,JUAN.RODRIGUEZ@HOTMAIL.COM,987651234,Av. Quito 01-12,2025-04-29 14:29:04.310816
3,4,CARLA GOMEZ,CARLA GOMEZ@YAHOO.COM,981234567,Calle Bolívar 45-78,2025-04-29 14:29:04.310816
4,5,JOSE MARTINEZ,JOSE.MARTINEZ@GMAIL.COM,998765432,Calle Juan Montalvo 12-34,2025-04-29 14:29:04.310816
5,6,ANA LUCIA NIQUIZ,ANA NIQUIZ@GMAIL.COM,984321786,Calle del Sol 23-67,2025-04-29 14:29:04.310816
6,7,LUIS TORRES,LUIS.TORRES@GMAIL.COM,997651234,Av. Loja 45-89,2025-04-29 14:29:04.310816
7,8,MONICA FERNANDEZ,MONICA FERNANDEZ@GMAIL.COM,986453210,Barrio Los Andes,2025-04-29 14:29:04.310816
8,9,PEDRO GARCIA,PEDRO GARCIA@YAHOO.COM,989876543,Calle Villavicencio,2025-04-29 14:29:04.310816
9,10,GABRIELA NUNEZ,GABRIELA NUNEZ@HOTMAIL.COM,994321678,Calle Mercurio 67-45,2025-04-29 14:29:04.310816


In [17]:
# Limpieza a Productos
df_productos = pd.read_sql('SELECT * FROM Productos', engine)
df_productos['nombre'] = df_productos['nombre'].apply(limpiar_texto)
df_productos['descripcion'] = df_productos['descripcion'].apply(limpiar_texto)
df_productos

Unnamed: 0,id_producto,nombre,descripcion,precio,stock
0,1,TELEFONO XIAOMI,SMARTPHONE CON PANTALLA AMOLED,399.99,50
1,2,AURICULARES N TECH,AURICULARES CON CANCELACION DE RUIDO,59.95,100
2,3,LAPTOP HP,COMPUTADORA PORTATIL CON 16GB RAM,999.0,25
3,4,TECLADO MECANICO,TECLADO RGB RETROILUMINADO,75.5,80
4,5,MONITOR SAMSUNG,MONITOR LED 24 PULGADAS,180.45,30
5,6,MOUSE GAMER,MOUSE OPTICO CON DPI AJUSTABLE,25.99,200
6,7,SILLA ERGONOMICA,SILLA DE OFICINA AJUSTABLE,250.25,15
7,8,CABLE HDMI,CABLE HDMI DE 2 METROS,12.5,150
8,9,ROUTER WI FI,ROUTER DE ALTA VELOCIDAD,89.99,50
9,10,DISCO DURO EXTERNO,DISCO DURO DE 1TB,120.75,45


In [20]:
# Redondear valores numéricos de precio a dos decimales
df_productos['precio'] = np.ceil(df_productos['precio'] * 100) / 100
df_productos

Unnamed: 0,id_producto,nombre,descripcion,precio,stock
0,1,TELEFONO XIAOMI,SMARTPHONE CON PANTALLA AMOLED,399.99,50
1,2,AURICULARES N TECH,AURICULARES CON CANCELACION DE RUIDO,59.95,100
2,3,LAPTOP HP,COMPUTADORA PORTATIL CON 16GB RAM,999.0,25
3,4,TECLADO MECANICO,TECLADO RGB RETROILUMINADO,75.5,80
4,5,MONITOR SAMSUNG,MONITOR LED 24 PULGADAS,180.45,30
5,6,MOUSE GAMER,MOUSE OPTICO CON DPI AJUSTABLE,25.99,200
6,7,SILLA ERGONOMICA,SILLA DE OFICINA AJUSTABLE,250.25,15
7,8,CABLE HDMI,CABLE HDMI DE 2 METROS,12.5,150
8,9,ROUTER WI FI,ROUTER DE ALTA VELOCIDAD,89.99,50
9,10,DISCO DURO EXTERNO,DISCO DURO DE 1TB,120.75,45
