In [52]:
import boto3
import pandas as pd
import numpy as np
import configparser
import psycopg2
import hashlib
import uuid
from faker import Faker
import random

# Config setup

In [53]:
etl_config = configparser.ConfigParser()
etl_config.read('etl_config.cfg')

['etl_config.cfg']

In [54]:
tran_config = configparser.ConfigParser()
tran_config.read('transactional_config.cfg')

['transactional_config.cfg']

# AWS client connection

In [55]:
access_key = etl_config.get('IAM', 'ACCESS_KEY')
secret_key = etl_config.get('IAM', 'SECRET_KEY')
region = etl_config.get('REGION', 'REGION_NAME')

aws_rds_conn = boto3.client('rds', 
                            aws_access_key_id=access_key, 
                            aws_secret_access_key=secret_key, 
                            region_name=region)

# AWS RDS creation

In [56]:
etl_db_instance_id = etl_config.get('DB', 'DB_INSTANCE_ID')
etl_db_name = etl_config.get('DB', 'DB_NAME')
etl_db_username = etl_config.get('DB', 'DB_USERNAME')
etl_db_password = etl_config.get('DB', 'DB_PASSWORD')
etl_db_port = etl_config.get('DB', 'DB_PORT')
etl_vpc_security_group = etl_config.get('VPC', 'SECURITY_GROUP')

In [57]:
tran_db_instance_id = tran_config.get('DB', 'DB_INSTANCE_ID')
tran_db_name = tran_config.get('DB', 'DB_NAME')
tran_db_username = tran_config.get('DB', 'DB_USERNAME')
tran_db_password = tran_config.get('DB', 'DB_PASSWORD')
tran_db_port = tran_config.get('DB', 'DB_PORT')
tran_vpc_security_group = tran_config.get('VPC', 'SECURITY_GROUP')

In [58]:
try:
    response = aws_rds_conn.create_db_instance(
        DBInstanceIdentifier=etl_db_instance_id,
        DBName=etl_db_name,
        MasterUsername=etl_db_username,
        MasterUserPassword=etl_db_password,
        Port=int(etl_db_port),
        DBInstanceClass='db.t3.micro',
        Engine='mysql',
        PubliclyAccessible=True,
        AllocatedStorage=20,
        VpcSecurityGroupIds=[etl_vpc_security_group]
    )
    print(response)
except aws_rds_conn.exceptions.DBInstanceAlreadyExistsFault:
    print('La instancia ya existe')
except Exception as ex:
    print(f"Error: ${ex}")

La instancia ya existe


# RDS host name

In [59]:
try:
    etl_instance = aws_rds_conn.describe_db_instances(DBInstanceIdentifier=etl_db_instance_id)
    ETL_RDS_HOST_NAME = etl_instance.get('DBInstances')[0].get('Endpoint').get('Address')
    print(ETL_RDS_HOST_NAME)
except Exception as ex:
    print('Error: ', ex)

dwshop.c4wb7wm57czg.us-east-1.rds.amazonaws.com


In [60]:
etl_driver = f"""mysql://{etl_db_username}:{etl_db_password}@{ETL_RDS_HOST_NAME}:{etl_db_port}/{etl_db_name}"""
etl_driver

'mysql://admin_mysql:7RLbRikefURaswAS8PoWLsu7i@dwshop.c4wb7wm57czg.us-east-1.rds.amazonaws.com:5432/dwshop'

In [61]:
try:
    tran_instance = aws_rds_conn.describe_db_instances(DBInstanceIdentifier=tran_db_instance_id)
    TRAN_RDS_HOST_NAME = tran_instance.get('DBInstances')[0].get('Endpoint').get('Address')
    print(TRAN_RDS_HOST_NAME)
except Exception as ex:
    print('Error: ', ex)

shop.c4wb7wm57czg.us-east-1.rds.amazonaws.com


In [62]:
tran_driver = f"""postgresql://{tran_db_username}:{tran_db_password}@{TRAN_RDS_HOST_NAME}:{tran_db_port}/{tran_db_name}"""
tran_driver

'postgresql://admin_postgress:7RLbRikefURaswAS8PoWLsu7i@shop.c4wb7wm57czg.us-east-1.rds.amazonaws.com:5432/shop'

# Creation of ETL system

## Dimension Categoría (dimCategoria)

In [65]:
# Tuve que instalar esto
#!pip install mysqlclient

In [105]:
sql_query = 'SELECT * FROM categoria;'
df_categorias = pd.read_sql(sql_query, tran_driver)
df_categorias.head()

#No hice merge porque solo usamos esta tabla
# dimCategorias = df_clientes_direcciones_gen.merge(df_sectores, how='inner', on='id_sector', suffixes=('', '_sucursal'))
dimCategorias = df_categorias.drop(['estado'], axis=1,  inplace=False)
#dimCategorias['categoria_id'] = range(1, len(df_categorias)+1)
#dimCategorias.set_index('categoria_id', inplace=True)
dimCategorias


Unnamed: 0,idcategoria,nombre,descripcion
0,1,Electrónica,Dispositivos y gadgets tecnológicos de última ...
1,2,Ropa Hombres,Moda y accesorios para el vestuario masculino.
2,3,Ropa Mujeres,Colecciones y tendencias de moda femenina.
3,4,Juguetes,Juguetes educativos y de entretenimiento para ...
4,5,Alimentos,Productos alimenticios frescos y procesados pa...
5,6,Bebidas,"Variedad de bebidas refrescantes, alcohólicas ..."
6,7,Libros,"Literatura, ficción, educativos y más géneros ..."
7,8,Artículos de Oficina,Suministros y mobiliario para mejorar tu espac...
8,9,Deportes,Equipamiento y ropa deportiva para todas tus a...
9,10,Zapatos,"Calzado cómodo y estilizado para hombres, muje..."


In [None]:
dimCategorias.to_sql('dimCategoria', etl_driver, index=False, if_exists='append')


## Dimension Producto (dimProducto)

In [109]:
sql_query = 'SELECT * FROM articulo;'
df_articulo = pd.read_sql(sql_query, tran_driver)
df_articulo.head()

df_articulo=df_articulo.rename(columns={ 'idarticulo':'idproducto','nombre':'nombre_producto', 'descripcion':'descripcion_producto', 'estado':'estado_producto'})

dimProducto = df_articulo.merge( df_categorias ,on='idcategoria', how='inner')
dimProducto

dimProducto = dimProducto.drop(['imagen','descripcion', 'estado','precio_venta','stock','estado_producto','nombre'], axis=1,  inplace=False)

dimProducto=dimProducto.rename(columns={'nombre_producto':'nombre', 'descripcion_producto':'descripcion'})

dimProducto


Unnamed: 0,idproducto,idcategoria,codigo,nombre,descripcion
0,2001,9,TQE-665,travel,Simple process body finish purpose manager.
1,2009,9,OLq-252,of,Wall special yes remember these leader.
2,2025,9,DSU-350,control,Task son east rate. Box enjoy today home.
3,2055,9,wdu-092,book,Pick strategy seem report force forget.
4,2106,9,zxQ-365,win,Eye full enough because main media military.
...,...,...,...,...,...
995,2851,13,AHE-461,husband,Responsibility garden measure owner.
996,2867,13,DAd-153,issue,Purpose within most player let unit true.
997,2870,13,epC-024,language,Morning recent sell small specific.
998,2875,13,rgH-277,pass,Director consumer fish media. Gun choose skin.


In [110]:
dimProducto.to_sql('dimProducto', etl_driver, index=False, if_exists='append')

1000

## Dimension Empleado (dimEmpleado)

In [112]:
sql_query = 'SELECT * FROM usuario;'
df_usuario= pd.read_sql(sql_query, tran_driver)
df_usuario.head()

Unnamed: 0,idusuario,idrol,nombre,tipo_documento,num_documento,direccion,telefono,email,clave,estado
0,1001,5,Annette Lopez,CE,59786632,"943 Erik Junction Apt. 348\nAmyland, TN 70024",5449342291,uschwartz@example.org,"[b'""', b'z', b'6', b':', b'L', b'\x8b', b'\\',...",True
1,1002,4,Carolyn Anderson,CE,21080795,"3838 Garcia View\nEast Stephen, AR 85718",(433)452-0937x4903,villarrealrachael@example.org,"[b'\x88', b'\x04', b',', b'\x1b', b'\x07', b'?...",False
2,1003,5,Catherine Saunders,PAS,70075330,"50130 James Row Apt. 897\nNorth Darrenborough,...",(704)343-3627,angelablake@example.net,"[b'\xb3', b'X', b'\xc9', b'l', b'\x98', b'\x91...",False
3,1004,3,Anne Singh,PAS,54167000,"69562 Lee Ramp\nEast Matthewfort, VT 41282",001-646-856-7066,jennifer76@example.net,"[b'_', b'>', b'\x88', b'\xe7', b'\x05', b']', ...",False
4,1005,7,Leslie Harrison,PAS,80271610,80058 Humphrey Bridge Apt. 420\nNew Christophe...,800.624.7168x322,steven99@example.net,"[b'&', b'\xb5', b'\x90', b'\xa3', b'}', b'\x9e...",False


In [115]:
sql_query = 'SELECT * FROM rol;'
df_rol= pd.read_sql(sql_query, tran_driver)
df_rol = df_rol.rename(columns={'nombre':'nombre_rol', 'estado':'estado_rol'})
df_rol.head()

Unnamed: 0,idrol,nombre_rol,descripcion,estado_rol
0,1,Administrador,"Responsable de gestionar la tienda, incluidos ...",True
1,2,Vendedor,Encargado de las ventas y la atención al clien...,True
2,3,Cajero,Gestiona las transacciones de pago y emite rec...,True
3,4,Gerente de Producto,"Supervisa la selección, precios y promoción de...",True
4,5,Soporte Técnico,Proporciona asistencia técnica para productos ...,True


In [137]:
dimEmpleado = pd.merge(df_usuario, df_rol, on='idrol', how='inner' )
dimEmpleado

Unnamed: 0,idusuario,idrol,nombre,tipo_documento,num_documento,direccion,telefono,email,clave,estado,nombre_rol,descripcion,estado_rol
0,1001,5,Annette Lopez,CE,59786632,"943 Erik Junction Apt. 348\nAmyland, TN 70024",5449342291,uschwartz@example.org,"[b'""', b'z', b'6', b':', b'L', b'\x8b', b'\\',...",True,Soporte Técnico,Proporciona asistencia técnica para productos ...,True
1,1003,5,Catherine Saunders,PAS,70075330,"50130 James Row Apt. 897\nNorth Darrenborough,...",(704)343-3627,angelablake@example.net,"[b'\xb3', b'X', b'\xc9', b'l', b'\x98', b'\x91...",False,Soporte Técnico,Proporciona asistencia técnica para productos ...,True
2,1008,5,Richard Hamilton,CE,81715840,"PSC 1138, Box 9340\nAPO AP 10795",(780)415-7591x618,ronaldsmith@example.net,"[b'@', b'3', b'U', b'\x93', b'\\', b'\x8d', b'...",False,Soporte Técnico,Proporciona asistencia técnica para productos ...,True
3,1014,5,Barbara Duncan,CE,65597729,"852 Murray Dale\nLake Angela, CA 94207",+1-855-290-0199x967,hodgemary@example.com,"[b'#', b'y', b'\xce', b'\xb0', b'\n', b'\xfc',...",False,Soporte Técnico,Proporciona asistencia técnica para productos ...,True
4,1016,5,Frank Summers,DNI,50686550,"460 Harper Trail Suite 241\nBlairmouth, MD 30853",+1-301-705-5580,armstrongharry@example.net,"[b'\x1c', b'w', b'\x9c', b'Z', b'y', b'm', b'7...",True,Soporte Técnico,Proporciona asistencia técnica para productos ...,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,1925,1,Joseph Jones,DNI,75427802,8141 Edwards Avenue Apt. 954\nNorth Jamesmouth...,+1-507-564-0583x2853,paceaaron@example.net,"[b'{', b'\xa5', b'\x97', b'\xce', b'x', b'O', ...",True,Administrador,"Responsable de gestionar la tienda, incluidos ...",True
996,1945,1,Larry Swanson,PAS,83323214,12358 Padilla Divide Apt. 107\nWest Sherriches...,001-963-825-2499x552,simsemily@example.org,"[b'\xeb', b'\xa2', b'\xa8', b'>', b'|', b'\xbe...",False,Administrador,"Responsable de gestionar la tienda, incluidos ...",True
997,1977,1,Katrina Juarez,PAS,73658887,57069 Watson Street Suite 264\nNorth Aaronberg...,(611)427-2128x6522,matthewmunoz@example.org,"[b'\xa6', b'\xae', b'\x12', b'q', b'\x9b', b'r...",True,Administrador,"Responsable de gestionar la tienda, incluidos ...",True
998,1982,1,Marvin Foster,PAS,54978001,"2264 Williams Rest Suite 997\nNorth Courtney, ...",(421)837-6164x83718,connie96@example.net,"[b'\x98', b'""', b'G', b'\xf9', b'=', b'\x89', ...",True,Administrador,"Responsable de gestionar la tienda, incluidos ...",True


In [138]:
dimEmpleado = dimEmpleado.drop(['estado', 'estado_rol','idrol', 'clave','descripcion'], axis = 1, inplace= False)
dimEmpleado = dimEmpleado.rename(columns={'idusuario':'idempleado','nombre_rol': 'rol'})
dimEmpleado



Unnamed: 0,idempleado,nombre,tipo_documento,num_documento,direccion,telefono,email,rol
0,1001,Annette Lopez,CE,59786632,"943 Erik Junction Apt. 348\nAmyland, TN 70024",5449342291,uschwartz@example.org,Soporte Técnico
1,1003,Catherine Saunders,PAS,70075330,"50130 James Row Apt. 897\nNorth Darrenborough,...",(704)343-3627,angelablake@example.net,Soporte Técnico
2,1008,Richard Hamilton,CE,81715840,"PSC 1138, Box 9340\nAPO AP 10795",(780)415-7591x618,ronaldsmith@example.net,Soporte Técnico
3,1014,Barbara Duncan,CE,65597729,"852 Murray Dale\nLake Angela, CA 94207",+1-855-290-0199x967,hodgemary@example.com,Soporte Técnico
4,1016,Frank Summers,DNI,50686550,"460 Harper Trail Suite 241\nBlairmouth, MD 30853",+1-301-705-5580,armstrongharry@example.net,Soporte Técnico
...,...,...,...,...,...,...,...,...
995,1925,Joseph Jones,DNI,75427802,8141 Edwards Avenue Apt. 954\nNorth Jamesmouth...,+1-507-564-0583x2853,paceaaron@example.net,Administrador
996,1945,Larry Swanson,PAS,83323214,12358 Padilla Divide Apt. 107\nWest Sherriches...,001-963-825-2499x552,simsemily@example.org,Administrador
997,1977,Katrina Juarez,PAS,73658887,57069 Watson Street Suite 264\nNorth Aaronberg...,(611)427-2128x6522,matthewmunoz@example.org,Administrador
998,1982,Marvin Foster,PAS,54978001,"2264 Williams Rest Suite 997\nNorth Courtney, ...",(421)837-6164x83718,connie96@example.net,Administrador


In [139]:
dimEmpleado.to_sql('dimEmpleado', etl_driver, index=False, if_exists='append')

1000

## Dimension Comprobante (dimComprobante)

In [133]:
sql_query = 'SELECT DISTINCT(tipo_comprobante) FROM venta;'
df_comprobante= pd.read_sql(sql_query, tran_driver)
df_comprobante.head()
df_comprobante['idcomprobante'] = range(2)
df_comprobante['idcomprobante'] = df_comprobante['idcomprobante'] +1
dimComprobante = df_comprobante
dimComprobante

Unnamed: 0,tipo_comprobante,idcomprobante
0,Factura,1
1,Boleta,2


In [134]:
dimComprobante.to_sql('dimComprobante', etl_driver, index=False, if_exists='append')

2

## FACT TABLE 

In [147]:
sql_query = 'SELECT idventa, idusuario AS idempleado, total AS total_venta, fecha, tipo_comprobante FROM venta;'
df_venta= pd.read_sql(sql_query, tran_driver)
df_venta.head()

Unnamed: 0,idventa,idempleado,total_venta,fecha,tipo_comprobante
0,1,1908,295.72,2024-02-17 03:47:09.800132,Boleta
1,2,1393,524.61,2024-03-08 03:01:23.258661,Factura
2,3,1071,204.93,2024-01-04 20:15:33.036475,Factura
3,4,1074,199.49,2024-04-03 16:51:40.150243,Boleta
4,5,1182,677.02,2024-01-19 18:21:52.682886,Factura


In [143]:
sql_query = 'SELECT idventa, idarticulo AS idproducto, cantidad, precio AS precio_venta, descuento AS descuento_venta FROM detalle_venta;'
df_detalleVenta= pd.read_sql(sql_query, tran_driver)
df_detalleVenta.head()

Unnamed: 0,idventa,idproducto,cantidad,precio_venta,descuento_venta
0,1,2305,4,30.66,7.97
1,1,2135,7,78.9,0.91
2,1,2382,6,13.49,9.53
3,1,2074,6,58.6,6.64
4,1,2947,8,34.63,2.07


In [150]:
factVentas = pd.merge(df_venta, df_detalleVenta, on='idventa', how='inner' )
factVentas = factVentas.merge(dimComprobante, on = 'tipo_comprobante', how='inner')
factVentas = factVentas.drop(['tipo_comprobante'], axis=1, inplace= False)
factVentas

Unnamed: 0,idventa,idempleado,total_venta,fecha,idproducto,cantidad,precio_venta,descuento_venta,idcomprobante
0,1,1908,295.72,2024-02-17 03:47:09.800132,2305,4,30.66,7.97,2
1,1,1908,295.72,2024-02-17 03:47:09.800132,2135,7,78.90,0.91,2
2,1,1908,295.72,2024-02-17 03:47:09.800132,2382,6,13.49,9.53,2
3,1,1908,295.72,2024-02-17 03:47:09.800132,2074,6,58.60,6.64,2
4,1,1908,295.72,2024-02-17 03:47:09.800132,2947,8,34.63,2.07,2
...,...,...,...,...,...,...,...,...,...
40071,5000,1167,663.45,2024-01-14 03:04:04.641130,2447,6,55.15,2.20,1
40072,5000,1167,663.45,2024-01-14 03:04:04.641130,2836,6,33.72,6.36,1
40073,5000,1167,663.45,2024-01-14 03:04:04.641130,2491,3,29.86,8.33,1
40074,5000,1167,663.45,2024-01-14 03:04:04.641130,2484,6,92.45,0.29,1


In [151]:
factVentas.to_sql('factVentas', etl_driver, index=False, if_exists='append')

40076

# Preguntas

#### Preguntas del Negocio: 
1. ¿Cuál es el total de ventas por categoría de producto?
 - Dimensiones: dimCategoria
 - Tabla de Hechos: factVentas
2. ¿Cuál es el rendimiento de ventas de cada empleado?
 - Dimensiones: dimEmpleado
 - Tabla de Hechos: factVentas
3. ¿Cuál es el inventario actual y su valorización por proveedor? (Esta pregunta requeriría información de ingresos, pero se ajustará para enfocarse solo en ventas)
 - Dimensiones: dimProducto
 - Tabla de Hechos: factVentas
4. ¿Cuál es la efectividad de cada tipo de comprobante en términos de ventas?
 - Dimensiones: dimComprobante
 - Tabla de Hechos: factVentas
5. ¿Cómo varía el margen de beneficio por artículo y categoría?
 - Dimensiones: dimProducto, dimCategoria
 - Tabla de Hechos: factVentas

In [26]:
# -- Creación de la dimensión Categoría
# CREATE TABLE dim_categoria (
#   categoria_id SERIAL PRIMARY KEY,
#   nombre VARCHAR(50),
#   descripcion VARCHAR(255)
# );

# -- Creación de la dimensión Producto
# CREATE TABLE dim_producto (
#   producto_id SERIAL PRIMARY KEY,
#   codigo VARCHAR(50),
#   nombre VARCHAR(100),
#   descripcion VARCHAR(255),
#   categoria_id INTEGER REFERENCES dim_categoria(categoria_id)
# );

# -- Creación de la dimensión Empleado
# CREATE TABLE dim_empleado (
#   empleado_id SERIAL PRIMARY KEY,
#   nombre VARCHAR(100),
#   tipo_documento VARCHAR(20),
#   num_documento VARCHAR(20),
#   direccion VARCHAR(70),
#   telefono VARCHAR(20),
#   email VARCHAR(50)
# );

# -- Creación de la dimensión Comprobante
# CREATE TABLE dim_comprobante (
#   comprobante_id SERIAL PRIMARY KEY,
#   tipo_comprobante VARCHAR(20)
# );

# -- Creación de la tabla de hechos Ventas
# CREATE TABLE fact_ventas (
#   venta_id SERIAL PRIMARY KEY,
#   producto_id INTEGER REFERENCES dim_producto(producto_id),
#   empleado_id INTEGER REFERENCES dim_empleado(empleado_id),
#   comprobante_id INTEGER REFERENCES dim_comprobante(comprobante_id),
#   cantidad INTEGER,
#   precio_venta DECIMAL(11,2),
#   descuento DECIMAL(11,2),
#   total_venta DECIMAL(11,2),
#   fecha TIMESTAMP
# );