In [17]:
import boto3
import pandas as pd
import numpy as np
import configparser
import psycopg2
import hashlib
import uuid
from faker import Faker
import random

# Config setup

In [18]:
etl_config = configparser.ConfigParser()
etl_config.read('etl_config.cfg')

['etl_config.cfg']

In [19]:
tran_config = configparser.ConfigParser()
tran_config.read('transactional_config.cfg')

['transactional_config.cfg']

# AWS client connection

In [20]:
access_key = etl_config.get('IAM', 'ACCESS_KEY')
secret_key = etl_config.get('IAM', 'SECRET_KEY')
region = etl_config.get('REGION', 'REGION_NAME')

aws_rds_conn = boto3.client('rds', 
                            aws_access_key_id=access_key, 
                            aws_secret_access_key=secret_key, 
                            region_name=region)

# AWS RDS creation

In [21]:
etl_db_instance_id = etl_config.get('DB', 'DB_INSTANCE_ID')
etl_db_name = etl_config.get('DB', 'DB_NAME')
etl_db_username = etl_config.get('DB', 'DB_USERNAME')
etl_db_password = etl_config.get('DB', 'DB_PASSWORD')
etl_db_port = etl_config.get('DB', 'DB_PORT')
etl_vpc_security_group = etl_config.get('VPC', 'SECURITY_GROUP')

In [22]:
tran_db_instance_id = tran_config.get('DB', 'DB_INSTANCE_ID')
tran_db_name = tran_config.get('DB', 'DB_NAME')
tran_db_username = tran_config.get('DB', 'DB_USERNAME')
tran_db_password = tran_config.get('DB', 'DB_PASSWORD')
tran_db_port = tran_config.get('DB', 'DB_PORT')
tran_vpc_security_group = tran_config.get('VPC', 'SECURITY_GROUP')

In [23]:
try:
    response = aws_rds_conn.create_db_instance(
        DBInstanceIdentifier=etl_db_instance_id,
        DBName=etl_db_name,
        MasterUsername=etl_db_username,
        MasterUserPassword=etl_db_password,
        Port=int(etl_db_port),
        DBInstanceClass='db.t3.micro',
        Engine='mysql',
        PubliclyAccessible=True,
        AllocatedStorage=20,
        VpcSecurityGroupIds=[etl_vpc_security_group]
    )
    print(response)
except aws_rds_conn.exceptions.DBInstanceAlreadyExistsFault:
    print('La instancia ya existe')
except Exception as ex:
    print(f"Error: ${ex}")

La instancia ya existe


# RDS host name

In [24]:
try:
    etl_instance = aws_rds_conn.describe_db_instances(DBInstanceIdentifier=etl_db_instance_id)
    ETL_RDS_HOST_NAME = etl_instance.get('DBInstances')[0].get('Endpoint').get('Address')
    print(ETL_RDS_HOST_NAME)
except Exception as ex:
    print('Error: ', ex)

dwshop.cnkf6pwg5si3.us-east-2.rds.amazonaws.com


In [25]:
etl_driver = f"""mysql://{etl_db_username}:{etl_db_password}@{ETL_RDS_HOST_NAME}:{etl_db_port}/{etl_db_name}"""
etl_driver

'mysql://admin_mysql:7RLbRikefURaswAS8PoWLsu7i@dwshop.cnkf6pwg5si3.us-east-2.rds.amazonaws.com:5432/dwshop'

In [26]:
try:
    tran_instance = aws_rds_conn.describe_db_instances(DBInstanceIdentifier=tran_db_instance_id)
    TRAN_RDS_HOST_NAME = tran_instance.get('DBInstances')[0].get('Endpoint').get('Address')
    print(TRAN_RDS_HOST_NAME)
except Exception as ex:
    print('Error: ', ex)

shop.cnkf6pwg5si3.us-east-2.rds.amazonaws.com


In [27]:
tran_driver = f"""postgresql://{tran_db_username}:{tran_db_password}@{TRAN_RDS_HOST_NAME}:{tran_db_port}/{tran_db_name}"""
tran_driver

'postgresql://admin_postgress:7RLbRikefURaswAS8PoWLsu7i@shop.cnkf6pwg5si3.us-east-2.rds.amazonaws.com:5432/shop'

# Creation of ETL system

## Dimension Categoría (dimCategoria)

In [65]:
# Tuve que instalar esto
#!pip install mysqlclient

In [28]:
sql_query = 'SELECT * FROM categoria;'
df_categorias = pd.read_sql(sql_query, tran_driver)
df_categorias.head()

#No hice merge porque solo usamos esta tabla
# dimCategorias = df_clientes_direcciones_gen.merge(df_sectores, how='inner', on='id_sector', suffixes=('', '_sucursal'))
dimCategorias = df_categorias.drop(['estado'], axis=1,  inplace=False)
#dimCategorias['categoria_id'] = range(1, len(df_categorias)+1)
#dimCategorias.set_index('categoria_id', inplace=True)
dimCategorias


Unnamed: 0,idcategoria,nombre,descripcion
0,1,Electrónica,Dispositivos y gadgets tecnológicos de última ...
1,2,Ropa Hombres,Moda y accesorios para el vestuario masculino.
2,3,Ropa Mujeres,Colecciones y tendencias de moda femenina.
3,4,Juguetes,Juguetes educativos y de entretenimiento para ...
4,5,Alimentos,Productos alimenticios frescos y procesados pa...
5,6,Bebidas,"Variedad de bebidas refrescantes, alcohólicas ..."
6,7,Libros,"Literatura, ficción, educativos y más géneros ..."
7,8,Artículos de Oficina,Suministros y mobiliario para mejorar tu espac...
8,9,Deportes,Equipamiento y ropa deportiva para todas tus a...
9,10,Zapatos,"Calzado cómodo y estilizado para hombres, muje..."


In [None]:
dimCategorias.to_sql('dimCategoria', etl_driver, index=False, if_exists='append')


## Dimension Producto (dimProducto)

In [29]:
sql_query = 'SELECT * FROM articulo;'
df_articulo = pd.read_sql(sql_query, tran_driver)
df_articulo.head()

df_articulo=df_articulo.rename(columns={ 'idarticulo':'idproducto','nombre':'nombre_producto', 'descripcion':'descripcion_producto', 'estado':'estado_producto'})

dimProducto = df_articulo.merge( df_categorias ,on='idcategoria', how='inner')
dimProducto

dimProducto = dimProducto.drop(['imagen','descripcion', 'estado','precio_venta','stock','estado_producto','nombre'], axis=1,  inplace=False)

dimProducto=dimProducto.rename(columns={'nombre_producto':'nombre', 'descripcion_producto':'descripcion'})

dimProducto


Unnamed: 0,idproducto,idcategoria,codigo,nombre,descripcion
0,1,17,uxL-776,because,Dinner position nation sport set.
1,38,17,IuX-916,him,Life enough value ok smile move.
2,40,17,CHb-141,carry,Choose customer total than entire walk.
3,44,17,kvO-773,much,Whether price little treatment.
4,74,17,QbF-390,while,House rather matter.
...,...,...,...,...,...
995,944,2,GqY-951,parent,Check author manage interview.
996,945,2,Esf-845,hear,Behind program his newspaper on admit.
997,947,2,VDf-537,conference,World might end table.
998,965,2,kSy-655,though,Myself thus peace.


In [30]:
dimProducto.to_sql('dimProducto', etl_driver, index=False, if_exists='append')

1000

## Dimension Empleado (dimEmpleado)

In [31]:
sql_query = 'SELECT * FROM usuario;'
df_usuario= pd.read_sql(sql_query, tran_driver)
df_usuario.head()

Unnamed: 0,idusuario,idrol,nombre,tipo_documento,num_documento,direccion,telefono,email,clave,estado
0,1001,2,Leah Porter,DNI,54630343,"4092 Boyd Point\nSmithshire, TN 21964",+1-321-649-4838x1032,xlewis@example.org,"[b'T', b'\xe0', b'\x14', b'\x19', b'\xf9', b'\...",True
1,1002,4,James Jackson,CE,11317780,"813 Anderson Crossing\nSellersburgh, MN 57700",837.729.7032,jeremydixon@example.org,"[b'C', b'\xf1', b'\xbc', b'\xea', b'\xb7', b'b...",True
2,1003,6,Latasha Ellis,DNI,69737050,"703 Michael Groves Apt. 699\nDonaldport, CO 72498",(714)645-3524,michael37@example.net,"[b'q', b'\xcf', b'\xd9', b'q', b'L', b'\xf7', ...",True
3,1004,6,Kristina Finley,DNI,23805708,"1755 Kevin Locks\nWest Linda, CT 08954",(598)761-6867,perryvalerie@example.org,"[b')', b'\xf3', b'!', b'z', b'y', b'\xea', b'/...",False
4,1005,3,Scott Nash,DNI,44831157,"53021 Victoria Coves\nPort Joshua, MN 58097",299.583.5359,rojaskenneth@example.org,"[b'\xcb', b'\xf9', b'W', b'\xd4', b'8', b'^', ...",True


In [32]:
sql_query = 'SELECT * FROM rol;'
df_rol= pd.read_sql(sql_query, tran_driver)
df_rol = df_rol.rename(columns={'nombre':'nombre_rol', 'estado':'estado_rol'})
df_rol.head()

Unnamed: 0,idrol,nombre_rol,descripcion,estado_rol
0,1,Administrador,"Responsable de gestionar la tienda, incluidos ...",True
1,2,Vendedor,Encargado de las ventas y la atención al clien...,True
2,3,Cajero,Gestiona las transacciones de pago y emite rec...,True
3,4,Gerente de Producto,"Supervisa la selección, precios y promoción de...",True
4,5,Soporte Técnico,Proporciona asistencia técnica para productos ...,True


In [33]:
dimEmpleado = pd.merge(df_usuario, df_rol, on='idrol', how='inner' )
dimEmpleado

Unnamed: 0,idusuario,idrol,nombre,tipo_documento,num_documento,direccion,telefono,email,clave,estado,nombre_rol,descripcion,estado_rol
0,1001,2,Leah Porter,DNI,54630343,"4092 Boyd Point\nSmithshire, TN 21964",+1-321-649-4838x1032,xlewis@example.org,"[b'T', b'\xe0', b'\x14', b'\x19', b'\xf9', b'\...",True,Vendedor,Encargado de las ventas y la atención al clien...,True
1,1022,2,Rhonda Stewart,DNI,77928077,USNS Garner\nFPO AA 87695,833-972-5417,rachel77@example.org,"[b'\x08', b'?', b'H', b'\xd1', b'\x10', b'n', ...",False,Vendedor,Encargado de las ventas y la atención al clien...,True
2,1025,2,Jeremy Becker,CE,12467123,"44410 Todd Corners\nPort Sydney, DE 48227",7189466130,jessicabennett@example.net,"[b'\x9d', b'\xae', b'9', b'\x16', b'A', b';', ...",False,Vendedor,Encargado de las ventas y la atención al clien...,True
3,1027,2,Bobby Vasquez,DNI,07410066,"PSC 4582, Box 1870\nAPO AE 22364",939-742-9446x02374,travishamilton@example.com,"[b'\x00', b'7', b'd', b'\xe0', b'~', b'\n', b'...",True,Vendedor,Encargado de las ventas y la atención al clien...,True
4,1032,2,Lee Taylor,DNI,02897201,"5179 Kennedy Rue\nSouth Johnland, PW 80768",001-726-294-6613,jose39@example.com,"[b'\xaa', b'N', b',', b'\xc7', b'\xd6', b'\xbe...",False,Vendedor,Encargado de las ventas y la atención al clien...,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,1972,7,Shelly Sanders,PAS,80524339,"PSC 2434, Box 5486\nAPO AP 98839",963.759.6377,ricardomcdonald@example.org,"[b'`', b'\xb0', b'\xad', b'\xb3', b'\xb3', b'2...",False,Gerente de RR.HH.,"Administra la contratación, formación y políti...",True
996,1974,7,Jimmy Norris,CE,96072505,"PSC 6581, Box 8298\nAPO AA 68141",908-539-0429,antonio75@example.com,"[b'o', b'\xe6', b'0', b'?', b'\x15', b'\x7f', ...",False,Gerente de RR.HH.,"Administra la contratación, formación y políti...",True
997,1988,7,Heather Fuller,CE,42562315,"4203 James Glen\nStephaniefurt, RI 86487",962-675-6172x4218,rickvelasquez@example.com,"[b'\xe5', b'\xea', b'\xf6', b'\xfa', b'A', b'_...",False,Gerente de RR.HH.,"Administra la contratación, formación y políti...",True
998,1995,7,Melissa Nelson,CE,72047048,"27401 Mitchell Divide\nRamosburgh, MP 23880",+1-551-562-6220x9317,mitchell91@example.org,"[b'\x05', b'\xd2', b'_', b']', b'*', b'\x7f', ...",False,Gerente de RR.HH.,"Administra la contratación, formación y políti...",True


In [34]:
dimEmpleado = dimEmpleado.drop(['estado', 'estado_rol','idrol', 'clave','descripcion'], axis = 1, inplace= False)
dimEmpleado = dimEmpleado.rename(columns={'idusuario':'idempleado','nombre_rol': 'rol'})
dimEmpleado



Unnamed: 0,idempleado,nombre,tipo_documento,num_documento,direccion,telefono,email,rol
0,1001,Leah Porter,DNI,54630343,"4092 Boyd Point\nSmithshire, TN 21964",+1-321-649-4838x1032,xlewis@example.org,Vendedor
1,1022,Rhonda Stewart,DNI,77928077,USNS Garner\nFPO AA 87695,833-972-5417,rachel77@example.org,Vendedor
2,1025,Jeremy Becker,CE,12467123,"44410 Todd Corners\nPort Sydney, DE 48227",7189466130,jessicabennett@example.net,Vendedor
3,1027,Bobby Vasquez,DNI,07410066,"PSC 4582, Box 1870\nAPO AE 22364",939-742-9446x02374,travishamilton@example.com,Vendedor
4,1032,Lee Taylor,DNI,02897201,"5179 Kennedy Rue\nSouth Johnland, PW 80768",001-726-294-6613,jose39@example.com,Vendedor
...,...,...,...,...,...,...,...,...
995,1972,Shelly Sanders,PAS,80524339,"PSC 2434, Box 5486\nAPO AP 98839",963.759.6377,ricardomcdonald@example.org,Gerente de RR.HH.
996,1974,Jimmy Norris,CE,96072505,"PSC 6581, Box 8298\nAPO AA 68141",908-539-0429,antonio75@example.com,Gerente de RR.HH.
997,1988,Heather Fuller,CE,42562315,"4203 James Glen\nStephaniefurt, RI 86487",962-675-6172x4218,rickvelasquez@example.com,Gerente de RR.HH.
998,1995,Melissa Nelson,CE,72047048,"27401 Mitchell Divide\nRamosburgh, MP 23880",+1-551-562-6220x9317,mitchell91@example.org,Gerente de RR.HH.


In [35]:
dimEmpleado.to_sql('dimEmpleado', etl_driver, index=False, if_exists='append')

1000

## Dimension Comprobante (dimComprobante)

In [36]:
sql_query = 'SELECT DISTINCT(tipo_comprobante) FROM venta;'
df_comprobante= pd.read_sql(sql_query, tran_driver)
df_comprobante.head()
df_comprobante['idcomprobante'] = range(2)
df_comprobante['idcomprobante'] = df_comprobante['idcomprobante'] +1
dimComprobante = df_comprobante
dimComprobante

Unnamed: 0,tipo_comprobante,idcomprobante
0,Factura,1
1,Boleta,2


In [37]:
dimComprobante.to_sql('dimComprobante', etl_driver, index=False, if_exists='append')

2

## FACT TABLE 

In [38]:
sql_query = 'SELECT idventa, idusuario AS idempleado, total AS total_venta, fecha, tipo_comprobante FROM venta;'
df_venta= pd.read_sql(sql_query, tran_driver)
df_venta.head()

Unnamed: 0,idventa,idempleado,total_venta,fecha,tipo_comprobante
0,1,1543,542.12,2024-02-17 18:17:11.779366,Factura
1,2,1333,582.4,2024-02-05 20:57:28.464935,Boleta
2,3,1357,446.47,2024-02-04 16:44:41.556529,Boleta
3,4,1999,454.07,2024-03-19 01:27:22.139141,Factura
4,5,1525,392.18,2024-03-22 21:06:07.271336,Factura


In [39]:
sql_query = 'SELECT idventa, idarticulo AS idproducto, cantidad, precio AS precio_venta, descuento AS descuento_venta FROM detalle_venta;'
df_detalleVenta= pd.read_sql(sql_query, tran_driver)
df_detalleVenta.head()

Unnamed: 0,idventa,idproducto,cantidad,precio_venta,descuento_venta
0,1,10,5,21.77,2.77
1,1,259,2,13.04,1.73
2,1,92,10,44.82,4.34
3,1,380,7,70.72,4.15
4,1,813,2,97.1,5.25


In [40]:
factVentas = pd.merge(df_venta, df_detalleVenta, on='idventa', how='inner' )
factVentas = factVentas.merge(dimComprobante, on = 'tipo_comprobante', how='inner')
factVentas = factVentas.drop(['tipo_comprobante'], axis=1, inplace= False)
factVentas

Unnamed: 0,idventa,idempleado,total_venta,fecha,idproducto,cantidad,precio_venta,descuento_venta,idcomprobante
0,1,1543,542.12,2024-02-17 18:17:11.779366,10,5,21.77,2.77,1
1,1,1543,542.12,2024-02-17 18:17:11.779366,259,2,13.04,1.73,1
2,1,1543,542.12,2024-02-17 18:17:11.779366,92,10,44.82,4.34,1
3,1,1543,542.12,2024-02-17 18:17:11.779366,380,7,70.72,4.15,1
4,1,1543,542.12,2024-02-17 18:17:11.779366,813,2,97.10,5.25,1
...,...,...,...,...,...,...,...,...,...
39638,4999,1190,391.11,2024-03-03 23:44:55.411675,445,4,11.10,3.11,2
39639,4999,1190,391.11,2024-03-03 23:44:55.411675,810,10,96.17,7.97,2
39640,4999,1190,391.11,2024-03-03 23:44:55.411675,709,6,34.58,3.92,2
39641,4999,1190,391.11,2024-03-03 23:44:55.411675,157,10,87.35,7.52,2


In [41]:
factVentas.to_sql('factVentas', etl_driver, index=False, if_exists='append')

39643

# Preguntas

#### Preguntas del Negocio: 
1. ¿Cuál es el total de ventas por categoría de producto?
 - Dimensiones: dimCategoria
 - Tabla de Hechos: factVentas
2. ¿Cuál es el rendimiento de ventas de cada empleado?
 - Dimensiones: dimEmpleado
 - Tabla de Hechos: factVentas
3. ¿Cuál es el inventario actual y su valorización por proveedor? (Esta pregunta requeriría información de ingresos, pero se ajustará para enfocarse solo en ventas)
 - Dimensiones: dimProducto
 - Tabla de Hechos: factVentas
4. ¿Cuál es la efectividad de cada tipo de comprobante en términos de ventas?
 - Dimensiones: dimComprobante
 - Tabla de Hechos: factVentas
5. ¿Cómo varía el margen de beneficio por artículo y categoría?
 - Dimensiones: dimProducto, dimCategoria
 - Tabla de Hechos: factVentas

In [26]:
# -- Creación de la dimensión Categoría
# CREATE TABLE dim_categoria (
#   categoria_id SERIAL PRIMARY KEY,
#   nombre VARCHAR(50),
#   descripcion VARCHAR(255)
# );

# -- Creación de la dimensión Producto
# CREATE TABLE dim_producto (
#   producto_id SERIAL PRIMARY KEY,
#   codigo VARCHAR(50),
#   nombre VARCHAR(100),
#   descripcion VARCHAR(255),
#   categoria_id INTEGER REFERENCES dim_categoria(categoria_id)
# );

# -- Creación de la dimensión Empleado
# CREATE TABLE dim_empleado (
#   empleado_id SERIAL PRIMARY KEY,
#   nombre VARCHAR(100),
#   tipo_documento VARCHAR(20),
#   num_documento VARCHAR(20),
#   direccion VARCHAR(70),
#   telefono VARCHAR(20),
#   email VARCHAR(50)
# );

# -- Creación de la dimensión Comprobante
# CREATE TABLE dim_comprobante (
#   comprobante_id SERIAL PRIMARY KEY,
#   tipo_comprobante VARCHAR(20)
# );

# -- Creación de la tabla de hechos Ventas
# CREATE TABLE fact_ventas (
#   venta_id SERIAL PRIMARY KEY,
#   producto_id INTEGER REFERENCES dim_producto(producto_id),
#   empleado_id INTEGER REFERENCES dim_empleado(empleado_id),
#   comprobante_id INTEGER REFERENCES dim_comprobante(comprobante_id),
#   cantidad INTEGER,
#   precio_venta DECIMAL(11,2),
#   descuento DECIMAL(11,2),
#   total_venta DECIMAL(11,2),
#   fecha TIMESTAMP
# );