In [157]:
import pandas as pd
import numpy as np
import boto3
import psycopg2
import configparser
import random
import mysql.connector as mysqlC

In [None]:
config = configparser.ConfigParser()
config.read('config_db.cfg')
config.get('IAM', 'ACCESS_KEY')

In [None]:
aws_rds_conn = boto3.client('rds', aws_access_key_id=config.get('IAM', 'ACCESS_KEY'),
                           aws_secret_access_key=config.get('IAM', 'SECRET_KEY'),
                           region_name='us-east-2')

### Instancia de BD Postgres

In [None]:
try: 
    instance = aws_rds_conn.describe_db_instances(DBInstanceIdentifier=config.get('STORE', 'DB_INSTANCE_ID'))

    RDS_HOSTNAME = instance.get('DBInstances')[0].get('Endpoint').get('Address')
    print(RDS_HOSTNAME)
except Exception as ex:
    print("Error!", ex)

In [None]:
postgres_driver = f"""postgresql://{config.get('STORE', 'DB_USERNAME')}:{config.get('STORE', 'DB_PASSWORD')}@{RDS_HOSTNAME}:{config.get('STORE', 'DB_PORT')}/{config.get('STORE', 'DB_NAME')}"""
postgres_driver

### Genera Data Frames para Tablas Dimensionales

In [None]:
sql_query = 'SELECT * FROM articulo;'
df_articulos = pd.read_sql(sql_query, postgres_driver)
df_articulos.head()

In [None]:
sql_query = 'SELECT * FROM categoria;'
df_categorias = pd.read_sql(sql_query, postgres_driver)
df_categorias.head()

In [None]:
sql_query = 'SELECT * FROM usuario;'
df_usuarios = pd.read_sql(sql_query, postgres_driver)
df_usuarios.head()

In [None]:
sql_ventas = 'SELECT * FROM venta;'
df_ventas = pd.read_sql(sql_ventas, postgres_driver)
df_ventas.head()

In [None]:
sql_ventas_det = 'SELECT * FROM detalle_venta;'
df_ventas_det = pd.read_sql(sql_ventas_det, postgres_driver)
df_ventas_det.head()

In [None]:
sql_query = 'SELECT * FROM persona;'
df_personas = pd.read_sql(sql_query, postgres_driver)
df_personas.head()

In [None]:
sql_query = 'SELECT * FROM rol;'
df_roles = pd.read_sql(sql_query, postgres_driver)
df_roles.head()

In [None]:
sql_query = 'SELECT * FROM usuario;'
df_usuarios = pd.read_sql(sql_query, postgres_driver)
df_usuarios.head()

### Crear dimensiones

In [None]:
# Artículos - Categorías
df_articulos_categorias = df_articulos.merge(df_categorias, how='inner', on='idcategoria')
dim_articulos = df_articulos_categorias.drop(['idcategoria','stock','descripcion_x','imagen','estado_x','descripcion_y','estado_y'], axis=1)
dim_articulos = dim_articulos.rename(columns={'idarticulo': 'id_articulo','codigo': 'codigo_articulo','nombre_x': 'nombre','nombre_y': 'categoria'})
dim_articulos = dim_articulos.reindex(['id_articulo','categoria','codigo_articulo','nombre','precio_venta'], axis=1)
dim_articulos.head()

In [215]:
# Ventas - Detalle de Ventas
sql_query = 'select fecha from venta order by 1;'
df_fechas = pd.read_sql(sql_query, postgres_driver)
df_fechas.drop_duplicates(inplace=True)
df_fechas.head()

Unnamed: 0,fecha
0,2023-04-13 14:39:51.571705
1,2023-04-14 04:04:30.870936
2,2023-04-14 04:55:55.902810
3,2023-04-14 17:17:49.637369
4,2023-04-14 20:15:17.488113


In [216]:
# Fechas
df_fechas
df_fechas['year'] = pd.DatetimeIndex(df_fechas['fecha']).year
df_fechas['month'] = pd.DatetimeIndex(df_fechas['fecha']).month
df_fechas['quarter'] = pd.DatetimeIndex(df_fechas['fecha']).quarter
df_fechas['day'] = pd.DatetimeIndex(df_fechas['fecha']).day
df_fechas['day_of_week'] = pd.DatetimeIndex(df_fechas['fecha']).dayofweek
#df_fechas['id_fecha'] = np.random.randint(1, 500, size=500)
df_fechas.head()

Unnamed: 0,fecha,year,month,quarter,day,day_of_week
0,2023-04-13 14:39:51.571705,2023,4,2,13,3
1,2023-04-14 04:04:30.870936,2023,4,2,14,4
2,2023-04-14 04:55:55.902810,2023,4,2,14,4
3,2023-04-14 17:17:49.637369,2023,4,2,14,4
4,2023-04-14 20:15:17.488113,2023,4,2,14,4


In [None]:
# Personas
dim_personas = df_personas
dim_personas = dim_personas.rename(columns={'idpersona': 'id_persona'})
dim_personas.head()

In [None]:
# Usuarios - Roles
df_roles_usuarios = df_usuarios.merge(df_roles, how='inner', on='idrol')
dim_usuarios = df_roles_usuarios.drop(['idrol','descripcion','clave','estado'], axis=1)
dim_usuarios = dim_usuarios.rename(columns={'idusuario': 'id_usuario','nombre_x': 'nombre','nombre_y': 'rol_usuario','nombre_y': 'rol_usuario'})
dim_usuarios.head()

In [None]:
# Ventas - Detalle de Ventas
df_ventas_detalles = df_ventas.merge(df_ventas_det, how='inner', on='idventa')
df_ventas_mrg = df_ventas_detalles.drop(['estado','iddetalle_venta'], axis=1)
df_ventas_mrg = df_ventas_mrg.rename(columns={'idventa': 'id_venta','idcliente': 'id_cliente','idusuario': 'id_usuario','idarticulo': 'id_articulo'})
df_ventas_mrg.head()

In [None]:
# Ventas - Fechas
df_fechas_ventas = df_ventas_mrg.merge(df_fechas, how='inner', on='fecha')
dim_ventas = df_fechas_ventas.drop(['fecha','year','month','day','dayofweek','is_weekend'], axis=1)
dim_ventas = dim_ventas.rename(columns={'idventa': 'id_venta','idcliente': 'id_cliente','idusuario': 'id_usuario','idarticulo': 'id_articulo'})
dim_ventas['tipo_movimiento'] = 'Venta'
dim_ventas = dim_ventas.reindex(['id_venta','id_cliente','id_usuario','id_articulo','id_fecha','tipo_movimiento','tipo_comprobante','serie_comprobante','num_comprobante','impuesto','total','cantidad','precio','descuento'], axis=1)
dim_ventas.head()

In [202]:
# Depura Dimensional de Fechas
dim_fechas = df_fechas
dim_fechas = dim_fechas.rename(columns={'fecha': 'full_date'})
dim_fechas.head()

Unnamed: 0,full_date,year,month,quarter,day,day_of_week,id_fecha
0,2023-07-16 21:07:29.114022,2023,7,3,16,6,499
1,2023-08-22 13:53:01.883187,2023,8,3,22,1,432
2,2023-11-22 13:43:35.132086,2023,11,4,22,2,492
3,2023-12-15 20:59:30.456917,2023,12,4,15,4,413
4,2023-04-26 01:07:34.737173,2023,4,2,26,2,85


### Agregar dimensionales a DWH

In [154]:
# Consultar ID de Instancia
try: 
    instance = aws_rds_conn.describe_db_instances(DBInstanceIdentifier=config.get('DW', 'DB_INSTANCE_ID'))

    RDS_HOSTNAME_DW = instance.get('DBInstances')[0].get('Endpoint').get('Address')
    print(RDS_HOSTNAME_DW)
except Exception as ex:
    print("Error!", ex)

dw-db-ms.c38kiu6mcwlc.us-east-2.rds.amazonaws.com


In [158]:
# Conectar a BD DWH
try:
    myDw = mysqlC.connect(
        host=RDS_HOSTNAME_DW,
        user=config.get('DW', 'DB_USERNAME'),
        password=config.get('DW', 'DB_PASSWORD'),
        database=config.get('DW', 'DB_NAME')
    )
    
    if myDw.is_connected():
        print("Conexion exitosa")
        info_server=myDw.get_server_info()
        print(info_server)
        cursor=myDw.cursor()
        print("Conectado a la base de datos: {}".format(row))
except Exception as ex:
  print("ERROR: Error al crear el esquema del Data Warehouse.")
  print(ex)

Conexion exitosa
8.0.35
ERROR: Error al crear el esquema del Data Warehouse.
name 'row' is not defined


In [161]:
# Dirver de MySQL
mysql_driver = f"""mysql+pymysql://{config.get('DW', 'DB_USERNAME')}:{config.get('DW', 'DB_PASSWORD')}@{RDS_HOSTNAME_DW}:{config.get('DW', 'DB_PORT')}/{config.get('DW', 'DB_NAME')}"""
mysql_driver

'mysql+pymysql://admin_mysql:xYspyDp5at3daz6@dw-db-ms.c38kiu6mcwlc.us-east-2.rds.amazonaws.com:3306/datawarehouse'

In [171]:
# Insertar dimensional de articulos.
dim_articulos.to_sql('d_articulos', mysql_driver, index=False, if_exists='append')

200

In [None]:
# Insertar dimensional de fechas.
dim_fechas.to_sql('d_fechas', mysql_driver, index=False, if_exists='append')

In [175]:
# Insertar dimensional de personas.
dim_personas.to_sql('d_personas', mysql_driver, index=False, if_exists='append')

150

In [176]:
# Insertar dimensional de usuarios.
dim_usuarios.to_sql('d_usuarios', mysql_driver, index=False, if_exists='append')

150

In [211]:
# Insertar tabla de hechos h_ventas.
dim_ventas.to_sql('h_ventas_ingresos', mysql_driver, index=False, if_exists='append')

IntegrityError: (pymysql.err.IntegrityError) (1452, 'Cannot add or update a child row: a foreign key constraint fails (`datawarehouse`.`h_ventas_ingresos`, CONSTRAINT `h_ventas_ingresos_ibfk_4` FOREIGN KEY (`id_fecha`) REFERENCES `d_fechas` (`id_fecha`))')
[SQL: INSERT INTO h_ventas_ingresos (id_venta, id_cliente, id_usuario, id_articulo, id_fecha, tipo_movimiento, tipo_comprobante, serie_comprobante, num_comprobante, impuesto, total, cantidad, precio, descuento) VALUES (%(id_venta)s, %(id_cliente)s, %(id_usuario)s, %(id_articulo)s, %(id_fecha)s, %(tipo_movimiento)s, %(tipo_comprobante)s, %(serie_comprobante)s, %(num_comprobante)s, %(impuesto)s, %(total)s, %(cantidad)s, %(precio)s, %(descuento)s)]
[parameters: [{'id_venta': 2, 'id_cliente': 7, 'id_usuario': 58, 'id_articulo': 138, 'id_fecha': 97, 'tipo_movimiento': 'Venta', 'tipo_comprobante': 'Factura', 'serie_comprobante': '3670', 'num_comprobante': '6419116', 'impuesto': 5.34, 'total': 8319.16, 'cantidad': 44, 'precio': 94.8, 'descuento': 50.37}, {'id_venta': 3, 'id_cliente': 87, 'id_usuario': 30, 'id_articulo': 19, 'id_fecha': 382, 'tipo_movimiento': 'Venta', 'tipo_comprobante': 'Boleta', 'serie_comprobante': '2270', 'num_comprobante': '3774923', 'impuesto': 5.36, 'total': 7677.54, 'cantidad': 60, 'precio': 489.56, 'descuento': 36.26}, {'id_venta': 3, 'id_cliente': 87, 'id_usuario': 30, 'id_articulo': 55, 'id_fecha': 382, 'tipo_movimiento': 'Venta', 'tipo_comprobante': 'Boleta', 'serie_comprobante': '2270', 'num_comprobante': '3774923', 'impuesto': 5.36, 'total': 7677.54, 'cantidad': 38, 'precio': 549.37, 'descuento': 49.42}, {'id_venta': 3, 'id_cliente': 87, 'id_usuario': 30, 'id_articulo': 41, 'id_fecha': 382, 'tipo_movimiento': 'Venta', 'tipo_comprobante': 'Boleta', 'serie_comprobante': '2270', 'num_comprobante': '3774923', 'impuesto': 5.36, 'total': 7677.54, 'cantidad': 66, 'precio': 324.44, 'descuento': 62.25}, {'id_venta': 3, 'id_cliente': 87, 'id_usuario': 30, 'id_articulo': 113, 'id_fecha': 382, 'tipo_movimiento': 'Venta', 'tipo_comprobante': 'Boleta', 'serie_comprobante': '2270', 'num_comprobante': '3774923', 'impuesto': 5.36, 'total': 7677.54, 'cantidad': 35, 'precio': 219.07, 'descuento': 52.83}, {'id_venta': 4, 'id_cliente': 72, 'id_usuario': 50, 'id_articulo': 71, 'id_fecha': 467, 'tipo_movimiento': 'Venta', 'tipo_comprobante': 'Boleta', 'serie_comprobante': '7877', 'num_comprobante': '789957', 'impuesto': 5.1, 'total': 4876.29, 'cantidad': 77, 'precio': 171.69, 'descuento': 62.19}, {'id_venta': 5, 'id_cliente': 31, 'id_usuario': 148, 'id_articulo': 142, 'id_fecha': 184, 'tipo_movimiento': 'Venta', 'tipo_comprobante': 'Boleta', 'serie_comprobante': '6678', 'num_comprobante': '1832963', 'impuesto': 13.14, 'total': 8257.43, 'cantidad': 42, 'precio': 799.16, 'descuento': 46.98}, {'id_venta': 5, 'id_cliente': 31, 'id_usuario': 148, 'id_articulo': 15, 'id_fecha': 184, 'tipo_movimiento': 'Venta', 'tipo_comprobante': 'Boleta', 'serie_comprobante': '6678', 'num_comprobante': '1832963', 'impuesto': 13.14, 'total': 8257.43, 'cantidad': 16, 'precio': 988.46, 'descuento': 99.5}  ... displaying 10 of 800 total bound parameter sets ...  {'id_venta': 499, 'id_cliente': 139, 'id_usuario': 42, 'id_articulo': 5, 'id_fecha': 9, 'tipo_movimiento': 'Venta', 'tipo_comprobante': 'Boleta', 'serie_comprobante': '7834', 'num_comprobante': '6048852', 'impuesto': 19.58, 'total': 6324.07, 'cantidad': 85, 'precio': 346.83, 'descuento': 35.39}, {'id_venta': 500, 'id_cliente': 59, 'id_usuario': 82, 'id_articulo': 140, 'id_fecha': 124, 'tipo_movimiento': 'Venta', 'tipo_comprobante': 'Boleta', 'serie_comprobante': '5671', 'num_comprobante': '9400032', 'impuesto': 0.48, 'total': 3229.29, 'cantidad': 82, 'precio': 657.29, 'descuento': 3.14}]]
(Background on this error at: https://sqlalche.me/e/20/gkpj)