In [52]:
import boto3
import pandas as pd
import numpy as np
import configparser
import psycopg2
import hashlib
import uuid
from faker import Faker
import random

# Config setup

In [53]:
etl_config = configparser.ConfigParser()
etl_config.read('etl_config.cfg')

['etl_config.cfg']

In [54]:
tran_config = configparser.ConfigParser()
tran_config.read('transactional_config.cfg')

['transactional_config.cfg']

# AWS client connection

In [55]:
access_key = etl_config.get('IAM', 'ACCESS_KEY')
secret_key = etl_config.get('IAM', 'SECRET_KEY')
region = etl_config.get('REGION', 'REGION_NAME')

aws_rds_conn = boto3.client('rds', 
                            aws_access_key_id=access_key, 
                            aws_secret_access_key=secret_key, 
                            region_name=region)

# AWS RDS creation

In [56]:
etl_db_instance_id = etl_config.get('DB', 'DB_INSTANCE_ID')
etl_db_name = etl_config.get('DB', 'DB_NAME')
etl_db_username = etl_config.get('DB', 'DB_USERNAME')
etl_db_password = etl_config.get('DB', 'DB_PASSWORD')
etl_db_port = etl_config.get('DB', 'DB_PORT')
etl_vpc_security_group = etl_config.get('VPC', 'SECURITY_GROUP')

In [57]:
tran_db_instance_id = tran_config.get('DB', 'DB_INSTANCE_ID')
tran_db_name = tran_config.get('DB', 'DB_NAME')
tran_db_username = tran_config.get('DB', 'DB_USERNAME')
tran_db_password = tran_config.get('DB', 'DB_PASSWORD')
tran_db_port = tran_config.get('DB', 'DB_PORT')
tran_vpc_security_group = tran_config.get('VPC', 'SECURITY_GROUP')

In [58]:
try:
    response = aws_rds_conn.create_db_instance(
        DBInstanceIdentifier=etl_db_instance_id,
        DBName=etl_db_name,
        MasterUsername=etl_db_username,
        MasterUserPassword=etl_db_password,
        Port=int(etl_db_port),
        DBInstanceClass='db.t3.micro',
        Engine='mysql',
        PubliclyAccessible=True,
        AllocatedStorage=20,
        VpcSecurityGroupIds=[etl_vpc_security_group]
    )
    print(response)
except aws_rds_conn.exceptions.DBInstanceAlreadyExistsFault:
    print('La instancia ya existe')
except Exception as ex:
    print(f"Error: ${ex}")

La instancia ya existe


# RDS host name

In [59]:
try:
    etl_instance = aws_rds_conn.describe_db_instances(DBInstanceIdentifier=etl_db_instance_id)
    ETL_RDS_HOST_NAME = etl_instance.get('DBInstances')[0].get('Endpoint').get('Address')
    print(ETL_RDS_HOST_NAME)
except Exception as ex:
    print('Error: ', ex)

dwshop.c4wb7wm57czg.us-east-1.rds.amazonaws.com


In [60]:
etl_driver = f"""mysql://{etl_db_username}:{etl_db_password}@{ETL_RDS_HOST_NAME}:{etl_db_port}/{etl_db_name}"""
etl_driver

'mysql://admin_mysql:7RLbRikefURaswAS8PoWLsu7i@dwshop.c4wb7wm57czg.us-east-1.rds.amazonaws.com:5432/dwshop'

In [61]:
try:
    tran_instance = aws_rds_conn.describe_db_instances(DBInstanceIdentifier=tran_db_instance_id)
    TRAN_RDS_HOST_NAME = tran_instance.get('DBInstances')[0].get('Endpoint').get('Address')
    print(TRAN_RDS_HOST_NAME)
except Exception as ex:
    print('Error: ', ex)

shop.c4wb7wm57czg.us-east-1.rds.amazonaws.com


In [62]:
tran_driver = f"""postgresql://{tran_db_username}:{tran_db_password}@{TRAN_RDS_HOST_NAME}:{tran_db_port}/{tran_db_name}"""
tran_driver

'postgresql://admin_postgress:7RLbRikefURaswAS8PoWLsu7i@shop.c4wb7wm57czg.us-east-1.rds.amazonaws.com:5432/shop'

# Creation of ETL system

## Dimension Categoría (dim_categoria)

In [65]:
# Tuve que instalar esto
#!pip install mysqlclient

In [105]:
sql_query = 'SELECT * FROM categoria;'
df_categorias = pd.read_sql(sql_query, tran_driver)
df_categorias.head()

#No hice merge porque solo usamos esta tabla
# dimCategorias = df_clientes_direcciones_gen.merge(df_sectores, how='inner', on='id_sector', suffixes=('', '_sucursal'))
dimCategorias = df_categorias.drop(['estado'], axis=1,  inplace=False)
#dimCategorias['categoria_id'] = range(1, len(df_categorias)+1)
#dimCategorias.set_index('categoria_id', inplace=True)
dimCategorias


Unnamed: 0,idcategoria,nombre,descripcion
0,1,Electrónica,Dispositivos y gadgets tecnológicos de última ...
1,2,Ropa Hombres,Moda y accesorios para el vestuario masculino.
2,3,Ropa Mujeres,Colecciones y tendencias de moda femenina.
3,4,Juguetes,Juguetes educativos y de entretenimiento para ...
4,5,Alimentos,Productos alimenticios frescos y procesados pa...
5,6,Bebidas,"Variedad de bebidas refrescantes, alcohólicas ..."
6,7,Libros,"Literatura, ficción, educativos y más géneros ..."
7,8,Artículos de Oficina,Suministros y mobiliario para mejorar tu espac...
8,9,Deportes,Equipamiento y ropa deportiva para todas tus a...
9,10,Zapatos,"Calzado cómodo y estilizado para hombres, muje..."


In [None]:
dimCategorias.to_sql('dimCategoria', etl_driver, index=False, if_exists='append')


In [100]:
sql_query = 'SELECT * FROM articulo;'
df_articulo = pd.read_sql(sql_query, tran_driver)
df_articulo.head()

df_articulo=df_articulo.rename(columns={'nombre':'nombre_producto', 'descripcion':'descripcion_producto', 'estado':'estado_producto'})

dimProducto = df_articulo.merge( df_categorias ,on='idcategoria', how='inner')
dimProducto

dimProducto = dimProducto.drop(['imagen','descripcion', 'estado','precio_venta','stock','estado_producto','nombre'], axis=1,  inplace=False)
dimProducto


Unnamed: 0,idarticulo,idcategoria,codigo,nombre_producto,descripcion_producto
0,2001,9,TQE-665,travel,Simple process body finish purpose manager.
1,2009,9,OLq-252,of,Wall special yes remember these leader.
2,2025,9,DSU-350,control,Task son east rate. Box enjoy today home.
3,2055,9,wdu-092,book,Pick strategy seem report force forget.
4,2106,9,zxQ-365,win,Eye full enough because main media military.
...,...,...,...,...,...
995,2851,13,AHE-461,husband,Responsibility garden measure owner.
996,2867,13,DAd-153,issue,Purpose within most player let unit true.
997,2870,13,epC-024,language,Morning recent sell small specific.
998,2875,13,rgH-277,pass,Director consumer fish media. Gun choose skin.


In [None]:
#dimProducto.to_sql('dimProducto', etl_driver, index=False, if_exists='append')

In [26]:
# -- Creación de la dimensión Categoría
# CREATE TABLE dim_categoria (
#   categoria_id SERIAL PRIMARY KEY,
#   nombre VARCHAR(50),
#   descripcion VARCHAR(255)
# );

# -- Creación de la dimensión Producto
# CREATE TABLE dim_producto (
#   producto_id SERIAL PRIMARY KEY,
#   codigo VARCHAR(50),
#   nombre VARCHAR(100),
#   descripcion VARCHAR(255),
#   categoria_id INTEGER REFERENCES dim_categoria(categoria_id)
# );

# -- Creación de la dimensión Empleado
# CREATE TABLE dim_empleado (
#   empleado_id SERIAL PRIMARY KEY,
#   nombre VARCHAR(100),
#   tipo_documento VARCHAR(20),
#   num_documento VARCHAR(20),
#   direccion VARCHAR(70),
#   telefono VARCHAR(20),
#   email VARCHAR(50)
# );

# -- Creación de la dimensión Comprobante
# CREATE TABLE dim_comprobante (
#   comprobante_id SERIAL PRIMARY KEY,
#   tipo_comprobante VARCHAR(20)
# );

# -- Creación de la tabla de hechos Ventas
# CREATE TABLE fact_ventas (
#   venta_id SERIAL PRIMARY KEY,
#   producto_id INTEGER REFERENCES dim_producto(producto_id),
#   empleado_id INTEGER REFERENCES dim_empleado(empleado_id),
#   comprobante_id INTEGER REFERENCES dim_comprobante(comprobante_id),
#   cantidad INTEGER,
#   precio_venta DECIMAL(11,2),
#   descuento DECIMAL(11,2),
#   total_venta DECIMAL(11,2),
#   fecha TIMESTAMP
# );