# Proyecto 2
## Ciencias de Datos en Python

- Diego Morales - 13001893
- Jerry Rivera - 24005123

In [1]:
import boto3
import pandas as pd
import numpy as np
import configparser
import psycopg2

## Inicialización

In [2]:
config = configparser.ConfigParser()
config.read('config.cfg')

aws_rds_conn = boto3.client('rds', aws_access_key_id=config.get('IAM', 'ACCESS_KEY'),
                           aws_secret_access_key=config.get('IAM', 'SECRET_KEY'),
                           region_name='us-east-1')

## Creación de instancia

In [3]:
try:
    response = aws_rds_conn.create_db_instance(
                            DBInstanceIdentifier=config.get('SAKILA', 'DB_INSTANCE_ID'),
                            DBName=config.get('SAKILA', 'DB_NAME'),
                            MasterUsername=config.get('SAKILA', 'DB_USERNAME'),
                            MasterUserPassword=config.get('SAKILA', 'DB_PASSWORD'),
                            Port=int(config.get('SAKILA', 'DB_PORT')),
                            DBInstanceClass='db.t3.micro',
                            Engine='postgres',
                            PubliclyAccessible=True,
                            AllocatedStorage=20,
                            VpcSecurityGroupIds=[config.get('VPC', 'SECURITY_GROUP')]
                            )
    print(response)
except aws_rds_conn.exceptions.DBInstanceAlreadyExistsFault:
    print('La instancia ya existe')
except Exception as ex:
    print('Error', ex)

{'DBInstance': {'DBInstanceIdentifier': 'sakila-db-pg', 'DBInstanceClass': 'db.t3.micro', 'Engine': 'postgres', 'DBInstanceStatus': 'creating', 'MasterUsername': 'admin_postgres', 'DBName': 'sakila', 'AllocatedStorage': 20, 'PreferredBackupWindow': '04:13-04:43', 'BackupRetentionPeriod': 1, 'DBSecurityGroups': [], 'VpcSecurityGroups': [{'VpcSecurityGroupId': 'sg-0b4d5bb09a6396352', 'Status': 'active'}], 'DBParameterGroups': [{'DBParameterGroupName': 'default.postgres16', 'ParameterApplyStatus': 'in-sync'}], 'DBSubnetGroup': {'DBSubnetGroupName': 'default', 'DBSubnetGroupDescription': 'default', 'VpcId': 'vpc-069af3dd3aa36b4d8', 'SubnetGroupStatus': 'Complete', 'Subnets': [{'SubnetIdentifier': 'subnet-02d2d39959fbcddb6', 'SubnetAvailabilityZone': {'Name': 'us-east-1b'}, 'SubnetOutpost': {}, 'SubnetStatus': 'Active'}, {'SubnetIdentifier': 'subnet-032422906c9f500fb', 'SubnetAvailabilityZone': {'Name': 'us-east-1f'}, 'SubnetOutpost': {}, 'SubnetStatus': 'Active'}, {'SubnetIdentifier': 'sub

## Obtención de instancia

In [7]:
try:
    instance = aws_rds_conn.describe_db_instances(DBInstanceIdentifier=config.get('SAKILA', 'DB_INSTANCE_ID'))
    RDS_HOSTNAME = instance.get('DBInstances')[0].get('Endpoint').get('Address')
    print(RDS_HOSTNAME)
except Exception as ex:
    print('Error', ex)

sakila-db-pg.clcwc6cec8sd.us-east-1.rds.amazonaws.com


# Sistema transaccional
## Conexión y creación base de datos

In [6]:
import ddl as query

try:
    db_pg_conn = psycopg2.connect(
                    database=config.get('SAKILA', 'DB_NAME'),
                    user=config.get('SAKILA', 'DB_USERNAME'),
                    password=config.get('SAKILA', 'DB_PASSWORD'),
                    port=config.get('SAKILA', 'DB_PORT'),
                    host=RDS_HOSTNAME
    )
    cursor = db_pg_conn.cursor()
    cursor.execute(query.DDL_QUERY)
    db_pg_conn.commit()
except Exception as ex:
    print('Error', ex)

# Ingestión de datos transaccionales

In [8]:
driver = f"""postgresql://{config.get('SAKILA', 'DB_USERNAME')}:{config.get('SAKILA', 'DB_PASSWORD')}@{RDS_HOSTNAME}:{config.get('SAKILA', 'DB_PORT')}/{config.get('SAKILA', 'DB_NAME')}"""
driver

'postgresql://admin_postgres:jublnuh1Kor3KEPO1rADldLmi@sakila-db-pg.clcwc6cec8sd.us-east-1.rds.amazonaws.com:5432/sakila'

In [8]:
def insertData2SQL(data_dict, table_name, driver):
    df_data = pd.DataFrame.from_records(data_dict)
    try:
        response = df_data.to_sql(table_name, driver, index=False, if_exists='append')
        print(f'Se han insertado {response} nuevos registros')
    except Exception as ex:
        print('Error', ex)

In [9]:
# rol
data_rol = [
    {'idrol' : 1, 'nombre' : 'Dueño', 'descripcion': 'Propietario de la tienda', 'estado': '1'},
    {'idrol' : 2, 'nombre' : 'Vendedor', 'descripcion': 'Encargado de las ventas', 'estado': '1'},
    {'idrol' : 3, 'nombre' : 'Asistente', 'descripcion': 'Apoyo para ventas', 'estado': '1'},
    {'idrol' : 4, 'nombre' : 'Mensajero', 'descripcion': 'Entrega de pedidos a domicilio', 'estado': '1'},
    {'idrol' : 5, 'nombre' : 'Contador', 'descripcion': 'Finanzas de la tienda', 'estado': '1'}
]

insertData2SQL(data_rol, 'rol', driver)

Se han insertado 5 nuevos registros


In [10]:
# categoria
data_categoria = [
    {'idcategoria' : 1, 'nombre' : 'Alimentos', 'descripcion': 'Pan, galletas, snacks y helados', 'estado': '1'},
    {'idcategoria' : 2, 'nombre' : 'Bebidas', 'descripcion': 'Agua, gaseosas, jugos y leche', 'estado': '1'},
    {'idcategoria' : 3, 'nombre' : 'Limpieza', 'descripcion': 'Jabón, detergente, cloro y bolsas', 'estado': '1'},
    {'idcategoria' : 4, 'nombre' : 'Miscelania', 'descripcion': 'Baterías, pegamento y medicamentos', 'estado': '1'},
]
insertData2SQL(data_categoria, 'categoria', driver)

Se han insertado 4 nuevos registros


In [12]:
# articulo
import random
import string

data_articulo = [
    {'idarticulo' : 1, 'idcategoria' : 1, 'codigo': 'torlim', 'nombre': 'Totrix limón',
     'precio_venta': 2.00, 'stock': random.randint(1, 20),
     'descripcion': 'unidad de 38 gramos', 'imagen': f'torlim.png.', 'estado': '1'},
    {'idarticulo' : 2, 'idcategoria' : 1, 'codigo': 'sandbutt', 'nombre': 'Pan Sándwich Butter',
     'precio_venta': 22.95, 'stock': random.randint(1, 20),
     'descripcion': 'bolsa de 690 gramos', 'imagen': f'sandbutt.png.', 'estado': '1'},
    {'idarticulo' : 3, 'idcategoria' : 1, 'codigo': 'gallchk', 'nombre': 'Galleta Chocolate Chiky Pack',
     'precio_venta': 19.30, 'stock': random.randint(1, 20),
     'descripcion': 'pack de 10 unidades, 40 gramos/unidad', 'imagen': f'gallchik.png.', 'estado': '1'},
     {'idarticulo' : 4, 'idcategoria' : 1, 'codigo': 'gallwaff', 'nombre': 'Galleta Waffle 12 pack',
     'precio_venta': 12.70, 'stock': random.randint(1, 20),
     'descripcion': 'pack de 256.5 gramos', 'imagen': f'gallwaff.png.', 'estado': '1'},
     {'idarticulo' : 5, 'idcategoria' : 2, 'codigo': 'cczero', 'nombre': 'Coca Cola sin azúcar',
     'precio_venta': 16.00, 'stock': random.randint(1, 20),
     'descripcion': 'envase de 2.5 litros’', 'imagen': f'cczero.png.', 'estado': '1'},
     {'idarticulo' : 6, 'idcategoria' : 2, 'codigo': 'jugnar', 'nombre': 'Jugo de Naranja',
     'precio_venta': 25.95, 'stock': random.randint(1, 20),
     'descripcion': 'envase de 1.8 litros’', 'imagen': f'jugnar.png.', 'estado': '1'},
     {'idarticulo' : 7, 'idcategoria' : 2, 'codigo': 'minsal', 'nombre': 'Agua Mineral Salutaris',
     'precio_venta': 9.90, 'stock': random.randint(1, 20),
     'descripcion': 'envase de 2 litros’', 'imagen': f'minsal.png.', 'estado': '1'},
     {'idarticulo' : 8, 'idcategoria' : 2, 'codigo': 'agusal', 'nombre': 'Agua Pura Salvavidas',
     'precio_venta': 10.50, 'stock': random.randint(1, 20),
     'descripcion': 'envase de 3.78 litros’', 'imagen': f'agusall.png.', 'estado': '1'},
     {'idarticulo' : 9, 'idcategoria' : 2, 'codigo': 'suehid', 'nombre': 'Suero Hidravida',
     'precio_venta': 16.15, 'stock': random.randint(1, 20),
     'descripcion': 'unidad de 625 ml’', 'imagen': f'suehid.png.', 'estado': '1'},
     {'idarticulo' : 10, 'idcategoria' : 3, 'codigo': 'jabaxn', 'nombre': 'Jabón para platos Axión',
     'precio_venta': 10.30, 'stock': random.randint(1, 20),
     'descripcion': 'unidad de 600 gramos', 'imagen': f'jabaxn.png.', 'estado': '1'},
     {'idarticulo' : 11, 'idcategoria' : 4, 'codigo': 'conben', 'nombre': 'Concentrado Perro Beneful',
     'precio_venta': 181.30, 'stock': random.randint(1, 20),
     'descripcion': 'bolsa de 4 kilogramos', 'imagen': f'conben.png.', 'estado': '1'}
]

insertData2SQL(data_articulo, 'articulo', driver)

Se han insertado 11 nuevos registros


In [13]:
# persona
from faker import Faker

data_persona = []
cant_personas = 20
tipo_personas = ['Cliente', 'Proveedor']

for i in range(cant_personas):
    fake = Faker()
    persona = {'idpersona' : i, 'tipo_persona' : random.choice(tipo_personas), 'nombre': fake.name(),
               'tipo_documento': 'DPI', 'num_documento' : str(random.randint(2e19, 3e19)),
               'direccion': fake.address()[:70], 'telefono': fake.phone_number()[:20],
               'email': f'{fake.user_name()}@gmail.com'}
    data_persona.append(persona)

insertData2SQL(data_persona, 'persona', driver)

Se han insertado 20 nuevos registros


In [14]:
# usuario
from faker import Faker

data_usuario = []
cant_usuarios = 5
roles = [1, 2, 3, 4, 5] 

for i in range(cant_usuarios):
    fake = Faker()
    rol = random.choice(roles)
    roles.remove(rol)
    usuario = {'idusuario' : i, 'idrol' : rol, 'nombre': fake.name(),
               'tipo_documento': 'DPI', 'num_documento' : str(random.randint(2e19, 3e19)),
               'direccion': fake.address()[:70], 'telefono': fake.phone_number()[:20],
               'email': f'{fake.user_name()}@gmail.com', 'clave': '1010101',
               'estado': '1'}
    data_usuario.append(usuario)

insertData2SQL(data_usuario, 'usuario', driver)

Se han insertado 5 nuevos registros


In [21]:
# venta, detalle_venta
from faker import Faker
from datetime import datetime

data_venta = []
data_detalle_venta = []
articulos = [1, 2, 3, 4, 5]

cant_venta = 5

for i in range(cant_venta):
    fake = Faker()
    while True:
        random_cliente = random.choice(data_persona)
        if random_cliente['tipo_persona']=='Cliente':
            break
    random_usuario = random.choice(data_usuario)
    
    cant_detalle_venta = random.randint(1, 3)
    total = 0
    for j in range(cant_detalle_venta):
        random_articulo = random.choice(data_articulo)
        detalle_venta = {'iddetalle_venta': i*10 + j,
                         'idventa' : i,
                         'idarticulo' : random_articulo['idarticulo'],
                         'cantidad': random.randint(1, 3),
                         'precio' : random_articulo['precio_venta'],
                         'descuento': 0.0}
        total += detalle_venta['cantidad']*detalle_venta['precio']
        data_detalle_venta.append(detalle_venta)
    venta = {'idventa': i,
             'idcliente' : random_cliente['idpersona'],
             'idusuario' : random_usuario['idusuario'],
             'tipo_comprobante' : 'Factura',
             'serie_comprobante' : str(random.randint(1e6, 9e6)),
             'num_comprobante' : str(random.randint(1e9, 9e9)),
             'fecha' : fake.date_between_dates(datetime(2024,1,1), datetime(2024,4,1)),
             'impuesto' : 0.12*total,
             'total' : total,
             'estado': '1'}
    data_venta.append(venta)

insertData2SQL(data_venta, 'venta', driver)
insertData2SQL(data_detalle_venta, 'detalle_venta', driver)

Se han insertado 5 nuevos registros
Se han insertado 10 nuevos registros


In [23]:
# ingreso, detalle_ingreso
from faker import Faker
from datetime import datetime

data_ingreso = []
data_detalle_ingreso = []
articulos = [1, 2, 3, 4, 5]

cant_ingreso = 3

for i in range(cant_ingreso):
    fake = Faker()
    while True:
        random_cliente = random.choice(data_persona)
        if random_cliente['tipo_persona']=='Proveedor':
            break
    random_usuario = random.choice(data_usuario)
    
    cant_detalle_ingreso = random.randint(1, 10)
    total = 0
    for j in range(cant_detalle_ingreso):
        random_articulo = random.choice(data_articulo)
        detalle_ingreso = {'iddetalle_ingreso': i*10 + j,
                         'idingreso' : i,
                         'idarticulo' : random_articulo['idarticulo'],
                         'cantidad': random.randint(1, 3),
                         'precio' : random_articulo['precio_venta']
                         }
        total += detalle_ingreso['cantidad']*detalle_ingreso['precio']
        data_detalle_ingreso.append(detalle_ingreso)
    ingreso = {'idingreso': i,
             'idproveedor' : random_cliente['idpersona'],
             'idusuario' : random_usuario['idusuario'],
             'tipo_comprobante' : 'Factura',
             'serie_comprobante' : str(random.randint(1e6, 9e6)),
             'num_comprobante' : str(random.randint(1e9, 9e9)),
             'fecha' : fake.date_between_dates(datetime(2024,1,1), datetime(2024,4,1)),
             'impuesto' : 0.12*total,
             'total' : total,
             'estado': '1'}
    data_ingreso.append(ingreso)

insertData2SQL(data_ingreso, 'ingreso', driver)
insertData2SQL(data_detalle_ingreso, 'detalle_ingreso', driver)

Se han insertado 3 nuevos registros
Se han insertado 11 nuevos registros


# Arquitectura de datos

In [9]:
driver = f"""postgresql://{config.get('SAKILA', 'DB_USERNAME')}:{config.get('SAKILA', 'DB_PASSWORD')}@{RDS_HOSTNAME}:{config.get('SAKILA', 'DB_PORT')}/{config.get('SAKILA', 'DB_NAME')}"""
driver

'postgresql://admin_postgres:jublnuh1Kor3KEPO1rADldLmi@sakila-db-pg.clcwc6cec8sd.us-east-1.rds.amazonaws.com:5432/sakila'

In [10]:
sql_query = 'SELECT * FROM rol;'
df_rol = pd.read_sql(sql_query, driver)
df_rol.head()

Unnamed: 0,idrol,nombre,descripcion,estado
0,1,Dueño,Propietario de la tienda,1
1,2,Vendedor,Encargado de las ventas,1
2,3,Asistente,Apoyo para ventas,1
3,4,Mensajero,Entrega de pedidos a domicilio,1
4,5,Contador,Finanzas de la tienda,1


In [11]:
sql_query = 'SELECT * FROM usuario;'
df_usuario = pd.read_sql(sql_query, driver)
df_usuario.head()

Unnamed: 0,idusuario,idrol,nombre,tipo_documento,num_documento,direccion,telefono,email,clave,estado
0,0,5,Ashlee Burke,DPI,26869345083476836496,Unit 4864 Box 2543\nDPO AE 59738,+1-529-460-5962x3160,grace58@gmail.com,1010101,1
1,1,3,Stacey Nelson,DPI,23610195656716752703,"692 Mary Village Suite 679\nFreemanchester, NM...",745-652-2045x7439,nathaniel90@gmail.com,1010101,1
2,2,2,Angela Mason,DPI,21429777191932313135,"8162 Monica Heights\nEast Kevinstad, NH 32955",381-624-7706,sbrown@gmail.com,1010101,1
3,3,1,Daniel Reed,DPI,22128757048421280494,"20762 David Ford Apt. 060\nSouth Charles, MA 7...",001-275-354-0448x474,jacksonjack@gmail.com,1010101,1
4,4,4,Nicholas Potter,DPI,23421141874913153979,"9260 Carroll Islands Apt. 961\nEast Tammytown,...",+1-377-242-7951x4928,michelle70@gmail.com,1010101,1


In [12]:
# Dimensión colaborador
dim_colaborador = df_usuario.merge(df_rol, on='idrol', how='left', suffixes=('_colaborador', '_rol'))
dim_colaborador

Unnamed: 0,idusuario,idrol,nombre_colaborador,tipo_documento,num_documento,direccion,telefono,email,clave,estado_colaborador,nombre_rol,descripcion,estado_rol
0,0,5,Ashlee Burke,DPI,26869345083476836496,Unit 4864 Box 2543\nDPO AE 59738,+1-529-460-5962x3160,grace58@gmail.com,1010101,1,Contador,Finanzas de la tienda,1
1,1,3,Stacey Nelson,DPI,23610195656716752703,"692 Mary Village Suite 679\nFreemanchester, NM...",745-652-2045x7439,nathaniel90@gmail.com,1010101,1,Asistente,Apoyo para ventas,1
2,2,2,Angela Mason,DPI,21429777191932313135,"8162 Monica Heights\nEast Kevinstad, NH 32955",381-624-7706,sbrown@gmail.com,1010101,1,Vendedor,Encargado de las ventas,1
3,3,1,Daniel Reed,DPI,22128757048421280494,"20762 David Ford Apt. 060\nSouth Charles, MA 7...",001-275-354-0448x474,jacksonjack@gmail.com,1010101,1,Dueño,Propietario de la tienda,1
4,4,4,Nicholas Potter,DPI,23421141874913153979,"9260 Carroll Islands Apt. 961\nEast Tammytown,...",+1-377-242-7951x4928,michelle70@gmail.com,1010101,1,Mensajero,Entrega de pedidos a domicilio,1


In [13]:
sql_query = 'SELECT * FROM categoria;'
df_categoria = pd.read_sql(sql_query, driver)
df_categoria.head()

Unnamed: 0,idcategoria,nombre,descripcion,estado
0,1,Alimentos,"Pan, galletas, snacks y helados",1
1,2,Bebidas,"Agua, gaseosas, jugos y leche",1
2,3,Limpieza,"Jabón, detergente, cloro y bolsas",1
3,4,Miscelania,"Baterías, pegamento y medicamentos",1


In [14]:
sql_query = 'SELECT * FROM articulo;'
df_articulo = pd.read_sql(sql_query, driver)
df_articulo.head()

Unnamed: 0,idarticulo,idcategoria,codigo,nombre,precio_venta,stock,descripcion,imagen,estado
0,1,1,torlim,Totrix limón,2.0,14,unidad de 38 gramos,torlim.png.,1
1,2,1,sandbutt,Pan Sándwich Butter,22.95,13,bolsa de 690 gramos,sandbutt.png.,1
2,3,1,gallchk,Galleta Chocolate Chiky Pack,19.3,10,"pack de 10 unidades, 40 gramos/unidad",gallchik.png.,1
3,4,1,gallwaff,Galleta Waffle 12 pack,12.7,19,pack de 256.5 gramos,gallwaff.png.,1
4,5,2,cczero,Coca Cola sin azúcar,16.0,10,envase de 2.5 litros’,cczero.png.,1


In [15]:
# Dimensión producto
dim_producto = df_articulo.merge(df_categoria, on='idcategoria', how='left', suffixes=('_producto', '_categoria'))
dim_producto

Unnamed: 0,idarticulo,idcategoria,codigo,nombre_producto,precio_venta,stock,descripcion_producto,imagen,estado_producto,nombre_categoria,descripcion_categoria,estado_categoria
0,1,1,torlim,Totrix limón,2.0,14,unidad de 38 gramos,torlim.png.,1,Alimentos,"Pan, galletas, snacks y helados",1
1,2,1,sandbutt,Pan Sándwich Butter,22.95,13,bolsa de 690 gramos,sandbutt.png.,1,Alimentos,"Pan, galletas, snacks y helados",1
2,3,1,gallchk,Galleta Chocolate Chiky Pack,19.3,10,"pack de 10 unidades, 40 gramos/unidad",gallchik.png.,1,Alimentos,"Pan, galletas, snacks y helados",1
3,4,1,gallwaff,Galleta Waffle 12 pack,12.7,19,pack de 256.5 gramos,gallwaff.png.,1,Alimentos,"Pan, galletas, snacks y helados",1
4,5,2,cczero,Coca Cola sin azúcar,16.0,10,envase de 2.5 litros’,cczero.png.,1,Bebidas,"Agua, gaseosas, jugos y leche",1
5,6,2,jugnar,Jugo de Naranja,25.95,9,envase de 1.8 litros’,jugnar.png.,1,Bebidas,"Agua, gaseosas, jugos y leche",1
6,7,2,minsal,Agua Mineral Salutaris,9.9,17,envase de 2 litros’,minsal.png.,1,Bebidas,"Agua, gaseosas, jugos y leche",1
7,8,2,agusal,Agua Pura Salvavidas,10.5,5,envase de 3.78 litros’,agusall.png.,1,Bebidas,"Agua, gaseosas, jugos y leche",1
8,9,2,suehid,Suero Hidravida,16.15,17,unidad de 625 ml’,suehid.png.,1,Bebidas,"Agua, gaseosas, jugos y leche",1
9,10,3,jabaxn,Jabón para platos Axión,10.3,16,unidad de 600 gramos,jabaxn.png.,1,Limpieza,"Jabón, detergente, cloro y bolsas",1


In [16]:
# Dimensión persona
sql_query = 'SELECT * FROM persona;'
df_persona = pd.read_sql(sql_query, driver)
dim_persona = df_persona.copy()
df_persona.head()

Unnamed: 0,idpersona,tipo_persona,nombre,tipo_documento,num_documento,direccion,telefono,email
0,0,Proveedor,Timothy Hodge,DPI,28225718819942142367,"05486 Reeves Crest\nWest Phillipstad, VA 15380",+1-516-246-9239x841,sarahponce@gmail.com
1,1,Cliente,Ashley Castillo,DPI,21148297307142326897,"0510 Brian Lake\nAllisonland, TN 50635",704-480-8114x31359,woodrebecca@gmail.com
2,2,Proveedor,Joanne Day,DPI,24277444232848164940,"508 Garcia Villages Apt. 078\nBrownton, GA 96045",(574)327-0117x90900,scastillo@gmail.com
3,3,Proveedor,Michael Howell,DPI,23551321417884376403,"6367 Brandon Station\nNorth Scottfurt, AK 04031",(408)406-9927,stanley34@gmail.com
4,4,Proveedor,Connie Gray,DPI,24853225327540908301,"PSC 2482, Box 8602\nAPO AE 12771",442.505.1970,vray@gmail.com


In [17]:
# Dimensión venta
sql_query = 'SELECT * FROM detalle_venta;'
dim_venta = pd.read_sql(sql_query, driver)
dim_venta.head()

Unnamed: 0,iddetalle_venta,idventa,idarticulo,cantidad,precio,descuento
0,0,0,9,3,16.15,0.0
1,1,0,5,1,16.0,0.0
2,2,0,9,1,16.15,0.0
3,10,1,4,1,12.7,0.0
4,11,1,4,1,12.7,0.0


In [18]:
# Tabla de hechos venta
sql_query = 'SELECT * FROM venta;'
fact_venta = pd.read_sql(sql_query, driver)
fact_venta.head()

Unnamed: 0,idventa,idcliente,idusuario,tipo_comprobante,serie_comprobante,num_comprobante,fecha,impuesto,total,estado
0,0,11,4,Factura,3003665,3472946217,2024-01-29,9.67,80.6,1
1,1,16,3,Factura,1637960,7254456563,2024-01-23,3.05,25.4,1
2,2,12,4,Factura,7362158,1817013100,2024-02-17,0.48,4.0,1
3,3,17,1,Factura,8768881,4333202809,2024-01-02,3.71,30.9,1
4,4,12,1,Factura,2779690,7873066678,2024-01-09,10.17,84.75,1


In [19]:
# Dimensión ingreso
sql_query = 'SELECT * FROM detalle_ingreso;'
dim_ingreso = pd.read_sql(sql_query, driver)
dim_ingreso.head()

Unnamed: 0,iddetalle_ingreso,idingreso,idarticulo,cantidad,precio
0,0,0,2,2,22.95
1,1,0,5,1,16.0
2,2,0,7,2,9.9
3,3,0,2,2,22.95
4,4,0,9,2,16.15


In [20]:
# Tabla de hechos ingreso
sql_query = 'SELECT * FROM ingreso;'
fact_ingreso = pd.read_sql(sql_query, driver)
fact_ingreso.head()

Unnamed: 0,idingreso,idproveedor,idusuario,tipo_comprobante,serie_comprobante,num_comprobante,fecha,impuesto,total,estado
0,0,0,2,Factura,3437357,5240659148,2024-03-17,19.19,159.9,1
1,1,2,0,Factura,7693968,6944291162,2024-03-14,20.92,174.3,1
2,2,14,4,Factura,6953654,4583417347,2024-01-29,5.83,48.6,1


# ETL

## Creación de instancia

In [3]:
try:
    response = aws_rds_conn.create_db_instance(
                            DBInstanceIdentifier=config.get('SAKILA2', 'DB_INSTANCE_ID'),
                            DBName=config.get('SAKILA2', 'DB_NAME'),
                            MasterUsername=config.get('SAKILA2', 'DB_USERNAME'),
                            MasterUserPassword=config.get('SAKILA2', 'DB_PASSWORD'),
                            Port=int(config.get('SAKILA2', 'DB_PORT')),
                            DBInstanceClass='db.t3.micro',
                            Engine='mysql',
                            PubliclyAccessible=True,
                            AllocatedStorage=10,
                            VpcSecurityGroupIds=[config.get('VPC', 'SECURITY_GROUP')]
                            )
    print(response)
except aws_rds_conn.exceptions.DBInstanceAlreadyExistsFault:
    print('La instancia ya existe')
except Exception as ex:
    print('Error', ex)

La instancia ya existe


## Obtención de instancia

In [3]:
try:
    instance2 = aws_rds_conn.describe_db_instances(DBInstanceIdentifier=config.get('SAKILA2', 'DB_INSTANCE_ID'))
    RDS_HOSTNAME2 = instance2.get('DBInstances')[0].get('Endpoint').get('Address')
    print(RDS_HOSTNAME2)
except Exception as ex:
    print('Error', ex)

sakila2-db-pg.clcwc6cec8sd.us-east-1.rds.amazonaws.com


## Conexión y creación de base de datos

In [4]:
import ddl_2 as query2
import mysql.connector as mysqlC

try:
    db_mysql_conn = mysqlC.connect(
                    database=config.get('SAKILA2', 'DB_NAME'),
                    user=config.get('SAKILA2', 'DB_USERNAME'),
                    password=config.get('SAKILA2', 'DB_PASSWORD'),
                    port=config.get('SAKILA2', 'DB_PORT'),
                    host=RDS_HOSTNAME2
    )
    cursor = db_mysql_conn.cursor()
    for query in query2.DDL_QUERY2.split(';')[:-1]:
        cursor.execute(query)
        db_mysql_conn.commit()
except Exception as ex:
    print('Error', ex)

## Inserción de datos

In [5]:
mysql_driver = f"""mysql+pymysql://{config.get('SAKILA2', 'DB_USERNAME')}:{config.get('SAKILA2', 'DB_PASSWORD')}@{RDS_HOSTNAME2}:{config.get('SAKILA2', 'DB_PORT')}/{config.get('SAKILA2', 'DB_NAME')}"""  
mysql_driver 

'mysql+pymysql://admin_mysql:jublnuh1Kor3KEPO1rADldLmi@sakila2-db-pg.clcwc6cec8sd.us-east-1.rds.amazonaws.com:3306/sakila2'

In [22]:
dim_colaborador.to_sql('dim_colaborador', mysql_driver, index=False, if_exists='append')

5

In [23]:
dim_producto.to_sql('dim_producto', mysql_driver, index=False, if_exists='append')

11

In [24]:
dim_persona.to_sql('dim_persona', mysql_driver, index=False, if_exists='append')

20

In [26]:
fact_venta.to_sql('fact_venta', mysql_driver, index=False, if_exists='append')

5

In [27]:
dim_venta.to_sql('dim_venta', mysql_driver, index=False, if_exists='append')

10

In [28]:
fact_ingreso.to_sql('fact_ingreso', mysql_driver, index=False, if_exists='append')

3

In [29]:
dim_ingreso.to_sql('dim_ingreso', mysql_driver, index=False, if_exists='append')

11