## ETL

Ahora procedemos a realizar las preguntas para saber cómo se diseñará el DW:
1. ¿Cuáles son los artículos más vendidos en un período de tiempo específico?
2. ¿Cuál es el historial de compras de un cliente específico y cuál es su valor de vida para la empresa?
3. ¿Cómo varía la demanda de productos en diferentes temporadas o períodos del año?
4. ¿Cuál es el comportamiento de compra de los clientes en función de su ubicación geográfica?
5. ¿Cuál es el rendimiento de los proveedores en términos de entregas a tiempo y calidad de productos?

Sabiendo esto, realizamos un modelo estrella con la tabla de hechos "venta" el cual es la base de todas las necesidades

1. **Tabla de hechos (venta):**
   - idventa (PK)
   - fecha
   - idcliente (FK a la tabla persona)
   - idusuario (FK a la tabla usuario)
   - idarticulo (FK a la tabla articulo)
   - idcategoria (FK a la tabla categoria)
   - tipo_comprobante
   - serie_comprobante
   - num_comprobante
   - cantidad
   - precio
   - descuento
   - impuesto
   - total

2. **Dimensiones:**
   - **Dim_Cliente (cliente):**
     - idcliente (PK)
     - nombre
     - tipo_persona
     - tipo_documento
     - num_documento
     - direccion
     - telefono
     - email

   - **Dim_Usuario (usuario):**
     - idusuario (PK)
     - nombre
     - tipo_documento
     - num_documento
     - direccion
     - telefono
     - email

   - **Dim_Articulo (articulo):**
     - idarticulo (PK)
     - codigo
     - nombre
     - precio_venta
     - stock

   - **Dim_Categoria (categoria):**
     - idcategoria (PK)
     - nombre
     - descripcion
     - estado


Procedemos conectarnos con la base de datos:

In [1]:
import pandas as pd
import numpy as np
import boto3
import psycopg2
import configparser

import mysql.connector as mysqlC

In [5]:
config = configparser.ConfigParser()
config.read('config1.cfg')

['config1.cfg']

In [8]:
RDS_HOSTNAME = 'proyect-venta-db.c5a4euw2wd87.us-east-1.rds.amazonaws.com'

In [9]:
driver = f"""postgresql://{config.get('VENTAS', 'DB_USERNAME')}:{config.get('VENTAS', 'DB_PASSWORD')}@{RDS_HOSTNAME}:{config.get('VENTAS', 'DB_PORT')}/{config.get('VENTAS', 'DB_NAME')}"""
driver

'postgresql://admin_postgres:bo*Y+EoY+wA--7.Kb559C@proyect-venta-db.c5a4euw2wd87.us-east-1.rds.amazonaws.com:5432/ventas'

---

**Creamos Dim_Cliente**

In [76]:
sql_query = 'SELECT * FROM persona;'
dimCliente = pd.read_sql(sql_query, driver)
dimCliente.head()

Unnamed: 0,idpersona,tipo_persona,nombre,tipo_documento,num_documento,direccion,telefono,email
0,9753,Proveedor,Dean Hill,Pasaporte,56186658,"9278 Medina Rue Suite 456\nIanborough, CA 26171",001-316-535-8442x31,lisasnyder@example.org
1,68262,Proveedor,Debra Griffin,Pasaporte,25099238,"420 Anderson Walks\nJosephmouth, AS 72078",449.485.6943x728,george46@example.org
2,94888,Proveedor,Donald Greer,Carnet_extranjería,90223688,3208 Phillips Glen Suite 456\nNorth Kellyborou...,862-252-6386,wilsonkevin@example.org
3,9541,Proveedor,Leonard Davis,Carnet_extranjería,58492343,"713 Soto Overpass Apt. 279\nAmandabury, KY 05048",(765)662-7264x4718,joelwong@example.org
4,98042,Proveedor,Danielle Smith,DNI,891461,"49424 Valdez Tunnel\nNew Timothyshire, VA 16801",998-936-6720x27368,jessicadavis@example.com


---

**Creamos Dim_Usario**

In [None]:
sql_query = 'SELECT * FROM usuario;'
dimUsuario = pd.read_sql(sql_query, driver)
dimUsuario.head()

In [None]:
dimUsuario.drop(['id_rol', 'clave', 'estado'], axis=1,  inplace=True)
dimUsuario.head()

---

**Creamos Dim_Articulo**

In [None]:
sql_query = 'SELECT * FROM articulo;'
dimArticulo = pd.read_sql(sql_query, driver)
dimArticulo.drop(['descripcion', 'imagen','estado'], axis=1,  inplace=True)
dimArticulo.head()

---

**Creamos Dim_Categoria**

In [22]:
sql_query = 'SELECT * FROM categoria;'
dimCategoria = pd.read_sql(sql_query, driver)
dimCategoria.head()

Unnamed: 0,idcategoria,nombre,descripcion,estado
0,101,Electrónica,"teléfonos móviles, computadoras portátiles, te...",1
1,102,Ropa,"camisetas, pantalones, vestidos, chaquetas,",1
2,103,Calzado,"Tennis, botas, sandalias, casuales",1
3,104,Alimentos,"Carnes, verdura, fruta, lacteos, legumbres",0
4,105,Salud y belleza,"cremas faciales, shampoo, jabon para manos, me...",1


---

**Creamos tabla de hechos Venta**

In [72]:
sql_query = '''SELECT * FROM venta;'''
HcsVentas = pd.read_sql(sql_query, driver)
HcsVentas.drop(['estado'], axis=1,  inplace=True)
HcsVentas.head()

Unnamed: 0,idventa,idcliente,idusuario,tipo_comprobante,serie_comprobante,num_comprobante,fecha,impuesto,total
0,42058,93576,24,Boleta,386,3207162,2023-12-08,0.15,1736.57
1,54895,27718,39,Factura,39,6747503,2024-02-29,0.1,2018.48
2,15328,72933,37,Boleta,339,1053441,2024-01-04,0.19,2368.45
3,35454,76141,31,Boleta,91,7507854,2023-12-21,0.17,2622.81
4,98033,23149,5,Factura,365,3371484,2024-01-24,0.15,1799.25


In [73]:
sql_query = '''SELECT * FROM detalle_venta;'''
df_detalle_venta = pd.read_sql(sql_query, driver)

HcsVentas = HcsVentas.merge(df_detalle_venta, on='idventa', how='inner')
HcsVentas

Unnamed: 0,idventa,idcliente,idusuario,tipo_comprobante,serie_comprobante,num_comprobante,fecha,impuesto,total,iddetalle_venta,idarticulo,cantidad,precio,descuento
0,42058,93576,24,Boleta,386,3207162,2023-12-08,0.15,1736.57,20,18,72,29.54,28.36
1,15328,72933,37,Boleta,339,1053441,2024-01-04,0.19,2368.45,50,11,79,477.71,30.71
2,98033,23149,5,Factura,365,3371484,2024-01-24,0.15,1799.25,7,3,63,158.50,26.59
3,96770,78474,48,Factura,52,9939060,2024-03-10,0.08,236.12,89,14,84,318.57,17.27
4,22551,12444,19,Factura,160,2689099,2023-12-19,0.13,1593.24,55,6,16,218.61,1.31
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,35753,54944,20,Factura,655,6693635,2024-02-16,0.12,1337.14,85,18,45,257.97,19.99
96,83202,27487,8,Factura,334,1013444,2023-11-09,0.09,2771.70,91,13,61,233.54,16.42
97,13081,5239,46,Boleta,706,3606919,2024-02-14,0.08,699.08,56,12,47,323.35,8.29
98,82599,18568,30,Factura,193,8295402,2023-09-07,0.18,3368.37,1,6,63,23.89,20.63


---

### Creación de Instancias en AWS para DW

In [59]:
config = configparser.ConfigParser()
config.read('config2.cfg')

['config2.cfg']

In [60]:
aws_conn = boto3.client('rds', aws_access_key_id=config.get('IAM', 'ACCESS_KEY'),
                    aws_secret_access_key=config.get('IAM', 'SECRET_KEY'),
                    region_name='us-east-1')
print(aws_conn)

<botocore.client.RDS object at 0x00000222407B7B50>


In [61]:
rdsInstanceIds = []

response = aws_conn.describe_db_instances()
for resp in response['DBInstances']:
    rdsInstanceIds.append(resp['DBInstanceIdentifier'])
    db_instance_status = resp['DBInstanceStatus']

print(f"DBInstanceIds {rdsInstanceIds}")

DBInstanceIds ['proyect', 'proyect-venta-db', 'sakila-db-pg-v']


In [62]:
rdsIdentifier = 'proyectDW'

In [None]:
try:
    response = aws_conn.create_db_instance(
            AllocatedStorage=10,
            DBName=config.get('RDS_MYSQL', 'DB_NAME'),
            DBInstanceIdentifier=rdsIdentifier,
            DBInstanceClass="db.t3.micro",
            Engine="mysql",
            MasterUsername=config.get('RDS_MYSQL', 'DB_USERNAME'),
            MasterUserPassword=config.get('RDS_MYSQL', 'DB_PASSWORD'),
            Port=int(config.get('RDS_MYSQL', 'DB_PORT')),
            VpcSecurityGroupIds=[config.get('VPC', 'SECURITY_GROUP')],
            PubliclyAccessible=True
        )
    print(response)
except aws_conn.exceptions.DBInstanceAlreadyExistsFault as ex:
    print("La Instancia de Base de Datos ya Existe.")

In [64]:
try:
    instances = aws_conn.describe_db_instances(DBInstanceIdentifier=rdsIdentifier)
    RDS_DW_HOST = instances.get('DBInstances')[0].get('Endpoint').get('Address')
    print(RDS_DW_HOST)
except Exception as ex:
    print("La instancia de base de datos no existe o aun no se ha terminado de crear.")
    print(ex)

proyectdw.c5a4euw2wd87.us-east-1.rds.amazonaws.com


In [65]:
import dw_venta
import mysql.connector as mysqlC

try:
    myDw = mysqlC.connect(host=RDS_DW_HOST, 
                          user=config.get('RDS_MYSQL', 'DB_USERNAME'),
                          password=config.get('RDS_MYSQL', 'DB_PASSWORD'),
                          database=config.get('RDS_MYSQL', 'DB_NAME')
    )

    mycursor = myDw.cursor()
    mycursor.execute(dw_venta.CREATE_DW, multi=True)
    myDw.commit()
    print("Data Warehouse Creado Exitosamente")
except Exception as ex:
    print("ERROR: Error al crear la base de datos.")
    print(ex)

ERROR: Error al crear la base de datos.
2003 (HY000): Can't connect to MySQL server on 'proyectdw.c5a4euw2wd87.us-east-1.rds.amazonaws.com:3306' (10060)


In [69]:
mysql_driver = f"""mysql+pymysql://{config.get('RDS_MYSQL', 'DB_USERNAME')}:{config.get('RDS_MYSQL', 'DB_PASSWORD')}@{RDS_DW_HOST}:{config.get('RDS_MYSQL', 'DB_PORT')}/{config.get('RDS_MYSQL', 'DB_NAME')}"""

In [78]:
dimCliente.to_sql('cliente', mysql_driver, index=False, if_exists='append')

ModuleNotFoundError: No module named 'pymysql'

In [68]:
!git add ETL.ipynb
!git commit -m "Creacion de dw"
!git push --set-upstream origin master



[master e02a6e8] Creacion de dw
 1 file changed, 1071 insertions(+)
 create mode 100644 ETL.ipynb
branch 'master' set up to track 'origin/master'.


To https://github.com/ElMangel/Proyecto_final.git
   b752164..e02a6e8  master -> master
