# Creación de instancia y bases de datos origen

In [1]:
import pandas as pd
import numpy as np
import boto3
import psycopg2
import configparser
from faker import Faker
import random
from datetime import datetime, timedelta

## Se lee el archivo de configuración

In [2]:
config = configparser.ConfigParser()
config.read('config_pf.cfg')

['config_pf.cfg']

## Se identifica con AWS

In [3]:
aws_rds_conn = boto3.client('rds',aws_access_key_id=config.get('IAM','ACCES_KEY'),
                             aws_secret_access_key=config.get('IAM','SECRETE_ACCES_KEY'),region_name='us-east-1')

## Se verifican las instancias de AWS disponibles en el usuario

In [4]:
rds_instances_ids=[]

aws_response = aws_rds_conn.describe_db_instances()

for response in aws_response['DBInstances']:
    rds_instances_ids.append(response['DBInstanceIdentifier'])

print(f'Instancias Disponibles: {rds_instances_ids}')


Instancias Disponibles: ['banco-dw-pf', 'banco-transactional', 'banco-transactional-pf']


In [10]:
config.get('TRANSACC','DB_INSTANCE_ID')

'banco-transactional-pf'

In [48]:
try:
    response = aws_rds_conn.create_db_instance(
        DBInstanceIdentifier= config.get('TRANSACC','DB_INSTANCE_ID'),
        DBName=config.get('TRANSACC','DB_NAME'),
        DBInstanceClass= 'db.t3.micro',
        Engine='postgres',
        MasterUsername=config.get('TRANSACC','DB_USER'),
        MasterUserPassword=config.get('TRANSACC','DB_PASSWORD'),
        Port=int(config.get('TRANSACC','DB_PORT')),
        PubliclyAccessible=True,
        VpcSecurityGroupIds=[config.get('VPC','SECURITY_GROUP')],
        AllocatedStorage=15
    )
    print(response)
except aws_rds_conn.DBInstanceAlreadyExistsFault as ex:
    print("La instancia ya existe")
except Exception as ex:
    print("Error!!",ex)

{'DBInstance': {'DBInstanceIdentifier': 'banco-transactional-pf', 'DBInstanceClass': 'db.t3.micro', 'Engine': 'postgres', 'DBInstanceStatus': 'creating', 'MasterUsername': 'postgres_admin', 'DBName': 'bancopf', 'AllocatedStorage': 15, 'PreferredBackupWindow': '03:18-03:48', 'BackupRetentionPeriod': 1, 'DBSecurityGroups': [], 'VpcSecurityGroups': [{'VpcSecurityGroupId': 'sg-0915eacfa3699b8e1', 'Status': 'active'}], 'DBParameterGroups': [{'DBParameterGroupName': 'default.postgres16', 'ParameterApplyStatus': 'in-sync'}], 'DBSubnetGroup': {'DBSubnetGroupName': 'default', 'DBSubnetGroupDescription': 'default', 'VpcId': 'vpc-0c68fc484f68de215', 'SubnetGroupStatus': 'Complete', 'Subnets': [{'SubnetIdentifier': 'subnet-0f87c44f16aeb7b6e', 'SubnetAvailabilityZone': {'Name': 'us-east-1d'}, 'SubnetOutpost': {}, 'SubnetStatus': 'Active'}, {'SubnetIdentifier': 'subnet-0dc42dd0b689eb8b7', 'SubnetAvailabilityZone': {'Name': 'us-east-1c'}, 'SubnetOutpost': {}, 'SubnetStatus': 'Active'}, {'SubnetIdenti

### Obtenemos el hostname de las instacias

In [5]:
try:
    instance = aws_rds_conn.describe_db_instances(DBInstanceIdentifier=config.get('TRANSACC','DB_INSTANCE_ID'))
    RDS_HOSTNAME= instance.get('DBInstances')[0].get('Endpoint').get('Address')
    print(RDS_HOSTNAME)
except Exception as ex:
    print('Error!!!',ex)


banco-transactional-pf.cj0y8e88oxze.us-east-1.rds.amazonaws.com


### Nos conectamos a la base de datos desde Python

In [6]:
import sql_queries
sql_queries.DDL_QUERY

'\nCREATE TABLE IF NOT EXISTS categoria (\n    id_categoria SERIAL PRIMARY KEY,\n    nombre_categoria VARCHAR(100) NOT NULL,\n    descripcion TEXT,\n    estado BOOLEAN NOT NULL\n);\n\nCREATE TABLE IF NOT EXISTS cliente (\n    id_cliente SERIAL PRIMARY KEY,\n    nombre_cliente VARCHAR(100),\n    genero_cliente VARCHAR(50),\n    tipo_documento VARCHAR(50),\n    num_documento VARCHAR(20),\n    direccion TEXT,\n    telefono VARCHAR(20),\n    email VARCHAR(100)\n);\n\nCREATE TABLE IF NOT EXISTS articulo (\n    id_articulo SERIAL PRIMARY KEY,\n    nombre_articulo VARCHAR(100) NOT NULL,\n    id_categoria INTEGER REFERENCES categoria(id_categoria),\n    codigo VARCHAR(50) UNIQUE,\n    precio_venta NUMERIC(10, 2) NOT NULL,\n    stock INTEGER NOT NULL,\n    descripcion TEXT,\n    imagen TEXT,\n    estado BOOLEAN NOT NULL\n);\n\n\nCREATE TABLE IF NOT EXISTS proveedor (\n    id_proveedor SERIAL PRIMARY KEY,\n    id_articulo INTEGER REFERENCES articulo(id_articulo),\n    nombre_proveedor VARCHAR(10

In [8]:
try:
    db_pg_conn = psycopg2.connect(
        database= config.get('TRANSACC','DB_NAME'),
        user=config.get('TRANSACC','DB_USER'),
        password=config.get('TRANSACC','DB_PASSWORD'),
        host=RDS_HOSTNAME,
        port=config.get('TRANSACC','DB_PORT')
    )

    
    cursor = db_pg_conn.cursor()
    cursor.execute(sql_queries.DDL_QUERY)
    db_pg_conn.commit()
    print("Base de Datos Creada Exitosamente")
except Exceptions as ex:
    print("Error!!!",ex)

Base de Datos Creada Exitosamente


## Insertamos datos en a base de datos

## Función para insertar datos

In [9]:
def insertData2SQL(data_dict,table_name,driver):
    df_data=pd.DataFrame.from_records(data_dict)
    try:
        response= df_data.to_sql(table_name,driver,index=False,if_exists='append')
        print(f"se han insertado {response} nuevos registros")
    except Exception as ex:
        print(f"Error!! {ex}")

In [10]:
driver = f"""postgresql://{config.get('TRANSACC', 'DB_USER')}:{config.get('TRANSACC', 'DB_PASSWORD')}@{RDS_HOSTNAME}:{config.get('TRANSACC', 'DB_PORT')}/{config.get('TRANSACC', 'DB_NAME')}"""  
driver

'postgresql://postgres_admin:BawemEteTAy0vuvePeswOnutr@banco-transactional-pf.cj0y8e88oxze.us-east-1.rds.amazonaws.com:5432/bancopf'

### Categorias

In [11]:
data_categorias = [
     {'id_categoria': 1, 'nombre_categoria': 'electronicos','descripcion':'dispositivos','estado':'TRUE'}, 
     {'id_categoria': 2, 'nombre_categoria': 'linea blanca','descripcion':'para la casa','estado':'TRUE'}]
insertData2SQL(data_categorias, 'categoria',driver)

se han insertado 2 nuevos registros


### Articulo

In [12]:
data_articulo = [
     {'id_articulo': 1, 'nombre_articulo': 'celular','codigo': 1111,'precio_venta': 2500,'stock': 1500,'descripcion': 'smart phone','imagen': 'imagen1','estado': 'TRUE','id_categoria': 1}, 
     {'id_articulo': 2, 'nombre_articulo': 'computadora','codigo':22221,'precio_venta': 6000,'stock': 750,'descripcion': 'laptop','imagen': 'imagen2','estado': 'TRUE','id_categoria': 1},
     {'id_articulo': 3, 'nombre_articulo': 'tablet','codigo': 3333,'precio_venta': 4000,'stock': 400,'descripcion': 'apple','imagen': 'imagen3','estado': 'TRUE','id_categoria': 1},
     {'id_articulo': 4, 'nombre_articulo': 'lavadora','codigo': 4444,'precio_venta': 5500,'stock': 200,'descripcion': 'lg','imagen': 'imagen4','estado': 'TRUE','id_categoria': 2},
     {'id_articulo': 5, 'nombre_articulo': 'secadora','codigo': 5555,'precio_venta': 5000,'stock': 150,'descripcion': 'lg','imagen': 'imagen5','estado': 'FALSE','id_categoria': 2}]
insertData2SQL(data_articulo, 'articulo',driver)

se han insertado 5 nuevos registros


### Rol

In [13]:
data_rol = [
    {'id_rol': 1, 'nombre': 'jefe', 'descripcion': 'jefatura', 'estado': 'TRUE'},
    {'id_rol': 2, 'nombre': 'vendedor', 'descripcion': 'al detalle', 'estado': 'TRUE'},
    {'id_rol': 3, 'nombre': 'administrativo', 'descripcion': 'general', 'estado': 'TRUE'}
]
insertData2SQL(data_rol, 'rol',driver)

se han insertado 3 nuevos registros


### Proveedores

In [14]:
data_proveedores = [
    {'id_proveedor': 1, 'id_articulo':1 , 'nombre_proveedor': 'Juan'},
    {'id_proveedor': 2, 'id_articulo':2 , 'nombre_proveedor': 'Juana'},
    {'id_proveedor': 3, 'id_articulo':3, 'nombre_proveedor': 'Lucia'},
    {'id_proveedor': 4, 'id_articulo':4 , 'nombre_proveedor': 'Luis'},
    {'id_proveedor': 5, 'id_articulo':5, 'nombre_proveedor': 'Monica'},
]

insertData2SQL(data_proveedores, 'proveedor',driver)

se han insertado 5 nuevos registros


### Clientes

In [21]:
fake=Faker()
cantidad_clientes =500
data_clientes =[]
clientProfile = fake.profile()
for client in range(cantidad_clientes):
    gen=2003
    if(clientProfile['sex']=='M'):
        gen= 2002
    
    clientProfile = fake.profile()
    cliente_nuevo={
        'id_cliente':client,
        'nombre_cliente': clientProfile['name'],
        'tipo_documento': clientProfile['blood_group'],
        'num_documento': clientProfile['ssn'],
        'direccion': clientProfile['address'],
        'telefono': random.randint(10000000, 99999999),
        'email': clientProfile['mail'],
        'genero_cliente': gen,
    }
    data_clientes.append(cliente_nuevo)
insertData2SQL(data_clientes,'cliente',driver)

se han insertado 500 nuevos registros


### Usuario

In [22]:
sql_query = 'SELECT * FROM rol;'
df_rol = pd.read_sql(sql_query, driver)

In [23]:
rol = df_rol['id_rol'].tolist()
rol

[1, 2, 3]

In [24]:
cantidad_empleados =200
rol_weights = [0.2, 0.4, 0.4]
estado_weights = [0.1,0.9] 
estado = ['FALSE','TRUE']
fake=Faker()
data_usuario =[]


for index, usuario in enumerate(range(cantidad_empleados)):
    usuarioProfile = fake.profile()
    nuevo_usuario = {
        'id_usuario':index,
        'nombre': usuarioProfile['name'],
        'tipo_documento':usuarioProfile['blood_group'],
        'num_documento':usuarioProfile['ssn'],
        'direccion':usuarioProfile['address'],
        'telefono':random.randint(10000000, 99999999),
        'email':usuarioProfile['mail'],
        'clave':usuarioProfile['username'],
        'estado':np.random.choice(estado, p=estado_weights) ,
        'id_rol': np.random.choice(rol, p=rol_weights) 
    }
    data_usuario.append(nuevo_usuario)

insertData2SQL(data_usuario,'usuario',driver)

se han insertado 200 nuevos registros


### Ingreso

In [25]:
sql_query = 'SELECT * FROM proveedor;'
df_proveedor = pd.read_sql(sql_query, driver)
proveedor = df_proveedor['id_proveedor'].tolist()
proveedor

[1, 2, 3, 4, 5]

In [26]:
sql_query = 'SELECT * FROM usuario;'
df_usuario = pd.read_sql(sql_query, driver)
usuario_ad = df_usuario[df_usuario['id_rol'] == 2]['id_usuario'].tolist()

In [27]:
cantidad_ingreso =1500
rol_weights = [0.2, 0.4, 0.4]
comprobante=['comprobante1','comprobant2','comprobante3']
por_impuesto=[0.2,0.05,0.1,0.15]
inicio = datetime(2020, 1, 1)
fin = datetime(2023, 12, 31)
estado_weights = [0.1,0.9] 
estado = ['FALSE','TRUE']

data_ingreso =[]

for index, ingreso in enumerate(range(cantidad_ingreso)):
    nuevo_ingreso = {
        'id_ingreso':index,
        'id_proveedor': random.choice(proveedor),
        'id_usuario':random.choice(usuario_ad),
        'tipo_comprobante':random.choice(comprobante),
        'serie_comprobante':fake.isbn10()  ,
        'num_comprobante':random.randint(10000000, 99999999),
        'fecha':(inicio + timedelta(days=random.randint(0, (fin - inicio).days))),
        'impuesto':random.choice(por_impuesto),
        'total':random.randint(1000, 4500)  ,
        'estado': np.random.choice(estado, p=estado_weights) 
    }
    data_ingreso.append(nuevo_ingreso)

insertData2SQL(data_ingreso,'ingreso',driver)

se han insertado 500 nuevos registros


## Detalle ingreso

In [28]:
sql_query = 'SELECT * FROM ingreso;'
df_ingreso = pd.read_sql(sql_query, driver)

In [29]:
cantidad_d_ingreso =1500

data_d_ingreso =[]


for index, d_ingreso in enumerate(range(cantidad_d_ingreso)):
    id_proveedor_int = int(df_ingreso.iloc[index]['id_proveedor'])
    nuevo_d_ingreso = {
        'id_detalle_ingreso':index,
        'nombre_ingreso':fake.swift8(),
        'id_ingreso': index,        
        'id_articulo':df_proveedor.iloc[int(df_ingreso.iloc[index]['id_proveedor']-1)]['id_articulo'],
        'cantidad':random.randint(10, 200)     }
    
    data_d_ingreso.append(nuevo_d_ingreso)

insertData2SQL(data_d_ingreso,'detalle_ingreso',driver)

se han insertado 500 nuevos registros


### Detalle de venta

In [30]:
sql_query = 'SELECT * FROM articulo;'
df_articulo = pd.read_sql(sql_query, driver)
articulo = df_articulo['id_articulo'].tolist()
articulo

[1, 2, 3, 4, 5]

In [40]:
cantidad_d_venta =5000
articulo_weights = [0.45,0.2,0.15,0.15,0.05]
descuento = [0.05,0.1,0.15,0.20]
descuento_weights= [0.5,0.3,0.15,0.05]
data_d_venta =[]


for index, d_venta in enumerate(range(cantidad_d_venta)):
    id_articulo =np.random.choice(articulo, p=articulo_weights)
    nuevo_d_venta = {
        'id_detalle_venta':index,
        'id_venta':index,
        'id_articulo': id_articulo,        
        'precio':int(df_articulo[df_articulo['id_articulo'] == id_articulo]['precio_venta'].iloc[0]),
        'cantidad':int(np.clip(np.random.chisquare(2), 1, 10)),
        'descuento': np.random.choice(descuento, p=descuento_weights)
    }
    
    data_d_venta.append(nuevo_d_venta)

### Venta

In [41]:
sql_query = 'SELECT * FROM cliente;'
df_clientes = pd.read_sql(sql_query, driver)
clientes = df_clientes['id_cliente'].tolist()

In [42]:
sql_query = 'SELECT * FROM usuario;'
df_usuario = pd.read_sql(sql_query, driver)
df_usuario_venta = df_usuario[df_usuario['id_rol'] == 2]
usuario_venta = df_usuario_venta['id_usuario'].tolist()

In [43]:
df_d_venta = pd.DataFrame(data_d_venta)
df_d_venta['total'] = df_d_venta['precio'] * df_d_venta['cantidad']

In [44]:
cantidad_venta =5000
descuento_weights= [0.5,0.3,0.15,0.05]
impuesto = [0.05,0.12,0.15]
impuesto_weights= [0.2,0.6,0.2]
estado = ['TRUE','FALSE']
estado_weights= [0.95,0.05]

data_venta =[]

for index, venta in enumerate(range(cantidad_venta)):
    nuevo_venta = {
        'id_venta':index,
        'id_cliente':random.choice(clientes),
        'id_usuario': random.choice(usuario_venta),        
        'total':int(df_d_venta.loc[df_d_venta['id_venta'] == index, 'total'].iloc[0]),
        'tipo_comprobante':fake.sbn9(),
        'serie_comprobante':fake.isbn10(),
        'fecha':(inicio + timedelta(days=random.randint(0, (fin - inicio).days))),
        'impuesto': np.random.choice(impuesto, p=impuesto_weights),
        'estado': np.random.choice(estado, p=estado_weights),
    }
    
    data_venta.append(nuevo_venta)
    
insertData2SQL(data_venta,'venta',driver)

se han insertado 1000 nuevos registros


In [45]:
insertData2SQL(data_d_venta,'detalle_venta',driver)

se han insertado 1000 nuevos registros


### Tabla de transacciones

In [38]:
sql_query = 'SELECT * FROM ingreso;'
df_ingreso = pd.read_sql(sql_query, driver)
idingreso = df_ingreso['id_ingreso'].tolist()

In [39]:
cantidad_trans =5000

data_trans =[]

for index, trans in enumerate(range(cantidad_trans)):
    nuevo_trans = {
        'id_transaccion':index,
        'id_venta':index,
        'id_ingreso':random.choice(idingreso)}
    data_trans.append(nuevo_trans)
    
insertData2SQL(data_trans,'transacciones',driver)

se han insertado 1000 nuevos registros


# Subir a Git

In [6]:
cd "C:/Users/psantizo/Desktop/Maestría/Ciencia de datos con python/proyecto_final"

C:\Users\psantizo\Desktop\Maestría\Ciencia de datos con python\proyecto_final


In [7]:
!git config --global user.email "24000134@galileo.edu"
!git config --global user.name "pjsantizo0607"

In [12]:
!git add creacion_db_pf.ipynb



In [13]:
!git commit -m "SubirNotebook"

[master (root-commit) ff96796] SubirNotebook
 1 file changed, 1010 insertions(+)
 create mode 100644 creacion_db_pf.ipynb


In [14]:
!git remote add repo https://github.com/pjsantizo0607/proyecto_final.git

In [15]:
!git push -f repo master

To https://github.com/pjsantizo0607/proyecto_final.git
 * [new branch]      master -> master
