In [1]:
import pandas as pd
import numpy as np
import random
import datetime
import boto3
import botocore
import psycopg2
import configparser
from datetime import date


### Nombre de la instancia

In [2]:
rdsIdentifier = 'dpir'

### Cargar archivo de config.

In [3]:
config = configparser.ConfigParser()
config.read('config.cfg')

['config.cfg']

### Crear instancia

In [4]:
aws_data = boto3.client('rds', aws_access_key_id=config.get('IAM', 'ACCESS_KEY'),
                     aws_secret_access_key=config.get('IAM', 'SECRET_ACCESS_KEY'),
                     region_name='us-east-1')

### Instancias disponibles

In [5]:
rdsInstanceIds = []

response = aws_data.describe_db_instances()
for resp in response['DBInstances']:
    rdsInstanceIds.append(resp['DBInstanceIdentifier'])
    db_instance_status = resp['DBInstanceStatus']

print(f"DBInstanceIds {rdsInstanceIds}")

DBInstanceIds ['dpir']


### Creacion de servicio RDS

In [6]:
try:
    response = aws_data.create_db_instance(
            AllocatedStorage=10,
            DBName=config.get('RDS', 'DB_NAME'),
            DBInstanceIdentifier=rdsIdentifier,
            DBInstanceClass="db.t3.micro",
            Engine="postgres",
            MasterUsername=config.get('RDS', 'DB_USER'),
            MasterUserPassword=config.get('RDS', 'DB_PASSWORD'),
            Port=int(config.get('RDS', 'DB_PORT')),
            VpcSecurityGroupIds=["sg-02abf94b67ee35a24"],
            PubliclyAccessible=True
        )
    print (response)
except aws_data.exceptions.DBInstanceAlreadyExistsFault as ex:
    print("La Instancia de Base de Datos ya Existe.")

La Instancia de Base de Datos ya Existe.


### Obteniendo URL del host

In [7]:
try:
     instances = aws_data.describe_db_instances(DBInstanceIdentifier=rdsIdentifier)
     RDS_HOST = instances.get('DBInstances')[0].get('Endpoint').get('Address')
     print(RDS_HOST)
except Exception as ex:
     print("La instancia de base de datos no existe o aun no se ha terminado de crear.")
     print(ex)

dpir.cfbnwxvpqafk.us-east-1.rds.amazonaws.com


In [8]:
postgres_driver = f"""postgresql://{config.get('RDS', 'DB_USER')}:{config.get('RDS', 'DB_PASSWORD')}@{RDS_HOST}:{config.get('RDS', 'DB_PORT')}/{config.get('RDS', 'DB_NAME')}"""

In [9]:
postgres_driver

'postgresql://a_dpir:QaO0kD9pGC53@dpir.cfbnwxvpqafk.us-east-1.rds.amazonaws.com:5432/dpir'

### Lectura fact_precio

In [10]:
sql_query = 'select * from fact_precio fp'
df_precios = pd.read_sql(sql_query, postgres_driver)
df_precios.head(5)

Unnamed: 0,Precio_ID,Producto_FK,Proveedor_FK,Fuente_FK,Medida_FK,Date_key,Divisa_FK,Precio,Marca,Pais,NOG,Responsable,Observaciones,timestamp
0,1,128,399,3,1,42152,8,350.0,,,24538745.0,,,2023-04-09 11:39:05
1,2,5,382,3,1,42375,8,9.1,ATRAMAT,,4958969.0,,,2023-04-09 11:39:05
2,3,5,384,3,1,42375,8,6.0,B BRAUN,,4958969.0,,,2023-04-09 11:39:05
3,4,5,413,3,1,42375,8,3.8,VITAL SUTURES,,4958969.0,,,2023-04-09 11:39:05
4,5,5,391,3,1,42375,8,10.11,TAGUM,,4958969.0,,,2023-04-09 11:39:05


### Limpieza Data

In [11]:
df_precios=df_precios.iloc[:,0:8]
df_precios

Unnamed: 0,Precio_ID,Producto_FK,Proveedor_FK,Fuente_FK,Medida_FK,Date_key,Divisa_FK,Precio
0,1,128,399,3,1,42152,8,350.00
1,2,5,382,3,1,42375,8,9.10
2,3,5,384,3,1,42375,8,6.00
3,4,5,413,3,1,42375,8,3.80
4,5,5,391,3,1,42375,8,10.11
...,...,...,...,...,...,...,...,...
1934,1935,127,465,5,1,44995,10,12.31
1935,1936,127,466,5,1,44995,10,12.79
1936,1937,129,467,5,1,44995,10,12.31
1937,1938,148,468,5,1,44995,9,2.81


### Lectura de Dim_divisas

In [12]:
sql_query = 'select * from "dim_divisas" '
df_divisa = pd.read_sql(sql_query, postgres_driver)
df_divisa

Unnamed: 0,Divisa_FK,Divisa,Abreviatura,Simbolo,timestamp
0,8,Quetzal Guatemalteco,GTQ,Q,5/04/2023 17:44
1,9,Dolar Estadounidense,USD,$,5/04/2023 17:44
2,10,Euro,EUR,â¬,5/04/2023 17:44
3,11,Peso Mexicano,MXN,$,5/04/2023 17:44
4,12,Peso Filipino,PHP,â±,5/04/2023 17:44
5,13,Rupia India,INR,â¹,5/04/2023 17:44
6,14,Bolivar,VED,Bs,5/04/2023 17:44
7,15,Peso Argentino,ARP,$a,5/04/2023 17:44


### Cargando Bucket de S3: 'Tipo de Cambio'


In [13]:
s3 = boto3.resource(
    service_name = 's3',
    region_name = 'us-east-1',
    aws_access_key_id = config.get('IAM', 'ACCESS_KEY'),
    aws_secret_access_key = config.get('IAM', 'SECRET_ACCESS_KEY')
)

In [14]:
for bucket in s3.buckets.all():
    S3_BUCKET_NAME = bucket.name
    print(bucket.name)

dpir2023


In [15]:
S3_BUCKET_NAME='dpir2023'

In [16]:
import io
remoteFileList = []
for objt in s3.Bucket(S3_BUCKET_NAME).objects.all():
    remoteFileList.append(objt.key)

remoteFileList

['divisas/', 'divisas/Tipocambio.csv', 'ipc/', 'ipc/IPC.csv']

In [17]:
file = s3.Bucket(S3_BUCKET_NAME).Object('divisas/Tipocambio.csv').get()
data=io.BytesIO(file['Body'].read())
df_TdC=pd.read_csv(data,sep=';',encoding='latin1')
df_TdC

Unnamed: 0,Divisa,Tipo de cambio
0,Quetzal Guatemalteco,1.0
1,Dolar Estadounidense,7.7964
2,Euro,8.503
3,Peso Mexicano,0.4315
4,Peso Filipino,0.14
5,Rupia India,0.0948
6,Bolivar,0.3191
7,Peso Argentino,0.0371


### Join Tipo de cambio y divisa

In [18]:
df_divisa_TDC=df_divisa.merge(df_TdC,how='inner',on='Divisa')
df_divisa_TDC.drop(['Divisa','Abreviatura','Simbolo','timestamp'], axis=1,  inplace=True)
df_divisa_TDC

Unnamed: 0,Divisa_FK,Tipo de cambio
0,8,1.0
1,9,7.7964
2,10,8.503
3,11,0.4315
4,12,0.14
5,13,0.0948
6,14,0.3191
7,15,0.0371


### Join Tipo de cambio y Precios
Realizamos el Join de la tabla de precios con el tipo de cambio para luego realizar la conversión de la moneda a moneda local (Q)

In [20]:
df_Precio_Div=df_precios.merge(df_divisa_TDC,how='inner',on='Divisa_FK')

df_Precio_Div.head()

Unnamed: 0,Precio_ID,Producto_FK,Proveedor_FK,Fuente_FK,Medida_FK,Date_key,Divisa_FK,Precio,Tipo de cambio
0,1,128,399,3,1,42152,8,350.0,1.0
1,2,5,382,3,1,42375,8,9.1,1.0
2,3,5,384,3,1,42375,8,6.0,1.0
3,4,5,413,3,1,42375,8,3.8,1.0
4,5,5,391,3,1,42375,8,10.11,1.0


In [21]:
df_Precio_Div['Precio_Q']=df_Precio_Div['Precio']*df_Precio_Div['Tipo de cambio']
df_Precio_Div

Unnamed: 0,Precio_ID,Producto_FK,Proveedor_FK,Fuente_FK,Medida_FK,Date_key,Divisa_FK,Precio,Tipo de cambio,Precio_Q
0,1,128,399,3,1,42152,8,350.00,1.0000,350.000000
1,2,5,382,3,1,42375,8,9.10,1.0000,9.100000
2,3,5,384,3,1,42375,8,6.00,1.0000,6.000000
3,4,5,413,3,1,42375,8,3.80,1.0000,3.800000
4,5,5,391,3,1,42375,8,10.11,1.0000,10.110000
...,...,...,...,...,...,...,...,...,...,...
1934,1891,95,452,5,1,44995,14,168.58,0.3191,53.793878
1935,1892,95,452,5,1,44995,14,166.70,0.3191,53.193970
1936,1895,115,452,5,1,44995,14,492.92,0.3191,157.290772
1937,1932,90,453,5,1,44995,15,607.37,0.0371,22.533427


### Limpiamos columnas sin uso.

In [22]:

df_precios=df_Precio_Div.drop(['Precio','Tipo de cambio','Divisa_FK'], axis=1)
df_precios

Unnamed: 0,Precio_ID,Producto_FK,Proveedor_FK,Fuente_FK,Medida_FK,Date_key,Precio_Q
0,1,128,399,3,1,42152,350.000000
1,2,5,382,3,1,42375,9.100000
2,3,5,384,3,1,42375,6.000000
3,4,5,413,3,1,42375,3.800000
4,5,5,391,3,1,42375,10.110000
...,...,...,...,...,...,...,...
1934,1891,95,452,5,1,44995,53.793878
1935,1892,95,452,5,1,44995,53.193970
1936,1895,115,452,5,1,44995,157.290772
1937,1932,90,453,5,1,44995,22.533427


### Cargando Bucket de S3: 'IPC'

In [23]:
file = s3.Bucket(S3_BUCKET_NAME).Object('ipc/IPC.csv').get()
data=io.BytesIO(file['Body'].read())
df_ipc=pd.read_csv(data,sep=';')
df_ipc.drop(df_ipc.iloc[:, 2:13],axis = 1,inplace=True)
df_ipc['Mes']=df_ipc['Mes'].str.lower()
df_ipc

Unnamed: 0,Año,Mes,Bienes y servicios diversos
0,2011,abril,101.31
1,2011,mayo,101.60
2,2011,junio,101.73
3,2011,julio,101.79
4,2011,agosto,102.01
...,...,...,...
138,2022,octubre,129.74
139,2022,noviembre,130.02
140,2022,diciembre,130.69
141,2023,enero,131.06


In [24]:
ipc_Now=df_ipc['Bienes y servicios diversos'].iloc[-1]
ipc_Now

131.51

### Lectura Dim Date

In [25]:
sql_query = 'select * from dim_date fp'
df_date = pd.read_sql(sql_query, postgres_driver)
df_date.head(5)

Unnamed: 0,Date_key,Fecha,Mes,Año,Mes_Año,Fecha +40d
0,42005,2015-01-01,enero,2015,1.2015,2015-02-10
1,42006,2015-01-02,enero,2015,1.2015,2015-02-11
2,42007,2015-01-03,enero,2015,1.2015,2015-02-12
3,42008,2015-01-04,enero,2015,1.2015,2015-02-13
4,42009,2015-01-05,enero,2015,1.2015,2015-02-14


### Añade Rúbrica de antiguedad

In [26]:
df_date['Pond_D']=0
df_date.loc[df_date['Año']>=2021,'Pond_D']=1
df_date.loc[df_date['Año']<2019,'Pond_D']=-1
df_date

Unnamed: 0,Date_key,Fecha,Mes,Año,Mes_Año,Fecha +40d,Pond_D
0,42005,2015-01-01,enero,2015,1.2015,2015-02-10,-1
1,42006,2015-01-02,enero,2015,1.2015,2015-02-11,-1
2,42007,2015-01-03,enero,2015,1.2015,2015-02-12,-1
3,42008,2015-01-04,enero,2015,1.2015,2015-02-13,-1
4,42009,2015-01-05,enero,2015,1.2015,2015-02-14,-1
...,...,...,...,...,...,...,...
3282,45287,2023-12-27,diciembre,2023,12.2023,2024-02-05,1
3283,45288,2023-12-28,diciembre,2023,12.2023,2024-02-06,1
3284,45289,2023-12-29,diciembre,2023,12.2023,2024-02-07,1
3285,45290,2023-12-30,diciembre,2023,12.2023,2024-02-08,1


### Join Precios con Dim Date

In [27]:
df_Precios_Date=df_precios.merge(df_date,how='inner', on='Date_key')
df_Precios_Date

Unnamed: 0,Precio_ID,Producto_FK,Proveedor_FK,Fuente_FK,Medida_FK,Date_key,Precio_Q,Fecha,Mes,Año,Mes_Año,Fecha +40d,Pond_D
0,1,128,399,3,1,42152,350.000000,2015-05-28,mayo,2015,5.2015,2015-07-07,-1
1,2,5,382,3,1,42375,9.100000,2016-01-06,enero,2016,1.2016,2016-02-15,-1
2,3,5,384,3,1,42375,6.000000,2016-01-06,enero,2016,1.2016,2016-02-15,-1
3,4,5,413,3,1,42375,3.800000,2016-01-06,enero,2016,1.2016,2016-02-15,-1
4,5,5,391,3,1,42375,10.110000,2016-01-06,enero,2016,1.2016,2016-02-15,-1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1934,1891,95,452,5,1,44995,53.793878,2023-03-10,marzo,2023,3.2023,2023-04-19,1
1935,1892,95,452,5,1,44995,53.193970,2023-03-10,marzo,2023,3.2023,2023-04-19,1
1936,1895,115,452,5,1,44995,157.290772,2023-03-10,marzo,2023,3.2023,2023-04-19,1
1937,1932,90,453,5,1,44995,22.533427,2023-03-10,marzo,2023,3.2023,2023-04-19,1


In [28]:
df_Precios_Date.drop(['Date_key','Fecha','Mes_Año','Fecha +40d'],axis=1,inplace=True)
df_Precios_Date

Unnamed: 0,Precio_ID,Producto_FK,Proveedor_FK,Fuente_FK,Medida_FK,Precio_Q,Mes,Año,Pond_D
0,1,128,399,3,1,350.000000,mayo,2015,-1
1,2,5,382,3,1,9.100000,enero,2016,-1
2,3,5,384,3,1,6.000000,enero,2016,-1
3,4,5,413,3,1,3.800000,enero,2016,-1
4,5,5,391,3,1,10.110000,enero,2016,-1
...,...,...,...,...,...,...,...,...,...
1934,1891,95,452,5,1,53.793878,marzo,2023,1
1935,1892,95,452,5,1,53.193970,marzo,2023,1
1936,1895,115,452,5,1,157.290772,marzo,2023,1
1937,1932,90,453,5,1,22.533427,marzo,2023,1


### Join IPC y Precios

In [29]:
df_Precios_IPC=df_Precios_Date.merge(df_ipc,how='inner',on=['Mes','Año'])
df_Precios_IPC

Unnamed: 0,Precio_ID,Producto_FK,Proveedor_FK,Fuente_FK,Medida_FK,Precio_Q,Mes,Año,Pond_D,Bienes y servicios diversos
0,1,128,399,3,1,350.00,mayo,2015,-1,114.40
1,2,5,382,3,1,9.10,enero,2016,-1,116.16
2,3,5,384,3,1,6.00,enero,2016,-1,116.16
3,4,5,413,3,1,3.80,enero,2016,-1,116.16
4,5,5,391,3,1,10.11,enero,2016,-1,116.16
...,...,...,...,...,...,...,...,...,...,...
1870,1497,154,428,3,3,1370.00,noviembre,2022,1,130.02
1871,1498,135,394,3,1,5.40,noviembre,2022,1,130.02
1872,1499,154,428,3,3,1370.00,diciembre,2022,1,130.69
1873,1500,85,383,3,1,38.00,diciembre,2022,1,130.69


### Operar indexación

In [54]:
df_Precios_IPC['fIndex']=ipc_Now/df_Precios_IPC['Bienes y servicios diversos']
df_Precios_IPC['PIndex']=df_Precios_IPC['Precio_Q']*df_Precios_IPC['fIndex']
df_Precios_IPC.drop('Bienes y servicios diversos',axis=1,inplace=True)
df_Precios_IPC

KeyError: 'Bienes y servicios diversos'

### Reemplazar valores menores a 2 años por su valor indexado

In [31]:
df_Precios_IPC.loc[df_Precios_IPC['Año']<2021,'Precio_Q']=df_Precios_IPC['PIndex']
df_Precios_IPC

Unnamed: 0,Precio_ID,Producto_FK,Proveedor_FK,Fuente_FK,Medida_FK,Precio_Q,Mes,Año,Pond_D,fIndex,PIndex
0,1,128,399,3,1,402.347028,mayo,2015,-1,1.149563,402.347028
1,2,5,382,3,1,10.302522,enero,2016,-1,1.132145,10.302522
2,3,5,384,3,1,6.792872,enero,2016,-1,1.132145,6.792872
3,4,5,413,3,1,4.302152,enero,2016,-1,1.132145,4.302152
4,5,5,391,3,1,11.445989,enero,2016,-1,1.132145,11.445989
...,...,...,...,...,...,...,...,...,...,...,...
1870,1497,154,428,3,3,1370.000000,noviembre,2022,1,1.011460,1385.699892
1871,1498,135,394,3,1,5.400000,noviembre,2022,1,1.011460,5.461883
1872,1499,154,428,3,3,1370.000000,diciembre,2022,1,1.006274,1378.595914
1873,1500,85,383,3,1,38.000000,diciembre,2022,1,1.006274,38.238427


### Limpieza de data

In [32]:
df_precios=df_Precios_IPC
df_precios.drop(['Mes','Año','fIndex','PIndex'], axis=1,inplace=True)
df_precios

Unnamed: 0,Precio_ID,Producto_FK,Proveedor_FK,Fuente_FK,Medida_FK,Precio_Q,Pond_D
0,1,128,399,3,1,402.347028,-1
1,2,5,382,3,1,10.302522,-1
2,3,5,384,3,1,6.792872,-1
3,4,5,413,3,1,4.302152,-1
4,5,5,391,3,1,11.445989,-1
...,...,...,...,...,...,...,...
1870,1497,154,428,3,3,1370.000000,1
1871,1498,135,394,3,1,5.400000,1
1872,1499,154,428,3,3,1370.000000,1
1873,1500,85,383,3,1,38.000000,1


### Lectura Dim Fuente

In [33]:
sql_query = 'select * from dim_fuente fp'
df_fuente = pd.read_sql(sql_query, postgres_driver)
df_fuente

Unnamed: 0,Fuente_FK,FuenteDatos,timestamp
0,1,Cotizaciones,2023-04-06 01:26:56
1,2,Ofertas CA,2023-04-06 01:26:56
2,3,Guatecompras,2023-04-06 01:26:56
3,4,PR anteriores,2023-04-06 01:26:56
4,5,Internacionales,2023-04-06 01:26:56
5,6,FEL,2023-04-06 01:26:56


### Se añade rúbrica de Fuente de dato

In [34]:
df_fuente['Pond_F']=[1,0,0,0,-1,2]
df_fuente

Unnamed: 0,Fuente_FK,FuenteDatos,timestamp,Pond_F
0,1,Cotizaciones,2023-04-06 01:26:56,1
1,2,Ofertas CA,2023-04-06 01:26:56,0
2,3,Guatecompras,2023-04-06 01:26:56,0
3,4,PR anteriores,2023-04-06 01:26:56,0
4,5,Internacionales,2023-04-06 01:26:56,-1
5,6,FEL,2023-04-06 01:26:56,2


### Join Fuente con Precio

In [35]:
df_Precios_Fuente=df_precios.merge(df_fuente,how="inner",on='Fuente_FK')
df_Precios_Fuente

Unnamed: 0,Precio_ID,Producto_FK,Proveedor_FK,Fuente_FK,Medida_FK,Precio_Q,Pond_D,FuenteDatos,timestamp,Pond_F
0,1,128,399,3,1,402.347028,-1,Guatecompras,2023-04-06 01:26:56,0
1,2,5,382,3,1,10.302522,-1,Guatecompras,2023-04-06 01:26:56,0
2,3,5,384,3,1,6.792872,-1,Guatecompras,2023-04-06 01:26:56,0
3,4,5,413,3,1,4.302152,-1,Guatecompras,2023-04-06 01:26:56,0
4,5,5,391,3,1,11.445989,-1,Guatecompras,2023-04-06 01:26:56,0
...,...,...,...,...,...,...,...,...,...,...
1870,1419,154,428,2,3,1370.000000,1,Ofertas CA,2023-04-06 01:26:56,0
1871,1420,156,414,2,1,109.500000,1,Ofertas CA,2023-04-06 01:26:56,0
1872,1487,154,428,2,3,1370.000000,1,Ofertas CA,2023-04-06 01:26:56,0
1873,1488,154,414,2,3,1492.000000,1,Ofertas CA,2023-04-06 01:26:56,0


### Limpieza de Data
Dado que en este ejemplo no trabajaremos con la unidad de "Medida" se eliminará de este análisis. Sin embargo se contempló en el DW ya que pueden existir casos donde la unidad de medida si sea tomada en cuenta

In [36]:
df_precios=df_Precios_Fuente.drop(['timestamp','Fuente_FK','Medida_FK'],axis=1)
df_precios

Unnamed: 0,Precio_ID,Producto_FK,Proveedor_FK,Precio_Q,Pond_D,FuenteDatos,Pond_F
0,1,128,399,402.347028,-1,Guatecompras,0
1,2,5,382,10.302522,-1,Guatecompras,0
2,3,5,384,6.792872,-1,Guatecompras,0
3,4,5,413,4.302152,-1,Guatecompras,0
4,5,5,391,11.445989,-1,Guatecompras,0
...,...,...,...,...,...,...,...
1870,1419,154,428,1370.000000,1,Ofertas CA,0
1871,1420,156,414,109.500000,1,Ofertas CA,0
1872,1487,154,428,1370.000000,1,Ofertas CA,0
1873,1488,154,414,1492.000000,1,Ofertas CA,0


### Agrupamos Precios por Producto y Proveedor, tomando Promedios de Precios y Ponderadores

In [37]:
df_precios.drop('Precio_ID',axis=1,inplace=True)


In [38]:
df_G_Precios=df_precios.groupby(['Producto_FK','Proveedor_FK','FuenteDatos'],as_index=False).mean()
df_G_Precios

Unnamed: 0,Producto_FK,Proveedor_FK,FuenteDatos,Precio_Q,Pond_D,Pond_F
0,1,383,Cotizaciones,22.000000,1.0,1.0
1,1,391,Cotizaciones,13.850000,1.0,1.0
2,1,394,Cotizaciones,6.400000,1.0,1.0
3,1,410,Cotizaciones,15.000000,1.0,1.0
4,2,382,Guatecompras,12.132605,-1.0,0.0
...,...,...,...,...,...,...
582,158,425,Ofertas CA,1230.730593,0.0,0.0
583,158,428,Guatecompras,1154.549933,-1.0,0.0
584,158,477,Internacionales,554.055480,1.0,-1.0
585,158,478,Internacionales,677.604070,1.0,-1.0


### Rúbrica de Cantidad y Desviación


In [39]:
P_qty=[-3,-1,0,1,2,3]
P_CV=[-2,-1,0,1]


### Creacion de experimentos estadísticos

In [40]:
import itertools


In [41]:
def powerset(iterable):
    "powerset([1,2,3]) --> () (1,) (2,) (3,) (1,2) (1,3) (2,3) (1,2,3)"
    s = list(iterable)
    return itertools.chain.from_iterable(itertools.combinations(s, r) for r in range(len(s)+1))

In [42]:
FD=df_fuente['FuenteDatos']
FD.drop([5],inplace=True)

In [43]:
ConjMuestral=pd.Series(powerset(FD))
ConjMuestral.drop([0],inplace=True)
ConjMuestral

1                                       (Cotizaciones,)
2                                         (Ofertas CA,)
3                                       (Guatecompras,)
4                                      (PR anteriores,)
5                                    (Internacionales,)
6                            (Cotizaciones, Ofertas CA)
7                          (Cotizaciones, Guatecompras)
8                         (Cotizaciones, PR anteriores)
9                       (Cotizaciones, Internacionales)
10                           (Ofertas CA, Guatecompras)
11                          (Ofertas CA, PR anteriores)
12                        (Ofertas CA, Internacionales)
13                        (Guatecompras, PR anteriores)
14                      (Guatecompras, Internacionales)
15                     (PR anteriores, Internacionales)
16             (Cotizaciones, Ofertas CA, Guatecompras)
17            (Cotizaciones, Ofertas CA, PR anteriores)
18          (Cotizaciones, Ofertas CA, Internaci

### Cargando CATALOGO


In [44]:
sql_query = 'select * from fact_catalogo fp'
df_CAT = pd.read_sql(sql_query, postgres_driver)
df_CAT['Ponderacion']=-10
global df_CAT

### Funcion de calculo de precios

In [45]:
def Ponderar(Elemento):
    global PR_i
    Filter_df=df_G_Precios.loc[df_G_Precios['FuenteDatos'].isin(Elemento)]
    E_df=Filter_df.groupby('Producto_FK').agg({'Precio_Q':['mean','std',lambda x: np.std(x)/np.mean(x)],'Pond_D':['mean'],'Pond_F':['mean'],'Proveedor_FK':['count']})
    E_df['Pond_Q']=0
    E_df['Pond_CV']=0
    # POND QTY
    E_df.loc[E_df['Proveedor_FK']['count']>10,'Pond_Q']=3
    E_df.loc[E_df['Proveedor_FK']['count'].isin([9,10]),'Pond_Q']=2
    E_df.loc[E_df['Proveedor_FK']['count'].isin([7,8]),'Pond_Q']=1
    E_df.loc[E_df['Proveedor_FK']['count'].isin([5,6]),'Pond_Q']=0
    E_df.loc[E_df['Proveedor_FK']['count'].isin([3,4]),'Pond_Q']=-1
    E_df.loc[E_df['Proveedor_FK']['count']<3,'Pond_Q']=-3
    #POND CV
    E_df.loc[E_df['Precio_Q']['<lambda_0>']<0.2,'Pond_CV']=+1
    E_df.loc[E_df['Precio_Q']['<lambda_0>']>=0.5,'Pond_CV']=-1
    E_df.loc[E_df['Precio_Q']['<lambda_0>']>=1,'Pond_CV']=-2
    #POND TOTAL
    E_df['POND']=E_df['Pond_CV']+E_df['Pond_Q']+E_df['Pond_D']['mean']+E_df['Pond_F']['mean']
    PR_i=pd.DataFrame([])
    PR_i['PRi']=E_df['Precio_Q']['mean']
    PR_i['POND']=E_df['POND']
    return PR_i
    
        
   

    

In [46]:
today = date.today()


In [47]:
for Elm in ConjMuestral:
    Ponderar(Elm)
    if len(PR_i)!= 0:
        CAT_compare=df_CAT.merge(PR_i,how='left',on='Producto_FK')
        CAT_compare.loc[CAT_compare['POND']>CAT_compare['Ponderacion'],'PR']=CAT_compare['PRi']
        CAT_compare.loc[CAT_compare['POND']>CAT_compare['Ponderacion'],'Date_key']=int(today.strftime('%Y%m%d'))
        CAT_compare.loc[CAT_compare['POND']>CAT_compare['Ponderacion'],'Observaciones']=str(Elm)
        CAT_compare.loc[CAT_compare['POND']>CAT_compare['Ponderacion'],'Ponderacion']=CAT_compare['POND']
        df_CAT=CAT_compare.drop(['PRi','POND'],axis=1)
    

### Data Frame Resultado

In [48]:
df_CAT

Unnamed: 0,Catalogo_ID,Revision,Evento_FK,Renglon,Producto_FK,Medida_FK,Cantidad,Rubro_FK,timestamp,PR,Date_key,Observaciones,Ponderacion
0,1,1,2,1,154,3,7700,13,2023-04-06 12:47:32,1179.420000,20230409,"('Cotizaciones', 'Ofertas CA', 'Guatecompras')",1.400000
1,2,1,2,2,155,2,3850,13,2023-04-06 12:47:32,228.728888,20230409,"('Guatecompras', 'Internacionales')",-0.666667
2,3,1,2,3,156,1,3300,13,2023-04-06 12:47:32,202.513079,20230409,"('Cotizaciones', 'Ofertas CA', 'Internacionales')",-0.166667
3,4,1,2,4,157,1,367126,13,2023-04-06 12:47:32,64.762600,20230409,"('Cotizaciones', 'Ofertas CA', 'Guatecompras',...",1.281250
4,5,1,2,5,158,2,4554,13,2023-04-06 12:47:32,578.629150,20230409,"('Internacionales',)",0.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...
153,154,1,1,149,149,1,5,11,2023-04-06 12:47:32,250.000000,20230409,"('Cotizaciones',)",0.000000
154,155,1,1,150,150,1,1,11,2023-04-06 12:47:32,250.000000,20230409,"('Cotizaciones',)",0.000000
155,156,1,1,151,151,1,120,11,2023-04-06 12:47:32,250.000000,20230409,"('Cotizaciones',)",0.000000
156,157,1,1,152,152,1,120,11,2023-04-06 12:47:32,250.000000,20230409,"('Cotizaciones',)",0.000000


### Subir Información a PostgreSQL

In [49]:
def insertDataToSQL(data_dict, table_name):
     postgres_driver = f"""postgresql://{config.get('RDS', 'DB_USER')}:{config.get('RDS', 'DB_PASSWORD')}@{RDS_HOST}:{config.get('RDS', 'DB_PORT')}/{config.get('RDS', 'DB_NAME')}"""    
     df_data = pd.DataFrame.from_records(data_dict)
     try:
          response = df_data.to_sql(table_name, postgres_driver, index=False, if_exists='replace')
          print(f'Se han insertado {response} nuevos registros en {table_name}.' )
     except Exception as ex:
          print(ex)

In [50]:
export_CAT=df_CAT.drop('Ponderacion',axis=1)

insertDataToSQL(export_CAT,'fact_catalogo')

Se han insertado 158 nuevos registros en fact_catalogo.


### Confirmar la subida correcta de Información:

In [51]:
sql_query = 'select * from fact_catalogo fp'
df_CAT = pd.read_sql(sql_query, postgres_driver)
df_CAT

Unnamed: 0,Catalogo_ID,Revision,Evento_FK,Renglon,Producto_FK,Medida_FK,Cantidad,Rubro_FK,timestamp,PR,Date_key,Observaciones
0,1,1,2,1,154,3,7700,13,2023-04-06 12:47:32,1179.420000,20230409,"('Cotizaciones', 'Ofertas CA', 'Guatecompras')"
1,2,1,2,2,155,2,3850,13,2023-04-06 12:47:32,228.728888,20230409,"('Guatecompras', 'Internacionales')"
2,3,1,2,3,156,1,3300,13,2023-04-06 12:47:32,202.513079,20230409,"('Cotizaciones', 'Ofertas CA', 'Internacionales')"
3,4,1,2,4,157,1,367126,13,2023-04-06 12:47:32,64.762600,20230409,"('Cotizaciones', 'Ofertas CA', 'Guatecompras',..."
4,5,1,2,5,158,2,4554,13,2023-04-06 12:47:32,578.629150,20230409,"('Internacionales',)"
...,...,...,...,...,...,...,...,...,...,...,...,...
153,154,1,1,149,149,1,5,11,2023-04-06 12:47:32,250.000000,20230409,"('Cotizaciones',)"
154,155,1,1,150,150,1,1,11,2023-04-06 12:47:32,250.000000,20230409,"('Cotizaciones',)"
155,156,1,1,151,151,1,120,11,2023-04-06 12:47:32,250.000000,20230409,"('Cotizaciones',)"
156,157,1,1,152,152,1,120,11,2023-04-06 12:47:32,250.000000,20230409,"('Cotizaciones',)"


## __Analitica__

### 1.¿Cuál es el precio más indexado al día de hoy?

In [57]:
df_precios.head(2)

Unnamed: 0,Producto_FK,Proveedor_FK,Precio_Q,Pond_D,FuenteDatos,Pond_F
0,128,399,402.347028,-1,Guatecompras,0
1,5,382,10.302522,-1,Guatecompras,0


In [72]:
sql_query = 'select * from "dim_productos" '
df_producto = df_producto = pd.read_sql(sql_query, postgres_driver)
df_producto.head(2)

Unnamed: 0,Producto_FK,Cod_INE,Nombre,Especificaciones,timestamp
0,1,295-491-000,SUTURA ABSORBIBLE NATURAL CRÓMICA (CATGUT CRÓM...,SUTURA ABSORBIBLE NATURAL CRÓMICA (CATGUT CRÓM...,2023-04-06 01:28:12
1,2,295-492-000,SUTURA ABSORBIBLE NATURAL CRÓMICA (CATGUT CRÓM...,SUTURA ABSORBIBLE NATURAL CRÓMICA (CATGUT CRÓM...,2023-04-06 01:28:12


In [71]:
mayor_indexacion = df_producto[df_producto['Producto_FK']== 128]
mayor_indexacion

Unnamed: 0,Producto_FK,Cod_INE,Nombre,Especificaciones,timestamp
127,128,295-618-000,"SUTURA NO ABSORBIBLE SINTÉTICA, MONOFILAMENTO,...","SUTURA NO ABSORBIBLE SINTÉTICA, MONOFILAMENTO,...",2023-04-06 01:28:12


### EL producto con mayor precio indexado al hoy es la SUTURA NO ABSORBIBLE SINTÉTICA, MONOFILAMENTO con condigo INE 295-618-000 y precio de Q 402.347028

### 2. Cuál es el precio de la cantidad de productos con mayor adquisición?

### Cual es el precio de la cantidad mas grande adquirida

In [176]:
cant_precio = df_CAT[['Cantidad','PR']]
cant_precio.sort_values(by='Cantidad', ascending=False).head(3)

Unnamed: 0,Cantidad,PR
3,367126,64.7626
0,7700,1179.42
4,4554,578.62915


In [177]:
print("El precio de la cantidad mas grande adquirida es 64.76260")

El precio de la cantidad mas grande adquirida es 64.76260


### 3.¿Qué productos tienen dos (2) o menos años de antigüedad? 

In [75]:
df_date.head(4)

Unnamed: 0,Date_key,Fecha,Mes,Año,Mes_Año,Fecha +40d,Pond_D
0,42005,2015-01-01,enero,2015,1.2015,2015-02-10,-1
1,42006,2015-01-02,enero,2015,1.2015,2015-02-11,-1
2,42007,2015-01-03,enero,2015,1.2015,2015-02-12,-1
3,42008,2015-01-04,enero,2015,1.2015,2015-02-13,-1


In [125]:
antiguedad_menor_a_dos_años = df_Precios_Date[df_Precios_Date['Año']>2021]
antiguedad_menor_a_dos_años = antiguedad_menor_a_dos_años.drop_duplicates(subset=['Producto_FK'])
cantidad= print(antiguedad_menor_a_dos_años.shape)
print(f"se tienen 155 productos diferentes con menos de dos años de antiguedad")

(155, 9)
se tienen 155 productos diferentes con menos de dos años de antiguedad


In [91]:
antiguedad_menor_a_dos_años.head(5)

Unnamed: 0,Precio_ID,Producto_FK,Proveedor_FK,Fuente_FK,Medida_FK,Precio_Q,Mes,Año,Pond_D
279,1562,73,383,1,1,60.0,febrero,2023,1
280,1563,79,383,1,1,40.0,febrero,2023,1
281,1564,80,383,1,1,40.0,febrero,2023,1
282,1517,7,379,1,1,24.1,febrero,2023,1
283,1518,8,379,1,1,24.1,febrero,2023,1


In [114]:
producto1 = df_producto[df_producto['Producto_FK']==73]

In [110]:
producto2 =df_producto[df_producto['Producto_FK']==79]

In [111]:
producto3 = df_producto[df_producto['Producto_FK']==80]

In [112]:
producto4 = df_producto[df_producto['Producto_FK']==7]

In [113]:
producto5 = df_producto[df_producto['Producto_FK']==8]

In [124]:
top5 = pd.concat([producto1,producto2,producto3,producto4,producto5])
top5

Unnamed: 0,Producto_FK,Cod_INE,Nombre,Especificaciones,timestamp
72,73,295-563-000,"SUTURA ABSORBIBLE SINTÉTICA, MONOFILAMENTO, CO...","SUTURA ABSORBIBLE SINTÉTICA, DE POLIGLECAPRONA...",2023-04-06 01:28:12
79,79,295-569-000,"SUTURA ABSORBIBLE SINTÉTICA, MONOFILAMENTO, CO...","SUTURA ABSORBIBLE SINTÉTICA, DE POLIGLECAPRONA...",2023-04-06 01:28:12
80,80,295-570-000,"SUTURA ABSORBIBLE SINTÉTICA, MONOFILAMENTO, CO...","SUTURA ABSORBIBLE SINTÉTICA, DE POLIGLECAPRONA...",2023-04-06 01:28:12
6,7,295-497-000,SUTURA ABSORBIBLE NATURAL CRÓMICA (CATGUT CRÓM...,SUTURA ABSORBIBLE NATURAL CRÓMICA (CATGUT CRÓM...,2023-04-06 01:28:12
7,8,295-498-000,SUTURA ABSORBIBLE NATURAL CRÓMICA (CATGUT CRÓM...,SUTURA ABSORBIBLE NATURAL CRÓMICA (CATGUT CRÓM...,2023-04-06 01:28:12


### Se tienen 155 productos diferentes con menos de 2 años y arriba se muestra el top 5 de los productos mas nuevos

### 4. ¿Qué precios tienen un CV mayor o igual a 0.50?

In [134]:
df_precios.head(3)

Unnamed: 0,Producto_FK,Proveedor_FK,Precio_Q,Pond_D,FuenteDatos,Pond_F
0,128,399,402.347028,-1,Guatecompras,0
1,5,382,10.302522,-1,Guatecompras,0
2,5,384,6.792872,-1,Guatecompras,0


In [148]:
cv = (df_precios['Precio_Q'] - np.mean(df_precios['Precio_Q'])) / np.mean(df_precios['Precio_Q'])
cv = cv[cv >=0.50]
print(f"se tienen {len(cv)} precios con un coeficiente de variacion mayor o igual a 0.50 \n")
print("Se muestran los primeros 5: ")
cv.head()


se tienen 136 precios con un coeficiente de variacion mayor o igual a 0.50 

Se muestran los primeros 5: 


0       6.379798
56     20.305508
110    20.219900
300     2.955335
304     3.921011
Name: Precio_Q, dtype: float64

### 5. ¿Cuál es el precio de referencia con mejor ponderación?

In [167]:
ponderacion = df_precios.sort_values('Pond_F', ascending=False)
mejor_ponderacion = ponderacion[ponderacion['Pond_F']>=1]
mejor_ponderacion = mejor_ponderacion.drop_duplicates(subset=['Producto_FK'])
mejor_ponderacion.shape
print(f"Se tienen 132 productos diferentes con la mejor ponderacion \nse muestran acontinuacion: \n")
mejor_ponderacion.head(5)

Se tienen 132 productos diferentes con la mejor ponderacion 
se muestran acontinuacion: 



Unnamed: 0,Producto_FK,Proveedor_FK,Precio_Q,Pond_D,FuenteDatos,Pond_F
1541,81,383,40.0,1,Cotizaciones,1
1620,29,391,11.31,1,Cotizaciones,1
1610,19,391,11.31,1,Cotizaciones,1
1611,20,391,11.31,1,Cotizaciones,1
1612,21,391,11.31,1,Cotizaciones,1
