# SDC Type 2 implementation Fact Order

In [1]:
# Librerías para manejo de datos
import pandas as pd
import numpy as np
pd.set_option('display.max_columns', 25) # Número máximo de columnas a mostrar
pd.set_option('display.max_rows', 50) # Numero máximo de filas a mostar

In [2]:
# se procederá a hacer los cambios en la tabla de hechos respecto al los nuevos datos proporcionados y teniendo en cuenta que ahora la referencia a stock_item va hacia la llave subrogada

# los pasos planteados son los siguientes:
# 1. se crea una tabla temporal que tiene cargados los datos del nuevo csv
# 2. se hace un join entre dicha tabla y la tabla de historia de stock_item
# 3. dicho join es insertado a la tabla de hechos original

In [3]:
# Configuración de la conexión con la base de datos 

# se hacen las importaciones y configuraciones necesarias necesarias para trabajar con SQL
from sqlalchemy import create_engine

# Postgres username, password, and database name
POSTGRES_ADDRESS = 'localhost' 
POSTGRES_PORT = '5432'
POSTGRES_USERNAME = 'postgres' 
POSTGRES_PASSWORD = 'password'
POSTGRES_DBNAME = 'lab5_wwi'
# A long string that contains the necessary Postgres login information
postgres_str = ('postgresql://{username}:{password}@{ipaddress}:{port}/{dbname}'
.format(username=POSTGRES_USERNAME,
password=POSTGRES_PASSWORD,
ipaddress=POSTGRES_ADDRESS,
port=POSTGRES_PORT,
dbname=POSTGRES_DBNAME))
# Create the connection
cnx = create_engine(postgres_str)

In [4]:
# Paso 1

# se eliminan los datos origniales de la tabla de hechos (Proceso realizado desde pgAdmin)
# se cambia la referencia de la tabla de hechos para que  ahora referencie a la llave truncada de la historia de stock_item (Proceso realizado desde PgAdmin)
def cambiar_date_time(x):
    return pd.to_datetime(x,format= '%Y-%m-%d' ).to_datetime64()


# carga de la tabla de los nuevos datos
df_fact_order_new =pd.read_csv('fact_order_new.csv', sep=',', encoding = 'latin-1', index_col=None) 

# se cambiar el formato de la fecha para poder compararse
df_fact_order_new['picked_date_key'] = df_fact_order_new['picked_date_key'].apply(cambiar_date_time)

df_fact_order_new.head(5)

Unnamed: 0,order_key,city_key,customer_key,stock_item_key,order_date_key,picked_date_key,salesperson_key,picker_key,package,quantity,unit_price,tax_rate,total_excluding_tax,tax_amount,total_including_tax
0,1,91,179,533,2014-02-05,2013-03-17,135,122,S,805,237.77,61,2245.39,305.4,7529.12
1,2,83,2,631,2015-11-17,2013-07-19,2,133,S,76,721.71,59,6585.7,135.12,8442.06
2,3,47,390,174,2015-04-29,2015-11-03,128,75,S,585,2866.71,9,8113.37,792.11,9934.49
3,4,8,218,157,2015-04-04,2014-12-03,84,191,S,878,4671.07,39,9109.56,668.65,6166.09
4,5,94,167,235,2015-01-26,2015-01-11,91,197,S,583,1950.68,24,9277.41,66.55,3885.52


In [None]:
# Paso 2

# se lee la historia
stockitem_historia=pd.read_sql_query('select * from stockitem_historia',cnx)

# se simula un join, en este caso sobre los ids, el resultado será que quedará la tabla de fact_order solamente con los valores que existan en la tabla de stock_item_historia
df_empty = df_fact_order_new[0:0]
df_empty
indice = 0;
for row in df_fact_order_new.iterrows():
    date = row[1]["order_date_key"]
    date = pd.to_datetime(date, format='%Y-%m-%d')
    stock_item_key = row[1]["stock_item_key"]
    
    for row2 in stockitem_historia.iterrows():
        
        key = row2[1]["tk_stock_item"]
        stock_item_date_from  = row2[1]["date_from"].to_datetime64()
        stock_item_date_to = row2[1]["date_to"].to_datetime64()
        
        # llave igual y fecha entre las fechas de inicio y final del respectivo stock_item
        if stock_item_key == key and date >= stock_item_date_from and date <= stock_item_date_to:
            a_agregar = df_fact_order_new.iloc[indice]
            df_empty = df_empty.append(a_agregar, ignore_index=True)
    indice+= 1


In [7]:
# registro completado
df_empty.head(5)

Unnamed: 0,order_key,city_key,customer_key,stock_item_key,order_date_key,picked_date_key,salesperson_key,picker_key,package,quantity,unit_price,tax_rate,total_excluding_tax,tax_amount,total_including_tax
0,1,91,179,533,2014-02-05,2013-03-17,135,122,S,805,237.77,61,2245.39,305.4,7529.12
1,2,83,2,631,2015-11-17,2013-07-19,2,133,S,76,721.71,59,6585.7,135.12,8442.06
2,4,8,218,157,2015-04-04,2014-12-03,84,191,S,878,4671.07,39,9109.56,668.65,6166.09
3,5,94,167,235,2015-01-26,2015-01-11,91,197,S,583,1950.68,24,9277.41,66.55,3885.52
4,8,54,325,629,2013-10-23,2014-07-01,56,56,M,80,1852.75,6,2961.56,871.17,4732.12


In [9]:
# paso 3

df_new_fact = df_empty
# inserción en la tabla de hechos original
df_new_fact.to_sql('fact_order',con=cnx,if_exists='append',index=False)

In [11]:
# lectura de la tabla en la base de datos para comprobar que todo está correcto
df_new_fact=pd.read_sql_query('select * from fact_order',cnx)
df_new_fact.head(20)

Unnamed: 0,order_key,city_key,customer_key,stock_item_key,order_date_key,picked_date_key,salesperson_key,picker_key,package,quantity,unit_price,tax_rate,total_excluding_tax,tax_amount,total_including_tax
0,1,91,179,533,2014-02-05,2013-03-17,135,122,S,805,237.77,61,2245.39,305.4,7529.12
1,2,83,2,631,2015-11-17,2013-07-19,2,133,S,76,721.71,59,6585.7,135.12,8442.06
2,4,8,218,157,2015-04-04,2014-12-03,84,191,S,878,4671.07,39,9109.56,668.65,6166.09
3,5,94,167,235,2015-01-26,2015-01-11,91,197,S,583,1950.68,24,9277.41,66.55,3885.52
4,8,54,325,629,2013-10-23,2014-07-01,56,56,M,80,1852.75,6,2961.56,871.17,4732.12
5,9,64,263,357,2014-01-29,2015-01-18,184,25,S,777,295.73,41,9975.19,410.59,3029.9
6,10,87,236,607,2015-08-10,2014-06-25,71,200,XL,881,2036.81,22,8045.06,628.18,5774.81
7,12,56,291,159,2016-04-07,2016-05-31,7,143,L,172,1004.38,54,3728.68,366.09,4800.93
8,16,42,58,453,2016-09-08,2016-12-29,35,57,S,776,1737.73,58,1595.86,908.54,144.2
9,21,35,314,195,2013-03-04,2016-04-19,76,87,S,290,3033.09,41,9022.18,658.25,4022.56
