In [1]:
import pandas as pd
from sqlalchemy import create_engine
import psycopg2

In [2]:
def actualizarTablaDimension(engine, table, data, pk="id"):
    """
    Esta función actualiza una tabla de dimensión de un DW con los datos nuevos. Si los datos
    ya existen en la tabla, no se agregan. Devuelve la tabla actualizada con los pk tal cual esta
    en la base de datos.

    La tabla de dimensión debe estar creada y las columnas deben llamarse igual que en el df.

    Parametros:
        engine: engine de la base de datos
        table: nombre de la tabla
        data: datafarme de datos nuevos a agregar, sin incluir la PK
        pk: nombre de la PK. Por defecto es "ID"

    Retorno:
        dimension_df: datafarme con la tabla según está en la DB con los datos nuevos agregados.

    """
    with engine.connect() as conn, conn.begin():
        old_data = pd.read_sql_table(table, conn)

        # Borro la columna pk
        old_data.drop(pk, axis=1, inplace=True)

        # new_data es el datafarme de datos diferencia de conjunto con old_data
        new_data = data[~data.stack().isin(old_data.stack().values).unstack()].dropna()

        # insertar new_data
        new_data.to_sql(table, conn, if_exists='append', index=False)

        # buscar como quedó la tabla
        dimension_df = pd.read_sql_table(table, conn)

    return dimension_df

In [3]:
coffee = pd.read_csv('SampleCoffeeChain.csv', delimiter=',')
print(coffee.head())
print(coffee.columns)
'De la variable Date, me quedo solo con la fecha, no con la hora'
coffee['Date'] = pd.to_datetime(coffee['Date'])
# print(archivo['Date'].unique())


   Area Code         Date   Market   Market Size            Product  \
0        719  1/1/10 0:00  Central  Major Market           Amaretto   
1        970  1/1/10 0:00  Central  Major Market          Columbian   
2        970  1/1/10 0:00  Central  Major Market  Decaf Irish Cream   
3        303  1/1/10 0:00  Central  Major Market          Green Tea   
4        303  1/1/10 0:00  Central  Major Market        Caffe Mocha   

  Product Type     State     Type  Budget COGS  Budget Margin  Budget Profit  \
0       Coffee  Colorado  Regular           90            130            100   
1       Coffee  Colorado  Regular           80            110             80   
2       Coffee  Colorado    Decaf          100            140            110   
3          Tea  Colorado  Regular           30             50             30   
4     Espresso  Colorado  Regular           60             90             70   

   Budget Sales  Cogs  Inventory  Margin  Marketing  Profit  Sales  \
0           220    89 

  coffee['Date'] = pd.to_datetime(coffee['Date'])


> **CONEXIÓN CON LA BASE DE DATOS**

In [4]:
engine_cubo = create_engine('postgresql+psycopg2://postgres:alumno@localhost:5432/DW_CoffeeChain')

> **Carga de Datos**

In [5]:
dimension_fecha = pd.DataFrame({'fecha': coffee['Date'].unique()}) # Creo el df de la dimensión fecha. Es un diccionario con una sola columna

dimension_fecha = actualizarTablaDimension(engine_cubo, 'fecha', dimension_fecha, pk='id_fecha')

print(dimension_fecha)

    id_fecha      fecha
0          1 2010-01-01
1          2 2010-02-01
2          3 2010-03-01
3          4 2010-04-01
4          5 2010-05-01
5          6 2010-06-01
6          7 2010-07-01
7          8 2010-08-01
8          9 2010-09-01
9         10 2010-10-01
10        11 2010-11-01
11        12 2010-12-01
12        13 2011-01-01
13        14 2011-02-01
14        15 2011-03-01
15        16 2011-04-01
16        17 2011-05-01
17        18 2011-06-01
18        19 2011-07-01
19        20 2011-08-01
20        21 2011-09-01
21        22 2011-10-01
22        23 2011-11-01
23        24 2011-12-01


In [6]:
dimension_mercado = pd.DataFrame({'mercado': coffee['Market']}) # Creo el df de la dimensión mercado. Es un diccionario con una sola columna

dimension_mercado["tam_mercado"] = coffee['Market Size'] # Agrego la columna de tamaño de mercado

dimension_mercado.drop_duplicates(inplace=True) # Elimino los duplicados

dimension_mercado = actualizarTablaDimension(engine_cubo, 'mercado', dimension_mercado, pk='id_mercado') # Actualizo la tabla de dimensión mercado

print(dimension_mercado) # Imprimo la tabla de dimensión mercado

   id_mercado  mercado   tam_mercado
0           1  Central  Major Market
1           2  Central  Small Market
2           3     East  Small Market
3           4     East  Major Market
4           5    South  Small Market
5           6    South  Major Market
6           7     West  Small Market
7           8     West  Major Market


In [7]:
dimension_producto = pd.DataFrame({'producto': coffee['Product'].unique()})

dimension_producto['tipo_producto'] = coffee['Product Type']

dimension_producto.drop_duplicates(inplace=True) # Elimino los duplicados

dimension_producto = actualizarTablaDimension(engine_cubo, 'producto', dimension_producto, pk='id_producto')

print(dimension_producto)

    id_producto           producto tipo_producto
0             1           Amaretto        Coffee
1             2          Columbian        Coffee
2             3  Decaf Irish Cream        Coffee
3             4          Green Tea           Tea
4             5        Caffe Mocha      Espresso
5             6     Decaf Espresso      Espresso
6             7          Chamomile    Herbal Tea
7             8              Lemon    Herbal Tea
8             9               Mint    Herbal Tea
9            10         Darjeeling           Tea
10           11          Earl Grey           Tea
11           12   Regular Espresso        Coffee
12           13        Caffe Latte        Coffee


In [8]:
dimension_estado = pd.DataFrame({'estado': coffee['State'].unique()})

dimension_estado['cod_area'] = coffee['Area Code']

dimension_estado.drop_duplicates(inplace=True) # Elimino los duplicados

dimension_estado = actualizarTablaDimension(engine_cubo, 'ubicacion', dimension_estado, pk='id_estado')

print(dimension_estado)

    id_estado         estado  cod_area
0           1       Colorado       719
1           2       Illinois       970
2           3           Iowa       970
3           4       Missouri       303
4           5           Ohio       303
5           6      Wisconsin       720
6           7    Connecticut       970
7           8        Florida       719
8           9  Massachusetts       970
9          10  New Hampshire       719
10         11       New York       303
11         12      Louisiana       217
12         13     New Mexico       309
13         14       Oklahoma       309
14         15          Texas       630
15         16           Utah       312
16         17     California       630
17         18         Nevada       773
18         19         Oregon       217
19         20     Washington       708


In [13]:
hechos_df = pd.DataFrame({
    # Dimensiones
    'id_fecha': coffee['Date'].map(dimension_fecha.set_index('fecha')['id_fecha']),

    'id_mercado': coffee[['Market', 'Market Size']].apply(lambda x: tuple(x), axis=1).map(dimension_mercado.set_index(['mercado', 'tam_mercado'])['id_mercado']),

    'id_producto': coffee['Product'].map(dimension_producto.set_index('producto')['id_producto']),
    
    'id_estado': coffee['State'].map(dimension_estado.set_index('estado')['id_estado']),

    # Mediciones
    'ventas': coffee['Sales'],
    'ventas_estimadas' : coffee['Budget Sales']
})

print(hechos_df)


actualizarTablaDimension(engine_cubo, 'contabilidad', hechos_df, pk='id_contabilidad')

      id_fecha  id_mercado  id_producto  id_estado  ventas  ventas_estimadas
0            1           1            1          1     219               220
1            1           1            2          1     190               190
2            1           1            3          1     234               240
3            1           1            4          1     100                80
4            1           1            5          1     134               150
...        ...         ...          ...        ...     ...               ...
4243        24           7           13         20      60                50
4244        24           7            5         20     155               140
4245        24           7            6         20     188               170
4246        24           7            2         20     188               200
4247        24           7            3         20     266               290

[4248 rows x 6 columns]


Unnamed: 0,id_contabilidad,id_fecha,id_producto,id_mercado,id_estado,ventas,ventas_estimadas
0,1,1,1,1,1,219.0,220.0
1,2,1,2,1,1,190.0,190.0
2,3,1,3,1,1,234.0,240.0
3,4,1,4,1,1,100.0,80.0
4,5,1,5,1,1,134.0,150.0
...,...,...,...,...,...,...,...
4243,4244,24,13,7,20,60.0,50.0
4244,4245,24,5,7,20,155.0,140.0
4245,4246,24,6,7,20,188.0,170.0
4246,4247,24,2,7,20,188.0,200.0
