In [2]:
import psycopg2
import pandas as pd
from sqlalchemy import create_engine # Importante para la conexion con la base de datos
from modulos.update_dimensions_table import actualizarTablaDimension

# Conexion con la base de datos
conn = psycopg2.connect(
    host="localhost",
    database="Lavarropas",
    user="postgres",
    password="1234")

In [4]:
# conexion con el datawarehouse
engine = create_engine('postgresql://postgres:1234@localhost:5432/Lavarropas_DW')


In [5]:
#guardamos las tablas de la base de datos relacional que utilizaremos en dataframes
listas_tablas = ['Consumo_lavarropas', 'Ciclo_lavado', 'Lavarropas','fase','marca','programa', 'ubicacion', 'usuarios' ]

tablas = {}
for tabla in listas_tablas:
    query = f'SELECT * FROM {tabla}'
    tablas[tabla] = pd.read_sql(query, conn)

#conn.close()

  tablas[tabla] = pd.read_sql(query, conn)


In [6]:
query = """
SELECT 
    EXTRACT(YEAR FROM cl.fecha_inicio) AS Anio,
    EXTRACT(MONTH FROM cl.fecha_inicio) AS Mes,
    EXTRACT(DAY FROM cl.fecha_inicio) AS Dia,
    EXTRACT (HOUR FROM cl.fecha_inicio) AS Hora,
    EXTRACT (MINUTE FROM cl.fecha_inicio) AS Minuto,
    u.ID_ubicacion,
    m.id_marca,
    COUNT(cl.ID_ciclo) AS Numero_lavados,
    SUM(clv.Consumo_energia) AS Consumo_total_energia_kwh,
    SUM(clv.Consumo_agua) AS Consumo_total_agua_l
FROM 
    Ciclo_lavado cl
JOIN 
    (SELECT id_ciclo, SUM(consumo_energia) AS Consumo_energia, SUM(consumo_agua) AS Consumo_agua
     FROM Consumo_Lavarropas
     GROUP BY id_ciclo) clv ON cl.ID_ciclo = clv.id_ciclo
JOIN 
    Lavarropas l ON cl.ID_Lavarropas = l.ID_Lavarropas
JOIN 
    Ubicacion u ON l.ID_ubicacion = u.ID_ubicacion
JOIN 
    Marca m ON l.id_marca = m.id_marca
GROUP BY 
    Anio, Mes, Dia, Hora, Minuto, u.ID_ubicacion,  m.id_marca;
"""

# Realizar la consulta y guardar el resultado en un DataFrame
df_result = pd.read_sql(query, conn)
df_result


  df_result = pd.read_sql(query, conn)


Unnamed: 0,anio,mes,dia,hora,minuto,id_ubicacion,id_marca,numero_lavados,consumo_total_energia_kwh,consumo_total_agua_l
0,2024.0,4.0,30.0,23.0,9.0,438,96,1,2.53,158.9
1,2024.0,4.0,8.0,23.0,18.0,269,254,1,2.30,145.3
2,2024.0,5.0,6.0,10.0,39.0,146,207,1,2.38,146.7
3,2024.0,11.0,4.0,0.0,11.0,133,408,1,2.55,151.8
4,2024.0,1.0,28.0,6.0,42.0,265,462,1,2.47,142.8
...,...,...,...,...,...,...,...,...,...,...
495,2024.0,11.0,5.0,8.0,32.0,202,500,1,2.40,153.8
496,2024.0,12.0,5.0,10.0,46.0,152,59,1,2.45,159.7
497,2024.0,10.0,6.0,22.0,21.0,326,157,1,2.38,138.8
498,2024.0,8.0,20.0,3.0,9.0,186,29,1,2.51,142.4


## Dimension ubicacion

In [7]:
ubicacion = tablas['ubicacion']
ubicacion 
print(ubicacion)

#actualizamos la tabla de ubicacion
ubicacion = actualizarTablaDimension(engine, 'ubicacion', ubicacion, pk='id_ubicacion')

     id_ubicacion                  pais                  provincia  \
0               1  Paraguay              Alto Paraná                 
1               2  Paraguay              Asunción                    
2               3  Paraguay              Alto Paraná                 
3               4  Paraguay              Alto Paraná                 
4               5  Argentina             Entre Rios                  
..            ...                   ...                        ...   
495           496  Paraguay              Alto Paraná                 
496           497  Argentina             Tucuman                     
497           498  Uruguay               Maldonado                   
498           499  Paraguay              Asunción                    
499           500  Uruguay               Canelones                   

                        ciudad  
0    Presidente Franco          
1    San Lorenzo                
2    Presidente Franco          
3    Hernandarias          

## Dimension MARCA

In [8]:
marca = tablas['marca']
marca = marca[['id_marca', 'marca', 'modelo']]
print(marca)
marca = actualizarTablaDimension(engine, 'marca', marca, pk='id_marca')

     id_marca                 marca                modelo
0           1  Gafa                  PowerClean          
1           2  Electrolux            EcoSmart            
2           3  Samsung               SupremeCare         
3           4  LG                    Quicker             
4           5  Samsung               EcoBubble           
..        ...                   ...                   ...
495       496  Electrolux            EcoBubble           
496       497  Electrolux            PowerClean          
497       498  Top_House             PowerClean          
498       499  Xiaomi                TWINWash            
499       500  Electrolux            EcoBubble           

[500 rows x 3 columns]


## Dimension tiempo

In [9]:
# Extraer las fechas únicas de la columna Fecha_inicio
fechas_unicas = tablas['Ciclo_lavado']['fecha_inicio'].dropna().unique()

# Crear un DataFrame con las fechas desglosadas en Año, Mes, Día y Hora
df_tiempo = pd.DataFrame({
    'anio': [fecha.year for fecha in fechas_unicas],
    'mes': [fecha.month for fecha in fechas_unicas],
    'dia': [fecha.day for fecha in fechas_unicas],
    'hora': [fecha.hour for fecha in fechas_unicas],
    'minuto': [fecha.minute for fecha in fechas_unicas],
    'fecha_inicio': fechas_unicas
})

print(df_tiempo)

# Insertar los datos en la tabla Tiempo del datawarehouse
#df_tiempo.to_sql('tiempo', engine, if_exists='replace', index=False)
df_tiempo = actualizarTablaDimension(engine, 'tiempo', df_tiempo, pk=['anio', 'mes', 'dia', 'hora', 'minuto'])


     anio  mes  dia  hora  minuto        fecha_inicio
0    2024    8   20    14      35 2024-08-20 14:35:05
1    2024   11   19    19      24 2024-11-19 19:24:11
2    2024    4    4    10      48 2024-04-04 10:48:08
3    2024   10   12     7      28 2024-10-12 07:28:00
4    2024    7    3    21      41 2024-07-03 21:41:19
..    ...  ...  ...   ...     ...                 ...
495  2024   11   10     7      38 2024-11-10 07:38:08
496  2024    3   26    21      40 2024-03-26 21:40:49
497  2024   11    5    19      22 2024-11-05 19:22:10
498  2024    4   16     2      37 2024-04-16 02:37:06
499  2024   10   18     1      32 2024-10-18 01:32:41

[500 rows x 6 columns]


## Cargamos la tabla de hechos

In [10]:
#Cargamos la tabla de hechos.
datos = actualizarTablaDimension(engine, 'registro_lavado', df_result, pk= 'id_registro')

In [11]:
#realizamos la consulta para verificar que se haya cargado correctamente la tabla de hechos
#numero de lavados que se hicieron en 2024
query = """ SELECT SUM(numero_lavados), ubicacion.pais as Pais 
FROM registro_lavado 
JOIN Ubicacion ON registro_lavado.id_ubicacion = Ubicacion.id_ubicacion
WHERE anio = 2024 and pais = 'Argentina'
GROUP BY Pais ; """
consulta_1 = pd.read_sql(query, engine)
print(consulta_1)


   sum                  pais
0  155  Argentina           
