In [35]:
#Relizaremos las conecion de la base de datos Lavarropas de postgresql con python y tambien cargaremos el datawarehouse 
#para realizar el ETL
import sys
import os

sys.path.append(os.path.abspath('C:/Users/Axel/Desktop/TP_final_Base_Datos_MultidimensionaL'))

import psycopg2
import pandas as pd
from sqlalchemy import create_engine # Importante para la conexion con la base de datos


from modulos.update_dimensions_table import actualizarTablaDimension

# Conexion con la base de datos
conn = psycopg2.connect(
    host="localhost",
    database="Lavarropas",
    user="postgres",
    password="1234")

In [36]:
# conexion con el datawarehouse
engine = create_engine('postgresql://postgres:1234@localhost:5432/Lavarropas_DW')


In [37]:
#guardamos las tablas de la base de datos relacional que utilizaremos en dataframes
listas_tablas = ['Consumo_lavarropas', 'Ciclo_lavado', 'Lavarropas','fase','marca','programa', 'ubicacion', 'usuarios' ]

tablas = {}
for tabla in listas_tablas:
    query = f'SELECT * FROM {tabla}'
    tablas[tabla] = pd.read_sql(query, conn)

#conn.close()

  tablas[tabla] = pd.read_sql(query, conn)


In [38]:
query = """
SELECT 
    EXTRACT(YEAR FROM cl.fecha_inicio) AS Anio,
    EXTRACT(MONTH FROM cl.fecha_inicio) AS Mes,
    EXTRACT(DAY FROM cl.fecha_inicio) AS Dia,
    EXTRACT (HOUR FROM cl.fecha_inicio) AS Hora,
    EXTRACT (MINUTE FROM cl.fecha_inicio) AS Minuto,
    u.ID_ubicacion,
    m.id_marca,
    COUNT(cl.ID_ciclo) AS Numero_lavados,
    SUM(clv.Consumo_energia) AS Consumo_total_energia_kwh,
    SUM(clv.Consumo_agua) AS Consumo_total_agua_l
FROM 
    Ciclo_lavado cl
JOIN 
    (SELECT id_ciclo, SUM(consumo_energia) AS Consumo_energia, SUM(consumo_agua) AS Consumo_agua
     FROM Consumo_Lavarropas
     GROUP BY id_ciclo) clv ON cl.ID_ciclo = clv.id_ciclo
JOIN 
    Lavarropas l ON cl.ID_Lavarropas = l.ID_Lavarropas
JOIN 
    Ubicacion u ON l.ID_ubicacion = u.ID_ubicacion
JOIN 
    Marca m ON l.id_marca = m.id_marca
GROUP BY 
    Anio, Mes, Dia, Hora, Minuto, u.ID_ubicacion,  m.id_marca;
"""

# Realizar la consulta y guardar el resultado en un DataFrame
df_result = pd.read_sql(query, conn)
df_result


  df_result = pd.read_sql(query, conn)


Unnamed: 0,anio,mes,dia,hora,minuto,id_ubicacion,id_marca,numero_lavados,consumo_total_energia_kwh,consumo_total_agua_l
0,2024.0,10.0,1.0,8.0,0.0,1,1,1,3.55,180.0
1,2024.0,1.0,10.0,8.0,30.0,1,1,1,2.8,155.0
2,2024.0,3.0,20.0,9.0,20.0,3,3,1,0.9,40.0
3,2024.0,2.0,15.0,14.0,45.0,2,2,1,1.2,55.5
4,2024.0,10.0,2.0,9.0,0.0,2,2,1,2.85,155.0
5,2024.0,10.0,4.0,11.0,0.0,4,4,1,4.35,265.0
6,2024.0,10.0,3.0,10.0,0.0,3,3,1,4.05,195.0
7,2024.0,4.0,25.0,18.0,10.0,4,4,1,1.5,60.2


## Dimension ubicacion

In [39]:
ubicacion = tablas['ubicacion']
ubicacion 
print(ubicacion)

#actualizamos la tabla de ubicacion
ubicacion = actualizarTablaDimension(engine, 'ubicacion', ubicacion, pk='id_ubicacion')

   id_ubicacion                  pais                  provincia  \
0             1  Argentina             Buenos Aires                
1             2  Argentina             Cordoba                     
2             3  Argentina             Santa Fe                    
3             4  Argentina             Mendoza                     

                      ciudad  
0  La Plata                   
1  Cordoba Capital            
2  Rosario                    
3  Mendoza                    


## Dimension MARCA

In [40]:
marca = tablas['marca']
marca = marca[['id_marca', 'marca', 'modelo']]
print(marca)
marca = actualizarTablaDimension(engine, 'marca', marca, pk='id_marca')

   id_marca                 marca                modelo
0         1  Samsung               EcoBubble           
1         2  LG                    TWINWash            
2         3  Whirlpool             SupremeCare         
3         4  Bosch                 Serie6              


## Dimension tiempo

In [41]:
# Extraer las fechas únicas de la columna Fecha_inicio
fechas_unicas = tablas['Ciclo_lavado']['fecha_inicio'].dropna().unique()

# Crear un DataFrame con las fechas desglosadas en Año, Mes, Día y Hora
df_tiempo = pd.DataFrame({
    'anio': [fecha.year for fecha in fechas_unicas],
    'mes': [fecha.month for fecha in fechas_unicas],
    'dia': [fecha.day for fecha in fechas_unicas],
    'hora': [fecha.hour for fecha in fechas_unicas],
    'minuto': [fecha.minute for fecha in fechas_unicas],
    'fecha_inicio': fechas_unicas
})

print(df_tiempo)

# Insertar los datos en la tabla Tiempo del datawarehouse
#df_tiempo.to_sql('tiempo', engine, if_exists='replace', index=False)
df_tiempo = actualizarTablaDimension(engine, 'tiempo', df_tiempo, pk=['anio', 'mes', 'dia', 'hora', 'minuto'])


   anio  mes  dia  hora  minuto        fecha_inicio
0  2024    1   10     8      30 2024-01-10 08:30:00
1  2024    2   15    14      45 2024-02-15 14:45:00
2  2024    3   20     9      20 2024-03-20 09:20:00
3  2024    4   25    18      10 2024-04-25 18:10:00
4  2024   10    1     8       0 2024-10-01 08:00:00
5  2024   10    2     9       0 2024-10-02 09:00:00
6  2024   10    3    10       0 2024-10-03 10:00:00
7  2024   10    4    11       0 2024-10-04 11:00:00


## Cargamos la tabla de hechos

In [None]:
#Cargamos la tabla de hechos.
datos = actualizarTablaDimension(engine, 'registro_lavado', df_result, pk= 'id_registro')

In [43]:
#realizamos la consulta para verificar que se haya cargado correctamente la tabla de hechos
#numero de lavados que se hicieron en 2024
query = """ SELECT SUM(numero_lavados), ubicacion.pais as Pais 
FROM registro_lavado 
JOIN Ubicacion ON registro_lavado.id_ubicacion = Ubicacion.id_ubicacion
WHERE anio = 2024 and pais = 'Argentina'
GROUP BY Pais ; """
consulta_1 = pd.read_sql(query, engine)
print(consulta_1)


   sum                  pais
0    8  Argentina           
