In [1]:
import psycopg2
import pandas as pd
from sqlalchemy import create_engine # Importante para la conexion con la base de datos
from modulos.update_dimensions_table import actualizarTablaDimension

# Conexion con la base de datos
conn = psycopg2.connect(
    host="localhost",
    database="Lavarropas",
    user="postgres",
    password="1234")

In [2]:
# conexion con el datawarehouse
engine = create_engine('postgresql://postgres:1234@localhost:5432/Lavarropas_DW')


In [3]:
#guardamos las tablas de la base de datos relacional que utilizaremos en dataframes
listas_tablas = ['Consumo_lavarropas', 'Ciclo_lavado', 'Lavarropas','fase','marca','programa', 'ubicacion', 'usuarios' ]

tablas = {}
for tabla in listas_tablas:
    query = f'SELECT * FROM {tabla}'
    tablas[tabla] = pd.read_sql(query, conn)

#conn.close()

  tablas[tabla] = pd.read_sql(query, conn)


In [4]:
query = """
SELECT 
    EXTRACT(YEAR FROM cl.fecha_inicio) AS Anio,
    EXTRACT(MONTH FROM cl.fecha_inicio) AS Mes,
    EXTRACT(DAY FROM cl.fecha_inicio) AS Dia,
    EXTRACT (HOUR FROM cl.fecha_inicio) AS Hora,
    EXTRACT (MINUTE FROM cl.fecha_inicio) AS Minuto,
    u.ID_ubicacion,
    m.id_marca,
    COUNT(cl.ID_ciclo) AS Numero_lavados,
    SUM(clv.Consumo_energia) AS Consumo_total_energia_kwh,
    SUM(clv.Consumo_agua) AS Consumo_total_agua_l
FROM 
    Ciclo_lavado cl
JOIN 
    (SELECT id_ciclo, SUM(consumo_energia) AS Consumo_energia, SUM(consumo_agua) AS Consumo_agua
     FROM Consumo_Lavarropas
     GROUP BY id_ciclo) clv ON cl.ID_ciclo = clv.id_ciclo
JOIN 
    Lavarropas l ON cl.ID_Lavarropas = l.ID_Lavarropas
JOIN 
    Ubicacion u ON l.ID_ubicacion = u.ID_ubicacion
JOIN 
    Marca m ON l.id_marca = m.id_marca
GROUP BY 
    Anio, Mes, Dia, Hora, Minuto, u.ID_ubicacion,  m.id_marca;
"""

# Realizar la consulta y guardar el resultado en un DataFrame
df_result = pd.read_sql(query, conn)
df_result


  df_result = pd.read_sql(query, conn)


Unnamed: 0,anio,mes,dia,hora,minuto,id_ubicacion,id_marca,numero_lavados,consumo_total_energia_kwh,consumo_total_agua_l
0,2024.0,7.0,9.0,14.0,11.0,491,414,1,2.35,144.9
1,2024.0,7.0,30.0,5.0,40.0,474,108,1,2.30,137.1
2,2024.0,11.0,8.0,1.0,5.0,382,117,1,2.58,157.4
3,2024.0,8.0,13.0,18.0,15.0,38,311,1,2.35,156.8
4,2024.0,2.0,6.0,12.0,11.0,396,332,1,2.49,146.8
...,...,...,...,...,...,...,...,...,...,...
495,2024.0,3.0,14.0,0.0,59.0,203,487,1,2.28,144.4
496,2024.0,4.0,20.0,18.0,58.0,386,127,1,2.30,141.4
497,2024.0,2.0,5.0,9.0,42.0,174,372,1,2.35,159.8
498,2024.0,6.0,18.0,19.0,26.0,415,91,1,2.26,146.4


## Dimension ubicacion

In [6]:
ubicacion = tablas['ubicacion']
ubicacion 
print(ubicacion)

#actualizamos la tabla de ubicacion
ubicacion = actualizarTablaDimension(engine, 'ubicacion', ubicacion, pk='id_ubicacion')

     id_ubicacion                  pais                  provincia  \
0               1  Uruguay               Canelones                   
1               2  Uruguay               Montevideo                  
2               3  Paraguay              Asunción                    
3               4  Uruguay               Montevideo                  
4               5  Argentina             Santa Fe                    
..            ...                   ...                        ...   
495           496  Paraguay              Asunción                    
496           497  Paraguay              Asunción                    
497           498  Paraguay              Alto Paraná                 
498           499  Uruguay               Maldonado                   
499           500  Paraguay              Asunción                    

                        ciudad  
0    Canelones                  
1    Montevideo                 
2    Lambaré                    
3    Ciudad de la Costa    

## Dimension MARCA

In [7]:
marca = tablas['marca']
marca = marca[['id_marca', 'marca', 'modelo']]
print(marca)
marca = actualizarTablaDimension(engine, 'marca', marca, pk='id_marca')

     id_marca                 marca                modelo
0           1  Samsung               PowerClean          
1           2  Xiaomi                SmartDrive          
2           3  Electrolux            EcoSmart            
3           4  Bosch                 Quicker             
4           5  BGH                   EcoSmart            
..        ...                   ...                   ...
495       496  Electrolux            EcoBubble           
496       497  Whirlpool             Quicker             
497       498  Bosch                 EcoSmart            
498       499  Xiaomi                EcoBubble           
499       500  Xiaomi                PowerClean          

[500 rows x 3 columns]


## Dimension tiempo

In [None]:
# Extraer las fechas únicas de la columna Fecha_inicio
fechas_unicas = tablas['Ciclo_lavado']['fecha_inicio'].dropna().unique()

# Crear un DataFrame con las fechas desglosadas en Año, Mes, Día y Hora
df_tiempo = pd.DataFrame({
    'anio': [fecha.year for fecha in fechas_unicas],
    'mes': [fecha.month for fecha in fechas_unicas],
    'dia': [fecha.day for fecha in fechas_unicas],
    'hora': [fecha.hour for fecha in fechas_unicas],
    'minuto': [fecha.minute for fecha in fechas_unicas],
    'fecha_inicio': fechas_unicas
})

print(df_tiempo)

# Insertar los datos en la tabla Tiempo del datawarehouse
#df_tiempo.to_sql('tiempo', engine, if_exists='replace', index=False)
df_tiempo = actualizarTablaDimension(engine, 'tiempo', df_tiempo, pk=['anio', 'mes', 'dia', 'hora', 'minuto'])


     anio  mes  dia  hora  minuto        fecha_inicio
0    2024    1   13    19      15 2024-01-13 19:15:29
1    2024    6   23    16      37 2024-06-23 16:37:41
2    2024    4   30    18       1 2024-04-30 18:01:29
3    2024    3   23     6      15 2024-03-23 06:15:45
4    2024    3    6     8      21 2024-03-06 08:21:49
..    ...  ...  ...   ...     ...                 ...
495  2024    9   10    15      39 2024-09-10 15:39:23
496  2024    6   15     4      35 2024-06-15 04:35:58
497  2024    9   29    12      38 2024-09-29 12:38:40
498  2024    8   26    16      55 2024-08-26 16:55:22
499  2024   11    9    11      46 2024-11-09 11:46:35

[500 rows x 6 columns]


## Cargamos la tabla de hechos

In [10]:
#Cargamos la tabla de hechos.
datos = actualizarTablaDimension(engine, 'registro_lavado', df_result, pk= 'id_registro')

In [11]:
#realizamos la consulta para verificar que se haya cargado correctamente la tabla de hechos
#numero de lavados que se hicieron en 2024
query = """ SELECT SUM(numero_lavados), ubicacion.pais as Pais 
FROM registro_lavado 
JOIN Ubicacion ON registro_lavado.id_ubicacion = Ubicacion.id_ubicacion
WHERE anio = 2024 and pais = 'Argentina'
GROUP BY Pais ; """
consulta_1 = pd.read_sql(query, engine)
print(consulta_1)


   sum                  pais
0  155  Argentina           


## Cubo: Numero de lavados por país

In [10]:
#realizamos la consulta para verificar que se haya cargado correctamente la tabla de hechos
#numero de lavados que se hicieron en 2024
query = """ SELECT SUM(numero_lavados) AS Total_lavados, ubicacion.pais as Pais 
FROM registro_lavado 
JOIN Ubicacion ON registro_lavado.id_ubicacion = Ubicacion.id_ubicacion
WHERE anio = 2024 
GROUP BY Pais ; """
consulta_1 = pd.read_sql(query, engine)
consulta_1


Unnamed: 0,total_lavados,pais
0,142,Uruguay
1,178,Argentina
2,180,Paraguay


## Cubo: Consumo total de kWh 

In [11]:
# Consumo total de energia en 2024 por marca de lavarropas en Argentina.
query = """ SELECT SUM(consumo_total_energia_kwh) as Consumo_total_energia, marca.marca as Marca, ubicacion.pais as Pais
FROM registro_lavado
JOIN Marca ON registro_lavado.id_marca = Marca.id_marca
JOIN Ubicacion ON registro_lavado.id_ubicacion = Ubicacion.id_ubicacion
WHERE anio = 2024 and pais = 'Argentina'
GROUP BY Marca, Pais ; """
consulta_2 = pd.read_sql(query, engine)
consulta_2

Unnamed: 0,consumo_total_energia,marca,pais
0,60.26,Bosch,Argentina
1,62.98,Top_House,Argentina
2,31.21,BGH,Argentina
3,40.86,LG,Argentina
4,75.34,Whirlpool,Argentina
5,53.32,Electrolux,Argentina
6,46.68,Samsung,Argentina
7,55.14,Xiaomi,Argentina


## Cubo: Consumo total de agua litros

In [12]:
# Consumo total de agua en 2024 por marcas de lavarropas en Argentina.
query = """ SELECT SUM(consumo_total_agua_l) as Consumo_total_agua, marca.marca as Marca, ubicacion.pais as Pais
FROM registro_lavado
JOIN Marca ON registro_lavado.id_marca = Marca.id_marca
JOIN Ubicacion ON registro_lavado.id_ubicacion = Ubicacion.id_ubicacion
WHERE anio = 2024 and pais = 'Argentina'
GROUP BY Marca, Pais ; """
consulta_3 = pd.read_sql(query, engine)
consulta_3

Unnamed: 0,consumo_total_agua,marca,pais
0,3719.8,Bosch,Argentina
1,3888.4,Top_House,Argentina
2,1906.4,BGH,Argentina
3,2506.2,LG,Argentina
4,4751.6,Whirlpool,Argentina
5,3315.8,Electrolux,Argentina
6,3001.8,Samsung,Argentina
7,3442.1,Xiaomi,Argentina
