# ⚙️ Pré-processamento dos Dados

In [27]:
# !pip install pandas scikit_learn numpy
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
import numpy as np
import os

In [28]:
df = pd.read_parquet('../datasets/consumo_eredes_customizado.parquet') # Abrir o ficheiro

# MinMaxScaler [0, 1]
- Valores baixos de consumo (ex: 839.17) → ficam perto de 0
- Valores mais altos de consumo (ex: 11175.02) → ficam mais perto de 1

In [29]:
scaler = MinMaxScaler() # Instanciar o scaler
df['EnergyNormalized'] = scaler.fit_transform(df[['ActiveEnergy(kWh)']]) # Aplicar no consumo energético normalizado

In [30]:
df.tail() # Mostra as ultimas 5 linhas do DataFrame df_total (útil para inspeção rápida dos dados)

Unnamed: 0,DateTime,Date,Hour,ZipCode,ActiveEnergy(kWh),Day,Month,Year,IsWeekend,TimeOfDay,DayOfTheWeek,Season,IsHoliday,Temperature,PopulationDensity,EnergyNormalized
3719403,2023-09-30 23:00:00,2023-09-30,23,1685,3588.766159,30,9,2023,1,Noite,Sábado,Outono,0,21.8,5455.23,0.023778
3719404,2023-09-30 23:00:00,2023-09-30,23,3740,1849.719996,30,9,2023,1,Noite,Sábado,Outono,0,22.4,2788.79,0.012252
3719405,2023-09-30 23:00:00,2023-09-30,23,3750,12433.094481,30,9,2023,1,Noite,Sábado,Outono,0,22.4,2788.79,0.082397
3719406,2023-09-30 23:00:00,2023-09-30,23,3680,2393.029205,30,9,2023,1,Noite,Sábado,Outono,0,20.2,196.31,0.015853
3719407,2023-09-30 23:00:00,2023-09-30,23,8970,720.20691,30,9,2023,1,Noite,Sábado,Outono,0,22.4,333.82,0.004766


In [31]:
df.to_parquet("../datasets/consumo_eredes_normalizado.parquet", index=False) # Guarda o DataFrame df num novo ficheiro .parquet com os dados normalizados. index=False evita que o índice do DataFrame seja guardado como coluna no ficheiro
print("✅ Ficheiro combinado guardado em: datasets/consumo_eredes_normalizado.parquet")

caminho_do_ficheiro = '../datasets/consumo_eredes_customizado.parquet' # Apagar o dataset antigo (customizado)
os.unlink(caminho_do_ficheiro) # Remove o ficheiro do sistema de ficheiros
print("✅ Ficheiro eliminado em: datasets/consumo_eredes_customizado.parquet")

✅ Ficheiro combinado guardado em: datasets/consumo_eredes_normalizado.parquet
✅ Ficheiro eliminado em: datasets/consumo_eredes_customizado.parquet


In [32]:
df = pd.read_parquet('../datasets/consumo_eredes_normalizado.parquet') # Lê o ficheiro .parquet com os dados normalizados para um DataFrame

df_cp = df[df["ZipCode"] == "4610"].copy() # Filtrar apenas os registos com código postal "4610"
df_cp["DateTime"] = pd.to_datetime(df_cp["DateTime"]) # Garante que a coluna DateTime está no formato datetime
df_cp = df_cp.sort_values("DateTime") # Ordena os dados por ordem cronológica

df_cp.to_parquet('../datasets/consumo_eredes_normalizado_4610.parquet', index=False) # Guarda o DataFrame filtrado num novo ficheiro .parquet
print("✅ Ficheiro guardado com sucesso em datasets/consumo_eredes_normalizado_4610.parquet")

✅ Ficheiro guardado com sucesso em datasets/consumo_eredes_normalizado_4610.parquet


### Dataset Limpo
- Nome: `consumo_eredes_normalizado.parquet`
- Colunas mantidas: `Hour`, `ActiveEnergy(kWh)`, `DayOfTheWeek`, `DateTime`, `Date`, `Day`, `Month`, `Year`, `IsWeekend`, `TimeOfDay`, `Season`, `isHoliday`, `Temperature`, `PopulationDensity`
- Colunas criadas: `EnergyNormalized`