### Import das dependências

In [1]:
import os

import numpy as np
import pandas as pd

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme()

### 1. Importar o dataset - "Consumos mensais por concelho"

In [2]:
data_path = '../data/' if os.path.exists('../data/') else 'https://raw.githubusercontent.com/kreativermario/Projeto-DECD/master/data/'

consumos_faturados_path = data_path + '3-consumos-faturados-por-municipio-ultimos-10-anos.csv'

df_consumos_faturados = pd.read_csv(consumos_faturados_path, delimiter=';')

### 2. Ver o dataset

In [3]:
df_consumos_faturados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178393 entries, 0 to 178392
Data columns (total 11 columns):
 #   Column                        Non-Null Count   Dtype  
---  ------                        --------------   -----  
 0   Ano                           178393 non-null  int64  
 1   Mês                           178393 non-null  int64  
 2   Data                          178393 non-null  object 
 3   Distrito                      178393 non-null  object 
 4   Concelho                      178393 non-null  object 
 5   Freguesia                     178393 non-null  object 
 6   Nível de Tensão               178393 non-null  object 
 7   Energia Ativa (kWh)           178393 non-null  float64
 8   CodDistrito                   178393 non-null  int64  
 9   CodDistritoConcelho           178393 non-null  int64  
 10  CodDistritoConcelhoFreguesia  177786 non-null  object 
dtypes: float64(1), int64(4), object(6)
memory usage: 15.0+ MB


1. Verificar se há elementos null

In [4]:
# Verificar nulls
null_counts = df_consumos_faturados.isnull().sum()

# Ver nulls por coluna
print("Número de nulls por coluna:")
print(null_counts)

df_consumos_faturados.head(15)

Número de nulls por coluna:
Ano                               0
Mês                               0
Data                              0
Distrito                          0
Concelho                          0
Freguesia                         0
Nível de Tensão                   0
Energia Ativa (kWh)               0
CodDistrito                       0
CodDistritoConcelho               0
CodDistritoConcelhoFreguesia    607
dtype: int64


Unnamed: 0,Ano,Mês,Data,Distrito,Concelho,Freguesia,Nível de Tensão,Energia Ativa (kWh),CodDistrito,CodDistritoConcelho,CodDistritoConcelhoFreguesia
0,2022,3,2022-03,LISBOA,Cascais,SAO DOMINGOS DE RANA,"Muito Alta, Alta e Média Tensões",2285056.105,11,1105,110506
1,2022,3,2022-03,LISBOA,Loures,BUCELAS,"Muito Alta, Alta e Média Tensões",746079.94,11,1107,110702
2,2022,3,2022-03,VIANA DO CASTELO,Ponte de Lima,FORNELOS E QUEIJADA,"Muito Alta, Alta e Média Tensões",189886.628,16,1607,160758
3,2022,3,2022-03,VILA REAL,Vila Real,LORDELO,"Muito Alta, Alta e Média Tensões",606325.087,17,1714,171414
4,2022,3,2022-03,VISEU,Mangualde,UF S CASSURRAES POVOA CERVAES,Baixa Tensão,161483.633,18,1806,180621
5,2022,4,2022-04,BEJA,Odemira,BOAVISTA DOS PINHEIROS,"Muito Alta, Alta e Média Tensões",477877.604,2,211,21116
6,2022,4,2022-04,BRAGA,Barcelos,FORNELOS,Baixa Tensão,95256.482,3,302,30234
7,2022,4,2022-04,BRAGA,Celorico de Basto,ARNOIA,Baixa Tensão,160381.42,3,305,30502
8,2022,4,2022-04,BRAGA,Vila Verde,LANHAS,Baixa Tensão,66978.475,3,313,31324
9,2022,4,2022-04,BRAGANCA,Mirandela,UF BARCEL MARMELOS VAL GESTOSA,Baixa Tensão,52685.909,4,407,40740


### 3. Tratamento e agregação dos dados

1. Remover atributos como a Data, Distrito, CodDistrito CodDistritoConcelho, CodDistritoConcelhoFreguesia 
2. Agrupar por concelhos e remover a freguesia

1. Remover atributos como a Data, Distrito, CodDistrito CodDistritoConcelho, CodDistritoConcelhoFreguesia

In [5]:
# Remover atributos como a data, distrito, código distrito, código distrito concelho e código distrito concelho freguesia
df_consumos_faturados.drop(columns=['Data', 'Distrito', 'CodDistrito','CodDistritoConcelho', 'CodDistritoConcelhoFreguesia'], inplace=True)
df_consumos_faturados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178393 entries, 0 to 178392
Data columns (total 6 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   Ano                  178393 non-null  int64  
 1   Mês                  178393 non-null  int64  
 2   Concelho             178393 non-null  object 
 3   Freguesia            178393 non-null  object 
 4   Nível de Tensão      178393 non-null  object 
 5   Energia Ativa (kWh)  178393 non-null  float64
dtypes: float64(1), int64(2), object(3)
memory usage: 8.2+ MB


2. Agrupar por concelhos e remover a freguesia

In [6]:
df_agrupado_consumos = df_consumos_faturados.groupby(['Concelho', 'Nível de Tensão', 'Ano', 'Mês']).sum().reset_index()
df_agrupado_consumos.drop(columns=['Freguesia'], inplace=True)
df_agrupado_consumos.rename(columns={'Concelho':'concelho', 'Nível de Tensão':'nivel_de_tensao', 'Ano':'ano', 'Mês':'mes', 'Energia Ativa (kWh)':'energia_ativa_kwh'}, inplace=True)
df_agrupado_consumos.head(20)

Unnamed: 0,concelho,nivel_de_tensao,ano,mes,energia_ativa_kwh
0,Abrantes,Baixa Tensão,2020,11,6028876.823
1,Abrantes,Baixa Tensão,2020,12,7077695.231
2,Abrantes,Baixa Tensão,2021,1,7712489.589
3,Abrantes,Baixa Tensão,2021,2,6002902.204
4,Abrantes,Baixa Tensão,2021,3,5968053.133
5,Abrantes,Baixa Tensão,2021,4,5286618.275
6,Abrantes,Baixa Tensão,2021,5,5273576.492
7,Abrantes,Baixa Tensão,2021,6,5198165.148
8,Abrantes,Baixa Tensão,2021,7,5584150.218
9,Abrantes,Baixa Tensão,2021,8,5647642.591


### 4. Verificação dos dados

1. Verificação número de linhas
2. Verificação dados

1. Verificação número de linhas

In [7]:
# Contagem de linhas antes do agrupamento
num_linhas_antes = len(df_consumos_faturados)

# Contagem de linhas depois do agrupamento
num_linhas_depois = len(df_agrupado_consumos)

# Exibição das contagens
print("Número de linhas antes do agrupamento:", num_linhas_antes)
print("Número de linhas depois do agrupamento:", num_linhas_depois)

df_agrupado_consumos.info()

df_agrupado_consumos.head(15)

Número de linhas antes do agrupamento: 178393
Número de linhas depois do agrupamento: 22157
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22157 entries, 0 to 22156
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   concelho           22157 non-null  object 
 1   nivel_de_tensao    22157 non-null  object 
 2   ano                22157 non-null  int64  
 3   mes                22157 non-null  int64  
 4   energia_ativa_kwh  22157 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 865.6+ KB


Unnamed: 0,concelho,nivel_de_tensao,ano,mes,energia_ativa_kwh
0,Abrantes,Baixa Tensão,2020,11,6028876.823
1,Abrantes,Baixa Tensão,2020,12,7077695.231
2,Abrantes,Baixa Tensão,2021,1,7712489.589
3,Abrantes,Baixa Tensão,2021,2,6002902.204
4,Abrantes,Baixa Tensão,2021,3,5968053.133
5,Abrantes,Baixa Tensão,2021,4,5286618.275
6,Abrantes,Baixa Tensão,2021,5,5273576.492
7,Abrantes,Baixa Tensão,2021,6,5198165.148
8,Abrantes,Baixa Tensão,2021,7,5584150.218
9,Abrantes,Baixa Tensão,2021,8,5647642.591


In [8]:
# Contagem de linhas antes do agrupamento
num_concelhos_antes = len(df_consumos_faturados['Concelho'].unique())

# Contagem de linhas depois do agrupamento
num_concelhos_depois = len(df_agrupado_consumos['concelho'].unique())

# Exibição das contagens
print("Número de concelhos antes do agrupamento:", num_concelhos_antes)
print("Número de concelhos depois do agrupamento:", num_concelhos_depois)

Número de concelhos antes do agrupamento: 278
Número de concelhos depois do agrupamento: 278


2. Verificação de dados

In [9]:
# Para a coleção de Consumos Mensais por Concelho
df_consumos_lisboa = df_agrupado_consumos[df_agrupado_consumos['concelho'] == 'Lisboa']
df_consumos_lisboa.info()

<class 'pandas.core.frame.DataFrame'>
Index: 80 entries, 8840 to 8919
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   concelho           80 non-null     object 
 1   nivel_de_tensao    80 non-null     object 
 2   ano                80 non-null     int64  
 3   mes                80 non-null     int64  
 4   energia_ativa_kwh  80 non-null     float64
dtypes: float64(1), int64(2), object(2)
memory usage: 3.8+ KB


In [10]:
df_consumos_lisboa

Unnamed: 0,concelho,nivel_de_tensao,ano,mes,energia_ativa_kwh
8840,Lisboa,Baixa Tensão,2020,11,1.287976e+08
8841,Lisboa,Baixa Tensão,2020,12,1.488491e+08
8842,Lisboa,Baixa Tensão,2021,1,1.681885e+08
8843,Lisboa,Baixa Tensão,2021,2,1.229727e+08
8844,Lisboa,Baixa Tensão,2021,3,1.183083e+08
...,...,...,...,...,...
8915,Lisboa,"Muito Alta, Alta e Média Tensões",2023,10,1.222942e+08
8916,Lisboa,"Muito Alta, Alta e Média Tensões",2023,11,1.104590e+08
8917,Lisboa,"Muito Alta, Alta e Média Tensões",2023,12,1.103051e+08
8918,Lisboa,"Muito Alta, Alta e Média Tensões",2024,1,1.118887e+08


### 5. Guardar Ficheiro

In [11]:
file_path = data_path + 'treated/consumos_faturados_por_municipio_10_anos.csv'

df_agrupado_consumos.to_csv(file_path, index=False)

print("DataFrame guardado em ", file_path)

DataFrame guardado em  ../data/treated/consumos_faturados_por_municipio_10_anos.csv
