### Import das dependências

In [2]:
import os

import numpy as np
import pandas as pd

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme()

### 1. Importar o dataset - "Consumos mensais por concelho"

In [3]:
data_path = '../data/' if os.path.exists('../data/') else 'https://raw.githubusercontent.com/kreativermario/Projeto-DECD/master/data/'

consumos_faturados_path = data_path + '3-consumos-faturados-por-municipio-ultimos-10-anos.csv'

df_consumos_faturados = pd.read_csv(consumos_faturados_path, delimiter=';')

### 2. Ver o dataset

In [4]:
df_consumos_faturados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 173912 entries, 0 to 173911
Data columns (total 11 columns):
 #   Column                        Non-Null Count   Dtype  
---  ------                        --------------   -----  
 0   Ano                           173912 non-null  int64  
 1   Mês                           173912 non-null  int64  
 2   Data                          173912 non-null  object 
 3   Distrito                      173912 non-null  object 
 4   Concelho                      173912 non-null  object 
 5   Freguesia                     173912 non-null  object 
 6   Nível de Tensão               173912 non-null  object 
 7   Energia Ativa (kWh)           173912 non-null  float64
 8   CodDistrito                   173912 non-null  int64  
 9   CodDistritoConcelho           173912 non-null  int64  
 10  CodDistritoConcelhoFreguesia  173320 non-null  object 
dtypes: float64(1), int64(4), object(6)
memory usage: 14.6+ MB


1. Verificar se há elementos null

In [5]:
# Verificar nulls
null_counts = df_consumos_faturados.isnull().sum()

# Ver nulls por coluna
print("Número de nulls por coluna:")
print(null_counts)

df_consumos_faturados.head(15)

Número de nulls por coluna:
Ano                               0
Mês                               0
Data                              0
Distrito                          0
Concelho                          0
Freguesia                         0
Nível de Tensão                   0
Energia Ativa (kWh)               0
CodDistrito                       0
CodDistritoConcelho               0
CodDistritoConcelhoFreguesia    592
dtype: int64


Unnamed: 0,Ano,Mês,Data,Distrito,Concelho,Freguesia,Nível de Tensão,Energia Ativa (kWh),CodDistrito,CodDistritoConcelho,CodDistritoConcelhoFreguesia
0,2021,4,2021-04,VIANA DO CASTELO,Ponte de Lima,CALHEIROS,Baixa Tensão,104321.726,16,1607,160713
1,2021,5,2021-05,BRAGA,Amares,RENDUFE,"Muito Alta, Alta e Média Tensões",45123.071,3,301,30118
2,2021,5,2021-05,BRAGA,Vizela,UF CALDAS VIZELA,Baixa Tensão,1669013.735,3,314,31408
3,2021,5,2021-05,PORTALEGRE,Campo Maior,NOSSA SENHORA GRACA DEGOLADOS,"Muito Alta, Alta e Média Tensões",450138.731,12,1204,120402
4,2021,5,2021-05,SANTAREM,Sardoal,SANTIAGO DE MONTALEGRE,Baixa Tensão,44856.247,14,1417,141702
5,2021,6,2021-06,BRAGA,Vieira do Minho,TABUACAS,"Muito Alta, Alta e Média Tensões",171359.782,3,311,31118
6,2021,6,2021-06,LEIRIA,Bombarral,CARVALHAL,Baixa Tensão,482473.048,10,1005,100502
7,2021,6,2021-06,PORTO,Felgueiras,AIAO,Baixa Tensão,101726.041,13,1303,130301
8,2021,6,2021-06,PORTO,Póvoa de Varzim,UF AGUCADOURA E NAVAIS,Baixa Tensão,763835.428,13,1313,131314
9,2021,6,2021-06,VIANA DO CASTELO,Ponte de Lima,SERDEDELO,Baixa Tensão,34802.676,16,1607,160746


### 3. Tratamento e agregação dos dados

1. Remover atributos como a Data, Distrito, CodDistrito CodDistritoConcelho, CodDistritoConcelhoFreguesia 
2. Agrupar por concelhos e remover a freguesia

1. Remover atributos como a Data, Distrito, CodDistrito CodDistritoConcelho, CodDistritoConcelhoFreguesia

In [6]:
# Remover atributos como a data, distrito, código distrito, código distrito concelho e código distrito concelho freguesia
df_consumos_faturados.drop(columns=['Data', 'Distrito', 'CodDistrito','CodDistritoConcelho', 'CodDistritoConcelhoFreguesia'], inplace=True)
df_consumos_faturados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 173912 entries, 0 to 173911
Data columns (total 6 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   Ano                  173912 non-null  int64  
 1   Mês                  173912 non-null  int64  
 2   Concelho             173912 non-null  object 
 3   Freguesia            173912 non-null  object 
 4   Nível de Tensão      173912 non-null  object 
 5   Energia Ativa (kWh)  173912 non-null  float64
dtypes: float64(1), int64(2), object(3)
memory usage: 8.0+ MB


2. Agrupar por concelhos e remover a freguesia

In [7]:
df_agrupado_consumos = df_consumos_faturados.groupby(['Concelho', 'Nível de Tensão', 'Ano', 'Mês']).sum().reset_index()
df_agrupado_consumos.drop(columns=['Freguesia'], inplace=True)
df_agrupado_consumos

Unnamed: 0,Concelho,Nível de Tensão,Ano,Mês,Energia Ativa (kWh)
0,Abrantes,Baixa Tensão,2020,11,6029002.940
1,Abrantes,Baixa Tensão,2020,12,7077870.498
2,Abrantes,Baixa Tensão,2021,1,7712679.751
3,Abrantes,Baixa Tensão,2021,2,6003054.326
4,Abrantes,Baixa Tensão,2021,3,5968195.785
...,...,...,...,...,...
21598,Óbidos,"Muito Alta, Alta e Média Tensões",2023,9,2362739.409
21599,Óbidos,"Muito Alta, Alta e Média Tensões",2023,10,2434894.975
21600,Óbidos,"Muito Alta, Alta e Média Tensões",2023,11,2287322.884
21601,Óbidos,"Muito Alta, Alta e Média Tensões",2023,12,2324876.442


### 4. Verificação dos dados

1. Verificação número de linhas
2. Verificação dados

1. Verificação número de linhas

In [8]:
# Contagem de linhas antes do agrupamento
num_linhas_antes = len(df_consumos_faturados)

# Contagem de linhas depois do agrupamento
num_linhas_depois = len(df_agrupado_consumos)

# Exibição das contagens
print("Número de linhas antes do agrupamento:", num_linhas_antes)
print("Número de linhas depois do agrupamento:", num_linhas_depois)

df_agrupado_consumos.info()

df_agrupado_consumos.head(15)

Número de linhas antes do agrupamento: 173912
Número de linhas depois do agrupamento: 21603
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21603 entries, 0 to 21602
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Concelho             21603 non-null  object 
 1   Nível de Tensão      21603 non-null  object 
 2   Ano                  21603 non-null  int64  
 3   Mês                  21603 non-null  int64  
 4   Energia Ativa (kWh)  21603 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 844.0+ KB


Unnamed: 0,Concelho,Nível de Tensão,Ano,Mês,Energia Ativa (kWh)
0,Abrantes,Baixa Tensão,2020,11,6029002.94
1,Abrantes,Baixa Tensão,2020,12,7077870.498
2,Abrantes,Baixa Tensão,2021,1,7712679.751
3,Abrantes,Baixa Tensão,2021,2,6003054.326
4,Abrantes,Baixa Tensão,2021,3,5968195.785
5,Abrantes,Baixa Tensão,2021,4,5286724.904
6,Abrantes,Baixa Tensão,2021,5,5273668.184
7,Abrantes,Baixa Tensão,2021,6,5198261.657
8,Abrantes,Baixa Tensão,2021,7,5583887.035
9,Abrantes,Baixa Tensão,2021,8,5645604.343


2. Verificação de dados

In [9]:
# Para a coleção de Consumos Mensais por Concelho
df_consumos_lisboa = df_agrupado_consumos[df_agrupado_consumos['Concelho'] == 'Lisboa']
df_consumos_lisboa.info()

<class 'pandas.core.frame.DataFrame'>
Index: 78 entries, 8618 to 8695
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Concelho             78 non-null     object 
 1   Nível de Tensão      78 non-null     object 
 2   Ano                  78 non-null     int64  
 3   Mês                  78 non-null     int64  
 4   Energia Ativa (kWh)  78 non-null     float64
dtypes: float64(1), int64(2), object(2)
memory usage: 3.7+ KB


In [10]:
df_consumos_lisboa

Unnamed: 0,Concelho,Nível de Tensão,Ano,Mês,Energia Ativa (kWh)
8618,Lisboa,Baixa Tensão,2020,11,1.288069e+08
8619,Lisboa,Baixa Tensão,2020,12,1.488555e+08
8620,Lisboa,Baixa Tensão,2021,1,1.681914e+08
8621,Lisboa,Baixa Tensão,2021,2,1.229738e+08
8622,Lisboa,Baixa Tensão,2021,3,1.183059e+08
...,...,...,...,...,...
8691,Lisboa,"Muito Alta, Alta e Média Tensões",2023,9,1.204762e+08
8692,Lisboa,"Muito Alta, Alta e Média Tensões",2023,10,1.223003e+08
8693,Lisboa,"Muito Alta, Alta e Média Tensões",2023,11,1.104625e+08
8694,Lisboa,"Muito Alta, Alta e Média Tensões",2023,12,1.109523e+08


### 5. Guardar Ficheiro

In [13]:
file_path = data_path + 'treated/consumos_faturados_por_municipio_10_anos.csv'

df_agrupado_consumos.to_csv(file_path, index=False)

print("DataFrame guardado em ", file_path)

278
DataFrame guardado em  ../data/treated/consumos_faturados_por_municipio_10_anos.csv
