In [17]:
import os

import numpy as np
import pandas as pd

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme()

### 1. Importar o dataset

In [18]:
data_path = '../data/' if os.path.exists('../data/') else 'https://raw.githubusercontent.com/kreativermario/Projeto-DECD/master/data/'

pordata_path = data_path + 'pordata_populacional.csv'

df_pordata = pd.read_csv(pordata_path, delimiter=';')

In [19]:
data_path = '../data/' if os.path.exists('../data/') else 'https://raw.githubusercontent.com/kreativermario/Projeto-DECD/master/data/'

concelhos_path = data_path + 'treated/merged-dataset-concelho.csv'

df_concelhos = pd.read_csv(concelhos_path)

### 2. Ver o dataset

In [20]:
df_pordata.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 308 entries, 0 to 307
Data columns (total 2 columns):
 #   Column                                Non-Null Count  Dtype 
---  ------                                --------------  ----- 
 0   Municipio                             308 non-null    object
 1   Densidade Populacional (medio p/km2)  308 non-null    object
dtypes: object(2)
memory usage: 4.9+ KB


In [21]:
# Verificar nulls
null_counts = df_pordata.isnull().sum()

# Ver nulls por coluna
print("Número de nulls por coluna:")
print(null_counts)

df_pordata.head(15)

Número de nulls por coluna:
Municipio                               0
Densidade Populacional (medio p/km2)    0
dtype: int64


Unnamed: 0,Municipio,Densidade Populacional (medio p/km2)
0,Arcos de Valdevez,462
1,Caminha,1174
2,Melgaço,321
3,Monção,846
4,Paredes de Coura,628
5,Ponte da Barca,608
6,Ponte de Lima,1282
7,Valença,1183
8,Viana do Castelo,2697
9,Vila Nova de Cerveira,838


In [22]:
df_pordata.describe()

Unnamed: 0,Municipio,Densidade Populacional (medio p/km2)
count,308,308
unique,308,282
top,Arcos de Valdevez,86
freq,1,4


### Comparar o número de concelhos (merged dataset) e municipios (pordata)

In [23]:
concelho_counts = df_concelhos['concelho'].value_counts()
print(concelho_counts)  

concelho
Abrantes    18
Pombal      18
Porto       18
Portimão    18
Portel      18
            ..
Golegã      18
Gondomar    18
Gouveia     18
Grândola    18
Óbidos      18
Name: count, Length: 273, dtype: int64


### Merge dos concelhos com municipios

In [24]:
merged_df = pd.merge(df_concelhos, df_pordata, left_on='concelho', right_on='Municipio', how='inner')

merged_df.drop(columns=['Municipio'], inplace=True)

merged_df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4914 entries, 0 to 4913
Data columns (total 16 columns):
 #   Column                                     Non-Null Count  Dtype 
---  ------                                     --------------  ----- 
 0   concelho                                   4914 non-null   object
 1   ano                                        4914 non-null   int64 
 2   mes                                        4914 non-null   int64 
 3   energia_ativa_baixa_tensao_kwh             4914 non-null   int64 
 4   energia_ativa_alta_tensao_kwh              4914 non-null   int64 
 5   cpes_domestico_baixa_tensao                4914 non-null   int64 
 6   cpes_domestico_alta_tensao                 4914 non-null   int64 
 7   cpes_iluminacao_publica_baixa_tensao       4914 non-null   int64 
 8   cpes_iluminacao_publica_alta_tensao        4914 non-null   int64 
 9   cpes_nao_domestico_baixa_tensao            4914 non-null   int64 
 10  cpes_nao_domestico_alta_tensao      

In [25]:
merged_df.describe()

Unnamed: 0,ano,mes,energia_ativa_baixa_tensao_kwh,energia_ativa_alta_tensao_kwh,cpes_domestico_baixa_tensao,cpes_domestico_alta_tensao,cpes_iluminacao_publica_baixa_tensao,cpes_iluminacao_publica_alta_tensao,cpes_nao_domestico_baixa_tensao,cpes_nao_domestico_alta_tensao,cpes_outros_baixa_tensao,cpes_outros_alta_tensao,cpes_mobilidade_eletrica_nao_baixa_tensao,cpes_mobilidade_eletrica_sim_baixa_tensao
count,4914.0,4914.0,4914.0,4914.0,4914.0,4914.0,4914.0,4914.0,4914.0,4914.0,4914.0,4914.0,4914.0,4914.0
mean,2022.777778,7.166667,6473418.0,6872585.0,18802.326414,0.04009,214.084046,0.0,4241.061661,95.435694,128.958079,0.385836,27020.995319,9.315832
std,0.532924,3.625129,11619190.0,14231930.0,29402.960918,0.209242,194.120963,0.0,6870.529538,121.195235,206.186626,4.18454,45854.018577,24.622134
min,2022.0,1.0,139066.0,0.0,1042.0,0.0,7.0,0.0,174.0,0.0,1.0,0.0,1144.0,0.0
25%,2022.0,4.0,1269620.0,416292.5,4581.0,0.0,91.0,0.0,1101.0,28.0,21.0,0.0,6044.0,2.0
50%,2023.0,8.0,2618006.0,1837661.0,8936.0,0.0,141.0,0.0,1989.5,51.0,54.0,0.0,11336.0,2.0
75%,2023.0,10.0,7045592.0,5952910.0,21427.0,0.0,280.0,0.0,4897.25,119.0,157.0,0.0,29565.5,6.0
max,2024.0,12.0,163380700.0,127947000.0,312074.0,2.0,1185.0,0.0,79984.0,1226.0,2186.0,75.0,528158.0,382.0


In [26]:
# Verificar nulls
null_counts = merged_df.isnull().sum()

# Ver nulls por coluna
print("Número de nulls por coluna:")
print(null_counts)

Número de nulls por coluna:
concelho                                     0
ano                                          0
mes                                          0
energia_ativa_baixa_tensao_kwh               0
energia_ativa_alta_tensao_kwh                0
cpes_domestico_baixa_tensao                  0
cpes_domestico_alta_tensao                   0
cpes_iluminacao_publica_baixa_tensao         0
cpes_iluminacao_publica_alta_tensao          0
cpes_nao_domestico_baixa_tensao              0
cpes_nao_domestico_alta_tensao               0
cpes_outros_baixa_tensao                     0
cpes_outros_alta_tensao                      0
cpes_mobilidade_eletrica_nao_baixa_tensao    0
cpes_mobilidade_eletrica_sim_baixa_tensao    0
Densidade Populacional (medio p/km2)         0
dtype: int64


In [27]:
# Renomear a coluna
merged_df.rename(columns={'Densidade Populacional (medio p/km2)': 'densidade_populacional_pessoas_km2'}, inplace=True)

# Verificar se a coluna foi renomeada corretamente
merged_df.head()

Unnamed: 0,concelho,ano,mes,energia_ativa_baixa_tensao_kwh,energia_ativa_alta_tensao_kwh,cpes_domestico_baixa_tensao,cpes_domestico_alta_tensao,cpes_iluminacao_publica_baixa_tensao,cpes_iluminacao_publica_alta_tensao,cpes_nao_domestico_baixa_tensao,cpes_nao_domestico_alta_tensao,cpes_outros_baixa_tensao,cpes_outros_alta_tensao,cpes_mobilidade_eletrica_nao_baixa_tensao,cpes_mobilidade_eletrica_sim_baixa_tensao,densidade_populacional_pessoas_km2
0,Abrantes,2022,8,5906036,5891542,20260,0,293,0,4318,134,83,0,22194,2,475
1,Abrantes,2022,9,5316878,6159115,20270,0,293,0,4311,134,81,0,22596,2,475
2,Abrantes,2022,10,5428732,6360625,20280,0,293,0,4302,134,81,0,23126,2,475
3,Abrantes,2022,11,5843266,5961164,20291,0,293,0,4308,134,80,0,23938,2,475
4,Abrantes,2022,12,6778130,5272178,20297,0,294,0,4312,134,82,0,24420,2,475


### Transformar a coluna em int

In [28]:
# Remover espaços em branco dos valores na coluna
merged_df['densidade_populacional_pessoas_km2'] = merged_df['densidade_populacional_pessoas_km2'].apply(lambda x: x.replace(' ', ''))
merged_df['densidade_populacional_pessoas_km2'] = merged_df['densidade_populacional_pessoas_km2'].apply(lambda x: x.replace(',', '.'))

merged_df.head()

Unnamed: 0,concelho,ano,mes,energia_ativa_baixa_tensao_kwh,energia_ativa_alta_tensao_kwh,cpes_domestico_baixa_tensao,cpes_domestico_alta_tensao,cpes_iluminacao_publica_baixa_tensao,cpes_iluminacao_publica_alta_tensao,cpes_nao_domestico_baixa_tensao,cpes_nao_domestico_alta_tensao,cpes_outros_baixa_tensao,cpes_outros_alta_tensao,cpes_mobilidade_eletrica_nao_baixa_tensao,cpes_mobilidade_eletrica_sim_baixa_tensao,densidade_populacional_pessoas_km2
0,Abrantes,2022,8,5906036,5891542,20260,0,293,0,4318,134,83,0,22194,2,47.5
1,Abrantes,2022,9,5316878,6159115,20270,0,293,0,4311,134,81,0,22596,2,47.5
2,Abrantes,2022,10,5428732,6360625,20280,0,293,0,4302,134,81,0,23126,2,47.5
3,Abrantes,2022,11,5843266,5961164,20291,0,293,0,4308,134,80,0,23938,2,47.5
4,Abrantes,2022,12,6778130,5272178,20297,0,294,0,4312,134,82,0,24420,2,47.5


In [29]:
merged_df['densidade_populacional_pessoas_km2'] = merged_df['densidade_populacional_pessoas_km2'].astype('float')

In [30]:
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4914 entries, 0 to 4913
Data columns (total 16 columns):
 #   Column                                     Non-Null Count  Dtype  
---  ------                                     --------------  -----  
 0   concelho                                   4914 non-null   object 
 1   ano                                        4914 non-null   int64  
 2   mes                                        4914 non-null   int64  
 3   energia_ativa_baixa_tensao_kwh             4914 non-null   int64  
 4   energia_ativa_alta_tensao_kwh              4914 non-null   int64  
 5   cpes_domestico_baixa_tensao                4914 non-null   int64  
 6   cpes_domestico_alta_tensao                 4914 non-null   int64  
 7   cpes_iluminacao_publica_baixa_tensao       4914 non-null   int64  
 8   cpes_iluminacao_publica_alta_tensao        4914 non-null   int64  
 9   cpes_nao_domestico_baixa_tensao            4914 non-null   int64  
 10  cpes_nao_domestico_alta_

### Guardar num ficheiro com concelho

In [31]:
file_path = data_path + 'treated/merged-dataset-concelho-densidade.csv'

merged_df.to_csv(file_path, index=False)

print("DataFrame guardado em ", file_path)

DataFrame guardado em  ../data/treated/merged-dataset-concelho-densidade.csv


### Guardar num ficheiro sem concelho

In [32]:
file_path = data_path + 'treated/merged-dataset-densidade.csv'

merged_df.drop(columns=['concelho'], inplace=True)

merged_df.to_csv(file_path, index=False)

print("DataFrame guardado em ", file_path)

DataFrame guardado em  ../data/treated/merged-dataset-densidade.csv
