In [1]:
import os

import numpy as np
import pandas as pd

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme()

### 1. Importar o dataset

In [2]:
data_path = '../data/' if os.path.exists('../data/') else 'https://raw.githubusercontent.com/kreativermario/Projeto-DECD/master/data/'

pordata_path = data_path + 'pordata_populacional.csv'

df_pordata = pd.read_csv(pordata_path, delimiter=';')

In [3]:
data_path = '../data/' if os.path.exists('../data/') else 'https://raw.githubusercontent.com/kreativermario/Projeto-DECD/master/data/'

concelhos_path = data_path + 'treated/merged-dataset-concelho.csv'

df_concelhos = pd.read_csv(concelhos_path)

### 2. Ver o dataset

In [4]:
df_pordata.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 308 entries, 0 to 307
Data columns (total 2 columns):
 #   Column                                Non-Null Count  Dtype 
---  ------                                --------------  ----- 
 0   Municipio                             308 non-null    object
 1   Densidade Populacional (medio p/km2)  308 non-null    object
dtypes: object(2)
memory usage: 4.9+ KB


In [5]:
# Verificar nulls
null_counts = df_pordata.isnull().sum()

# Ver nulls por coluna
print("Número de nulls por coluna:")
print(null_counts)

df_pordata.head(15)

Número de nulls por coluna:
Municipio                               0
Densidade Populacional (medio p/km2)    0
dtype: int64


Unnamed: 0,Municipio,Densidade Populacional (medio p/km2)
0,Arcos de Valdevez,462
1,Caminha,1174
2,Melgaço,321
3,Monção,846
4,Paredes de Coura,628
5,Ponte da Barca,608
6,Ponte de Lima,1282
7,Valença,1183
8,Viana do Castelo,2697
9,Vila Nova de Cerveira,838


In [6]:
df_pordata.describe()

Unnamed: 0,Municipio,Densidade Populacional (medio p/km2)
count,308,308
unique,308,282
top,Arcos de Valdevez,86
freq,1,4


### Comparar o número de concelhos (merged dataset) e municipios (pordata)

In [7]:
concelho_counts = df_concelhos['concelho'].value_counts()
print(concelho_counts)  

concelho
Abrantes    19
Pombal      19
Porto       19
Portimão    19
Portel      19
            ..
Golegã      19
Gondomar    19
Gouveia     19
Grândola    19
Óbidos      19
Name: count, Length: 273, dtype: int64


### Merge dos concelhos com municipios

In [8]:
merged_df = pd.merge(df_concelhos, df_pordata, left_on='concelho', right_on='Municipio', how='inner')

merged_df.drop(columns=['Municipio'], inplace=True)

merged_df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5187 entries, 0 to 5186
Data columns (total 16 columns):
 #   Column                                     Non-Null Count  Dtype 
---  ------                                     --------------  ----- 
 0   concelho                                   5187 non-null   object
 1   ano                                        5187 non-null   int64 
 2   mes                                        5187 non-null   int64 
 3   energia_ativa_baixa_tensao_kwh             5187 non-null   int64 
 4   energia_ativa_alta_tensao_kwh              5187 non-null   int64 
 5   cpes_domestico_baixa_tensao                5187 non-null   int64 
 6   cpes_domestico_alta_tensao                 5187 non-null   int64 
 7   cpes_iluminacao_publica_baixa_tensao       5187 non-null   int64 
 8   cpes_iluminacao_publica_alta_tensao        5187 non-null   int64 
 9   cpes_nao_domestico_baixa_tensao            5187 non-null   int64 
 10  cpes_nao_domestico_alta_tensao      

In [9]:
merged_df.describe()

Unnamed: 0,ano,mes,energia_ativa_baixa_tensao_kwh,energia_ativa_alta_tensao_kwh,cpes_domestico_baixa_tensao,cpes_domestico_alta_tensao,cpes_iluminacao_publica_baixa_tensao,cpes_iluminacao_publica_alta_tensao,cpes_nao_domestico_baixa_tensao,cpes_nao_domestico_alta_tensao,cpes_outros_baixa_tensao,cpes_outros_alta_tensao,cpes_mobilidade_eletrica_nao_baixa_tensao,cpes_mobilidade_eletrica_sim_baixa_tensao
count,5187.0,5187.0,5187.0,5187.0,5187.0,5187.0,5187.0,5187.0,5187.0,5187.0,5187.0,5187.0,5187.0,5187.0
mean,2022.842105,6.894737,6518676.0,6888616.0,18808.416426,0.040486,214.150183,0.0,4242.803933,95.497205,128.463852,0.365529,27371.181415,9.6123
std,0.586137,3.712284,11779960.0,14265110.0,29413.928256,0.211279,194.193563,0.0,6873.077695,121.26753,205.717131,4.073821,46187.414907,25.397713
min,2022.0,1.0,100068.0,0.0,1042.0,0.0,7.0,0.0,174.0,0.0,1.0,0.0,1144.0,0.0
25%,2022.0,3.0,1266728.0,411369.5,4580.5,0.0,91.0,0.0,1101.0,28.0,20.5,0.0,6151.0,2.0
50%,2023.0,8.0,2625888.0,1824003.0,8935.0,0.0,141.0,0.0,1990.0,51.0,53.0,0.0,11544.0,2.0
75%,2023.0,10.0,7113475.0,5962718.0,21437.0,0.0,280.0,0.0,4900.0,119.0,155.0,0.0,30042.0,6.0
max,2024.0,12.0,164135300.0,127947000.0,312095.0,2.0,1185.0,0.0,79984.0,1229.0,2186.0,75.0,530262.0,388.0


In [10]:
# Verificar nulls
null_counts = merged_df.isnull().sum()

# Ver nulls por coluna
print("Número de nulls por coluna:")
print(null_counts)

Número de nulls por coluna:
concelho                                     0
ano                                          0
mes                                          0
energia_ativa_baixa_tensao_kwh               0
energia_ativa_alta_tensao_kwh                0
cpes_domestico_baixa_tensao                  0
cpes_domestico_alta_tensao                   0
cpes_iluminacao_publica_baixa_tensao         0
cpes_iluminacao_publica_alta_tensao          0
cpes_nao_domestico_baixa_tensao              0
cpes_nao_domestico_alta_tensao               0
cpes_outros_baixa_tensao                     0
cpes_outros_alta_tensao                      0
cpes_mobilidade_eletrica_nao_baixa_tensao    0
cpes_mobilidade_eletrica_sim_baixa_tensao    0
Densidade Populacional (medio p/km2)         0
dtype: int64


In [11]:
# Renomear a coluna
merged_df.rename(columns={'Densidade Populacional (medio p/km2)': 'densidade_populacional_pessoas_km2'}, inplace=True)

# Verificar se a coluna foi renomeada corretamente
merged_df.head()

Unnamed: 0,concelho,ano,mes,energia_ativa_baixa_tensao_kwh,energia_ativa_alta_tensao_kwh,cpes_domestico_baixa_tensao,cpes_domestico_alta_tensao,cpes_iluminacao_publica_baixa_tensao,cpes_iluminacao_publica_alta_tensao,cpes_nao_domestico_baixa_tensao,cpes_nao_domestico_alta_tensao,cpes_outros_baixa_tensao,cpes_outros_alta_tensao,cpes_mobilidade_eletrica_nao_baixa_tensao,cpes_mobilidade_eletrica_sim_baixa_tensao,densidade_populacional_pessoas_km2
0,Abrantes,2022,8,5908716,5891542,20260,0,293,0,4318,134,83,0,22194,2,475
1,Abrantes,2022,9,5319528,6159115,20270,0,293,0,4311,134,81,0,22596,2,475
2,Abrantes,2022,10,5431060,6360625,20280,0,293,0,4302,134,81,0,23126,2,475
3,Abrantes,2022,11,5845742,5961164,20291,0,293,0,4308,134,80,0,23938,2,475
4,Abrantes,2022,12,6780793,5272178,20297,0,294,0,4312,134,82,0,24420,2,475


### Transformar a coluna em int

In [12]:
# Remover espaços em branco dos valores na coluna
merged_df['densidade_populacional_pessoas_km2'] = merged_df['densidade_populacional_pessoas_km2'].apply(lambda x: x.replace(' ', ''))
merged_df['densidade_populacional_pessoas_km2'] = merged_df['densidade_populacional_pessoas_km2'].apply(lambda x: x.replace(',', '.'))

merged_df.head()

Unnamed: 0,concelho,ano,mes,energia_ativa_baixa_tensao_kwh,energia_ativa_alta_tensao_kwh,cpes_domestico_baixa_tensao,cpes_domestico_alta_tensao,cpes_iluminacao_publica_baixa_tensao,cpes_iluminacao_publica_alta_tensao,cpes_nao_domestico_baixa_tensao,cpes_nao_domestico_alta_tensao,cpes_outros_baixa_tensao,cpes_outros_alta_tensao,cpes_mobilidade_eletrica_nao_baixa_tensao,cpes_mobilidade_eletrica_sim_baixa_tensao,densidade_populacional_pessoas_km2
0,Abrantes,2022,8,5908716,5891542,20260,0,293,0,4318,134,83,0,22194,2,47.5
1,Abrantes,2022,9,5319528,6159115,20270,0,293,0,4311,134,81,0,22596,2,47.5
2,Abrantes,2022,10,5431060,6360625,20280,0,293,0,4302,134,81,0,23126,2,47.5
3,Abrantes,2022,11,5845742,5961164,20291,0,293,0,4308,134,80,0,23938,2,47.5
4,Abrantes,2022,12,6780793,5272178,20297,0,294,0,4312,134,82,0,24420,2,47.5


In [13]:
merged_df['densidade_populacional_pessoas_km2'] = merged_df['densidade_populacional_pessoas_km2'].astype('float')

In [14]:
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5187 entries, 0 to 5186
Data columns (total 16 columns):
 #   Column                                     Non-Null Count  Dtype  
---  ------                                     --------------  -----  
 0   concelho                                   5187 non-null   object 
 1   ano                                        5187 non-null   int64  
 2   mes                                        5187 non-null   int64  
 3   energia_ativa_baixa_tensao_kwh             5187 non-null   int64  
 4   energia_ativa_alta_tensao_kwh              5187 non-null   int64  
 5   cpes_domestico_baixa_tensao                5187 non-null   int64  
 6   cpes_domestico_alta_tensao                 5187 non-null   int64  
 7   cpes_iluminacao_publica_baixa_tensao       5187 non-null   int64  
 8   cpes_iluminacao_publica_alta_tensao        5187 non-null   int64  
 9   cpes_nao_domestico_baixa_tensao            5187 non-null   int64  
 10  cpes_nao_domestico_alta_

### Guardar num ficheiro com concelho

In [15]:
file_path = data_path + 'treated/merged-dataset-concelho-densidade.csv'

merged_df.to_csv(file_path, index=False)

print("DataFrame guardado em ", file_path)

DataFrame guardado em  ../data/treated/merged-dataset-concelho-densidade.csv


### Guardar num ficheiro sem concelho

In [16]:
file_path = data_path + 'treated/merged-dataset-densidade.csv'

merged_df.drop(columns=['concelho'], inplace=True)

merged_df.to_csv(file_path, index=False)

print("DataFrame guardado em ", file_path)

DataFrame guardado em  ../data/treated/merged-dataset-densidade.csv
