### Import das dependências

In [None]:
import os

import numpy as np
import pandas as pd

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme()

### Importar os datasets

In [None]:
data_path = '../data/' if os.path.exists('../data/') else 'https://raw.githubusercontent.com/kreativermario/Projeto-DECD/master/data/'

merged_path = data_path + 'treated/merged-dataset.csv'

merged_df = pd.read_csv(merged_path)


### Verificar qualidade dos dados
- Verificar valores null
- Verificar duplicados

In [None]:
# Verificar valores vazios
nulls = merged_df.isnull().sum()
print('Número de nulls: ', nulls)

# Verificar duplicados
duplicates = merged_df.duplicated()
print("Número de linhas duplicadas:", duplicates.sum())


In [None]:
# Estatísticas sumarizadas
merged_df.describe()

In [None]:
merged_df.info()

### Verificar a correlação entre as variáveis númericas

In [None]:
# Heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(merged_df.corr(numeric_only=True), annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de correlação')
plt.show()

### Procurar por Outliers

In [None]:
def find_outliers(f):
    q1 = f.quantile(0.25)
    q3 = f.quantile(0.75)
    iqr = q3 - q1
    return f[(f < (q1 - 1.5 * iqr)) | (f > (q3 + 1.5 * iqr))]

#### Gráfico da variável Ano

In [None]:
# Coluna para analisar
coluna_ano = 'ano'

# Criar subplots
fig, (ax_boxplot, ax_hist) = plt.subplots(1, 2, figsize=(12, 6))

# Boxplot
ax_boxplot.boxplot(merged_df[coluna_ano], vert=False)
ax_boxplot.set_title(f'Boxplot de {coluna_ano}')
ax_boxplot.set_xlabel(coluna_ano)

# Histograma
ax_hist.hist(merged_df[coluna_ano], bins=10)
ax_hist.set_title(f'Distribuição de {coluna_ano}')
ax_hist.set_xlabel(coluna_ano)
ax_hist.set_ylabel('Frequência')

plt.tight_layout()
plt.show()



In [None]:
# Encontrar outliers
outliers = find_outliers(merged_df[coluna_ano])
print(f"Outliers na coluna '{coluna_ano}':\n{outliers}\n")

# Calcular o número total de valores na coluna 'energia_ativa_(kwh)'
total_valores = len(merged_df[coluna_ano])

# Calcular o número de outliers
num_outliers = len(outliers)

# Calcular a percentagem de outliers
percent_outliers = (num_outliers / total_valores) * 100

print(f"% outliers '{coluna_ano}' é de {percent_outliers:.2f}%.")

#### Gráfico da variável Mês

In [None]:
# Coluna para analisar
coluna_mes = 'mês'

# Criar subplots
fig, (ax_boxplot, ax_hist) = plt.subplots(1, 2, figsize=(12, 6))

# Boxplot
ax_boxplot.boxplot(merged_df[coluna_mes], vert=False)
ax_boxplot.set_title(f'Boxplot de {coluna_mes}')
ax_boxplot.set_xlabel(coluna_mes)

# Histograma
ax_hist.hist(merged_df[coluna_mes], bins=10)
ax_hist.set_title(f'Distribuição de {coluna_mes}')
ax_hist.set_xlabel(coluna_mes)
ax_hist.set_ylabel('Frequência')

plt.tight_layout()
plt.show()


In [None]:
# Encontrar outliers
outliers = find_outliers(merged_df[coluna_mes])
print(f"Outliers na coluna '{coluna_mes}':\n{outliers}\n")

# Calcular o número total de valores na coluna 'mês'
total_valores = len(merged_df[coluna_mes])

# Calcular o número de outliers
num_outliers = len(outliers)

# Calcular a percentagem de outliers
percent_outliers = (num_outliers / total_valores) * 100

print(f"% outliers '{coluna_mes}' é de {percent_outliers:.2f}%.")


#### Gráfico da variável Energia Ativa Baixa Tensão (kWh)

In [None]:
# Coluna para analisar
coluna_energia_ativa_baixa = 'energia_ativa_baixa_tensao_kwh'

# Criar subplots
fig, (ax_boxplot, ax_hist) = plt.subplots(1, 2, figsize=(12, 6))

# Boxplot
ax_boxplot.boxplot(merged_df[coluna_energia_ativa_baixa], vert=False)
ax_boxplot.set_title(f'Boxplot de {coluna_energia_ativa_baixa}')
ax_boxplot.set_xlabel(coluna_energia_ativa_baixa)

# Histograma
ax_hist.hist(merged_df[coluna_energia_ativa_baixa], bins=10)
ax_hist.set_title(f'Distribuição de {coluna_energia_ativa_baixa}')
ax_hist.set_xlabel(coluna_energia_ativa_baixa)
ax_hist.set_ylabel('Frequência')

plt.tight_layout()
plt.show()

# Filtrar os dados para valores entre 0 e 0.2 * 1e8 (20.000.000 kWh)
lower_limit_1 = 0
high_limit_1 = 0.2 * 1e8
filtered_data_1 = merged_df[(merged_df[coluna_energia_ativa_baixa] >= lower_limit_1) & (merged_df[coluna_energia_ativa_baixa] <= high_limit_1 )]

# Filtrar os dados para valores maiores que 0.2 * 1e8 (20.000.000 kWh)
filtered_data_2 = merged_df[(merged_df[coluna_energia_ativa_baixa] > high_limit_1 )]

# Criar subplots
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Histograma para valores entre 0 e 0.2 * 1e8
axes[0].hist(filtered_data_1[coluna_energia_ativa_baixa], bins=10)
axes[0].set_title(f'Distribuição de {coluna_energia_ativa_baixa} (Valores de {lower_limit_1} a {high_limit_1})')
axes[0].set_xlabel(coluna_energia_ativa_baixa)
axes[0].set_ylabel('Frequência')

# Histograma para valores maiores que 0.2 * 1e8
axes[1].hist(filtered_data_2[coluna_energia_ativa_baixa], bins=10)
axes[1].set_title(f'Distribuição de {coluna_energia_ativa_baixa} (Valores maiores que {high_limit_1})')
axes[1].set_xlabel(coluna_energia_ativa_baixa)
axes[1].set_ylabel('Frequência')

plt.tight_layout()
plt.show()

In [None]:
# Encontrar outliers
outliers = find_outliers(merged_df[coluna_energia_ativa_baixa])
print(f"Outliers na coluna '{coluna_energia_ativa_baixa}':\n{outliers}\n")

# Calcular o número total de valores na coluna 'energia_ativa_(kwh)'
total_valores = len(merged_df[coluna_energia_ativa_baixa])

# Calcular o número de outliers
num_outliers = len(outliers)

# Calcular a percentagem de outliers
percent_outliers = (num_outliers / total_valores) * 100

print(f"% outliers '{coluna_energia_ativa_baixa}' é de {percent_outliers:.2f}%.")

#### Gráfico da variável Energia Ativa Alta Tensão (kWh)

In [None]:
# Coluna para analisar
coluna_energia_ativa_alta = 'energia_ativa_alta_tensao_kwh'

# Criar subplots
fig, (ax_boxplot, ax_hist) = plt.subplots(1, 2, figsize=(12, 6))

# Boxplot
ax_boxplot.boxplot(merged_df[coluna_energia_ativa_alta], vert=False)
ax_boxplot.set_title(f'Boxplot de {coluna_energia_ativa_alta}')
ax_boxplot.set_xlabel(coluna_energia_ativa_alta)

# Histograma
ax_hist.hist(merged_df[coluna_energia_ativa_alta], bins=10)
ax_hist.set_title(f'Distribuição de {coluna_energia_ativa_alta}')
ax_hist.set_xlabel(coluna_energia_ativa_alta)
ax_hist.set_ylabel('Frequência')

plt.tight_layout()
plt.show()

# Filtrar os dados para valores entre 0 e 0.2 * 1e8 (20.000.000 kWh)
lower_limit_1 = 0
high_limit_1 = 0.2 * 1e8
filtered_data_1 = merged_df[(merged_df[coluna_energia_ativa_alta] >= lower_limit_1) & (merged_df[coluna_energia_ativa_alta] <= high_limit_1 )]

# Filtrar os dados para valores maiores que 0.2 * 1e8 (20.000.000 kWh)
filtered_data_2 = merged_df[(merged_df[coluna_energia_ativa_alta] > high_limit_1 )]

# Criar subplots
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Histograma para valores entre 0 e 0.2 * 1e8
axes[0].hist(filtered_data_1[coluna_energia_ativa_alta], bins=10)
axes[0].set_title(f'Distribuição de {coluna_energia_ativa_alta} (Valores de {lower_limit_1} a {high_limit_1})')
axes[0].set_xlabel(coluna_energia_ativa_alta)
axes[0].set_ylabel('Frequência')

# Histograma para valores maiores que 0.2 * 1e8
axes[1].hist(filtered_data_2[coluna_energia_ativa_alta], bins=10)
axes[1].set_title(f'Distribuição de {coluna_energia_ativa_alta} (Valores maiores que {high_limit_1})')
axes[1].set_xlabel(coluna_energia_ativa_alta)
axes[1].set_ylabel('Frequência')

plt.tight_layout()
plt.show()

In [None]:
# Encontrar outliers
outliers = find_outliers(merged_df[coluna_energia_ativa_alta])
print(f"Outliers na coluna '{coluna_energia_ativa_alta}':\n{outliers}\n")

# Calcular o número total de valores na coluna 'energia_ativa_(kwh)'
total_valores = len(merged_df[coluna_energia_ativa_alta])

# Calcular o número de outliers
num_outliers = len(outliers)

# Calcular a percentagem de outliers
percent_outliers = (num_outliers / total_valores) * 100

print(f"% outliers '{coluna_energia_ativa_alta}' é de {percent_outliers:.2f}%.")

#### Gráfico da variável CPEs Doméstico Baixa Tensão

In [None]:
# Coluna para o histograma
coluna_cpes_domestico_baixa = 'cpes_domestico_baixa_tensao'

# Criar subplots
fig, (ax_boxplot, ax_hist) = plt.subplots(1, 2, figsize=(12, 6))

# Boxplot
ax_boxplot.boxplot(merged_df[coluna_cpes_domestico_baixa], vert=False)
ax_boxplot.set_title(f'Boxplot de {coluna_cpes_domestico_baixa}')
ax_boxplot.set_xlabel('CPEs Doméstico')


# Histograma
ax_hist.hist(merged_df[coluna_cpes_domestico_baixa], bins=10)
ax_hist.set_title(f'Distribuição de {coluna_cpes_domestico_baixa}')
ax_hist.set_xlabel(coluna_cpes_domestico_baixa)
ax_hist.set_ylabel('Frequência')

plt.tight_layout()
plt.show()

# Filtrar os dados para valores entre 0 e 50000
lower_limit_1 = 0
high_limit_1 = 50000
filtered_data_1 = merged_df[(merged_df[coluna_cpes_domestico_baixa] >= lower_limit_1) & (merged_df[coluna_cpes_domestico_baixa] <= high_limit_1 )]

# Filtrar os dados para valores maiores que 50000
filtered_data_2 = merged_df[(merged_df[coluna_cpes_domestico_baixa] > high_limit_1 )]

# Criar subplots
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Histograma para valores entre 0 e 50000
axes[0].hist(filtered_data_1[coluna_cpes_domestico_baixa], bins=10)
axes[0].set_title(f'Distribuição de {coluna_cpes_domestico_baixa} (Valores de {lower_limit_1} a {high_limit_1})')
axes[0].set_xlabel(coluna_cpes_domestico_baixa)
axes[0].set_ylabel('Frequência')

# Histograma para valores maiores que 50000
axes[1].hist(filtered_data_2[coluna_cpes_domestico_baixa], bins=10)
axes[1].set_title(f'Distribuição de {coluna_cpes_domestico_baixa} (Valores maiores que {high_limit_1})')
axes[1].set_xlabel(coluna_cpes_domestico_baixa)
axes[1].set_ylabel('Frequência')

plt.tight_layout()
plt.show()

In [None]:
# Encontrar outliers
outliers = find_outliers(merged_df[coluna_cpes_domestico_baixa])
print(f"Outliers na coluna '{coluna_cpes_domestico_baixa}':\n{outliers}\n")

# Calcular o número total de valores na coluna 'energia_ativa_(kwh)'
total_valores = len(merged_df[coluna_cpes_domestico_baixa])

# Calcular o número de outliers
num_outliers = len(outliers)

# Calcular a percentagem de outliers
percent_outliers = (num_outliers / total_valores) * 100

print(f"% outliers '{coluna_cpes_domestico_baixa}' é de {percent_outliers:.2f}%.")

#### Gráfico da variável CPEs Doméstico Alta Tensão

In [None]:
# Coluna para o histograma
coluna_cpes_domestico_alta = 'cpes_domestico_alta_tensao'

# Criar subplots
fig, (ax_boxplot, ax_hist) = plt.subplots(1, 2, figsize=(12, 6))

# Boxplot
ax_boxplot.boxplot(merged_df[coluna_cpes_domestico_alta], vert=False)
ax_boxplot.set_title(f'Boxplot de {coluna_cpes_domestico_alta}')
ax_boxplot.set_xlabel('CPEs Doméstico')


# Histograma
ax_hist.hist(merged_df[coluna_cpes_domestico_alta], bins=10)
ax_hist.set_title(f'Distribuição de {coluna_cpes_domestico_alta}')
ax_hist.set_xlabel(coluna_cpes_domestico_alta)
ax_hist.set_ylabel('Frequência')

plt.tight_layout()
plt.show()

# Filtrar os dados para valores entre 0 e 50000
lower_limit_1 = 0
high_limit_1 = 0.25
filtered_data_1 = merged_df[(merged_df[coluna_cpes_domestico_alta] >= lower_limit_1) & (merged_df[coluna_cpes_domestico_alta] <= high_limit_1 )]

# Filtrar os dados para valores maiores que 50000
filtered_data_2 = merged_df[(merged_df[coluna_cpes_domestico_alta] > high_limit_1 )]

# Criar subplots
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Histograma para valores entre 0 e 50000
axes[0].hist(filtered_data_1[coluna_cpes_domestico_alta], bins=10)
axes[0].set_title(f'Distribuição de {coluna_cpes_domestico_alta} (Valores de {lower_limit_1} a {high_limit_1})')
axes[0].set_xlabel(coluna_cpes_domestico_alta)
axes[0].set_ylabel('Frequência')

# Histograma para valores maiores que 50000
axes[1].hist(filtered_data_2[coluna_cpes_domestico_alta], bins=10)
axes[1].set_title(f'Distribuição de {coluna_cpes_domestico_alta} (Valores maiores que {high_limit_1})')
axes[1].set_xlabel(coluna_cpes_domestico_alta)
axes[1].set_ylabel('Frequência')

plt.tight_layout()
plt.show()

In [None]:
# Encontrar outliers
outliers = find_outliers(merged_df[coluna_cpes_domestico_alta])
print(f"Outliers na coluna '{coluna_cpes_domestico_alta}':\n{outliers}\n")

# Calcular o número total de valores na coluna 'coluna_cpes_domestico_alta'
total_valores = len(merged_df[coluna_cpes_domestico_alta])

# Calcular o número de outliers
num_outliers = len(outliers)

# Calcular a percentagem de outliers
percent_outliers = (num_outliers / total_valores) * 100

print(f"% outliers '{coluna_cpes_domestico_alta}' é de {percent_outliers:.2f}%.")

#### Gráfico da variável CPEs Iluminação Pública Alta Tensão

In [None]:
# Coluna para o histograma
coluna_cpes_il_pub_alta = 'cpes_iluminacao_publica_alta_tensao'

# Criar subplots
fig, (ax_boxplot, ax_hist) = plt.subplots(1, 2, figsize=(12, 6))

# Boxplot
ax_boxplot.boxplot(merged_df[coluna_cpes_il_pub_alta], vert=False)
ax_boxplot.set_title(f'Boxplot de {coluna_cpes_il_pub_alta}')
ax_boxplot.set_xlabel(coluna_cpes_il_pub_alta)

# Histograma
ax_hist.hist(merged_df[coluna_cpes_il_pub_alta], bins=10)
ax_hist.set_title(f'Distribuição de {coluna_cpes_il_pub_alta}')
ax_hist.set_xlabel(coluna_cpes_il_pub_alta)
ax_hist.set_ylabel('Frequência')

plt.tight_layout()
plt.show()

In [None]:
# Encontrar outliers
outliers = find_outliers(merged_df[coluna_cpes_il_pub_alta])
print(f"Outliers na coluna '{coluna_cpes_il_pub_alta}':\n{outliers}\n")

# Calcular o número total de valores na coluna 'cpes iluminacao publica'
total_valores = len(merged_df[coluna_cpes_il_pub_alta])

# Calcular o número de outliers
num_outliers = len(outliers)

# Calcular a percentagem de outliers
percent_outliers = (num_outliers / total_valores) * 100

print(f"% outliers '{coluna_cpes_il_pub_alta}' é de {percent_outliers:.2f}%.")

#### Gráfico da variável CPEs Iluminação Pública Baixa Tensão

In [None]:
# Coluna para o histograma
coluna_cpes_il_pub_baixa = 'cpes_iluminacao_publica_baixa_tensao'

# Criar subplots
fig, (ax_boxplot, ax_hist) = plt.subplots(1, 2, figsize=(12, 6))

# Boxplot
ax_boxplot.boxplot(merged_df[coluna_cpes_il_pub_baixa], vert=False)
ax_boxplot.set_title(f'Boxplot de {coluna_cpes_il_pub_baixa}')
ax_boxplot.set_xlabel(coluna_cpes_il_pub_baixa)

# Histograma
ax_hist.hist(merged_df[coluna_cpes_il_pub_baixa], bins=10)
ax_hist.set_title(f'Distribuição de {coluna_cpes_il_pub_baixa}')
ax_hist.set_xlabel(coluna_cpes_il_pub_baixa)
ax_hist.set_ylabel('Frequência')

plt.tight_layout()
plt.show()

# Filtrar os dados para valores entre 0 e 400
lower_limit_1 = 0
high_limit_1 = 400
filtered_data_1 = merged_df[(merged_df[coluna_cpes_il_pub_baixa] >= lower_limit_1) & (merged_df[coluna_cpes_il_pub_baixa] <= high_limit_1 )]

# Filtrar os dados para valores maiores que 400
filtered_data_2 = merged_df[(merged_df[coluna_cpes_il_pub_baixa] > high_limit_1 )]

# Criar subplots
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Histograma para valores entre 0 e 400
axes[0].hist(filtered_data_1[coluna_cpes_il_pub_baixa], bins=10)
axes[0].set_title(f'Distribuição de {coluna_cpes_il_pub_baixa} (Valores de {lower_limit_1} a {high_limit_1})')
axes[0].set_xlabel(coluna_cpes_il_pub_baixa)
axes[0].set_ylabel('Frequência')

# Histograma para valores maiores que 400
axes[1].hist(filtered_data_2[coluna_cpes_il_pub_baixa], bins=10)
axes[1].set_title(f'Distribuição de {coluna_cpes_il_pub_baixa} (Valores maiores que {high_limit_1})')
axes[1].set_xlabel(coluna_cpes_il_pub_baixa)
axes[1].set_ylabel('Frequência')

plt.tight_layout()
plt.show()

In [None]:
# Encontrar outliers
outliers = find_outliers(merged_df[coluna_cpes_il_pub_baixa])
print(f"Outliers na coluna '{coluna_cpes_il_pub_baixa}':\n{outliers}\n")

# Calcular o número total de valores na coluna 'cpes iluminacao publica'
total_valores = len(merged_df[coluna_cpes_il_pub_baixa])

# Calcular o número de outliers
num_outliers = len(outliers)

# Calcular a percentagem de outliers
percent_outliers = (num_outliers / total_valores) * 100

print(f"% outliers '{coluna_cpes_il_pub_baixa}' é de {percent_outliers:.2f}%.")

#### Gráfico da variável CPEs Não Doméstico Alta Tensão

In [None]:
# Coluna para o histograma
coluna_cpes_nao_domestico_alta = 'cpes_nao_domestico_alta_tensao'

# Criar subplots
fig, (ax_boxplot, ax_hist) = plt.subplots(1, 2, figsize=(12, 6))

# Boxplot
ax_boxplot.boxplot(merged_df[coluna_cpes_nao_domestico_alta], vert=False)
ax_boxplot.set_title(f'Boxplot de {coluna_cpes_nao_domestico_alta}')
ax_boxplot.set_xlabel(coluna_cpes_nao_domestico_alta)

# Histograma
ax_hist.hist(merged_df[coluna_cpes_nao_domestico_alta], bins=10)
ax_hist.set_title(f'Distribuição de {coluna_cpes_nao_domestico_alta}')
ax_hist.set_xlabel(coluna_cpes_nao_domestico_alta)
ax_hist.set_ylabel('Frequência')

plt.tight_layout()
plt.show()

# Filtrar os dados para valores entre 0 e 400
lower_limit_1 = 0
high_limit_1 = 200
filtered_data_1 = merged_df[(merged_df[coluna_cpes_nao_domestico_alta] >= lower_limit_1) & (merged_df[coluna_cpes_nao_domestico_alta] <= high_limit_1 )]

# Filtrar os dados para valores maiores que 400
filtered_data_2 = merged_df[(merged_df[coluna_cpes_nao_domestico_alta] > high_limit_1 )]

# Criar subplots
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Histograma para valores entre 0 e 400
axes[0].hist(filtered_data_1[coluna_cpes_nao_domestico_alta], bins=10)
axes[0].set_title(f'Distribuição de {coluna_cpes_nao_domestico_alta} (Valores de {lower_limit_1} a {high_limit_1})')
axes[0].set_xlabel(coluna_cpes_nao_domestico_alta)
axes[0].set_ylabel('Frequência')

# Histograma para valores maiores que 400
axes[1].hist(filtered_data_2[coluna_cpes_nao_domestico_alta], bins=10)
axes[1].set_title(f'Distribuição de {coluna_cpes_nao_domestico_alta} (Valores maiores que {high_limit_1})')
axes[1].set_xlabel(coluna_cpes_nao_domestico_alta)
axes[1].set_ylabel('Frequência')

plt.tight_layout()
plt.show()

In [None]:
# Encontrar outliers
outliers = find_outliers(merged_df[coluna_cpes_nao_domestico_alta])
print(f"Outliers na coluna '{coluna_cpes_nao_domestico_alta}':\n{outliers}\n")

# Calcular o número total de valores na coluna 'energia_ativa_(kwh)'
total_valores = len(merged_df[coluna_cpes_nao_domestico_alta])

# Calcular o número de outliers
num_outliers = len(outliers)

# Calcular a percentagem de outliers
percent_outliers = (num_outliers / total_valores) * 100

print(f"% outliers '{coluna_cpes_nao_domestico_alta}' é de {percent_outliers:.2f}%.")

#### Gráfico da variável CPEs Não Doméstico Baixa Tensão

In [None]:
# Coluna para o histograma
coluna_cpes_nao_domestico_baixa = 'cpes_nao_domestico_baixa_tensao'

# Criar subplots
fig, (ax_boxplot, ax_hist) = plt.subplots(1, 2, figsize=(12, 6))

# Boxplot
ax_boxplot.boxplot(merged_df[coluna_cpes_nao_domestico_baixa], vert=False)
ax_boxplot.set_title(f'Boxplot de {coluna_cpes_nao_domestico_baixa}')
ax_boxplot.set_xlabel(coluna_cpes_nao_domestico_baixa)

# Histograma
ax_hist.hist(merged_df[coluna_cpes_nao_domestico_baixa], bins=10)
ax_hist.set_title(f'Distribuição de {coluna_cpes_nao_domestico_baixa}')
ax_hist.set_xlabel(coluna_cpes_nao_domestico_baixa)
ax_hist.set_ylabel('Frequência')

plt.tight_layout()
plt.show()

# Filtrar os dados para valores entre 0 e 400
lower_limit_1 = 0
high_limit_1 = 200
filtered_data_1 = merged_df[(merged_df[coluna_cpes_nao_domestico_baixa] >= lower_limit_1) & (merged_df[coluna_cpes_nao_domestico_baixa] <= high_limit_1 )]

# Filtrar os dados para valores maiores que 400
filtered_data_2 = merged_df[(merged_df[coluna_cpes_nao_domestico_baixa] > high_limit_1 )]

# Criar subplots
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Histograma para valores entre 0 e 400
axes[0].hist(filtered_data_1[coluna_cpes_nao_domestico_baixa], bins=10)
axes[0].set_title(f'Distribuição de {coluna_cpes_nao_domestico_baixa} (Valores de {lower_limit_1} a {high_limit_1})')
axes[0].set_xlabel(coluna_cpes_nao_domestico_baixa)
axes[0].set_ylabel('Frequência')

# Histograma para valores maiores que 400
axes[1].hist(filtered_data_2[coluna_cpes_nao_domestico_baixa], bins=10)
axes[1].set_title(f'Distribuição de {coluna_cpes_nao_domestico_baixa} (Valores maiores que {high_limit_1})')
axes[1].set_xlabel(coluna_cpes_nao_domestico_baixa)
axes[1].set_ylabel('Frequência')

plt.tight_layout()
plt.show()

In [None]:
# Encontrar outliers
outliers = find_outliers(merged_df[coluna_cpes_nao_domestico_baixa])
print(f"Outliers na coluna '{coluna_cpes_nao_domestico_baixa}':\n{outliers}\n")

# Calcular o número total de valores na coluna 'energia_ativa_(kwh)'
total_valores = len(merged_df[coluna_cpes_nao_domestico_baixa])

# Calcular o número de outliers
num_outliers = len(outliers)

# Calcular a percentagem de outliers
percent_outliers = (num_outliers / total_valores) * 100

print(f"% outliers '{coluna_cpes_nao_domestico_baixa}' é de {percent_outliers:.2f}%.")

#### Gráfico da variável CPEs Outros Alta Tensão

In [None]:
# Coluna para o histograma
coluna_cpes_outros_alta = 'cpes_outros_alta_tensao'

# Criar subplots
fig, (ax_boxplot, ax_hist) = plt.subplots(1, 2, figsize=(12, 6))

# Boxplot
ax_boxplot.boxplot(merged_df[coluna_cpes_outros_alta], vert=False)
ax_boxplot.set_title(f'Boxplot de {coluna_cpes_outros_alta}')
ax_boxplot.set_xlabel(coluna_cpes_outros_alta)

# Histograma
ax_hist.hist(merged_df[coluna_cpes_outros_alta], bins=10)
ax_hist.set_title(f'Distribuição de {coluna_cpes_outros_alta}')
ax_hist.set_xlabel(coluna_cpes_outros_alta)
ax_hist.set_ylabel('Frequência')

plt.tight_layout()
plt.show()

In [None]:
# Encontrar outliers
outliers = find_outliers(merged_df[coluna_cpes_outros_alta])
print(f"Outliers na coluna '{coluna_cpes_outros_alta}':\n{outliers}\n")

# Calcular o número total de valores na coluna 'cpes_outros'
total_valores = len(merged_df[coluna_cpes_outros_alta])

# Calcular o número de outliers
num_outliers = len(outliers)

# Calcular a percentagem de outliers
percent_outliers = (num_outliers / total_valores) * 100

print(f"% outliers '{coluna_cpes_outros_alta}' é de {percent_outliers:.2f}%.")

#### Gráfico da variável CPEs Outros Baixa Tensão

In [None]:
# Coluna para o histograma
coluna_cpes_outros_baixa = 'cpes_outros_baixa_tensao'

# Criar subplots
fig, (ax_boxplot, ax_hist) = plt.subplots(1, 2, figsize=(12, 6))

# Boxplot
ax_boxplot.boxplot(merged_df[coluna_cpes_outros_baixa], vert=False)
ax_boxplot.set_title(f'Boxplot de {coluna_cpes_outros_baixa}')
ax_boxplot.set_xlabel(coluna_cpes_outros_baixa)

# Histograma
ax_hist.hist(merged_df[coluna_cpes_outros_baixa], bins=10)
ax_hist.set_title(f'Distribuição de {coluna_cpes_outros_baixa}')
ax_hist.set_xlabel(coluna_cpes_outros_baixa)
ax_hist.set_ylabel('Frequência')

plt.tight_layout()
plt.show()

# Filtrar os dados para valores entre 0 e 400
lower_limit_1 = 0
high_limit_1 = 400
filtered_data_1 = merged_df[(merged_df[coluna_cpes_outros_baixa] >= lower_limit_1) & (merged_df[coluna_cpes_outros_baixa] <= high_limit_1 )]

# Filtrar os dados para valores maiores que 400
filtered_data_2 = merged_df[(merged_df[coluna_cpes_outros_baixa] > high_limit_1 )]

# Criar subplots
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Histograma para valores entre 0 e 400
axes[0].hist(filtered_data_1[coluna_cpes_outros_baixa], bins=10)
axes[0].set_title(f'Distribuição de {coluna_cpes_outros_baixa} (Valores de {lower_limit_1} a {high_limit_1})')
axes[0].set_xlabel(coluna_cpes_outros_baixa)
axes[0].set_ylabel('Frequência')

# Histograma para valores maiores que 400
axes[1].hist(filtered_data_2[coluna_cpes_outros_baixa], bins=10)
axes[1].set_title(f'Distribuição de {coluna_cpes_outros_baixa} (Valores maiores que {high_limit_1})')
axes[1].set_xlabel(coluna_cpes_outros_baixa)
axes[1].set_ylabel('Frequência')

plt.tight_layout()
plt.show()

In [None]:
# Encontrar outliers
outliers = find_outliers(merged_df[coluna_cpes_outros_baixa])
print(f"Outliers na coluna '{coluna_cpes_outros_baixa}':\n{outliers}\n")

# Calcular o número total de valores na coluna 'cpes_outros'
total_valores = len(merged_df[coluna_cpes_outros_baixa])

# Calcular o número de outliers
num_outliers = len(outliers)

# Calcular a percentagem de outliers
percent_outliers = (num_outliers / total_valores) * 100

print(f"% outliers '{coluna_cpes_outros_baixa}' é de {percent_outliers:.2f}%.")

#### Gráfico da variável CPEs Mobilidade Eletrica Não Baixa Tensão

In [None]:
# Coluna para analisar
coluna_mob_elect_n_baixa = 'cpes_mobilidade_eletrica_nao_baixa_tensao'

# Criar subplots
fig, (ax_boxplot, ax_hist) = plt.subplots(1, 2, figsize=(12, 6))

# Boxplot
ax_boxplot.boxplot(merged_df[coluna_mob_elect_n_baixa], vert=False)
ax_boxplot.set_title(f'Boxplot de {coluna_mob_elect_n_baixa}')
ax_boxplot.set_xlabel(coluna_mob_elect_n_baixa)

# Histograma
ax_hist.hist(merged_df[coluna_mob_elect_n_baixa], bins=10)
ax_hist.set_title(f'Distribuição de {coluna_mob_elect_n_baixa}')
ax_hist.set_xlabel(coluna_mob_elect_n_baixa)
ax_hist.set_ylabel('Frequência')

plt.tight_layout()
plt.show()

# Filtrar os dados para valores entre 0 e 400
lower_limit_1 = 0
high_limit_1 = 100000
filtered_data_1 = merged_df[(merged_df[coluna_mob_elect_n_baixa] >= lower_limit_1) & (merged_df[coluna_mob_elect_n_baixa] <= high_limit_1 )]

# Filtrar os dados para valores maiores que 400
filtered_data_2 = merged_df[(merged_df[coluna_mob_elect_n_baixa] > high_limit_1 )]

# Criar subplots
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Histograma para valores entre 0 e 400
axes[0].hist(filtered_data_1[coluna_mob_elect_n_baixa], bins=10)
axes[0].set_title(f'Distribuição de {coluna_mob_elect_n_baixa} (Valores de {lower_limit_1} a {high_limit_1})')
axes[0].set_xlabel(coluna_mob_elect_n_baixa)
axes[0].set_ylabel('Frequência')

# Histograma para valores maiores que 400
axes[1].hist(filtered_data_2[coluna_mob_elect_n_baixa], bins=10)
axes[1].set_title(f'Distribuição de {coluna_mob_elect_n_baixa} (Valores maiores que {high_limit_1})')
axes[1].set_xlabel(coluna_mob_elect_n_baixa)
axes[1].set_ylabel('Frequência')

plt.tight_layout()
plt.show()

In [None]:
# Encontrar outliers
outliers = find_outliers(merged_df[coluna_mob_elect_n_baixa])
print(f"Outliers na coluna '{coluna_mob_elect_n_baixa}':\n{outliers}\n")

# Calcular o número total de valores na coluna 'mobilidade eletrica nao'
total_valores = len(merged_df[coluna_mob_elect_n_baixa])

# Calcular o número de outliers
num_outliers = len(outliers)

# Calcular a percentagem de outliers
percent_outliers = (num_outliers / total_valores) * 100

print(f"% outliers '{coluna_mob_elect_n_baixa}' é de {percent_outliers:.2f}%.")

#### Gráfico da variável CPEs Mobilidade Eletrica Sim 

In [None]:
# Coluna para analisar
coluna_mob_elect_sim_baixa = 'cpes_mobilidade_eletrica_sim_baixa_tensao'

# Criar subplots
fig, (ax_boxplot, ax_hist) = plt.subplots(1, 2, figsize=(12, 6))

# Boxplot
ax_boxplot.boxplot(merged_df[coluna_mob_elect_sim_baixa], vert=False)
ax_boxplot.set_title(f'Boxplot de {coluna_mob_elect_sim_baixa}')
ax_boxplot.set_xlabel(coluna_mob_elect_sim_baixa)

# Histograma
ax_hist.hist(merged_df[coluna_mob_elect_sim_baixa], bins=10)
ax_hist.set_title(f'Distribuição de {coluna_mob_elect_sim_baixa}')
ax_hist.set_xlabel(coluna_mob_elect_sim_baixa)
ax_hist.set_ylabel('Frequência')

plt.tight_layout()
plt.show()

# Filtrar os dados para valores entre 0 e 400
lower_limit_1 = 0
high_limit_1 = 50
filtered_data_1 = merged_df[(merged_df[coluna_mob_elect_sim_baixa] >= lower_limit_1) & (merged_df[coluna_mob_elect_sim_baixa] <= high_limit_1 )]

# Filtrar os dados para valores maiores que 400
filtered_data_2 = merged_df[(merged_df[coluna_mob_elect_sim_baixa] > high_limit_1 )]

# Criar subplots
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Histograma para valores entre 0 e 400
axes[0].hist(filtered_data_1[coluna_mob_elect_sim_baixa], bins=10)
axes[0].set_title(f'Distribuição de {coluna_mob_elect_sim_baixa} (Valores de {lower_limit_1} a {high_limit_1})')
axes[0].set_xlabel(coluna_mob_elect_sim_baixa)
axes[0].set_ylabel('Frequência')

# Histograma para valores maiores que 400
axes[1].hist(filtered_data_2[coluna_mob_elect_sim_baixa], bins=10)
axes[1].set_title(f'Distribuição de {coluna_mob_elect_sim_baixa} (Valores maiores que {high_limit_1})')
axes[1].set_xlabel(coluna_mob_elect_sim_baixa)
axes[1].set_ylabel('Frequência')

plt.tight_layout()
plt.show()

In [None]:
# Encontrar outliers
outliers = find_outliers(merged_df[coluna_mob_elect_sim_baixa])
print(f"Outliers na coluna '{coluna_mob_elect_sim_baixa}':\n{outliers}\n")

# Calcular o número total de valores na coluna 'mobilidade eletrica sim'
total_valores = len(merged_df[coluna_mob_elect_sim_baixa])

# Calcular o número de outliers
num_outliers = len(outliers)

# Calcular a percentagem de outliers
percent_outliers = (num_outliers / total_valores) * 100

print(f"% outliers '{coluna_mob_elect_sim_baixa}' é de {percent_outliers:.2f}%.")

### Remover a variável CPEs iluminação pública alta tensão
- Elimina-se porque os valores são sempre zero e por isso não têm interesse de análise

In [None]:
merged_df.drop(columns=['cpes_iluminacao_publica_alta_tensao'], inplace=True)

merged_df.info()

In [None]:
# Verificar nulls
null_counts = merged_df.isnull().sum()

# Ver nulls por coluna
print("Número de nulls por coluna:")
print(null_counts)

In [None]:
file_path = data_path + 'treated/prepared/merged-dataset.csv'

merged_df.to_csv(file_path, index=False)

print("DataFrame guardado em ", file_path)