# Preparação dos dados

In [7]:
import os

import numpy as np
import pandas as pd

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme()

## Importar dataset

In [8]:
data_path = '../data/' if os.path.exists('../data/') else 'https://raw.githubusercontent.com/kreativermario/Projeto-DECD/master/data/'

merged_path = data_path + 'treated/merged-dataset.csv'

merged_df = pd.read_csv(merged_path)

## Criar o conjunto totalmente categórico
- Visualizar os gráficos e ver a distribuição das variáveis.
- Ver quantos outliers existem por variável

In [9]:
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9790 entries, 0 to 9789
Data columns (total 10 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   nível_de_tensão               9790 non-null   object 
 1   ano                           9790 non-null   int64  
 2   mês                           9790 non-null   int64  
 3   energia_ativa_(kwh)           9790 non-null   float64
 4   cpes_doméstico                9790 non-null   float64
 5   cpes_iluminação_pública       9790 non-null   float64
 6   cpes_não_doméstico            9790 non-null   float64
 7   cpes_outros                   9790 non-null   float64
 8   cpes_mobilidade_eletrica_não  9790 non-null   float64
 9   cpes_mobilidade_eletrica_sim  9790 non-null   float64
dtypes: float64(7), int64(2), object(1)
memory usage: 765.0+ KB


### Sabendo a estrutura de dados do dataset, existem algumas variáveis que são obviamente categóricas.
- São: nível_de_tensão, ano, mês
- Pode-se observar esse facto utilizando a função unique()

In [11]:
categorical_columns = ['nível_de_tensão', 'ano', 'mês']
for column in categorical_columns:
    print(f"Unique values in {column}: {merged_df[column].unique()}")


Unique values in nível_de_tensão: ['Baixa Tensão' 'Muito Alta, Alta e Média Tensões']
Unique values in ano: [2022 2023 2024]
Unique values in mês: [ 8  9 10 11 12  1  2  3  4  5  6  7]


- Transformar em categórico

In [12]:
merged_df['nível_de_tensão'] = merged_df['nível_de_tensão'].astype('category')
merged_df['ano'] = merged_df['ano'].astype('category')
merged_df['mês'] = merged_df['mês'].astype('category')
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9790 entries, 0 to 9789
Data columns (total 10 columns):
 #   Column                        Non-Null Count  Dtype   
---  ------                        --------------  -----   
 0   nível_de_tensão               9790 non-null   category
 1   ano                           9790 non-null   category
 2   mês                           9790 non-null   category
 3   energia_ativa_(kwh)           9790 non-null   float64 
 4   cpes_doméstico                9790 non-null   float64 
 5   cpes_iluminação_pública       9790 non-null   float64 
 6   cpes_não_doméstico            9790 non-null   float64 
 7   cpes_outros                   9790 non-null   float64 
 8   cpes_mobilidade_eletrica_não  9790 non-null   float64 
 9   cpes_mobilidade_eletrica_sim  9790 non-null   float64 
dtypes: category(3), float64(7)
memory usage: 564.8 KB
