## Desafio ENACOM - Bootcamp Seletivo Data Analytics 2024
Concatenação e reamostragem dos dados do ONS

Desenvolvido por: Gustavo Basílio Lima

Import das bibliotecas utilizadas ao decorrer do notebook

In [1]:
import pandas as pd
import dask.dataframe as dd
import numpy as np
import glob
import os

In a future release, Dask DataFrame will use a new implementation that
contains several improvements including a logical query planning.
The user-facing DataFrame API will remain unchanged.

The new implementation is already available and can be enabled by
installing the dask-expr library:

    $ pip install dask-expr

and turning the query planning option on:

    >>> import dask
    >>> dask.config.set({'dataframe.query-planning': True})
    >>> import dask.dataframe as dd

API documentation for the new implementation is available at
https://docs.dask.org/en/stable/dask-expr-api.html

Any feedback can be reported on the Dask issue tracker
https://github.com/dask/dask/issues 


    # via Python

    # via CLI


  import dask.dataframe as dd


## Concatenação dos dados

Com os arquivos baixados do https://dados.ons.org.br/dataset/geracao-usina-2 e alocados em uma única pasta, é realizada a varredura para a concatenação.
1. É criada uma lista com os paths dos arquivos no formato .csv;
2. Os arquivos em .csv são lidos como dataframe, e assim concatenados pelas suas colunas;
3. Por fim, definidos os index como a marcação de DateTime.

In [4]:
list_path = []
for file in glob.glob(r'..\dados\ons\*'):
    list_path.append(os.path.abspath(file))
    
df_all_data = pd.DataFrame()
for path in list_path:
    df_all_data = pd.concat([df_all_data, pd.read_csv(path, sep=';', parse_dates=['din_instante'], index_col='din_instante')], axis=0)

df_all_data.index = pd.to_datetime(df_all_data.index)
df_all_data


Unnamed: 0_level_0,id_subsistema,nom_subsistema,id_estado,nom_estado,cod_modalidadeoperacao,nom_tipousina,nom_tipocombustivel,nom_usina,ceg,val_geracao,id_ons
din_instante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2000-01-01 00:00:00,N,NORTE,PA,PARA,TIPO I,HIDROELÉTRICA,Hidráulica,Tucuruí,UHE.PH.PA.002889-4.01,2422.500,
2000-01-01 00:00:00,NE,NORDESTE,AL,ALAGOAS,TIPO I,HIDROELÉTRICA,Hidráulica,Xingó,UHE.PH.SE.027053-9.01,1995.600,
2000-01-01 00:00:00,NE,NORDESTE,BA,BAHIA,Pequenas Usinas (Tipo III),HIDROELÉTRICA,Hidráulica,Pequenas Centrais Hidroelétricas da Chesf,-,13.000,
2000-01-01 00:00:00,NE,NORDESTE,BA,BAHIA,TIPO I,HIDROELÉTRICA,Hidráulica,Apolônio Sales,UHE.PH.AL.001510-5.01,202.500,
2000-01-01 00:00:00,NE,NORDESTE,BA,BAHIA,TIPO I,HIDROELÉTRICA,Hidráulica,Paulo Afonso II,UHE.PH.BA.027048-2.01,269.800,
...,...,...,...,...,...,...,...,...,...,...,...
2021-12-31 23:00:00,SE,SUDESTE,SP,SAO PAULO,TIPO I,TÉRMICA,Gás,Nova Piratininga,UTE.GN.SP.028191-3.01,0.000,
2021-12-31 23:00:00,SE,SUDESTE,SP,SAO PAULO,Pequenas Usinas (Tipo III),TÉRMICA,Outras Multi-Combustível,PQU SPSP TERM - CARGA GLOBAL,-,147.000,
2021-12-31 23:00:00,SE,SUDESTE,TO,TOCANTINS,TIPO I,HIDROELÉTRICA,Hidráulica,São Salvador,UHE.PH.TO.028567-6.01,233.109,
2021-12-31 23:00:00,SE,SUDESTE,TO,TOCANTINS,TIPO I,HIDROELÉTRICA,Hidráulica,Lajeado,UHE.PH.TO.001304-8.01,584.262,


## Upload dos dados concatenados

Devido ao alto número de linhas, na forma que o dataframe está, é decidido exportá-lo no formato .parquet para melhorar o processamento dos dados em um momente de leitura posterior.

In [5]:
df_all_data.to_parquet(r'..\dados\concatenado\df_all_data.parquet')

## Comparação entre pandas e dask

Além disso, para melhorar no processamento dos dados, é decidido utilizar a biblioteca dask, pois como pode ser visto, o tempo de processamento para uma leitura de arquivos de dados é reduzido quando comparado ao pandas.

In [6]:
%time pandas_df_all_data = pd.read_parquet(r'..\dados\concatenado\df_all_data.parquet')

CPU times: total: 49.3 s
Wall time: 1min 19s


In [7]:
%time dask_df_all_data = dd.read_parquet(r'..\dados\concatenado\df_all_data.parquet')

CPU times: total: 31.2 ms
Wall time: 281 ms


## Carregamentos dos dados

Realizada a leitura dos dados, é utilizado a função .compute() para o dataframe oriundo da biblioteca dask possa ser trabalhado com as mesmas funções do pandas. Em seguinda, é definido o index do dataframe a partir das marcações de tempo DateTime.

In [8]:
dask_df_all_data = dd.read_parquet(r'..\dados\concatenado\df_all_data.parquet')

In [9]:
dask_df_all_data = dask_df_all_data.compute()
dask_df_all_data.index = pd.to_datetime(dask_df_all_data.index, format='%Y-%m-%d %H:%M:%S')
dask_df_all_data

Unnamed: 0_level_0,id_subsistema,nom_subsistema,id_estado,nom_estado,cod_modalidadeoperacao,nom_tipousina,nom_tipocombustivel,nom_usina,ceg,val_geracao,id_ons
din_instante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2000-01-01 00:00:00,N,NORTE,PA,PARA,TIPO I,HIDROELÉTRICA,Hidráulica,Tucuruí,UHE.PH.PA.002889-4.01,2422.500,
2000-01-01 00:00:00,NE,NORDESTE,AL,ALAGOAS,TIPO I,HIDROELÉTRICA,Hidráulica,Xingó,UHE.PH.SE.027053-9.01,1995.600,
2000-01-01 00:00:00,NE,NORDESTE,BA,BAHIA,Pequenas Usinas (Tipo III),HIDROELÉTRICA,Hidráulica,Pequenas Centrais Hidroelétricas da Chesf,-,13.000,
2000-01-01 00:00:00,NE,NORDESTE,BA,BAHIA,TIPO I,HIDROELÉTRICA,Hidráulica,Apolônio Sales,UHE.PH.AL.001510-5.01,202.500,
2000-01-01 00:00:00,NE,NORDESTE,BA,BAHIA,TIPO I,HIDROELÉTRICA,Hidráulica,Paulo Afonso II,UHE.PH.BA.027048-2.01,269.800,
...,...,...,...,...,...,...,...,...,...,...,...
2021-12-31 23:00:00,SE,SUDESTE,SP,SAO PAULO,TIPO I,TÉRMICA,Gás,Nova Piratininga,UTE.GN.SP.028191-3.01,0.000,
2021-12-31 23:00:00,SE,SUDESTE,SP,SAO PAULO,Pequenas Usinas (Tipo III),TÉRMICA,Outras Multi-Combustível,PQU SPSP TERM - CARGA GLOBAL,-,147.000,
2021-12-31 23:00:00,SE,SUDESTE,TO,TOCANTINS,TIPO I,HIDROELÉTRICA,Hidráulica,São Salvador,UHE.PH.TO.028567-6.01,233.109,
2021-12-31 23:00:00,SE,SUDESTE,TO,TOCANTINS,TIPO I,HIDROELÉTRICA,Hidráulica,Lajeado,UHE.PH.TO.001304-8.01,584.262,


## Exclusão de colunas

Com o objetivo de realizar uma análise de geração de energia elétrica segmentada pelas fontes de obtenção, algumas colunas do dataframe original são descartadas, algumas consideradas redundantes, como siglas de região, estado, modalidade de operação da usina, código e nome do empreendimento.

In [69]:
droped_columns_dask_df_all_data = dask_df_all_data.drop(columns=['id_subsistema', 'id_estado', 'cod_modalidadeoperacao', 'ceg', 'id_ons', 'val_geracao'])
droped_columns_dask_df_all_data.columns

Index(['nom_subsistema', 'nom_estado', 'nom_tipousina', 'nom_tipocombustivel',
       'nom_usina'],
      dtype='object')

## Reasmostragem dos dados

Conforme a taxa de amostragem dos dados desse desafio é diferente da taxa dos dados do ONS, então é realizado esse processo com a função .resample() para que os dados sejam utilizados de forma mensal.

Agrupados pelas colunas de subsistime, estado, tipo de usina, tipo de combustível e nome da usina, os valores da geração são integrados.

In [99]:
resampled_dask_df_all_data = dask_df_all_data.groupby(list(droped_columns_dask_df_all_data.columns), group_keys=True)[['val_geracao']].resample('M', kind='period').sum()
resampled_dask_df_all_data = resampled_dask_df_all_data.sort_values('din_instante',ascending=True).reset_index()
resampled_dask_df_all_data.index = resampled_dask_df_all_data.pop('din_instante')
resampled_dask_df_all_data

Unnamed: 0_level_0,nom_subsistema,nom_estado,nom_tipousina,nom_tipocombustivel,nom_usina,val_geracao
din_instante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2000-01,SUDESTE,SAO PAULO,HIDROELÉTRICA,Hidráulica,Caconde,23880.900
2000-01,SUL,PARANA,HIDROELÉTRICA,Hidráulica,Gov. Ney Braga,374162.300
2000-01,SUDESTE,MINAS GERAIS,HIDROELÉTRICA,Hidráulica,Itumbiara,574602.300
2000-01,SUDESTE,MINAS GERAIS,HIDROELÉTRICA,Hidráulica,Sobragi,33558.400
2000-01,SUDESTE,MATO GROSSO DO SUL,TÉRMICA,Gás,Willian Arjona,0.000
...,...,...,...,...,...,...
2021-12,NORDESTE,BAHIA,HIDROELÉTRICA,Hidráulica,Paulo Afonso I,543.451
2021-12,SUDESTE,GOIAS,HIDROELÉTRICA,Hidráulica,Serra do Facão,37375.320
2021-12,SUDESTE,GOIAS,HIDROELÉTRICA,Hidráulica,Verde 8,10548.214
2021-12,SUDESTE,GOIAS,HIDROELÉTRICA,Hidráulica,PQU MTGO HID - CARGA GLOBAL,0.000


## Upload dos dados reamostrados

Por fim, os dados concatenados e reamostrados são exportados no formato .parquet para análises futuras.

In [100]:
resampled_dask_df_all_data.to_parquet(r'..\dados\deamostrados\resampled_dask_df_all_data.parquet')