<a href="https://colab.research.google.com/github/belanatal/PosPUCRio/blob/main/MVP_SprintIII_IsabelaNatal.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PUC Rio: Pós Graduação em Ciência de Dados e Analytics
MVP Sprint III: Engenharia de Dados (40530010057_20230_01)

Aluna: Isabela Fernanda Natal Batista Abreu Gomes

Setembro/2023

# Introdução
O presente trabalho tem por objetivo a estruturação de um DataWarehouse, considerando a ingestão (e extração, tratamento e carregamento) de dados relevantes para o planejamento eletroenergético do Sistema Elétrico Brasileiro (doravante denominado SIN - Sistema Interligado Nacional, o qual é subdividido em quatro subsistemas: Norte, Nordeste, Sul e Sudeste). Neste sentido, serão coletados e armazenados os dados históricos de Energia Natural Afluente (ENA), da Energia Armazenada (EArm), da Demanda/Carga por subsistema, disponibilizados e atualizados com frequência diária na página de Dados Abertos do Operador Nacional do Sistema Elétrico (ONS): https://dados.ons.org.br/. Ao final do trabalho, será realizada uma análise descritiva e diagnóstica das variáveis de interesse, a partir da criação de relatórios em Power BI, no intuito de responder às seguintes questões:

>
- Como é a evolução da curva de demanda de energia elétrica nos anos do histórico e no passado recente?
- Como é a evolução dos níveis de reservatório das usinas hidroelétricas nos anos do histórico? Como estão os reservatórios hoje, em comparação ao fechamento do mês passado e em comparação ao mesmo período do ano anterior? Como está sendo a utilização (deplecionamento ou enchimento) dos mesmos no passado recente?
- Como é a evolução da energia natural afluente nos anos do histórico? Qual a média de longo termo de cada um dos meses (considerando o período seco - de maio a novembro e o período úmido, de dezembro a abril). Como está a evolução da Energia Natural Afluente Bruta e Armazenável, frente à Média de Longo Termo, no passado recente?

## Contextualização


> No Brasil, a projeção de preços da energia elétrica baseia-se na previsão, centralizada, de despacho das usinas pelo Operador Nacional do Sistema Elétrico (ONS).

> Em linhas gerais, o preço da energia, também chamado de Preço de Liquidação das Diferenças (PLD) tem como base o Custo Marginal da Operação (CMO), dado pelo planejamento da operação hidrotérmica do Sistema Interligado Nacional. Os modelos utilizados para projeção oficial do despacho das usinas pelo ONS (Operador Nacional do Sistema) denominam-se NEWAVE, DECOMP e DESSEM, todos desenvolvidos e fornecidos pelo Centro de Pesquisas da Eletrobras (CEPEL), conforme ilustrado na Figura 1.

![Resumo Modelos](https://sprintiiiisabelanatal.blob.core.windows.net/cont-sprintiii-isabelanatal/Resumo_Setor.jpg?sp=r&st=2023-09-25T01:18:45Z&se=2023-09-25T09:18:45Z&spr=https&sv=2022-11-02&sr=b&sig=HuQz3LlmyYBRJF0ENzado0MCHty3WszrFGS1uWp8dM4%3D)

Figura 1 - Resumo do Problema de Planejamento Eletroenergético Brasileiro

> Para a projeção do preço da energia elétrica, uma série de grandezas são utilizadas como entrada. Uma vez que a matriz eletroenergética brasileira é predominantemente hidráulica (e os modelos consideram este aspecto no equacionamento do problema de otimização), a diferença entre as vazões previstas e verificadas dos postos associados às usinas hidroelétricas responde por cerca de 50% das variações no PLD/CMO, conforme ilustrado na Figura 2, disponibilizada pela Câmara de Comercialização de Energia (CCEE). A Energia Armazenada e a Carga também desempenham papel relevante na influência do PLD/CMO. Juntas, as três grandezas respondem por mais de 70% das variações no custo marginal da operação sendo, portanto, as variáveis de interesse deste MVP.
![Gráfico Pizza CCEE](https://sprintiiiisabelanatal.blob.core.windows.net/cont-sprintiii-isabelanatal/GraficoPizza_CCEE.jpg?sp=r&st=2023-09-28T03:31:39Z&se=2023-09-28T11:31:39Z&spr=https&sv=2022-11-02&sr=b&sig=zb%2Fgx6fukU%2BUpp5FGWqMDkEJyxphluxHFO0hjETTDrs%3D)

Figura 2 - Variação do PLD/CMO por variável de entrada nos modelos de planejamento eletroenergético do SIN. Fonte: CCEE
>Neste contexto, considerando a atuação na área de Inteligência de Mercado de Gás e Energia em um dos principais agentes geradores do Brasil, faz sentido estruturarmos a coleta e tratamento dos dados referentes às grandezas mencionadas, visando à melhor tomada de decisão sob a ótica da operação do parque e da comercialização e logística do gás e da energia elétrica.

## Estruturação do Trabalho
> Para elaboração deste MVP, optou-se pela utilização da ferramenta databricks, por meio da nuvem da Microsoft Azure. O Databricks é uma plataforma de análise e processamento de big data, baseada no Apache Spark. O fluxo de trabalho foi estruturado a partir do Workspace da ferramenta e o desenvolvimento se baseou em Notebook (PYTHON e SQL), para as etapas de ETL e para a estruturação do banco de dados e views (incluindo o catálogo no Hive Metastore, integrado ao próprio Databricks).

Diante do exposto, este trabalho está dividido nas seguintes seções:
>
- Introdução
- Seção 0: Configuração da nuvem - Datawarehouse
- Seção I: Obtenção e Tratamento Inicial dos Dados
- Seção II: Spark e Hive - Etapas (Notebook) e Catálogo
- Seção III: Power BI e Análise dos Dados
- Seção IV: Conclusão

# Seção I: Obtenção e Tratamento Inicial dos Dados


1.   [Energia Natural Afluente (ENA) por Subsistema](https://dados.ons.org.br/dataset/ena-diario-por-subsistema)
2.   [Energia Armazenada (EArm) por Subsistema](https://dados.ons.org.br/dataset/ear-diario-por-subsistema)
3.   [Demanda por Subsistema](https://dados.ons.org.br/dataset/carga-energia)
4.   [Custo Marginal da Operação (CMO) Semanal por Subsistema](https://dados.ons.org.br/dataset/cmo-semanal)

Diariamente, o Operador Nacional do Sistema Elétrico disponibiliza os dados verificados das grandezas supracitadas, para cada um dos 4 subsistemas (Sudeste, Sul, Nordeste e Norte) que compõem eletroenergeticamente o Sistema Interligado Nacional. Para atender ao presente trabalho, estes dados serão tratados, manipulados, pré-processados e avaliados.

## Importação de Biblioteas
Inicialmente, iremos importar e avaliar (utilizando a biblioteca Pandas, para fazer uma rápida análise exploratória) os dataset de "entrada", variáveis explicativas para a obtenção do CMO: ENA, EArm e Demanda, nesta ordem.

In [None]:
# Primeiro bloco: Importação das bibliotecas e módulos
# Configuração para não exibir os warnings
import warnings
warnings.filterwarnings("ignore")
#
# Importando as bibliotecas pandas, matplotlib (pyplot), seaborn e datetime
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import numpy as np

## Energia Natural Afluente: ENA

***ENA DIÁRIO POR SUBSISTEMA*** (Segundo o ONS)

Dados das grandezas de energia natural afluente (ENA) dos reservatórios com periodicidade diária por Subsistemas.

A Energia Natural Afluente (ENA) Bruta representa a energia produzível pela usina e é calculada pelo produto das vazões naturais aos reservatórios com as produtividades a 65% dos volumes úteis. A ENA Armazenável considera as vazões naturais descontadas das vazões vertidas nos reservatórios.

Como esses dados podem ser utilizados: os dados podem servir de insumo para estudos energéticos e projeção do custo marginal de operação. Contudo, saiba que os dados disponibilizados fazem parte de um processo de consistência recorrente e, portanto, podem ser atualizados após a sua publicação.

In [None]:
# Seção I.1: Programa para obtenção das Energias Naturais Afluentes - Dados Abertos Operador Nacional do Sistema Elétrico
# Dados por subsistema do Sistema Interligado Nacional, atualizados diariamente.
# ENA - Arquivos com os dados anuais, com histórico desde 2001
ano_zero=2001
ano_inicio=ano_zero+1
data_fim=datetime.datetime.now() - datetime.timedelta(days=5) #ano vigente, considerando um possível atraso de até 5 dias na publicação, o que é comum na virada de ano
ano_fim=data_fim.strftime("%Y")
ano_fim=int(ano_fim)
print(data_fim)
print(ano_fim)

2023-09-23 02:40:08.509858
2023


In [None]:
#Importando os dados da url para o dataframe, começando pelo ano inicial do histórico, até o ano vigente
#Conforme dicionário de dados disponibilizado na página de Arquitetura Aberta do ONS, os arquivos .csv estão no formato UTF-8, com delimitador do tipo ponto-e-vírgula
ena=pd.read_csv("https://ons-dl-prod-opendata.s3.amazonaws.com/dataset/ena_subsistema_di/ENA_DIARIO_SUBSISTEMA_"+str(ano_zero)+".csv",delimiter=";",encoding = 'utf8')
ena=pd.DataFrame(ena)
for ano in range (ano_inicio,ano_fim+1):
    ano_str=str(ano)
    ena_ano=pd.read_csv("https://ons-dl-prod-opendata.s3.amazonaws.com/dataset/ena_subsistema_di/ENA_DIARIO_SUBSISTEMA_"+ano_str+".csv",delimiter=";",encoding = 'utf8')
    ena_ano=pd.DataFrame(ena_ano)
    ena=pd.concat([ena,ena_ano])
print(ena)

     id_subsistema  ... ena_armazenavel_regiao_percentualmlt
0                N  ...                           108.839996
1               NE  ...                           100.830002
2                S  ...                           160.910004
3               SE  ...                            83.489998
4                N  ...                            97.489998
...            ...  ...                                  ...
1071            SE  ...                            71.186302
1072             N  ...                            64.152702
1073            NE  ...                            61.718700
1074             S  ...                            65.515701
1075            SE  ...                            70.067596

[33216 rows x 7 columns]


In [None]:
# Conferindo as primeiras 10 linhas, para check da importação de dados
ena.head(10)

Unnamed: 0,id_subsistema,nom_subsistema,ena_data,ena_bruta_regiao_mwmed,ena_bruta_regiao_percentualmlt,ena_armazenavel_regiao_mwmed,ena_armazenavel_regiao_percentualmlt
0,N,NORTE,2001-01-01,10154.0,122.339996,9033.0,108.839996
1,NE,NORDESTE,2001-01-01,13472.0,101.480003,13385.0,100.830002
2,S,SUL,2001-01-01,7703.0,160.910004,7703.0,160.910004
3,SE,SUDESTE,2001-01-01,39186.0,86.980003,37611.0,83.489998
4,N,NORTE,2001-01-02,9590.0,115.550003,8091.0,97.489998
5,NE,NORDESTE,2001-01-02,13551.0,102.080002,13465.0,101.43
6,S,SUL,2001-01-02,6730.0,140.580002,6730.0,140.580002
7,SE,SUDESTE,2001-01-02,41230.0,91.519997,40063.0,88.93
8,N,NORTE,2001-01-03,9066.0,109.239998,7213.0,86.910004
9,NE,NORDESTE,2001-01-03,13551.0,102.080002,13461.0,101.400002


In [None]:
# Conferindo a quantidade de dias (considerando 4 subsistemas)
len(ena)/4

8304.0

In [None]:
# Verificando os tipos de coluna do dataframe ena
ena.dtypes

id_subsistema                            object
nom_subsistema                           object
ena_data                                 object
ena_bruta_regiao_mwmed                  float64
ena_bruta_regiao_percentualmlt          float64
ena_armazenavel_regiao_mwmed            float64
ena_armazenavel_regiao_percentualmlt    float64
dtype: object

In [None]:
# Iniciando o tratamento dos dados
#Convertendo os nomes dos subsistemas para 1ª letra em maiúscula: SE->Sudeste; S->Sul; NE->Nordeste; N->Norte
ena['nom_subsistema']=ena['nom_subsistema'].replace({'SUDESTE':'Sudeste',
                                                'SUL':'Sul',
                                                'NORDESTE':'Nordeste',
                                                'NORTE':'Norte'})

In [None]:
# Renomeando a coluna de data e de subsistema, de modo a serem os mesmos nomes em todos os DataFrames/consultas, para facilitar a chave de mesclagem
ena=ena.rename(columns = {'ena_data':'Data'})
ena=ena.rename(columns = {'nom_subsistema':'Subsistema'})
print(ena)

     id_subsistema  ... ena_armazenavel_regiao_percentualmlt
0                N  ...                           108.839996
1               NE  ...                           100.830002
2                S  ...                           160.910004
3               SE  ...                            83.489998
4                N  ...                            97.489998
...            ...  ...                                  ...
1071            SE  ...                            71.186302
1072             N  ...                            64.152702
1073            NE  ...                            61.718700
1074             S  ...                            65.515701
1075            SE  ...                            70.067596

[33216 rows x 7 columns]


In [None]:
# Alterando o tipo da coluna "Data"
ena['Data'] = pd.to_datetime(ena['Data'])

In [None]:
# Reordenando o dataframe ena, pela coluna Data (em ordem decrescente)
ena=ena.sort_values(by='Data', ascending=False)
ena.head(20)

Unnamed: 0,id_subsistema,Subsistema,Data,ena_bruta_regiao_mwmed,ena_bruta_regiao_percentualmlt,ena_armazenavel_regiao_mwmed,ena_armazenavel_regiao_percentualmlt
1075,SE,Sudeste,2023-09-26,14027.931641,71.411797,13763.866211,70.067596
1074,S,Sul,2023-09-26,15841.108398,135.988602,7631.826172,65.515701
1073,NE,Nordeste,2023-09-26,1814.756958,61.7187,1814.756958,61.7187
1072,N,Norte,2023-09-26,1457.756958,64.152702,1457.756958,64.152702
1071,SE,Sudeste,2023-09-25,14240.733398,72.495102,13983.629883,71.186302
1070,S,Sul,2023-09-25,12222.542969,104.924896,9011.135742,77.356499
1069,NE,Nordeste,2023-09-25,1820.088989,61.900002,1816.514038,61.7785
1068,N,Norte,2023-09-25,1470.777954,64.7257,1470.777954,64.7257
1065,NE,Nordeste,2023-09-24,1838.369019,62.521702,1828.359009,62.181301
1064,N,Norte,2023-09-24,1477.012939,65.000099,1477.012939,65.000099


In [None]:
# Verificando os tipos de coluna do dataframe ena
ena.dtypes

id_subsistema                                   object
Subsistema                                      object
Data                                    datetime64[ns]
ena_bruta_regiao_mwmed                         float64
ena_bruta_regiao_percentualmlt                 float64
ena_armazenavel_regiao_mwmed                   float64
ena_armazenavel_regiao_percentualmlt           float64
dtype: object

## Energia Armazenada: EAR

***EAR DIÁRIO POR SUBSISTEMA*** (Segundo o ONS)

Dados das grandezas de energia armazenada (EAR) em periodicidade diária por Subsistemas.

A Energia Armazenada (EAR) representa a energia associada ao volume de água disponível nos reservatórios que pode ser convertido em geração na própria usina e em todas as usinas à jusante na cascata. A grandeza de EAR leva em conta nível verificado nos reservatórios na data de referência. A grandeza de EAR máxima representa a capacidade de armazenamento caso todos os reservatórios do sistema estivessem cheios. A grandeza de EAR para o subsistema à jusante considera a utilização da água do reservatório para produzir energia em uma usina à jusante que está em um subsistema diferente.

Como esses dados podem ser utilizados: os dados podem servir de insumo para estudos energéticos e projeção do custo marginal de operação. Contudo, saiba que os dados disponibilizados fazem parte de um processo de consistência recorrente e, portanto, podem ser atualizados após a sua publicação.

In [None]:
# Seção I.2: Programa para obtenção das Energias Armazenadas - Dados Abertos Operador Nacional do Sistema Elétrico
# Dados por subsistema do Sistema Interligado Nacional, atualizados diariamente.

# EArm - Arquivos com os dados anuais, com histórico desde 2001.
# Portanto, serão utilizados os mesmos parâmetros temporais base (que das demais grandezas)
# Importando os dados da url para o dataframe, começando pelo ano inicial do histórico, até o ano vigente
# Conforme dicionário de dados disponibilizado na página de Arquitetura Aberta do ONS, os arquivos .csv estão no formato UTF-8, com delimitador do tipo ponto-e-vírgula
earm=pd.read_csv("https://ons-dl-prod-opendata.s3.amazonaws.com/dataset/ear_subsistema_di/EAR_DIARIO_SUBSISTEMA_"+str(ano_zero)+".csv",delimiter=";",encoding = 'utf8')
earm=pd.DataFrame(earm)
for ano in range (ano_inicio,ano_fim+1):
    ano_str=str(ano)
    earm_ano=pd.read_csv("https://ons-dl-prod-opendata.s3.amazonaws.com/dataset/ear_subsistema_di/EAR_DIARIO_SUBSISTEMA_"+ano_str+".csv",delimiter=";",encoding = 'utf8')
    earm_ano=pd.DataFrame(earm_ano)
    earm=pd.concat([earm,earm_ano])
print (earm)

     id_subsistema  ... ear_verif_subsistema_percentual
0               NE  ...                       37.419998
1                N  ...                       74.220001
2               SE  ...                       29.110001
3                S  ...                       90.690002
4               NE  ...                       37.730000
...            ...  ...                             ...
1071             S  ...                       90.295898
1072            NE  ...                       67.750702
1073             N  ...                       74.379601
1074            SE  ...                       73.217697
1075             S  ...                       90.043503

[33216 rows x 6 columns]


In [None]:
# Conferindo as primeiras 10 linhas, para check da importação de dados
earm.head(10)

Unnamed: 0,id_subsistema,nom_subsistema,ear_data,ear_max_subsistema,ear_verif_subsistema_mwmes,ear_verif_subsistema_percentual
0,NE,NORDESTE,2001-01-01,49967.0,18699.0,37.419998
1,N,NORTE,2001-01-01,12311.0,9137.0,74.220001
2,SE,SUDESTE,2001-01-01,159081.0,46315.0,29.110001
3,S,SUL,2001-01-01,14176.0,12857.0,90.690002
4,NE,NORDESTE,2001-01-02,49967.0,18851.0,37.73
5,N,NORTE,2001-01-02,12311.0,9327.0,75.760002
6,SE,SUDESTE,2001-01-02,159081.0,46850.0,29.450001
7,S,SUL,2001-01-02,14176.0,12920.0,91.139999
8,NE,NORDESTE,2001-01-03,49967.0,19047.0,38.119999
9,N,NORTE,2001-01-03,12311.0,9453.0,76.779999


In [None]:
# Conferindo a quantidade de dias (considerando 4 subsistemas)
len(earm)/4

8304.0

In [None]:
# Verificando os tipos de coluna do dataframe ena
earm.dtypes

id_subsistema                       object
nom_subsistema                      object
ear_data                            object
ear_max_subsistema                 float64
ear_verif_subsistema_mwmes         float64
ear_verif_subsistema_percentual    float64
dtype: object

In [None]:
# Iniciando o tratamento dos dados
#Convertendo os nomes dos subsistemas para 1ª letra em maiúscula: SE->Sudeste; S->Sul; NE->Nordeste; N->Norte
earm['nom_subsistema']=earm['nom_subsistema'].replace({'SUDESTE':'Sudeste',
                                                'SUL':'Sul',
                                                'NORDESTE':'Nordeste',
                                                'NORTE':'Norte'})

In [None]:
# Renomeando a coluna de data e de subsistema, de modo a serem os mesmos nomes em todos os DataFrames/consultas, para facilitar a chave de mesclagem
earm=earm.rename(columns = {'ear_data':'Data'})
earm=earm.rename(columns = {'nom_subsistema':'Subsistema'})
print(earm)

     id_subsistema  ... ear_verif_subsistema_percentual
0               NE  ...                       37.419998
1                N  ...                       74.220001
2               SE  ...                       29.110001
3                S  ...                       90.690002
4               NE  ...                       37.730000
...            ...  ...                             ...
1071             S  ...                       90.295898
1072            NE  ...                       67.750702
1073             N  ...                       74.379601
1074            SE  ...                       73.217697
1075             S  ...                       90.043503

[33216 rows x 6 columns]


In [None]:
# Alterando o tipo da coluna "Data"
earm['Data'] = pd.to_datetime(earm['Data'])

In [None]:
# Reordenando o dataframe earm, pela coluna Data (em ordem decrescente)
earm=earm.sort_values(by='Data', ascending=False)
earm.head(20)

Unnamed: 0,id_subsistema,Subsistema,Data,ear_max_subsistema,ear_verif_subsistema_mwmes,ear_verif_subsistema_percentual
1075,S,Sul,2023-09-26,20459.242188,18422.224609,90.043503
1074,SE,Sudeste,2023-09-26,204615.328125,149814.703125,73.217697
1073,N,Norte,2023-09-26,15302.396484,11381.862305,74.379601
1072,NE,Nordeste,2023-09-26,51691.226562,35021.148438,67.750702
1071,S,Sul,2023-09-25,20459.242188,18473.855469,90.295898
1070,SE,Sudeste,2023-09-25,204615.328125,150594.03125,73.598602
1069,N,Norte,2023-09-25,15302.396484,11503.181641,75.172401
1068,NE,Nordeste,2023-09-25,51691.226562,35153.535156,68.006798
1065,N,Norte,2023-09-24,15302.396484,11621.438477,75.945198
1064,NE,Nordeste,2023-09-24,51691.226562,35285.40625,68.261902


In [None]:
# Verificando os tipos de coluna do dataframe earm
earm.dtypes

id_subsistema                              object
Subsistema                                 object
Data                               datetime64[ns]
ear_max_subsistema                        float64
ear_verif_subsistema_mwmes                float64
ear_verif_subsistema_percentual           float64
dtype: object

## Carga (Demanda) Eletroenergética

***CARGA DE ENERGIA DIÁRIA*** (Segundo o ONS)

Dados de carga por subsistema em base diária, medida em MWmed.

Até fevereiro/2021, os dados representam a carga atendida por usinas despachadas e/ou programadas pelo ONS, com base em dados recebidos pelo Sistema de Supervisão e Controle do ONS. Entre março/2021 e abril/23, os dados representam a carga atendida por usinas despachadas e/ou programadas pelo ONS, com base em dados recebidos pelo Sistema de Supervisão e Controle do ONS, mais a previsão de geração de usinas não despachadas pelo ONS. A partir de 29/04/2023, além dos dados anteriormente considerados, passou a ser incorporado o valor estimado da micro e minigeração distribuída (MMGD), com base em dados meteorológicos previstos.

In [None]:
# Seção I.3: Programa para obtenção da Carga Elétrica - Dados Abertos Operador Nacional do Sistema Elétrico
# Dados por subsistema do Sistema Interligado Nacional, atualizados diariamente.

# Carga - Arquivos com os dados anuais, com histórico desde 2001.
# Portanto, serão utilizados os mesmos parâmetros temporais base (que das demais grandezas)
# Importando os dados da url para o dataframe, começando pelo ano inicial do histórico, até o ano vigente
# Conforme dicionário de dados disponibilizado na página de Arquitetura Aberta do ONS, os arquivos .csv estão no formato UTF-8, com delimitador do tipo ponto-e-vírgula
carga=pd.read_csv("https://ons-aws-prod-opendata.s3.amazonaws.com/dataset/carga_energia_di/CARGA_ENERGIA_"+str(ano_zero)+".csv",delimiter=";",encoding = 'utf8')
carga=pd.DataFrame(carga)

In [None]:
# No dia da elaboração deste trabalho, a sintaxe da URL para o ano de 2023 (na nuvem) estava diferente dos demais anos:
for ano in range (ano_inicio,ano_fim+1):
    ano_str=str(ano)
    if ano<ano_fim:
        carga_ano=pd.read_csv("https://ons-aws-prod-opendata.s3.amazonaws.com/dataset/carga_energia_di/CARGA_ENERGIA_"+ano_str+".csv",delimiter=";",encoding = 'utf8')
    else:
        carga_ano=pd.read_csv(" https://ons-dl-prod-opendata.s3.amazonaws.com/dataset/carga_energia_di/CARGA_ENERGIA_"+ano_str+".csv",delimiter=";",encoding = 'utf8')
    carga_ano=pd.DataFrame(carga_ano)
    carga=pd.concat([carga,carga_ano])
print(carga)

     id_subsistema        nom_subsistema din_instante  val_cargaenergiamwmed
0                N                 Norte   2001-01-01            2376.731250
1               NE              Nordeste   2001-01-01            5035.816667
2                S                   Sul   2001-01-01            4925.373750
3               SE  Sudeste/Centro-Oeste   2001-01-01           19729.233333
4                N                 Norte   2001-01-02            2537.383333
...            ...                   ...          ...                    ...
1071            SE  Sudeste/Centro-Oeste   2023-09-25           49318.491917
1072             N                 Norte   2023-09-26            8235.802292
1073            NE              Nordeste   2023-09-26           13409.381458
1074             S                   Sul   2023-09-26           14291.140417
1075            SE  Sudeste/Centro-Oeste   2023-09-26           50871.213208

[33217 rows x 4 columns]


In [None]:
# Conferindo as primeiras 10 linhas, para check da importação de dados
carga.head(10)

Unnamed: 0,id_subsistema,nom_subsistema,din_instante,val_cargaenergiamwmed
0,N,Norte,2001-01-01,2376.73125
1,NE,Nordeste,2001-01-01,5035.816667
2,S,Sul,2001-01-01,4925.37375
3,SE,Sudeste/Centro-Oeste,2001-01-01,19729.233333
4,N,Norte,2001-01-02,2537.383333
5,NE,Nordeste,2001-01-02,5946.3875
6,S,Sul,2001-01-02,6779.6875
7,SE,Sudeste/Centro-Oeste,2001-01-02,24596.195417
8,N,Norte,2001-01-03,2540.345833
9,NE,Nordeste,2001-01-03,6188.104167


In [None]:
# Conferindo a quantidade de dias (considerando 4 subsistemas)
len(carga)/4

8304.25

In [None]:
# Tratando valores de carga nulos
carga_null=(carga['val_cargaenergiamwmed'].isnull() == True)
carganull=carga.loc[carga_null]
print(carganull)

     id_subsistema  ... val_cargaenergiamwmed
132              S  ...                   NaN
1337             N  ...                   NaN
1338            NE  ...                   NaN
1339             S  ...                   NaN
1340            SE  ...                   NaN
124              N  ...                   NaN
125             NE  ...                   NaN
126              S  ...                   NaN
127             SE  ...                   NaN
392              N  ...                   NaN
393             NE  ...                   NaN
394              S  ...                   NaN
395             SE  ...                   NaN
380              N  ...                   NaN
381             NE  ...                   NaN
382              S  ...                   NaN
383             SE  ...                   NaN
384              N  ...                   NaN
385             NE  ...                   NaN
386              S  ...                   NaN
387             SE  ...           

>Constata-se, pela quantidade de dias, que o dataframe "carga" tem uma linha a mais que os dataframes "ena" e "earm". Ao mesclarmos as consultas, desejaremos excluir essa linha a mais.

In [None]:
# Verificando os tipos de coluna do dataframe carga
carga.dtypes

id_subsistema             object
nom_subsistema            object
din_instante              object
val_cargaenergiamwmed    float64
dtype: object

In [None]:
# Iniciando o tratamento dos dados
# Convertendo os nomes dos subsistemas para 1ª letra em maiúscula: SE->Sudeste; S->Sul; NE->Nordeste; N->Norte
carga['nom_subsistema']=carga['nom_subsistema'].replace({'Sudeste/Centro-Oeste':'Sudeste',
                                                'SUL':'Sul',
                                                'NORDESTE':'Nordeste',
                                                'NORTE':'Norte'})

In [None]:
# Renomeando a coluna de data, de modo a ser o mesmo nome em todos os DataFrames, para facilitar a chave de mesclagem
carga=carga.rename(columns = {'din_instante':'Data'})
carga=carga.rename(columns = {'nom_subsistema':'Subsistema'})
print(carga)

     id_subsistema Subsistema        Data  val_cargaenergiamwmed
0                N      Norte  2001-01-01            2376.731250
1               NE   Nordeste  2001-01-01            5035.816667
2                S        Sul  2001-01-01            4925.373750
3               SE    Sudeste  2001-01-01           19729.233333
4                N      Norte  2001-01-02            2537.383333
...            ...        ...         ...                    ...
1071            SE    Sudeste  2023-09-25           49318.491917
1072             N      Norte  2023-09-26            8235.802292
1073            NE   Nordeste  2023-09-26           13409.381458
1074             S        Sul  2023-09-26           14291.140417
1075            SE    Sudeste  2023-09-26           50871.213208

[33217 rows x 4 columns]


In [None]:
# Alterando o tipo da coluna "Data"
carga['Data'] = pd.to_datetime(carga['Data'])
carga = carga.dropna(subset=["val_cargaenergiamwmed"])

In [None]:
# Reordenando o dataframe carga, pela coluna Data (em ordem decrescente)
carga=carga.sort_values(by='Data', ascending=False)
carga.head(20)

Unnamed: 0,id_subsistema,Subsistema,Data,val_cargaenergiamwmed
1075,SE,Sudeste,2023-09-26,50871.213208
1074,S,Sul,2023-09-26,14291.140417
1073,NE,Nordeste,2023-09-26,13409.381458
1072,N,Norte,2023-09-26,8235.802292
1071,SE,Sudeste,2023-09-25,49318.491917
1070,S,Sul,2023-09-25,14109.705458
1069,NE,Nordeste,2023-09-25,13115.504917
1068,N,Norte,2023-09-25,8070.341208
1065,NE,Nordeste,2023-09-24,11699.132583
1064,N,Norte,2023-09-24,7431.485083


In [None]:
# Verificando os tipos de coluna do dataframe carga
carga.dtypes

id_subsistema                    object
Subsistema                       object
Data                     datetime64[ns]
val_cargaenergiamwmed           float64
dtype: object

# Seção II: Spark e Hive
> O Apache Spark é um mecanismo de análise unificada para código aberto em computação distribuída. Será utilizado no presente trabalho para o processamento de dados em grande escala, com módulos integrados para SQL e Python.

In [None]:
# Criando os DataFrames relacionados à ENA, EAR e Carga, a partir dos DataFrames Pandas ena, earm e carga
spark_ena = spark.createDataFrame(ena)
spark_earm = spark.createDataFrame(earm)
spark_carga = spark.createDataFrame(carga)

In [None]:
# Criando uma visualização temporária para cada query: DW_ENA; DW_EARM; DW_CARGA
spark_ena.createOrReplaceTempView("DW_ENA")
spark_earm.createOrReplaceTempView("DW_EARM")
spark_carga.createOrReplaceTempView("DW_CARGA")

In [None]:
%sql
DELETE FROM hive_metastore.sprintiii_isabelanatal.DWTABLE_ENA

num_affected_rows
33212


In [None]:
%sql
DELETE FROM hive_metastore.sprintiii_isabelanatal.DWTABLE_EARM

num_affected_rows
33212


In [None]:
%sql
DELETE FROM hive_metastore.sprintiii_isabelanatal.DWTABLE_CARGA

num_affected_rows
33164


In [None]:
%sql
DROP TABLE IF EXISTS hive_metastore.sprintiii_isabelanatal.DWTABLE_ENA

In [None]:
%sql
DROP TABLE IF EXISTS hive_metastore.sprintiii_isabelanatal.DWTABLE_EARM

In [None]:
%sql
DROP TABLE IF EXISTS hive_metastore.sprintiii_isabelanatal.DWTABLE_CARGA

In [None]:
%sql
DROP DATABASE IF EXISTS hive_metastore.sprintiii_isabelanatal

In [None]:
%sql
CREATE DATABASE IF NOT EXISTS hive_metastore.sprintiii_isabelanatal

In [None]:
%sql
CREATE OR REPLACE TABLE hive_metastore.sprintiii_isabelanatal.DWTABLE_ENA
(
 id_subsistema STRING COMMENT 'Código do Subsistema - Valores possíveis: NE, N, SE, S',
 Subsistema STRING COMMENT 'Nome do Subsistema - Valores possíveis: Nordeste, Norte, Sudeste, Sul',
 Data DATE COMMENT 'Data da medida observada - Valores a partir de 2001, até a data presente (até dois dias antes)',
 ena_bruta_regiao_mwmed DOUBLE COMMENT 'Valor de Energia Natural Afluente bruta por Subsistema na unidade de medida MWmed. Representa a energia produzível pelas usinas hidroelétricas que compõem cada subsistema e é calculada pelo produto das vazões naturais aos reservatórios com as produtividades a 65% dos volumes úteis. Apenas valores positivos ou nulos.',
 ena_bruta_regiao_percentualmlt DOUBLE COMMENT 'Valor de Energia Natural Afluente bruta por Subsistema na unidade de medida em percentual da Média de Longo Termo (MLT), a qual é computada a partir do histórico desde 1931. Apenas valores positivos ou nulos.',
 ena_armazenavel_regiao_mwmed DOUBLE COMMENT 'Valor de Energia Natural Afluente Armazenável por Subsistema na unidade de medida MWmed. Seu cômputo considera as vazões naturais, descontadas das vazões vertidas nos reservatórios das hidroelétricas que compõem cada subsistema. Apenas valores positivos ou nulos.',
 ena_armazenavel_regiao_percentualmlt DOUBLE COMMENT 'Valor de Energia Natural Afluente Armazenável por Subsistema na unidade de medida em percentual da Média de Longo Termo (MLT), a qual é computada a partir do histórico desde 1931. Apenas valores positivos ou nulos.'
) COMMENT 'Dados das grandezas de energia natural afluente (ENA) dos reservatórios com periodicidade diária por Bacias Hidro Energéticas.

Conforme o Operador Nacional do Sistema Elétrico, esses dados podem servir de insumo para estudos energéticos e projeção do custo marginal de operação. Contudo, é necessário ter conhecimento de que os dados disponibilizados fazem parte de um processo de consistência recorrente e, portanto, podem ser atualizados após a sua publicação.'

In [None]:
%sql
INSERT OVERWRITE TABLE hive_metastore.sprintiii_isabelanatal.DWTABLE_ENA
SELECT * FROM DW_ENA

num_affected_rows,num_inserted_rows
33216,33216


In [None]:
%sql
CREATE OR REPLACE TABLE hive_metastore.sprintiii_isabelanatal.DWTABLE_EARM
(
 id_subsistema STRING COMMENT 'Código do Subsistema - Valores possíveis: NE, N, SE, S',
 Subsistema STRING COMMENT 'Nome do Subsistema - Valores possíveis: Nordeste, Norte, Sudeste, Sul',
 Data DATE COMMENT 'Data da medida observada - Valores a partir de 2001, até a data presente (até dois dias antes)',
 ear_max_subsistema DOUBLE COMMENT 'Valor de Energia armazenada máxima nos reservatórios das hidroelétricas por subsistema na unidade de medida MWmês. Apenas valores positivos.',
 ear_verif_subsistema_mwmes DOUBLE COMMENT 'Valor de Energia Armazenada verificada no dia nos reservatórios das hidroelétricas por subsistema na unidade de medida MWmês.Apenas valores positivos.',
 ear_verif_subsistema_percentual DOUBLE COMMENT 'Valor de Energia Armazenada verificada no dia por subsistema na unidade de medida % do Volume útil armazenável (ear_max_subsistema) do próprio subsistema. Apenas valores positivos.'
) COMMENT 'Dados das grandezas de energia armazenada (EAR) em periodicidade diária por Subsistemas.

A Energia Armazenada (EAR) representa a energia associada ao volume de água disponível nos reservatórios que pode ser convertido em geração na própria usina e em todas as usinas à jusante na cascata. A grandeza de EAR leva em conta nível verificado nos reservatórios na data de referência. A grandeza de EAR máxima representa a capacidade de armazenamento caso todos os reservatórios do sistema estivessem cheios. A grandeza de EAR para o subsistema à jusante considera a utilização da água do reservatório para produzir energia em uma usina à jusante que está em um subsistema diferente.

Os dados podem servir de insumo para estudos energéticos e projeção do custo marginal de operação. Contudo, é necessário saber que os dados disponibilizados fazem parte de um processo de consistência recorrente e, portanto, podem ser atualizados após a sua publicação.'

In [None]:
%sql
INSERT OVERWRITE TABLE hive_metastore.sprintiii_isabelanatal.DWTABLE_EARM
SELECT * FROM DW_EARM

num_affected_rows,num_inserted_rows
33216,33216


In [None]:
%sql
CREATE OR REPLACE TABLE hive_metastore.sprintiii_isabelanatal.DWTABLE_CARGA
(
 id_subsistema STRING COMMENT 'Código do Subsistema - Valores possíveis: NE, N, SE, S',
 Subsistema STRING COMMENT 'Nome do Subsistema - Valores possíveis: Nordeste, Norte, Sudeste, Sul',
 Data DATE COMMENT 'Data da medida observada - Valores a partir de 2001, até a data presente (até dois dias antes)',
 val_cargaenergiamwmed  DOUBLE COMMENT 'Valor da demanda de energia elétrica, por subsistema, na média diária. Valores medidos em MWmed. Apenas valores positivos.'
) COMMENT 'Dados de carga por subsistema em base diária, medida em MWmed. Até fevereiro/2021, os dados representam a carga atendida por usinas despachadas e/ou programadas pelo ONS, com base em dados recebidos pelo Sistema de Supervisão e Controle do ONS. Entre março/2021 e abril/23, os dados representam a carga atendida por usinas despachadas e/ou programadas pelo ONS, com base em dados recebidos pelo Sistema de Supervisão e Controle do ONS, mais a previsão de geração de usinas não despachadas pelo ONS. A partir de 29/04/2023, além dos dados anteriormente considerados, passou a ser incorporado o valor estimado da micro e minigeração distribuída (MMGD), com base em dados meteorológicos previstos.

Os dados disponibilizados fazem parte de um processo de consistência recorrente e, portanto, podem ser atualizados após a sua publicação.'

In [None]:
%sql
INSERT OVERWRITE TABLE hive_metastore.sprintiii_isabelanatal.DWTABLE_CARGA
SELECT * FROM DW_CARGA

num_affected_rows,num_inserted_rows
33168,33168


In [None]:
%sql
SELECT * FROM hive_metastore.sprintiii_isabelanatal.DWTABLE_ENA

id_subsistema,Subsistema,Data,ena_bruta_regiao_mwmed,ena_bruta_regiao_percentualmlt,ena_armazenavel_regiao_mwmed,ena_armazenavel_regiao_percentualmlt
SE,Sudeste,2023-09-26,14027.93164063,71.41179657,13763.86621094,70.06759644
S,Sul,2023-09-26,15841.10839844,135.98860168,7631.82617188,65.51570129
NE,Nordeste,2023-09-26,1814.75695801,61.71870041,1814.75695801,61.71870041
N,Norte,2023-09-26,1457.75695801,64.15270233,1457.75695801,64.15270233
SE,Sudeste,2023-09-25,14240.73339844,72.49510193,13983.62988281,71.18630219
S,Sul,2023-09-25,12222.54296875,104.92489624,9011.13574219,77.35649872
NE,Nordeste,2023-09-25,1820.08898926,61.90000153,1816.51403809,61.7784996
N,Norte,2023-09-25,1470.7779541,64.72570038,1470.7779541,64.72570038
NE,Nordeste,2023-09-24,1838.36901855,62.52170181,1828.35900879,62.18130112
N,Norte,2023-09-24,1477.01293945,65.00009918,1477.01293945,65.00009918


In [None]:
%sql
SELECT * FROM hive_metastore.sprintiii_isabelanatal.DWTABLE_EARM

id_subsistema,Subsistema,Data,ear_max_subsistema,ear_verif_subsistema_mwmes,ear_verif_subsistema_percentual
S,Sul,2023-09-26,20459.2421875,18422.22460938,90.04350281
SE,Sudeste,2023-09-26,204615.328125,149814.703125,73.21769714
N,Norte,2023-09-26,15302.39648438,11381.86230469,74.37960052
NE,Nordeste,2023-09-26,51691.2265625,35021.1484375,67.7507019
S,Sul,2023-09-25,20459.2421875,18473.85546875,90.29589844
SE,Sudeste,2023-09-25,204615.328125,150594.03125,73.59860229
N,Norte,2023-09-25,15302.39648438,11503.18164063,75.17240143
NE,Nordeste,2023-09-25,51691.2265625,35153.53515625,68.00679779
N,Norte,2023-09-24,15302.39648438,11621.43847656,75.94519806
NE,Nordeste,2023-09-24,51691.2265625,35285.40625,68.26190186


In [None]:
%sql
SELECT * FROM hive_metastore.sprintiii_isabelanatal.DWTABLE_CARGA

id_subsistema,Subsistema,Data,val_cargaenergiamwmed
SE,Sudeste,2018-01-22,43087.81983333
S,Sul,2018-01-22,12099.57070833
NE,Nordeste,2018-01-22,10712.187375
N,Norte,2018-01-22,5530.50595833
SE,Sudeste,2018-01-21,36185.29416667
S,Sul,2018-01-21,9360.025125
NE,Nordeste,2018-01-21,9524.13475
N,Norte,2018-01-21,4990.588875
SE,Sudeste,2018-01-20,39452.90891667
S,Sul,2018-01-20,11008.30729167
