#Introdução e Objetivo

Esse trabalhao aborda um estudo da geração de energia elétrica no Brasil com foco na produção proveniente da energia fotovoltaica. A Agencia Nacional de Energia Elétrica publica mensalmente informações sobre os Empreendimentos em Operação no Brasil contemplando todas as fontes tais como:


*   Termelétricas
*   Eólicas
*   Hidrelétricas
*   Fotovoltaicas
*   Termonucleares

O objetivo é criar uma rotina que permita a adequação dos dados para estudos futuros.

Os dados utilizados neste estudo estão disponiveis no seguinte endereço:


https://dadosabertos.aneel.gov.br/datastore/dump/e61fd029-5e78-43be-bed4-873b7b11f04c?bom=True

#Exploração de Dados

Importando a biblioteca Pandas para estudo dos dados, lendo o arquivo .csv e visualizando os primeiros dados.

In [20]:
import pandas as pd

df = pd.read_csv('empreendimento-operacao-historico.csv')

df.head()

Unnamed: 0,DatGeracaoConjuntoDados;SigTipoGeracao;QtdUsinasPeriodo;MdaPotenciaInstaladaKW;MesReferencia;AnoReferencia
0,31/05/2023;CGH;0;0;12;2001
1,31/05/2023;EOL;7;21000;12;2001
2,31/05/2023;PCH;303;855000;12;2001
3,31/05/2023;UFV;0;0;12;2001
4,31/05/2023;UHE;133;61554000;12;2001


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 411 entries, 0 to 410
Data columns (total 1 columns):
 #   Column                                                                                                      Non-Null Count  Dtype 
---  ------                                                                                                      --------------  ----- 
 0   DatGeracaoConjuntoDados;SigTipoGeracao;QtdUsinasPeriodo;MdaPotenciaInstaladaKW;MesReferencia;AnoReferencia  411 non-null    object
dtypes: object(1)
memory usage: 3.3+ KB


Como pode ser visualizado acima, o conjunto de dados possui uma única coluna com todos os dados. Será necessário reoganizar os dados para seguir com a análise. Veja abaixo que o nome da coluna (acessado com o comando "df.columns") mostra os nomes de todas as colunas do arquivo unidos em uma única coluna.

Se consultarmos a primeira coluna do arquivo pelo nome veremos que para cada index temos um conjunto de informações separados por ponto e vírgula, iremos separar esses dados em colunas diferentes para melhor trabalhabilidade dos mesmos.

In [22]:
df['DatGeracaoConjuntoDados;SigTipoGeracao;QtdUsinasPeriodo;MdaPotenciaInstaladaKW;MesReferencia;AnoReferencia']

0                  31/05/2023;CGH;0;0;12;2001
1              31/05/2023;EOL;7;21000;12;2001
2           31/05/2023;PCH;303;855000;12;2001
3                  31/05/2023;UFV;0;0;12;2001
4         31/05/2023;UHE;133;61554000;12;2001
                        ...                  
406    31/05/2023;UFV;18096;8327093.03;3;2023
407      31/05/2023;PCH;428;5719317.57;3;2023
408       31/05/2023;UHE;215;103195357;3;2023
409    31/05/2023;UTE;3015;46057017.41;3;2023
410           31/05/2023;UTN;2;1990000;3;2023
Name: DatGeracaoConjuntoDados;SigTipoGeracao;QtdUsinasPeriodo;MdaPotenciaInstaladaKW;MesReferencia;AnoReferencia, Length: 411, dtype: object

#Tranformação

Para realizarmos a separação dos dados precisaremos ter o nome completo da primeira coluna do arquivo, para isso vamos consultar através do comando "df.columns"

In [23]:
df.columns


Index(['DatGeracaoConjuntoDados;SigTipoGeracao;QtdUsinasPeriodo;MdaPotenciaInstaladaKW;MesReferencia;AnoReferencia'], dtype='object')

Agora, com a linha de comando abaixo acessamos a coluna que desejamos separar os dados pelo seu nome, logo após usamos ".str" para acessas as propriedades de trabalho de strings no paython e na sequência chamamos uma função chamada ".split" que permite a separação de strings através de um identificador, que nesse caso é ";".

In [24]:
df = df['DatGeracaoConjuntoDados;SigTipoGeracao;QtdUsinasPeriodo;MdaPotenciaInstaladaKW;MesReferencia;AnoReferencia'].str.split(';', expand=True)

Realizada a separação veja abaixo como fica o cabeçalho do nosso DataFrame

In [25]:
df.head()


Unnamed: 0,0,1,2,3,4,5
0,31/05/2023,CGH,0,0,12,2001
1,31/05/2023,EOL,7,21000,12,2001
2,31/05/2023,PCH,303,855000,12,2001
3,31/05/2023,UFV,0,0,12,2001
4,31/05/2023,UHE,133,61554000,12,2001


Perceba que o DataFrame agora está separado por colunas, porém o nome de cada coluna passou a ser identificado via um número (ou index) o que não é interessante. O próximo passo é renomear as colunas para nomes que permitam o melhor entendimento e manutenibilidade do deste código.

In [26]:
df.columns = ['DataGeracaoConjDados', 'SigTipoGeracao', 'QntUsinasPeriodo', 'MdaPotenciaInstaladaKW', 'MesRef', 'AnoRef']

Veja abaixo que agora temos nosso DataFrame com os nomes corretos nas colunas e com os dados devidamente organizados.

In [27]:
df.head()

Unnamed: 0,DataGeracaoConjDados,SigTipoGeracao,QntUsinasPeriodo,MdaPotenciaInstaladaKW,MesRef,AnoRef
0,31/05/2023,CGH,0,0,12,2001
1,31/05/2023,EOL,7,21000,12,2001
2,31/05/2023,PCH,303,855000,12,2001
3,31/05/2023,UFV,0,0,12,2001
4,31/05/2023,UHE,133,61554000,12,2001


Veja agora que um outro ponto importante é termos a coluna "MdaPotenciaInstaladaKW" do tipo float para que operações númericas possam ser realizadas nos estudos. Por isso será feito a mudança desse tipo de dado para o tipo float.

In [28]:
df.dtypes

DataGeracaoConjDados      object
SigTipoGeracao            object
QntUsinasPeriodo          object
MdaPotenciaInstaladaKW    object
MesRef                    object
AnoRef                    object
dtype: object

In [14]:
df[['MdaPotenciaInstaladaKW']] = df[['MdaPotenciaInstaladaKW']].apply(pd.to_numeric)

In [15]:
df.dtypes

DataGeracaoConjDados       object
SigTipoGeracao             object
QntUsinasPeriodo           object
MdaPotenciaInstaladaKW    float64
MesRef                     object
AnoRef                     object
dtype: object

#Load

Concluimos assim o ETL, com essa rotina, sempre que necessário pode-se buscar no link de referência os dados atualizados e ter seu DataFrame e tipos de dados adequados para seu trabalho de Análise de Dados.