### Realizando a Importação das Bibliotecas e dos Arquivos Iniciais

In [29]:
### Importação de arquivos
# Realizando a importação das bibliotecas

# Bibliotecas padrão para tratamentos de DataFrames
import pandas as pd
import numpy as np
import chardet
import os
import matplotlib
import matplotlib.pyplot as plt

# Bibliotecas padrão para tratamentos de GEO-DataFrames
import geopandas as gpd

# Apresentar os dados em mapas e gráficos
import folium
import plotly.express as px
import keplergl
import plotly as plt
import plotly.figure_factory as ff
from branca.element import Template, MacroElement
import dash

import json # Para exibir conteúdo da linguagem json
from urllib.request import urlopen # Para utilizar de data wrangling e buscar um mapa em json do Brasil na web


In [30]:
# Determinando o caminho onde estão os arquivos a serem trabalhados

patch = r"C:\Users\vinic\Documents\GitHub\Analise_Espacial\dados.gov\siga-empreendimentos-geracao.csv"

# Verificando a extensão do arquivo importado através da biblioteca chardet e da função chardet.detect

with open(patch, 'rb') as rawdata:
    result = chardet.detect(rawdata.read(100000))
result

print(result)

{'encoding': 'UTF-16', 'confidence': 1.0, 'language': ''}


In [31]:
# Uma vez verificado que o arquivo está em UTF-16, deve-se especifica-lo na funçao do pandas "pd.read_csv"
# Ao dataframe inicial, contendo os dados de geração do governo brasiliero será atribuído o nome de "df_ini"

df_ini = pd.read_csv(patch, sep= ";", header=0, decimal= ',',encoding="utf-16" )

# Visualizando o df_ini

df_ini

Unnamed: 0,DatGeracaoConjuntoDados,IdcGeracaoQualificada,NomEmpreendimento,CodCEG,SigUFPrincipal,DscAbreviacaoTipoGeracao,DscFaseUsina,DscOrigemCombustivel,DscFonteCombustivel,DscTipoOutorga,...,MdaPotenciaOutorgadaKw,MdaPotenciaFinalizadaKw,MdaGarantiaFisicaKw,NumLatitude,NumLongitude,DatInicioVigencia,DatFimVigencia,DscPropriRegimePariticipacao,DscSubBacia,DscMuninicpios
0,2022-03-01,Não,14 de Julho,UHE.EP.RS.000012-4,RS,UHE,Operação,Hídrica,Potencial hidráulico,Concessão,...,100000.0,100000,47500.0,-29.06,-51.67,15-03-2001,15-03-2036,100% para COMPANHIA ENERGÉTICA RIO DAS ANTAS (...,86 - Taquari,"Bento Gonçalves - RS, Cotiporã - RS"
1,2022-03-01,Não,29 de Outubro,UTE.EP.SC.029920-0,SC,UTE,Operação,Fóssil,Petróleo,Registro,...,62.0,62,0.0,-26.48,-49.08,01-01-1900,01-01-1900,100% para Condomínio Residencial 29 de Outubro...,,Jaraguá do Sul - SC
2,2022-03-01,Não,3 Tentos Ijuí,UTE.EF.RS.048608-6,RS,UTE,Construção,Biomassa,Floresta,Autorização,...,5500.0,0,0.0,-28.42,-53.91,05-07-2021,05-07-2056,100% para TRÊS TENTOS AGROINDUSTRIAL S.A. (APE),,Ijuí - RS
3,2022-03-01,Não,300KVA SCANIA,UTE.EP.MG.032686-0,MG,UTE,Operação,Fóssil,Petróleo,Registro,...,240.0,240,0.0,-21.78,-46.60,01-01-1900,01-01-1900,100% para Mineração Curimbaba Ltda. (REG),,Poços de Caldas - MG
4,2022-03-01,Não,3M Itapetininga,UTE.EP.SP.028642-7,SP,UTE,Operação,Fóssil,Petróleo,Registro,...,3840.0,3840,0.0,-23.60,-48.09,01-01-1900,01-01-1900,100% para 3M do Brasil Ltda (REG),,Itapetininga - SP
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14172,2022-03-01,,Zivaldo Pinto Tenorio,UFV.VR.PA.039915-9,PA,UFV,Operação,Solar,Radiação solar,Registro,...,1.0,1,0.0,-1.91,-52.47,01-01-1900,01-01-1900,100% para EQUATORIAL PARÁ DISTRIBUIDORA DE ENE...,,Porto de Moz - PA
14173,2022-03-01,,Zizilene da Silva,UFV.VR.PA.057528-3,PA,UFV,Operação,Solar,Radiação solar,Registro,...,1.0,1,0.0,-1.89,-51.14,01-01-1900,01-01-1900,100% para EQUATORIAL PARÁ DISTRIBUIDORA DE ENE...,,Portel - PA
14174,2022-03-01,,Zuleide Lisboa Vieira,UFV.VR.PA.057090-7,PA,UFV,Operação,Solar,Radiação solar,Registro,...,1.0,1,0.0,-1.84,-50.98,01-01-1900,01-01-1900,100% para EQUATORIAL PARÁ DISTRIBUIDORA DE ENE...,,Portel - PA
14175,2022-03-01,,Zulmira Azevedo do Nascimento,UFV.VR.PA.050680-0,PA,UFV,Operação,Solar,Radiação solar,Registro,...,1.0,1,0.0,-2.10,-53.46,01-01-1900,01-01-1900,100% para EQUATORIAL PARÁ DISTRIBUIDORA DE ENE...,,Prainha - PA


Percebe-se que existem observações (linhas) com valores "NaN" e variáveis (colunas) que não vão ser utilizadas nas análises.
Portanto, é necessário trabalhar os dados. O que será feito na próxima etapa de Data Wrangling.

### Data Wrangling

In [32]:
# Primeiro, preserva-se o dataframe inicial "df_ini", realizando uma cópia deste.

df = df_ini.copy()

# Aqui se inicia a análise exploratória dos arquivos, a função ".info" permite 
# além de verificar as colunas, ver seu dtype.

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14177 entries, 0 to 14176
Data columns (total 22 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   DatGeracaoConjuntoDados       14177 non-null  object 
 1   IdcGeracaoQualificada         7086 non-null   object 
 2   NomEmpreendimento             14177 non-null  object 
 3   CodCEG                        14177 non-null  object 
 4   SigUFPrincipal                14177 non-null  object 
 5   DscAbreviacaoTipoGeracao      14177 non-null  object 
 6   DscFaseUsina                  14177 non-null  object 
 7   DscOrigemCombustivel          14177 non-null  object 
 8   DscFonteCombustivel           14177 non-null  object 
 9   DscTipoOutorga                14177 non-null  object 
 10  NomFonteCombustivel           14177 non-null  object 
 11  DatEntradaOperacao            14177 non-null  object 
 12  MdaPotenciaOutorgadaKw        14177 non-null  float64
 13  M

In [33]:
# A função abaixo, permite verificar o nome atribuído a cada uma das colunas

print(df.columns.unique())

Index(['DatGeracaoConjuntoDados', 'IdcGeracaoQualificada', 'NomEmpreendimento',
       'CodCEG', 'SigUFPrincipal', 'DscAbreviacaoTipoGeracao', 'DscFaseUsina',
       'DscOrigemCombustivel', 'DscFonteCombustivel', 'DscTipoOutorga',
       'NomFonteCombustivel', 'DatEntradaOperacao', 'MdaPotenciaOutorgadaKw',
       'MdaPotenciaFinalizadaKw', 'MdaGarantiaFisicaKw', 'NumLatitude',
       'NumLongitude', 'DatInicioVigencia', 'DatFimVigencia',
       'DscPropriRegimePariticipacao', 'DscSubBacia', 'DscMuninicpios'],
      dtype='object')


In [34]:
# Realiza-se então a exclusão das que não serão utilizadas para esta análise

df = df.drop(columns=['DatGeracaoConjuntoDados','IdcGeracaoQualificada','CodCEG','DscTipoOutorga','DatEntradaOperacao','DatInicioVigencia','DatFimVigencia','DscPropriRegimePariticipacao','DscSubBacia' ] )
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14177 entries, 0 to 14176
Data columns (total 13 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   NomEmpreendimento         14177 non-null  object 
 1   SigUFPrincipal            14177 non-null  object 
 2   DscAbreviacaoTipoGeracao  14177 non-null  object 
 3   DscFaseUsina              14177 non-null  object 
 4   DscOrigemCombustivel      14177 non-null  object 
 5   DscFonteCombustivel       14177 non-null  object 
 6   NomFonteCombustivel       14177 non-null  object 
 7   MdaPotenciaOutorgadaKw    14177 non-null  float64
 8   MdaPotenciaFinalizadaKw   14177 non-null  int64  
 9   MdaGarantiaFisicaKw       14177 non-null  float64
 10  NumLatitude               11710 non-null  object 
 11  NumLongitude              11710 non-null  object 
 12  DscMuninicpios            14177 non-null  object 
dtypes: float64(2), int64(1), object(10)
memory usage: 1.4+ MB


In [35]:
# Verifica-se as usinas que estão em operação, que estão em construção e 
# que ainda não foram iniciadas.

df.groupby("DscFaseUsina").count()

Unnamed: 0_level_0,NomEmpreendimento,SigUFPrincipal,DscAbreviacaoTipoGeracao,DscOrigemCombustivel,DscFonteCombustivel,NomFonteCombustivel,MdaPotenciaOutorgadaKw,MdaPotenciaFinalizadaKw,MdaGarantiaFisicaKw,NumLatitude,NumLongitude,DscMuninicpios
DscFaseUsina,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Construção,349,349,349,349,349,349,349,349,349,340,340,349
Construção não iniciada,1157,1157,1157,1157,1157,1157,1157,1157,1157,1035,1035,1157
Operação,12671,12671,12671,12671,12671,12671,12671,12671,12671,10335,10335,12671


In [37]:
# Filtra-se apenas as que estão em operação

df = df.query("DscFaseUsina == 'Operação'")
df.groupby("DscFaseUsina").count()

Unnamed: 0_level_0,NomEmpreendimento,SigUFPrincipal,DscAbreviacaoTipoGeracao,DscOrigemCombustivel,DscFonteCombustivel,NomFonteCombustivel,MdaPotenciaOutorgadaKw,MdaPotenciaFinalizadaKw,MdaGarantiaFisicaKw,NumLatitude,NumLongitude,DscMuninicpios
DscFaseUsina,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Operação,12671,12671,12671,12671,12671,12671,12671,12671,12671,10335,10335,12671


In [42]:
# Aqui se gera uma tabela por 'DscOrigemCombustivel' com 
# valores totais (nulos e não nulos)


temp_a = df.groupby("DscOrigemCombustivel").sum()

print('============================TABELA DE VALORES TOTAIS====================================')

print(temp_a)



print('========================================================================================')

# Aqui se gera uma tabela por 'DscOrigemCombustivel' com valores nulos

print('============================TABELA DE VALORES NULOS====================================')

null_data = df[df.isnull().any(axis=1)]

temp_b = null_data.groupby("DscOrigemCombustivel").sum()

print(temp_b)

print('========================================================================================')


                      MdaPotenciaOutorgadaKw  MdaPotenciaFinalizadaKw  \
DscOrigemCombustivel                                                    
Biomassa                        1.622914e+07                 15792532   
Eólica                          2.154854e+07                 21473676   
Fóssil                          3.033403e+07                 29022266   
Hídrica                         1.094267e+08                109380678   
Nuclear                         1.990000e+06                  1990000   
Solar                           4.737906e+06                  4737597   
Undi-Elétrica                   5.000000e+01                       50   

                      MdaGarantiaFisicaKw  
DscOrigemCombustivel                       
Biomassa                        2819800.0  
Eólica                          9222660.0  
Fóssil                          9530750.0  
Hídrica                        59302720.0  
Nuclear                         1714500.0  
Solar                            9

Verifica-se que o percentual dos valores Null, quando comparados com os totais, são muito baixos.

In [55]:
# Aqui se gera uma tabela por 'DscOrigemCombustivel' com a representatividade 
# dos valores nulos

print('============================DIFERENÇA PERCENTUAL DE VALORES NULOS====================================')

dif = (((temp_a-temp_b)/temp_a)*100)

print(100 - dif )

                      MdaPotenciaOutorgadaKw  MdaPotenciaFinalizadaKw  \
DscOrigemCombustivel                                                    
Biomassa                            0.668674                 0.687160   
Eólica                              0.019491                 0.019559   
Fóssil                              0.000448                 0.000469   
Hídrica                             0.083768                 0.083796   
Nuclear                                  NaN                      NaN   
Solar                               0.110435                 0.104631   
Undi-Elétrica                            NaN                      NaN   

                      MdaGarantiaFisicaKw  
DscOrigemCombustivel                       
Biomassa                         0.000000  
Eólica                           0.000000  
Fóssil                           0.000000  
Hídrica                          0.009932  
Nuclear                               NaN  
Solar                            0

In [58]:
# Verifica-se agora, por coluna os valores não nulos, 
# nulos e por fim se excluí os nulos desta análise.

print(df.count())

print('===============')

print(df.isnull().sum())

print('===============')

print(df.dropna().count())

print('XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX')

print(100 - dif )

# Novo DF, agora pronto para as análises "df_fin"

df_ger = df.dropna().copy()

df_ger.head()


NomEmpreendimento           12671
SigUFPrincipal              12671
DscAbreviacaoTipoGeracao    12671
DscFaseUsina                12671
DscOrigemCombustivel        12671
DscFonteCombustivel         12671
NomFonteCombustivel         12671
MdaPotenciaOutorgadaKw      12671
MdaPotenciaFinalizadaKw     12671
MdaGarantiaFisicaKw         12671
NumLatitude                 10335
NumLongitude                10335
DscMuninicpios              12671
dtype: int64
NomEmpreendimento              0
SigUFPrincipal                 0
DscAbreviacaoTipoGeracao       0
DscFaseUsina                   0
DscOrigemCombustivel           0
DscFonteCombustivel            0
NomFonteCombustivel            0
MdaPotenciaOutorgadaKw         0
MdaPotenciaFinalizadaKw        0
MdaGarantiaFisicaKw            0
NumLatitude                 2336
NumLongitude                2336
DscMuninicpios                 0
dtype: int64
NomEmpreendimento           10335
SigUFPrincipal              10335
DscAbreviacaoTipoGeracao    10335
D

Unnamed: 0,NomEmpreendimento,SigUFPrincipal,DscAbreviacaoTipoGeracao,DscFaseUsina,DscOrigemCombustivel,DscFonteCombustivel,NomFonteCombustivel,MdaPotenciaOutorgadaKw,MdaPotenciaFinalizadaKw,MdaGarantiaFisicaKw,NumLatitude,NumLongitude,DscMuninicpios
0,14 de Julho,RS,UHE,Operação,Hídrica,Potencial hidráulico,Potencial hidráulico,100000.0,100000,47500.0,-29.06,-51.67,"Bento Gonçalves - RS, Cotiporã - RS"
1,29 de Outubro,SC,UTE,Operação,Fóssil,Petróleo,Óleo Diesel,62.0,62,0.0,-26.48,-49.08,Jaraguá do Sul - SC
3,300KVA SCANIA,MG,UTE,Operação,Fóssil,Petróleo,Óleo Diesel,240.0,240,0.0,-21.78,-46.6,Poços de Caldas - MG
4,3M Itapetininga,SP,UTE,Operação,Fóssil,Petróleo,Óleo Diesel,3840.0,3840,0.0,-23.6,-48.09,Itapetininga - SP
5,3M Sumaré,SP,UTE,Operação,Fóssil,Petróleo,Óleo Diesel,6400.0,6400,0.0,-22.82,-47.19,Sumaré - SP


In [60]:
# Modificando o nome das colunas do DF

df_ger = df_ger.rename( columns ={
"NomEmpreendimento":"Empreendimento",
"SigUFPrincipal":"UF",
"DscAbreviacaoTipoGeracao":"TipoGeracao",
"DscFaseUsina":"Fase",
"DscOrigemCombustivel":"OrigemCombustivel",
"DscFonteCombustivel":"FonteCombustivel",
"NomFonteCombustivel":"NomeCombustivel",
"MdaPotenciaOutorgadaKw":"MdaPotenciaOutorgadaKW",
"MdaPotenciaFinalizadaKw":"MdaPotenciaFinalizadaKW",
"MdaGarantiaFisicaKw":"MdaGarantiaFisicaKW",
"NumLongitude": "X",
"NumLatitude": "Y",	
"DscMuninicpios":"Municipio"
})

### Análises Exploratórias Geoespaciais I *[Geometria - Ponto]*

In [61]:
# Com os dados minimamente lapidados, agora é possível iniciar as fases de 
# Análises Exporatórias Geoespaciais na geometria ponto

df_ger.head()

Unnamed: 0,Empreendimento,UF,TipoGeracao,Fase,OrigemCombustivel,FonteCombustivel,NomeCombustivel,MdaPotenciaOutorgadaKW,MdaPotenciaFinalizadaKW,MdaGarantiaFisicaKW,Y,X,Municipio
0,14 de Julho,RS,UHE,Operação,Hídrica,Potencial hidráulico,Potencial hidráulico,100000.0,100000,47500.0,-29.06,-51.67,"Bento Gonçalves - RS, Cotiporã - RS"
1,29 de Outubro,SC,UTE,Operação,Fóssil,Petróleo,Óleo Diesel,62.0,62,0.0,-26.48,-49.08,Jaraguá do Sul - SC
3,300KVA SCANIA,MG,UTE,Operação,Fóssil,Petróleo,Óleo Diesel,240.0,240,0.0,-21.78,-46.6,Poços de Caldas - MG
4,3M Itapetininga,SP,UTE,Operação,Fóssil,Petróleo,Óleo Diesel,3840.0,3840,0.0,-23.6,-48.09,Itapetininga - SP
5,3M Sumaré,SP,UTE,Operação,Fóssil,Petróleo,Óleo Diesel,6400.0,6400,0.0,-22.82,-47.19,Sumaré - SP


In [63]:
# VERIFICAR BIBLIO
# Contando quantos empreendimentos existem em operação, para verificar se condiz 
# com o relatório disponibilizado plea ANEEL original (2021)

df_ger.groupby('TipoGeracao').count()

Unnamed: 0_level_0,Empreendimento,UF,Fase,OrigemCombustivel,FonteCombustivel,NomeCombustivel,MdaPotenciaOutorgadaKW,MdaPotenciaFinalizadaKW,MdaGarantiaFisicaKW,Y,X,Municipio
TipoGeracao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
CGH,579,579,579,579,579,579,579,579,579,579,579,579
CGU,1,1,1,1,1,1,1,1,1,1,1,1
EOL,808,808,808,808,808,808,808,808,808,808,808,808
PCH,428,428,428,428,428,428,428,428,428,428,428,428
UFV,5199,5199,5199,5199,5199,5199,5199,5199,5199,5199,5199,5199
UHE,218,218,218,218,218,218,218,218,218,218,218,218
UTE,3100,3100,3100,3100,3100,3100,3100,3100,3100,3100,3100,3100
UTN,2,2,2,2,2,2,2,2,2,2,2,2
