<center> <h1 style="background-color:seagreen; color:white" > <br>Análise e Visualização de Dados da Geração Distribuída Fotovoltaica no Brasil <br></h1></center> 

<center> <h4 style="background-color:DarkKhaki; color:white" > <br>Análise e Visualização dos dados da relação de empreendimentos de Geração Distribuída Fotovoltaica no Brail disponibilizado pela Aneel - (Agência Nacional de Energia Elétrica) <br></h4></center> 

A Resolução Normativa ANEEL no 482/2012, em vigor desde 17 de abril de 2012, permitiu aos consumidores brasileiros a geração própria de energia elétrica a partir de fontes renováveis ou cogeração qualificada. Este novo modelo, denominado Geração Distribuída de Energia, possibilita que residências, empresas e indústrias se tornem geradoras de energia, podendo inclusive fornecer o excedente para a rede de distribuição local. As unidades consumidoras estão localizadas próximas às geradoras, reduzindo a sobrecarga no sistema de transmissão, e em algumas modalidades, unidades de consumo distantes também podem se beneficiar da energia gerada. A geração distribuída consiste em pequenas unidades geradoras localizadas próximas ao local de consumo, utilizando fontes de energia renováveis. Essa abordagem representa uma alternativa à geração centralizada, que envolve grandes usinas distantes dos centros consumidores.

O Dataset trata de dados referentes aos micro e minigeradores distribuídos, abrangidos pela Resolução Normativa nº 482/2012. A relação dos empreendimentos é classificada pelas variáveis que compõem sua identificação, quais sejam:

<ul>
    <li>Distribuidora conectada;</li>
    <li>Código do empreendimento; </li>
    <li>Núcleo numérico do código do empreendimento; </li>
    <li>Nome do titular; </li>
    <li>Classe de produção; </li>
    <li>Subgrupo; </li>
    <li>Quantidade de unidades consumidoras que recebem os créditos;</li>
    <li>Data da conexão;</li>
    <li>Tipo de unidade produtora;</li>
    <li>Fonte;</li>
    <li>Potência instalada;</li>
    <li>Município e unidade de federação onde está localizada. </li>
</ul>

Os dados são expressos em quantidades e potência instalada em kW (quilowatt). A quantidade corresponde ao número de micro ou minigeradores distribuídos instalados no período especificado. A potência instalada é definida pelo somatório da potência elétrica ativa nominal das unidades geradoras.

A unidade de energia elétrica atualmente utilizada pela ANEEL é o kWh (quilowatt-hora) ou o MWh (megawatt-hora).



In [130]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns

%matplotlib inline
sns.set_theme(context='notebook', style='darkgrid', palette='deep')


### Carregando a base de dados

In [131]:
df = pd.read_csv("empreendimento-gd-informacoes-tecnicas-fotovoltaica.csv")

In [132]:
df.head()

Unnamed: 0,_id,DatGeracaoConjuntoDados,CodGeracaoDistribuida,MdaAreaArranjo,MdaPotenciaInstalada,NomFabricanteModulo,NomFabricanteInversor,DatConexao,MdaPotenciaModulos,MdaPotenciaInversores,QtdModulos,NomModeloModulo,NomModeloInversor
0,1,2024-01-30T00:00:00,GD.MG.000.010.856,1800,234,risen,b&b,2017-05-30T00:00:00,234,234,9,,
1,2,2024-01-30T00:00:00,GD.RS.000.010.924,2328,300,Canadian Solar,Fronius,2017-05-11T00:00:00,320,300,10,CS6X-320P,Primo 3.0-1
2,3,2024-01-30T00:00:00,GD.SP.000.010.974,2400,300,CSUN,AP SYSTEMS,2017-05-19T00:00:00,372,300,12,CSUN -72P 310 KW,YC500
3,4,2024-01-30T00:00:00,GD.RS.000.010.988,2156,363,SunEdison,Fronius,2017-05-24T00:00:00,363,400,11,SE-F330BMC34,Primo 4.0-1
4,5,2024-01-30T00:00:00,GD.SP.000.011.006,1440,238,Canadian,Fronius,2017-05-18T00:00:00,238,250,9,CS6P 265 Wp,Galvo 2.5


In [133]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 346000 entries, 0 to 345999
Data columns (total 13 columns):
 #   Column                   Non-Null Count   Dtype 
---  ------                   --------------   ----- 
 0   _id                      346000 non-null  int64 
 1   DatGeracaoConjuntoDados  346000 non-null  object
 2   CodGeracaoDistribuida    346000 non-null  object
 3   MdaAreaArranjo           346000 non-null  object
 4   MdaPotenciaInstalada     346000 non-null  object
 5   NomFabricanteModulo      345998 non-null  object
 6   NomFabricanteInversor    346000 non-null  object
 7   DatConexao               346000 non-null  object
 8   MdaPotenciaModulos       346000 non-null  object
 9   MdaPotenciaInversores    346000 non-null  object
 10  QtdModulos               346000 non-null  int64 
 11  NomModeloModulo          345998 non-null  object
 12  NomModeloInversor        345970 non-null  object
dtypes: int64(2), object(11)
memory usage: 34.3+ MB


<center> <h1 style="background-color:seagreen; color:white" > <br>Descrição dos atribultos da tabela <br></h1></center> 


| **Nome do Campo**  | **Tipo do dado** | **Tamanho do Campo** | **Descrição** |
| -------------------| -----------------| ---------------------| --------------|
| DatGeracaoConjuntoDados | Data Simples |  |  Data do processamento de carga automática no momento da geração para publicação do conjunto de dados abertos. |
| CodGeracaoDistribuida | Cadeia de caracteres | 21 | Código da Unidade Geradora |
| MdaAreaArranjo | Numérico | 8,2  | Total da área de Arranjo |
| MdaPotenciaInstalada  | Numérico  | 6,2 |  Medida da potência instalada |
| NomFabricanteModulo | Cadeia de caracteres | 100 | Nome do fabricante do módulo |
| NomFabricanteInversor  | Cadeia de caracteres | 100 | Nome do fabricante do inversor |
| DatConexao | Data Simples |  | Data da conexão da Unidade Geradora |
| MdaPotenciaModulos | Numérico | 6,2 | Armazena os dados expressos em quantidades e potência dos módulos em MW (quilowatt), definida pela somatória das potências elétricas ativas nominais dos módulos da central de geração distribuída |
| MdaPotenciaInversores | Numérico | 6,2 | Armazena os dados expressos em quantidades e potência dos inversores em MW (quilowatt), definida pela somatória das potências elétricas ativas nominais dos módulos da central de geração distribuída |
| QtdModulos | Numérico | 10 | Quantidade de Módulos |
| NomModeloModulo |  Cadeia de caracteres | 100 | Nome do modelo do Módulo |
| NomModeloInversor | Cadeia de caracteres | 100 | Nome do modelo do Inversor |


<center> <h1 style="background-color:seagreen; color:white" > <br>Análise Exploratória de Dados <br></h1></center> 

<center> <h3 style="background-color:#868661; color:white" > <br>Tratamento dos dados numéricos <br></h3></center>


Convertendo os dados numericos para a notação que a linguagem de programação entenda, para isso é necessário substituir a virgula por ponto e depois converter a informação que antes erá uma string python para um valor numérico, para esse processo foi usado o método **.aplly()** além disso, usou-se o método array do NumPy para converter os dados em numéricos float32.

Colunas convertidas: 

<ul>
    <li>MdaAreaArranjo</li>
    <li>MdaPotenciaInstalada</li>
    <li>MdaPotenciaModulos</li>
    <li>MdaPotenciaInversores</li>
</ul>


Antes:
`18,00` String

Depois:
`18.00` float32


In [134]:
df["MdaAreaArranjo"] = np.array(df["MdaAreaArranjo"].apply(lambda x: x.replace(",", ".")), dtype="float32")
df["MdaPotenciaInstalada"] = np.array(df["MdaPotenciaInstalada"].apply(lambda x: x.replace(",", ".")), dtype="float32")
df["MdaPotenciaModulos"] = np.array(df["MdaPotenciaModulos"].apply(lambda x: x.replace(",", ".")), dtype="float32")
df["MdaPotenciaInversores"] = np.array(df["MdaPotenciaInversores"].apply(lambda x: x.replace(",", ".")), dtype="float32")
df["QtdModulos"] = np.array(df["QtdModulos"].apply(lambda x: float(x)), dtype="float32")

<center> <h3 style="background-color:#868661; color:white" > <br>Convertendo as colunas de data para o tipo <strong>datitime</strong> do pandas <br></h3></center>

Para realizar essa conversão usa-se o método `.to_datitime()`, as colunas `DatGeracaoConjuntoDados`e `DatConexao` serão convertidas para esse formato.

In [135]:
df["DatGeracaoConjuntoDados"] = pd.to_datetime(df["DatGeracaoConjuntoDados"])
df["DatConexao"] = pd.to_datetime(df["DatConexao"])

<center> <h3 style="background-color:#868661; color:white" > <br>Criando atribultos Ano, Mês e Dia <br></h3></center>

In [None]:
df["Year"] = df["DatConexao"].apply(lambda x: x.year)
df["Month"] = df["DatConexao"].apply(lambda x: x.month)
df["Day"] = df["DatConexao"].apply(lambda x: x.day)

In [None]:
df.head(-1)

In [None]:
df.info()

<center> <h1 style="background-color:seagreen; color:white" > <br>Plotando a Distribuição de Atribultos ​​do conjunto de dados <br></h1></center> 

In [None]:
def data_for_date(year: int, month: int = None, day: int = None):
    """
    Attributes:
        year: numeric
        month: numeric
        day: numeric
    """
    if not (month and day):
        return df[df["Year"] == year]
    elif (month and (not day)):
        return df[(df["Month"] == year) & (df[column_date[1]] == month)]
    elif (month and  day):
        return df[(df["Day"] == year) & (df[column_date[1]] == month) & (df[column_date[2]] == day)]


In [None]:
df_datconexao_2017 = data_for_date(year=2017, month=12)
df_datconexao_2017

<center> <h2 style="background-color:#27AE60 ; color:white" > <br>Estratificação dos atribultos do ano de 2017 <br></h2></center>

In [None]:
sns.pairplot(df_datconexao_2017[df_datconexao_2017["MdaPotenciaInstalada"] < 150],
             x_vars=["MdaAreaArranjo", "MdaPotenciaInstalada", "MdaPotenciaModulos", "QtdModulos"],
             y_vars=["MdaAreaArranjo", "MdaPotenciaInstalada", "MdaPotenciaModulos", "QtdModulos"])

In [None]:
plt.figure(figsize=(7, 5))
sns.lineplot(data=df_datconexao_2017, x="MdaPotenciaInstalada", y="QtdModulos")
plt.title("Potência Instalada por Quantidade de Módulos")
plt.xlabel("Potência Instalada")
plt.ylabel("Quantidade de Módulos")
plt.show()

<center> <h3 style="background-color:#868661; color:white" > <br>Dados anuais do setor <br></h3></center>

In [None]:
df_datconexao_2017.info()


**Medida da potência instalada**

In [None]:
def info_generation(df_datconexao):
    soma_potencia = df_datconexao["MdaPotenciaInstalada"].sum()
    media_potencia_inst = df_datconexao["MdaPotenciaInstalada"].mean()
    qt_instalacao_ano = df_datconexao["DatConexao"].count()
    qt_fabricante_inversores_ano = df_datconexao["NomFabricanteInversor"].nunique()

    data = {"soma_potencia": soma_potencia,
             "media_potencia_inst": media_potencia_inst,
             "qt_instalacao_ano": qt_instalacao_ano,
             "qt_fabricante_inversores_ano": qt_fabricante_inversores_ano}

    return data





<center> <h3 style="background-color:#868661; color:white" > <br>Informação de sistemas fotovoltaicos anuais<br></h3></center>

In [None]:
arrays = [[], [], [], [], []]

for ano in np.sort(df["Year"].unique()):
    data = info_generation(data_for_date(year=ano))
    arrays[0].append(ano)
    arrays[1].append(data["soma_potencia"])
    arrays[2].append(data["media_potencia_inst"])
    arrays[3].append(data["qt_instalacao_ano"])
    arrays[4].append(data["qt_fabricante_inversores_ano"])
info_anual = pd.DataFrame(np.transpose(arrays),
                          columns=["ano", "soma_potencia", "media_potencia_inst",
                                   "qt_instalacao_ano", "qt_fabricante_inversores_ano"])
info_anual.head(20)

In [None]:
plt.figure(figsize=(12, 4))
sns.barplot(data=info_anual, x="ano", y="soma_potencia")
plt.show()

In [None]:
plt.figure(figsize=(12, 4))
sns.barplot(data=info_anual, x="ano", y="media_potencia_inst")
plt.show()

In [None]:
plt.figure(figsize=(12, 4))
sns.barplot(data=info_anual, x="ano", y="qt_instalacao_ano")
plt.show()