<a href="https://colab.research.google.com/github/talitanog/mvpiii/blob/main/concmvpiii.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **O PROBLEMA: Análise de Dados de Restrição de Geração de Usinas Eólicas**

**Constrained off** é uma situação em que há uma redução na geração de energia por razões operacionais, podendo ser causada por diversos fatores: Restrições de transmissão, Falhas em equipamentos, Demanda excessiva, Condições climáticas adversas.
O constrained off pode levar a: Interrupções no fornecimento de energia, Aumento dos custos de produção, Problemas de estabilidade no sistema elétrico.

Constrained Off de Eólicas é um assunto que está em alta no setor elétrico com várias discussões sobre a compensação que os agentes lutam pelo direito de ter quando submetidos às restrições impostas pelas razões operacionais.
Os Agentes eólicos e fotovoltaicos reclamam que os os cortes de geração mais frequentes e intensos tem gerados prejuizos financeiros e a viabilidade economica da instalação.
Esses cortes aumentaram principalmente após o último apagão iniciado no Nordeste.
O pleito dos agentes e a regulação da ANEEL estão sendo analisados na justiça.


Nesse trabalho iremos analisar os dados de geração dos Estados que são os maiores produtores de emergia eólica no Brasil e que possuem instalações que são despachadas centralizadamente pelo ONS, serão apresentadas:



1. As regiões que possuem maior geração (**val_geracao**) eólica, ou seja, são instalações que possuem aerogeradores que tem a função de transformar energia do vento em energia elétrica;
2. A disponibilidade (**val_disponibilidade**) de geração que essas regiões tinham antes de sofrer a restrição, ou seja, o constrained off;
3. Irei apresentar a distribuição das restrições aplicada, podendo ser:

    3.1. Restrição por razão de disponibilidade externa (**REL**) - restrição de geração motivada por indisponibilidades em instalações externas às respectivas usinas/conjuntos de usinas eolioelétricas fotovoltaicas.

    3.2. Restrição por razão de atendimento a requisitos de confiabilidade elétrica (**CNF**) – restrição de geração motivada por razões de confiabilidade elétrica dos equipamentos pertencentes a instalações externas às respectivas usinas/conjuntos de usinas eolioelétricas/ fotovoltaicas e que não tenham origem em indisponibilidades dos respectivos equipamentos.

    3.3. Restrição por razão energética (**ENE**) - restrição de geração motivada pela impossibilidade de alocação de geração de energia na carga.

    3.4. Restrição por razão de indisponibilidade externa indicada no parecer de acesso (**PAR**) – restrição degeração vigente indicada no parecer de acesso das usinas/conjuntos de usinas eolioelétricas ou fotovoltaicas.

4. E quais são as distribuições das causas das restrições, ou seja, a origem

    4.1. Restrição de geração sistêmica (**SIS**) é imposta por limitação no sistema de transmissão decorrente de intervenções no SIN (indisponibilidades programadas e não programadas) ou confiabilidade elétrica em subsistema diferente do empreendimento de geração ou por razão energética.

    4.2. Restrição de geração local (**LOC**) é imposta por limitação no sistema de transmissão decorrente de intervenções no SIN (indisponibilidades programadas e não programadas) ou confiabilidade elétrica no mesmo subsistema do empreendimento de geração.

# **O PROBLEMA: Conceitos**

**Geração–verificada** - Geração Verificada das usinas que são medidos pelos sistemas de medição da supervisão ONS.

**Geração–limitada** - Geração despachada pelo ONS, a geração informada pelo ONS para atendimento às necessidades do SIN.

**Disponibilidade** - Disponibilidade declarada de geração, ou seja, o quanto a usina term condições de fornecer para o Sistema Interligado Nacional.

**Subsistemas** - Os subsistemas do Sistema Interligado Nacional (SIN) são:
Subsistema Sudeste/Centro-Oeste (SE/CO): Abrange as regiões do Sudeste e Centro-Oeste, além dos estados do Acre e Rondônia
Subsistema Sul (S): Corresponde à região sul do país
Subsistema Nordeste (NE): Engloba a região nordeste, exceto o Maranhão
Subsistema Norte (N): Abrange os estados do Amazonas, Amapá, Maranhão, Pará e Tocantins



# **O PROBLEMA: Qual é a descrição?**

A intenção desse trabalho é analisar e responder os seguintes pontos:


*   Qual o Subsistema com maior geração eólica no ano?
*   Qual o Estado com maior geração eólica no ano?
*   Qual a Disponibilidade por Subsistema no ano?
*   Qual a Disponibilidade por Estado no ano?
*   Qual a relação de Geração Verificada x Disponibilidade por Subsistema?
*   Qual a relação de Geração Verificada x Disponibilidade por Estado?
*   Qual a relação da Geração Limitada x Disponibilidade por Estado?
*   Qual a relação de Geração Verificada x Geração Limitada x Disponibilidade por Estado?
*   Quais são as maiores causas de restrições sofridas?
*   Qual a origem mais comum dessas restrições?
*   Como as restrições estão distribuidas no tempo?
*   Qual o Estado mais atingido com as restrições?
*   Qual a causa da restrição mais comum que atingiu esse Estado?








# **O PROBLEMA: Que premissas ou hipóteses você tem sobre o problema?**

Iremos tratar apenas as usinas eólicas nesse trabalho, deixando a fotovoltaica para um segundo momento.
Não iremos considerar na nossa análise os agentes individualmente e as gerações de referência porque envolvem outros dados que não estão presentes no dataset.
Um das possibilidades que tinha em mente é que todos os Estados são afetados igualmente pelas restrições elétricas aplicadas, por isso iremos manter análise por estado e por subsistemas.

# **O PROBLEMA: Que restrições ou condições foram impostas para selecionar os dados?**

Foram selecionados todos os dados disponíveis no portal de dados abertos do ONS apenas para usinas eólicas. Deixamos de fora as usinas fotovoltaicas.
Segue caminho:
https://dados.ons.org.br/dataset/restricao_coff_eolica_usi

# **O PROBLEMA: Defina cada um dos atributos do dataset**

Conceitualmente expliquei acima os atributos do dataset

Os dados que serão utilizados como dataset são os dados de geração verificada, geração limitada, disponibilidade e razões de restrição de usinas eólicas dos últimos 2 anos.
Anexo o dicionário de dados do dataset utilizado /content/Dados/DicionarioDados_RestricaoContrainedoff_UsiEolicas.pdf

# **1. Importando as bibliotecas necessárias para executar o notebook**

In [None]:
# Imports
import pandas as pd
import geopandas as gpd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import os
import glob
import missingno as ms # para tratamento de missings
from joblib import Parallel, delayed
from matplotlib import cm
from pandas import set_option
from pandas.plotting import scatter_matrix
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_validate
from sklearn.svm import SVR
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import make_scorer, mean_absolute_error, r2_score
from sklearn.metrics import mean_squared_error
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier

In [None]:
!pip install geopandas matplotlib

# **2. Configuração para não exibir warnings**

In [None]:
# configuração para não exibir os warnings
import warnings

# **3. Acessando dataset que será utilizado**

Abaixo, estou carregando os dados de mapas do IBGE, pois minha análise será baseada nos Estados Brasileiros.

In [None]:
shapefile_brasil = '/content/Mapa/BR_UF_2022.shp'

# Carregar o shapefile dos estados do Brasil
brasil_map = gpd.read_file(shapefile_brasil)

# Exibir o mapa carregado
brasil_map.plot()

Importação e concatenação dos arquivos de geração que estão no formato xlsx.

In [None]:
# Caminho para o diretório que contém os arquivos Excel (.xlsx)
caminho_dos_arquivos = '/content/Dados/*.xlsx'  # Adiciona *.xlsx para localizar arquivos Excel

# Localiza todos os arquivos Excel no diretório
arquivos_excel = glob.glob(caminho_dos_arquivos)

# Carregar todos os arquivos Excel em uma lista de DataFrames
dataframes = [pd.read_excel(arquivo) for arquivo in arquivos_excel]

# Concatenar todos os DataFrames em um único DataFrame
df_concatenado = pd.concat(dataframes, ignore_index=True)

# Exibir o DataFrame concatenado
df_concatenado.head()

# **3.1 Tratando dados lidos - ANÁLISE DE DADOS**

o	Quantos atributos e instâncias existem?

In [None]:
num_instancias, num_atributos = df.shape

print(f'Número de instâncias (linhas): {num_instancias}')
print(f'Número de atributos (colunas): {num_atributos}')

o	Quais são os tipos de dados dos atributos?

In [None]:
df = pd.DataFrame(df_concatenado)
print(df.dtypes)

Converte a coluna 'din_instante' para o tipo datetime

In [None]:
df_concatenado['din_instante'] = pd.to_datetime(df_concatenado['din_instante'])

print(df_concatenado.dtypes)

In [None]:
df_concatenado.head()

o  Abaixo tratamento para dados que chamaram atenção na análise inicial, incluisive para valores faltantes, discrepantes e inconsistentes.

Exclusão da coluna _id e id_ons por não interferir na análise.

In [None]:
df_concatenado = df_concatenado.drop(columns=['_id'])
df_concatenado = df_concatenado.drop(columns=['id_ons'])

print(df_concatenado.head())

Exclusão da coluna código ceg por não interferir na análise

In [None]:
df_concatenado = df_concatenado.drop(columns=['ceg'])

print(df_concatenado.head())

Exclusão da coluna Geração de Referência e Geração de Referência Final

In [None]:

df_concatenado = df_concatenado.drop(columns=['val_geracaoreferencia'])
df_concatenado = df_concatenado.drop(columns=['val_geracaoreferenciafinal'])

print(df_concatenado.head())

Tratamento de valores negativos em val_disponibilidade

In [None]:
quantidade_negativos = (df_concatenado['val_disponibilidade'] < 0).sum()

# Exibir o resultado
print(f"Quantidade de registros negativos em 'val_disponibilidade': {quantidade_negativos}")

In [None]:
# Excluir registros onde 'val_disponibilidade' é negativa
df_concatenado = df_concatenado[df_concatenado['val_disponibilidade'] >= 0]

# Exibir o DataFrame resultante
print(df_concatenado)

Tratamentos de nulos

Para os registros das colunas Razão elétrica e Origem da Restrição que forem nulos será incluida a informação 'SRE', ou seja, SEM RESTRIÇÃO ELÉTRICA.

In [None]:
# Preenche valores nulos na coluna 'cod_razaorestricao' com 'SRE'
df_concatenado['cod_razaorestricao'] = df_concatenado['cod_razaorestricao'].fillna('SRE')

# Preenche valores nulos na coluna 'cod_origemrestricao' com 'SRE'
df_concatenado['cod_origemrestricao'] = df_concatenado['cod_origemrestricao'].fillna('SRE')

# Verifique se os valores foram preenchidos corretamente
print(df_concatenado[['cod_razaorestricao', 'cod_origemrestricao']].head())

In [None]:
# Verificar se ainda há valores nulos nas colunas 'cod_razaorestricao' e 'cod_origemrestricao'
nulos_razao = df_concatenado['cod_razaorestricao'].isnull().sum()
nulos_origem = df_concatenado['cod_origemrestricao'].isnull().sum()

print(f"Nulos em cod_razaorestricao: {nulos_razao}")
print(f"Nulos em cod_origemrestricao: {nulos_origem}")

Excluir os registros nulos das colunas val_geracaolimitada

Vamos excluir os registros nulos de geração limitada, pois nossa intenção é analisar justamente o momento em que houve limitação de geração.

In [None]:
# Excluir linhas com valores nulos nas colunas especificadas
df_concatenado = df_concatenado.dropna(subset=['val_geracaolimitada', 'val_geracao', 'val_disponibilidade'])

# Verifique se as linhas foram excluídas corretamente
print(f"Tamanho do DataFrame após exclusão de nulos: {df_concatenado.shape}")

# Verificar se ainda há valores nulos na coluna 'val_geracaolimitada'
nulos_geracaolimitada = df_concatenado['val_geracaolimitada'].isnull().sum()
print(f"Nulos em val_geracaolimitada: {nulos_geracaolimitada}")


In [None]:
print(df_concatenado.head())

# 3.2 Desdobramento da din_instante em colunas mês e ano

In [None]:
# Supondo que df_concatenado já esteja definido e a coluna 'din_instante' está em formato datetime
df_concatenado['din_instante'] = pd.to_datetime(df_concatenado['din_instante'])

# Adicionar uma coluna de ano
df_concatenado['mes'] = df_concatenado['din_instante'].dt.month

# Adicionar uma coluna de ano
df_concatenado['ano'] = df_concatenado['din_instante'].dt.year

print(df_concatenado.head())

# 3.3 Dataframe novo com o somatório por estado

In [None]:
# Primeiro, vamos agrupar os dados pelas colunas desejadas e somar os valores

df_somatorio = df_concatenado.groupby(
    ['id_subsistema', 'nom_subsistema', 'id_estado', 'nom_estado', 'mes', 'ano'],
    as_index=False
).agg({
    'val_geracao': 'sum',
    'val_geracaolimitada': 'sum',
    'val_disponibilidade': 'sum'
})

# Exibindo o novo DataFrame
print(df_somatorio)


In [None]:
# Resumo estatístico básico (mínimo, máximo, média, desvio-padrão, etc.)
resumo_estatistico = df_somatorio[['val_geracao', 'val_geracaolimitada', 'val_disponibilidade']].describe()

# Calculando a mediana
mediana = df_somatorio[['val_geracao', 'val_geracaolimitada', 'val_disponibilidade']].median()

# Calculando a moda
moda = df_somatorio[['val_geracao', 'val_geracaolimitada', 'val_disponibilidade']].mode().iloc[0]  # iloc[0] para pegar a primeira moda

# Número de valores ausentes (NaN)
valores_ausentes = df_somatorio[['val_geracao', 'val_geracaolimitada', 'val_disponibilidade']].isnull().sum()

# Exibir o resumo
print("Resumo estatístico:")
print(resumo_estatistico)

print("\nMediana:")
print(mediana)

print("\nModa:")
print(moda)

print("\nNúmero de valores ausentes:")
print(valores_ausentes)

Distribuição assimétrica: A média e a mediana são bastante diferentes, especialmente para val_geracao e val_disponibilidade, sugerindo que a distribuição dos dados é assimétrica, com alguns valores muito altos influenciando a média.
Variabilidade significativa: O alto desvio padrão indica grande variação entre as usinas, tanto em termos de geração, geração limitada quanto disponibilidade.
Valores frequentes: A presença de 0 em val_geracaolimitada sugere que em muitos casos, a geração foi limitada a zero, o que pode ser interessante investigar mais profundamente (por exemplo, restrições operacionais).

In [None]:
# Criar a coluna de mês
df_concatenado['mes'] = df_concatenado['din_instante'].dt.to_period('M')

# Agrupar os dados por mês e submercado
df_agrupado = df_concatenado.groupby(['mes', 'nom_subsistema'])[['val_geracao', 'val_disponibilidade', 'val_geracaolimitada']].sum().reset_index()

# Exibir o DataFrame resultante
print(df_agrupado.head())

In [None]:
# Verificar o DataFrame agrupado
print(df_agrupado.head())
print(df_agrupado.dtypes)

Dataframe com o somatório por Estado

In [None]:
# Exibir as primeiras linhas do DataFrame para verificar as colunas
print(df_somatorio.head())

# Agrupar por id_estado e calcular o somatório de val_geracao
df_somatorio_estado = df_concatenado.groupby('id_estado')['val_geracao'].sum().reset_index()

# Renomear a coluna do somatório
df_somatorio_estado.rename(columns={'val_geracao': 'somatorio_val_geracao'}, inplace=True)
#df_somatorio_estado.rename(columns={'val_disponibilidade': 'somatorio_val_disponibilidade'}, inplace=True)

# Resultado final
print(df_somatorio_estado)



# **4. Início Análise de Dados**

# **4.1. Total de Geração dos Subsistemas por Ano**

In [None]:
# Agrupar por nom_subsistema e ano, e calcular o total de val_geracao
df_agrupado = df_concatenado.groupby(['nom_subsistema', 'ano'])['val_geracao'].sum().reset_index()

# Ordenar os valores de geração por subsistema em ordem descendente dentro de cada ano
df_agrupado = df_agrupado.sort_values(by=['ano', 'val_geracao'], ascending=[True, False])

# Criar uma coluna de ano como string para melhor visualização no gráfico
df_agrupado['ano'] = df_agrupado['ano'].apply(lambda x: f'Ano {x}')

# Plotar o gráfico de barras com ordenação descendente
plt.figure(figsize=(12, 8))
sns.barplot(x='ano', y='val_geracao', hue='nom_subsistema', data=df_agrupado, dodge=True)
plt.title('Total de Geração por Subsistema e Ano (Ordenado Descendente)')
plt.xlabel('Ano')
plt.ylabel('Total de Geração (MW)')
plt.xticks(rotation=45)
plt.legend(title='Subsistema', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()  # Ajusta o layout para que tudo se encaixe bem
plt.show()

**Análise do gráfico: Nordeste é o subsistema que tem a maior participação na geração de energia eólica.**

# **4.2. Total de Geração dos Estados por ano**

In [None]:
# Agrupar por nom_subsistema e ano, e calcular o total de val_geracao
df_agrupado = df_concatenado.groupby(['nom_estado', 'ano'])['val_geracao'].sum().reset_index()

# Ordenar os valores de geração por subsistema em ordem descendente dentro de cada ano
df_agrupado = df_agrupado.sort_values(by=['ano', 'val_geracao'], ascending=[True, False])

# Criar uma coluna de ano como string para melhor visualização no gráfico
df_agrupado['ano'] = df_agrupado['ano'].apply(lambda x: f'Ano {x}')

# Plotar o gráfico de barras com ordenação descendente
plt.figure(figsize=(12, 8))
sns.barplot(x='ano', y='val_geracao', hue='nom_estado', data=df_agrupado, dodge=True)
plt.title('Total de Geração por Estado e Ano (Ordenado Descendente)')
plt.xlabel('Ano')
plt.ylabel('Total de Geração (MW)')
plt.xticks(rotation=45)
plt.legend(title='Subsistema', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()  # Ajusta o layout para que tudo se encaixe bem
plt.show()


**Análise do gráfico: No nordeste, o Rio Grande do Norte e a Bahia se destacam como maiores geradores eólicos, porém a partir do ano de 2023 a geração praticamente foi multiplicada em 7x. São os Estados protagonistas na geração eólica no Brasil.**

# **4.3. Participação dos Estados na geração anual**

In [None]:
# Pivotar os dados para facilitar o gráfico empilhado
df_pivot = df_agrupado.pivot(index='ano', columns='nom_estado', values='val_geracao').fillna(0)

# Somar a geração total por estado e ordenar de forma decrescente
total_por_estado = df_pivot.sum().sort_values(ascending=False)

# Reordenar as colunas do DataFrame pivotado com base na soma total de geração
df_pivot = df_pivot[total_por_estado.index]

# Plotar gráfico de barras empilhadas com a ordem ajustada
ax = df_pivot.plot(kind='bar', stacked=True, figsize=(12, 8), colormap='tab20')
plt.title('Participação dos Estados na Geração anual')
plt.xlabel('Ano')
plt.ylabel('Total de Geração (MW)')
plt.xticks(rotation=45)

# Ordenar a legenda de acordo com a ordem das colunas
handles, labels = ax.get_legend_handles_labels()
ordered_labels_handles = sorted(zip(labels, handles), key=lambda x: total_por_estado[x[0]], reverse=True)
labels, handles = zip(*ordered_labels_handles)

# Atualizar a legenda com a ordem ajustada
plt.legend(handles, labels, title='Estado', bbox_to_anchor=(1.05, 1), loc='upper left')

plt.tight_layout()
plt.show()

**Análise do gráfico: Uma outra forma de visualizar a participação da geração do Rio Grande do Norte e da Bahia para o Sistema Integrado Nacional. O Rio Grande do Norte sozinho praticamente consegue gerar a geração de todas os outros Estados juntos.**

# **4.4. Qual era a disponibilidade por Subsistema e Ano?**

In [None]:
# Agrupar por nom_subsistema e ano, e calcular o total de val_geracaolimitada
df_agrupado = df_concatenado.groupby(['nom_subsistema', 'ano'])['val_disponibilidade'].sum().reset_index()

# Ordenar os valores de geração por subsistema em ordem descendente dentro de cada ano
df_agrupado = df_agrupado.sort_values(by=['ano', 'val_disponibilidade'], ascending=[True, False])

# Criar uma coluna de ano como string para melhor visualização no gráfico
df_agrupado['ano'] = df_agrupado['ano'].apply(lambda x: f'Ano {x}')

# Ordenar os subsistemas pelo valor total de val_disponibilidade
subsistema_total = df_agrupado.groupby('nom_subsistema')['val_disponibilidade'].sum().sort_values(ascending=False).index

# Redefinir a ordem dos subsistemas para a visualização correta
df_agrupado['nom_subsistema'] = pd.Categorical(df_agrupado['nom_subsistema'], categories=subsistema_total, ordered=True)

# Plotar o gráfico de barras com ordenação descendente
plt.figure(figsize=(12, 8))
sns.barplot(x='ano', y='val_disponibilidade', hue='nom_subsistema', data=df_agrupado, dodge=True)
plt.title('Somatório da Disponibilidade de Geração por Subsistema e Ano (Ordenado Descendente)')
plt.xlabel('Ano')
plt.ylabel('Total de Geração (MW)')
plt.xticks(rotation=45)

# Ajustar a legenda com a ordem correta
handles, labels = plt.gca().get_legend_handles_labels()
ordered_labels_handles = sorted(zip(labels, handles), key=lambda x: subsistema_total.get_loc(x[0]))
labels, handles = zip(*ordered_labels_handles)

plt.legend(handles, labels, title='Subsistema', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()  # Ajusta o layout para que tudo se encaixe bem
plt.show()

**Análise do gráfico: A disponibilidade indica o quanto as usinas eólicas estavam preparadas para gerar naquele momento. A Disponibilidade e a Geração Verificada deveriam ser muito próximas, porém com as restrições a geração limitada passa a apresentar o quanto realmente deve ser gerado.**

# **4.5. Qual era a disponibilidade por Estado e Ano?**

In [None]:
# Agrupar por nom_subsistema e ano, e calcular o total de val_geracao
df_agrupado = df_concatenado.groupby(['nom_estado', 'ano'])['val_disponibilidade'].sum().reset_index()

# Ordenar os valores de geração por subsistema em ordem descendente dentro de cada ano
df_agrupado = df_agrupado.sort_values(by=['ano', 'val_disponibilidade'], ascending=[True, False])

# Criar uma coluna de ano como string para melhor visualização no gráfico
df_agrupado['ano'] = df_agrupado['ano'].apply(lambda x: f'Ano {x}')

# Plotar o gráfico de barras com ordenação descendente
plt.figure(figsize=(12, 8))
sns.barplot(x='ano', y='val_disponibilidade', hue='nom_estado', data=df_agrupado, dodge=True)
plt.title('Total de Valor de Disponibilidade por Estado e Ano (Ordenado Descendente)')
plt.xlabel('Ano')
plt.ylabel('Total de Disponibilidade (MW)')
plt.xticks(rotation=45)
plt.legend(title='Subsistema', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()  # Ajusta o layout para que tudo se encaixe bem
plt.show()

**Análise do gráfico: Outra forma de visulizar e analisar a disponibilidae das usinas eólicas. A disponibilidade indica o quanto as usinas eólicas estavam preparadas para gerar naquele momento em que seriam despachadas. A Disponibilidade e a Geração Verificada deveriam ser muito próximas, porém com as restrições a geração limitada passa a apresentar o quanto realmente deve ser gerado.**

# 4.6 Geração x Disponibilidade por Subsistema

In [None]:
# Derreter o DataFrame para ter 'val_disponibilidade' e 'val_geracao' como colunas de valor
df_melted = pd.melt(df_somatorio, id_vars=['nom_subsistema'], value_vars=['val_disponibilidade', 'val_geracao'],
                    var_name='Tipo', value_name='Valor')

# Garantir que 'nom_subsistema' tenha a ordenação correta com base na soma de 'val_disponibilidade'
subsistema_total = df_somatorio.groupby('nom_subsistema')['val_disponibilidade'].sum().sort_values(ascending=False).index
df_melted['nom_subsistema'] = pd.Categorical(df_melted['nom_subsistema'], categories=subsistema_total, ordered=True)

# Usar um FacetGrid para dividir o gráfico por subsistema, com escala independente para cada gráfico
g = sns.FacetGrid(df_melted, col="nom_subsistema", col_wrap=3, height=4, aspect=1.5, sharey=False)

# Adicionar o gráfico de barras com sns.barplot, incluindo o 'hue' para distinguir os tipos
g.map_dataframe(sns.barplot, x="Tipo", y="Valor", hue="Tipo", palette="dark")

# Adicionar a legenda
g.add_legend()

# Ajustar os rótulos dos eixos
g.set_axis_labels("Tipo", "Valor (MW)")

# Adicionar um título geral
g.fig.suptitle('Comparação entre Geração e Disponibilidade por Subsistema', y=1.02)

# Ajustar o layout para que o título não sobreponha os gráficos
plt.tight_layout()

# Mostrar o gráfico
plt.show()



**Análise do gráfico: Comparação da Geração Verificada com a Disponibilidade.**

# 4.7 Geração x Disponibilidade por Estado



In [None]:
df_melted = pd.melt(df_somatorio, id_vars=['id_estado'],
                    value_vars=['val_disponibilidade', 'val_geracao'],
                    var_name='Tipo', value_name='Valor')

# Pivotar os dados para preparar para o gráfico
df_pivot = df_melted.pivot_table(index='id_estado', columns='Tipo', values='Valor', fill_value=0)

# Criar o gráfico
fig, ax = plt.subplots(figsize=(12, 6))

# Criar as barras de disponibilidade com largura ajustada
bar_width = 0.4  # Ajustar a largura das barras
bars = ax.bar(df_pivot.index, df_pivot['val_disponibilidade'],
               color='lightblue', width=bar_width, label='Disponibilidade')

# Adicionar a linha de geração
ax.plot(df_pivot.index, df_pivot['val_geracao'],
        color='orange', marker='o', label='Geração', linewidth=2)

# Ajustar os rótulos dos eixos
ax.set_ylabel('Valor (MW)')
ax.set_xlabel('Estado')

# Rotacionar os rótulos do eixo X e ajustar o espaçamento
plt.xticks(rotation=45, ha='right', fontsize=10)

# Adicionar um título
plt.title('Comparação entre Geração e Disponibilidade por Estado')

# Ajustar as legendas
ax.legend()

# Ajustar o layout para dar mais espaço
plt.tight_layout()
plt.subplots_adjust(bottom=0.2)  # Aumentar o espaço inferior para acomodar rótulos

# Mostrar o gráfico
plt.show()


**Análise do gráfico: Nesse gráfico é possível verificar infornações que se tornam conflitantes. Como que é possível uma usina eólica que possui uma disponibilidade declarada de X gerar X+n? São os casos dos Estados: BA, PB e PI.
Porém, é importante saber que a disponibilidade é uma informação declarada e a geração verificada nesse caso não deve ser analisada e sim a geração limitada que foi a despachada pelo ONS.**


# 4.8 Geração limitada x Disponibilidade por Estado

In [None]:
df_melted = pd.melt(df_somatorio, id_vars=['id_estado'],
                    value_vars=['val_disponibilidade', 'val_geracaolimitada'],
                    var_name='Tipo', value_name='Valor')

# Pivotar os dados para preparar para o gráfico
df_pivot = df_melted.pivot_table(index='id_estado', columns='Tipo', values='Valor', fill_value=0)

# Criar o gráfico
fig, ax = plt.subplots(figsize=(12, 6))

# Criar as barras de disponibilidade com largura ajustada
bar_width = 0.4  # Ajustar a largura das barras
bars = ax.bar(df_pivot.index, df_pivot['val_disponibilidade'],
               color='lightblue', width=bar_width, label='Disponibilidade')

# Adicionar a linha de geração
ax.plot(df_pivot.index, df_pivot['val_geracaolimitada'],
        color='orange', marker='o', label='Geração', linewidth=2)

# Ajustar os rótulos dos eixos
ax.set_ylabel('Valor (MW)')
ax.set_xlabel('Estado')

# Rotacionar os rótulos do eixo X e ajustar o espaçamento
plt.xticks(rotation=45, ha='right', fontsize=10)

# Adicionar um título
plt.title('Comparação entre Geração Limitada e Disponibilidade por Estado')

# Ajustar as legendas
ax.legend()

# Ajustar o layout para dar mais espaço
plt.tight_layout()
plt.subplots_adjust(bottom=0.2)  # Aumentar o espaço inferior para acomodar rótulos

# Mostrar o gráfico
plt.show()

**Análise do gráfico: Nesse gráfico é possível fazer as informações se encontrarem. A geração não deve ser maior que a disponibilidade. Principalmente, se houver a geração limitada. Aí sim, demonstra o quando um agente deixou de produzir de energia devido uma restrição e gera embasamento para os questionamentos dos agentes eólicos quanto aos prejuízos financeiros.**

# 4.9 Geração por Estado

In [None]:
# Caminho para o shapefile
shapefile_brasil = '/content/Mapa/BR_UF_2022.shp'

# Carregar o shapefile dos estados do Brasil
brasil_map = gpd.read_file(shapefile_brasil)

# Exibir o mapa carregado
plt.figure(figsize=(10, 10))
brasil_map.plot(color='lightgrey', edgecolor='black')
plt.title('Mapa do Brasil')
plt.xlabel('Longitude')
plt.ylabel('Latitude')
plt.show()


In [None]:
print(brasil_map.columns)
print(brasil_map['SIGLA_UF'].unique())


In [None]:
print(df_somatorio_estado.columns)
print(df_somatorio_estado.head())


In [None]:
brasil_map = brasil_map.merge(df_somatorio_estado[['id_estado', 'somatorio_val_geracao']],
                               how='left',
                               left_on='SIGLA_UF',
                               right_on='id_estado')


In [None]:
print(df_somatorio_estado.columns)

In [None]:
print(brasil_map[['SIGLA_UF', 'somatorio_val_geracao']].head())


In [None]:
brasil_map = brasil_map.dropna(subset=['somatorio_val_geracao'])


In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 10))
brasil_map.plot(column='somatorio_val_geracao', cmap='OrRd', legend=True, edgecolor='black')
plt.title('Mapa do Brasil com Somatório de Geração por Estado')
plt.xlabel('Longitude')
plt.ylabel('Latitude')
plt.show()


**Análise do gráfico: Forma diferente de destacar a participação dos Estados na geração eólica no Brasil.**

# 4.10 Geração Verificada, Limitada e Disponibilidade por Estado

In [None]:
import matplotlib.pyplot as plt

# Agrupar por estado e somar as colunas de geração
df_estado_geracao = df_concatenado.groupby('nom_estado').agg({
    'val_geracao': 'sum',
    'val_geracaolimitada': 'sum',
    'val_disponibilidade': 'sum'
}).reset_index()

# Criar o gráfico de dispersão
fig, ax = plt.subplots(figsize=(10, 6))

# Plotar os pontos de dispersão para val_geracao
scatter1 = ax.scatter(df_estado_geracao['nom_estado'], df_estado_geracao['val_geracao'],
                      color='blue', label='Geração (MW)', alpha=0.6, s=100)

# Plotar os pontos de dispersão para val_geracaolimitada
scatter2 = ax.scatter(df_estado_geracao['nom_estado'], df_estado_geracao['val_geracaolimitada'],
                      color='green', label='Geração Limitada (MW)', alpha=0.6, s=100)

# Plotar os pontos de dispersão para val_disponibilidade
scatter3 = ax.scatter(df_estado_geracao['nom_estado'], df_estado_geracao['val_disponibilidade'],
                      color='red', label='Disponibilidade (MW)', alpha=0.6, s=100)

# Ajustar os rótulos e o título
ax.set_xlabel('Estado')
ax.set_ylabel('Valores (MW)')
ax.set_title('Comparação de Geração, Geração Limitada e Disponibilidade por Estado')

# Rotacionar os rótulos do eixo X para melhor legibilidade
plt.xticks(rotation=90)

# Adicionar a legenda
ax.legend()

# Ajustar o layout
plt.tight_layout()

# Mostrar o gráfico
plt.show()


**Análise do gráfico: Nesse gráfico conseguimos comparar as 03 variáveis e é perceptivel a diferença de uma variável para a outra para o Estado do Rio Grande do Norte. O ideal seria analisarmos mais essa informação e cruzar com outras informações.**

# 5. Levantamento de restrições que foram aplicadas

Análise dos tipos de restrições sofridas pelos agentes eólicos.

# 5.1. Total de restrições sofridas

In [None]:
# Contar as ocorrências de cada cod_razaorestricao
contagem_total = df_concatenado.groupby('cod_razaorestricao').size().reset_index(name='Contagem')

# Criar o gráfico de pizza
fig, ax = plt.subplots(figsize=(8, 8))

# Plotar o gráfico de pizza
ax.pie(contagem_total['Contagem'], labels=contagem_total['cod_razaorestricao'], autopct='%1.1f%%', startangle=90, colors=plt.cm.Paired.colors)

# Ajustar o título
ax.set_title('Distribuição de Tipos de Restrições')

# Ajustar o layout
plt.tight_layout()

# Mostrar o gráfico
plt.show()


**Análise do gráfico: A maior razão para restrição elética é a CNF, essa razão está vinculada à confiabilidade elétrica. A solicitação da reducação da geração deve ter surgido com a intenção de proteger o Sistema Integrado. A Segunda razão é a ENE, ou seja, Restrição por razão energética, que acontece quando não há onde alocar a energia gerada, por exemplo, a carga do sistema será atendida com a geração limitada.**

# 5.2. Total de causas das restrições sofridas

In [None]:
import matplotlib.pyplot as plt

# Contar as ocorrências de cada cod_razaorestricao e cod_origemrestricao
contagem_detalhada = df_concatenado.groupby(['cod_razaorestricao', 'cod_origemrestricao']).size().reset_index(name='Contagem')

# Criar uma coluna combinada para representar o tipo de restrição e a origem
contagem_detalhada['Tipo_Origem'] = contagem_detalhada['cod_razaorestricao'].astype(str) + ' - ' + contagem_detalhada['cod_origemrestricao'].astype(str)

# Criar o gráfico de pizza
fig, ax = plt.subplots(figsize=(8, 8))

# Plotar o gráfico de pizza
ax.pie(contagem_detalhada['Contagem'], labels=contagem_detalhada['Tipo_Origem'], autopct='%1.1f%%', startangle=90, colors=plt.cm.Paired.colors)

# Ajustar o título
ax.set_title('Distribuição de Tipos de Restrições com Origem')

# Ajustar o layout
plt.tight_layout()

# Mostrar o gráfico
plt.show()


**Análise do gráfico: Nesse gráfico vemos que o CNF se apresenta praticament dividido no meio pelas origens LOC que é uma origem que indica limitação na rede de transmissão e SIS que também são limitações da rede de transmissão, porém, por causas de intevenções programadas ou não programadas.**

# 5.3. Restrição por período

In [None]:
# Contar as ocorrências de cada cod_razaorestricao por estado
contagem = df_concatenado.groupby(['mes', 'cod_razaorestricao']).size().reset_index(name='Contagem')

# Calcular a proporção
contagem['Proporcao'] = contagem.groupby('cod_razaorestricao')['Contagem'].transform(lambda x: x / x.sum())

# Criar um gráfico de barras empilhadas
fig, ax = plt.subplots(figsize=(10, 6))

# Criar barras empilhadas
contagem.pivot(index='mes', columns='cod_razaorestricao', values='Proporcao').plot(kind='bar', stacked=True, ax=ax)

# Ajustar os rótulos e título
ax.set_ylabel('Proporção')
ax.set_xlabel('Mês/Ano')
ax.set_title('Proporção de Razão Restricao por Período')

# Adicionar uma legenda
ax.legend(title='Código da Razão de Restrição')

# Ajustar o layout
plt.tight_layout()

# Mostrar o gráfico
plt.show()


**Análise do gráfico: Visualização de distribuição por período**

# 5.4. Restrição por período

In [None]:
# Certifique-se de que a coluna 'din_instante' está em formato datetime para extrair o mês
df_concatenado['din_instante'] = pd.to_datetime(df_concatenado['din_instante'])

# Extrair o mês e criar uma nova coluna
df_concatenado['Mes'] = df_concatenado['din_instante'].dt.to_period('M')

# Agrupar por mês, cod_razaorestricao e cod_origemrestricao e somar as contagens
contagem = df_concatenado.groupby(['Mes', 'cod_razaorestricao', 'cod_origemrestricao']).size().reset_index(name='Contagem')

# Calcular a proporção dentro de cada mês
contagem['Proporcao'] = contagem.groupby(['Mes', 'cod_razaorestricao'])['Contagem'].transform(lambda x: x / x.sum())

# Pivotar os dados para criar a estrutura de barras empilhadas
contagem_pivot = contagem.pivot_table(index='Mes', columns=['cod_razaorestricao', 'cod_origemrestricao'], values='Proporcao', fill_value=0)

# Criar um gráfico de barras empilhadas
fig, ax = plt.subplots(figsize=(12, 6))

# Plotar as barras empilhadas com proporções por origem de restrição ao longo dos meses
contagem_pivot.plot(kind='bar', stacked=True, ax=ax, colormap='tab20c')

# Ajustar os rótulos e título
ax.set_ylabel('Proporção')
ax.set_xlabel('Mês')
ax.set_title('Proporção de Razão e Origem de Restrição por Mês')

# Ajustar a legenda
ax.legend(title='Razão e Origem de Restrição', bbox_to_anchor=(1.05, 1), loc='upper left')

# Ajustar o layout
plt.tight_layout()

# Mostrar o gráfico
plt.show()


**Análise do gráfico: Visualização de distribuição por período**

# 5.5. Estados mais afetados com restrições

In [None]:
# Contar as ocorrências de cada cod_razaorestricao por estado
contagem = df_concatenado.groupby(['id_estado', 'cod_razaorestricao']).size().reset_index(name='Contagem')

# Calcular a proporção
contagem['Proporcao'] = contagem.groupby('cod_razaorestricao')['Contagem'].transform(lambda x: x / x.sum())

# Somar a contagem total de restrições por estado
total_restricoes_estado = contagem.groupby('id_estado')['Contagem'].sum().reset_index(name='Total_Restricoes')

# Ordenar os estados pela soma total das restrições
estados_ordenados = total_restricoes_estado.sort_values('Total_Restricoes', ascending=False)['id_estado']

# Reordenar o DataFrame contagem de acordo com os estados ordenados
contagem['id_estado'] = pd.Categorical(contagem['id_estado'], categories=estados_ordenados, ordered=True)

# Criar um gráfico de barras empilhadas
fig, ax = plt.subplots(figsize=(10, 6))

# Criar barras empilhadas, agora com os estados ordenados
contagem.pivot(index='id_estado', columns='cod_razaorestricao', values='Proporcao').plot(kind='bar', stacked=True, ax=ax)

# Ajustar os rótulos e título
ax.set_ylabel('Proporção')
ax.set_xlabel('Estado')
ax.set_title('Proporção de Razão Restrição por Estado (Ordenado por Maior Incidência)')

# Adicionar uma legenda
ax.legend(title='Código da Razão de Restrição')

# Ajustar o layout
plt.tight_layout()

# Mostrar o gráfico
plt.show()


**Análise do gráfico: Visualização de distribuição das restrições elétricas por Estado. Praticamente as proporções são muito parecidas.

# 5.6. Principais causas de Restrição por Estado mais afetado

In [None]:
# Contar as ocorrências de cada cod_razaorestricao por estado
contagem = df_concatenado.groupby(['id_estado', 'cod_origemrestricao']).size().reset_index(name='Contagem')

# Calcular a proporção
contagem['Proporcao'] = contagem.groupby('cod_origemrestricao')['Contagem'].transform(lambda x: x / x.sum())

# Somar a contagem total de restrições por estado
total_restricoes_estado = contagem.groupby('id_estado')['Contagem'].sum().reset_index(name='Total_Restricoes')

# Ordenar os estados pela soma total das restrições
estados_ordenados = total_restricoes_estado.sort_values('Total_Restricoes', ascending=False)['id_estado']

# Reordenar o DataFrame contagem de acordo com os estados ordenados
contagem['id_estado'] = pd.Categorical(contagem['id_estado'], categories=estados_ordenados, ordered=True)

# Criar um gráfico de barras empilhadas
fig, ax = plt.subplots(figsize=(10, 6))

# Criar barras empilhadas, agora com os estados ordenados
contagem.pivot(index='id_estado', columns='cod_origemrestricao', values='Proporcao').plot(kind='bar', stacked=True, ax=ax)

# Ajustar os rótulos e título
ax.set_ylabel('Proporção')
ax.set_xlabel('Estado')
ax.set_title('Proporção de Razão Restrição por Estado (Ordenado por Maior Incidência)')

# Adicionar uma legenda
ax.legend(title='Código da Razão de Restrição')

# Ajustar o layout
plt.tight_layout()

# Mostrar o gráfico
plt.show()


**Análise do gráfico: Rio Grande do Norte tem sua principal razão as intervenções programadas ou não programadas que acontecem no sistema de transmissão local. Já a Bahia, a limitação maior é para garantir a confiabilidade do sistema.**

# 6. PRÉ PROCESSAMENTO PARA MODELOS DE MACHINE LEARNING

# 6.1. Limpeza dos Dados já realizada nos passos anteriores:


*   Exclusão de Colunas que não nos interessa para análise;
*   Preenchimento de Dados nulos;
*   Transformação de colunas em datetime e float;
*   Exclusão de registros com Disponibilidade negativa;
*   Exclusão de registros que não possuiam restrição.






# 6.2. Agregação já realizada nos passos anteriores


Criados dois dataframes com valores agregados e acumulados:

*   Um dataframe contendo as informações que somam os valores de geração, disponibilidade e geração limitada com mês e ano;
*   Um dataframe contendo as infomações acumuladas dos valores de geração por estado.



# 6.3. Amostragem

Os dados originais de análise deveriam contemplar usinas fotovoltaicas, porém resolvi utilizar nesse trabalho apenas usinas eólicas para diminuir o foco do trabalho;

# 6.4. Transformação de Dados

Aplicação do One-Hot Encoding, pois no dataframe escolhido tenho variáveis categóricas, sem ordenação.

In [None]:
print(df_concatenado)

In [None]:
# Aplicar One-Hot Encoding
df_encoded = pd.get_dummies(df_concatenado, columns=['id_subsistema', 'nom_subsistema', 'id_estado', 'nom_estado', 'nom_usina', 'cod_razaorestricao', 'cod_origemrestricao'])

# Mostrar o resultado
print(df_encoded)


# 6.5. Separação em Treino e Teste e Definição do Modelo - Este é um problema de aprendizado supervisionado ou não supervisionado?

Continuando o estudo indicaria um modelo de regressão linear de aprendizado supervisionado para que o robô ajude a identificar as restrições elétricas futuras.

# 7. CONCLUSÃO

Através desse trabalho foi possivel identificar que os maiores afetados pelas restrições são os Estados do Nordeste, principalmente Rio Grande do Norte e Bahia.

E essa limitação em sua maioria é para assegurar a confiabilidade do sistema e por questões de intervenções na rede de transmissão, podendo ser intervenções programadas ou não programadas.

O Ideal para complementar esse trabalho seria trazer mais informações sobre a Rede Transmissão do SIN, principalmente aquelas que afetam diretamente o fluxo de energia eólica dessa região.

Outro ponto importante seria complementar com as informações das usinas fotovoltaicas para serem analisadas juntamente com a eólica, pois se complementarm como fontes renováveis de energia.

Com a comparação dos dados de geração verificada, geração limitada e disponibilidade é possível destacar a diferença absurda de disponibilidade e geração do estado do Rio Grande do Norte.

Qual a razão para isso? Outros dados precisam ser cruzados, como por exemplo, se existem obras sendo realizadas para escoamento dessa energia que justifique a geração limitada para as usinas desse Estado no momento.

O Brasil, nos últimos anos, tem investido muito em empreendimentos de energia renováveis, tornando um desafio para aqueles que planejam, operam e apuram o sistema. Além dos legisladores e reguladores, esse resultado abre um leque de gaps que exigem mais estudos, mais cruzamento de informações para ajudar a todos no melhor caminho para o novo SIN.
Toda a energia de fonte renovável, mais barata para o consumidor, não deveria ser limitada e sim as energias de combustíveis não renováveis e poluentes, que deveriam ser acionados só em caso de urgencia, mas sabemos que toda a sociedade precisa estar embuida desse pensamento.
