# Introdu√ß√£o:

-Problema-
A busca pela sustentabilidade vem crescendo cada vez mais no contexto atual de mudan√ßas clim√°ticas, com o uso de materiais poluentes e n√£o degrad√°veis por grandes ind√∫strias, o que afeta o ecossistema global. Nesse sentido, estudar sistemas renov√°veis, como as energias solares, hidroel√©tricas, entre outros, √© de suma import√¢ncia, visando compreender seus componentes e potencial para aplica√ß√£o em larga escala, substituindo gradativamente as fontes n√£o renov√°veis.

Encontrar os par√¢metros desses sistemas que maximizem sua efici√™ncia

#Explicar o trabalho, dataset, pr√©-processamento
#Talvez usar GHG_Emission_Reduction_tCO2e como target tb, mais f√°cil de justificar e trabalhar, pode usar 2 #targets

## Importa√ß√µes e defini√ß√µes:

Come√ßamos importando as bibliotecas necess√°rias:

In [None]:
import pandas as pd
import numpy as np
import os
import statistics as st

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error

import torch
import torch.nn as nn
import torch.optim as optim


Em seguida, iremos importar o dataset a ser utilizado, removendo valores faltantes e exibindo-o em seguida.

In [None]:
df_energia = pd.read_csv('energy_dataset_.csv')
df_energia = df_energia.dropna()
df_energia

### üîç Caracter√≠sticas das Features

üîã `Type_of_Renewable_Energy`:

Tipo de fonte de energia renov√°vel (dados categ√≥ricos):

- `1`: ‚òÄÔ∏è Solar  
- `2`: üå¨Ô∏è Wind (E√≥lica)  
- `3`: üíß Hydroelectric (Hidroel√©trica)  
- `4`: üåã Geothermal (Geotermal)  
- `5`: üåø Biomass (Biomassa)  
- `6`: üåä Tidal (Mar√©)  
- `7`: üåä Wave (Ondas)


‚ö° `Installed_Capacity_MW`:

Capacidade instalada em Megawatts (MW)


üîå `Energy_Production_MWh`:

Produ√ß√£o anual de energia em Megawatts-hora (MWh)



üîã `Energy_Consumption_MWh`:

Consumo anual de energia em Megawatts-hora (MWh)



üèóÔ∏è `Grid_Integration_Level`:

N√≠vel de integra√ß√£o com a rede el√©trica (dados categ√≥ricos):

- `1`: ‚úÖ Fully Integrated (Totalmente integrada)  
- `2`: ‚ö†Ô∏è Partially Integrated (Parcialmente integrada)  
- `3`: üîª Minimal Integration (Integra√ß√£o m√≠nima)  
- `4`: üîå Isolated Microgrid (Microrrede isolada)



üí∞ `Founding_Sources`:

Fonte de investimento (dados categ√≥ricos):

- `1`: üèõÔ∏è Government (Governamental)  
- `2`: üè¢ Private (Privada)  
- `3`: ü§ù Public-Private Partnership (Colabora√ß√£o P√∫blico e Privado)



üíµ `Inicial_Investiment_USD`:

Investimento inicial em d√≥lares (USD)



üå± `GHG_Emission_Reduction_tCO2e`:

Redu√ß√£o das emiss√µes de gases de efeito estufa (tCO2e)


üå¨Ô∏è `Air_Pollution_Reduction_Index`:

√çndice de redu√ß√£o da polui√ß√£o do ar


### üîé Caracter√≠sitcas do Target

üîå `Storage_Efficiency_Percentage`: 
     
Efici√™ncia de armazenamento de energia em porcentagem


### üïµÔ∏è Explorando o Dataset

Em um primeiro momento, √© interessante investigar os dados que compreendem o *target* do projeto, isto √©, a porcentagem de efici√™ncia de armazenamento de energia (Storage_Efficiency_Percentage), visando uma melhor compreens√£o de sua distribui√ß√£o, bem como de como se comportam. Nesse sentido, utilizando a biblioteca `statistics`, algumas estat√≠sticas descritivas dos dados ser√£o analisadas. Dentre elas, encontra-se a m√©dia, a mediana, o desvio-padr√£o e os valores m√≠nimo e m√°ximo, com o intuito de analisar a tend√™ncia dos dados a serem previstos, bem como a distribui√ß√£o deles. [1]

#### üåò M√©dia

A m√©dia √© calculada a partir da divis√£o da soma de todos os elementos que comp√µe uma vari√°vel aleat√≥ria pela quantidade total de termos. Essa estat√≠stica nos fornece uma tend√™ncia central dos valores da vari√°vel analisada.

$$
\mu = \frac{1}{N} \sum_{i=1}^{N} X_i
$$

[F√≥rmula 1: C√°lculo da m√©dia]

In [None]:
media_target = st.mean(df_energia["Storage_Efficiency_Percentage"])
print(f'A m√©dia da porcentagem de efici√™ncia energ√©tico √© igual a {media_target}.')

#### üåñ Mediana

A mediana consiste em uma estat√≠stica que apresenta o valor que segrega a vari√°vel aleat√≥ria na metade, isto √©, em dois grupos de mesmo tamanho, compreendendo o valor central da vari√°vel analisada. Por n√£o ser influenciada por valores discrepantes que comp√µe o conjunto explorado - os famosos *outliers*, a mediana compreende uma m√©trica mais robusta para compreender a tend√™ncia central dos dados, sobretudo quanto possu√≠mos vari√°veis aleat√≥rias com *outliers*.

In [None]:
mediana_target = st.median(df_energia["Storage_Efficiency_Percentage"])
print(f'A mediana da porcentagem de efici√™ncia energ√©tico √© igual a {mediana_target}.')

#### üåó Desvio-padr√£o

O desvio-padr√£o compreende o qu√£o distante da m√©dia se encontram os valores que comp√µe a vari√°vel aleat√≥ria analisada.

$$
\sigma = \sqrt{\mathrm{Var(X)}} =  \sqrt{\frac{1}{N} \sum_{i=1}^{N} (X_i - \mu)^2}
$$

[F√≥rmula 2: C√°lculo do desvio-padr√£o]

#### üåï Valores M√≠nimo e M√°ximo 

In [None]:
df_energia.describe(include = "all")

In [None]:
print('a')

In [None]:
# df_energia_normalizado = df_energia.copy()
# colunas_fixas = ['Type_of_Renewable_Energy', 'Grid_Integration_Level','Funding_Sources']
# colunas_variaveis = df_energia_normalizado.columns.difference(colunas_fixas)

# normalizador = StandardScaler()
# df_energia_normalizado[colunas_variaveis] = normalizador.fit_transform(df_energia_normalizado[colunas_variaveis])
# df_energia_normalizado

In [None]:
TARGET = "Storage_Efficiency_Percentage"
FEATURES = [
    "Type_of_Renewable_Energy",
    "Grid_Integration_Level",
    "Funding_Sources",
    "GHG_Emission_Reduction_tCO2e",
    "Installed_Capacity_MW",
    "Energy_Production_MWh",
    "Energy_Consumption_MWh",
    "Initial_Investment_USD",
    "Air_Pollution_Reduction_Index",

]

In [None]:
X = df_energia[FEATURES]  
y = df_energia[TARGET] 

In [None]:
X.describe(include = "all")

In [None]:
y.describe(include = "all")

In [None]:
X_valores = X.values
y_valores = y.values

In [None]:
X_treino, X_teste, y_treino, y_teste = train_test_split(X_valores, y_valores, test_size=0.1, random_state=1249)


## üìú Refer√™ncias

[1] Daniel Roberto Cassar. (2024). Jupyter Notebook LMA-203 1.0 - Estat√≠stica descritiva. [Material n√£o publicado].