# Introdução:

-Problema-
A busca pela sustentabilidade vem crescendo cada vez mais no contexto atual de mudanças climáticas, com o uso de materiais poluentes e não degradáveis por grandes indústrias, o que afeta o ecossistema global. Nesse sentido, estudar sistemas renováveis, como as energias solares, hidroelétricas, entre outros, é de suma importância, visando compreender seus componentes e potencial para aplicação em larga escala, substituindo gradativamente as fontes não renováveis.

Encontrar os parâmetros desses sistemas que maximizem sua eficiência

#Explicar o trabalho, dataset, pré-processamento
#Talvez usar GHG_Emission_Reduction_tCO2e como target tb, mais fácil de justificar e trabalhar, pode usar 2 #targets

## Importações e definições:

Começamos importando as bibliotecas necessárias:

In [None]:
import pandas as pd
import numpy as np
import os
import statistics as st

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error

import torch
import torch.nn as nn
import torch.optim as optim


Em seguida, iremos importar o dataset a ser utilizado, removendo valores faltantes e exibindo-o em seguida.

In [None]:
df_energia = pd.read_csv('energy_dataset_.csv')
df_energia = df_energia.dropna()
df_energia

### 🔍 Características das Features

🔋 `Type_of_Renewable_Energy`:

Tipo de fonte de energia renovável (dados categóricos):

- `1`: ☀️ Solar  
- `2`: 🌬️ Wind (Eólica)  
- `3`: 💧 Hydroelectric (Hidroelétrica)  
- `4`: 🌋 Geothermal (Geotermal)  
- `5`: 🌿 Biomass (Biomassa)  
- `6`: 🌊 Tidal (Maré)  
- `7`: 🌊 Wave (Ondas)


⚡ `Installed_Capacity_MW`:

Capacidade instalada em Megawatts (MW)


🔌 `Energy_Production_MWh`:

Produção anual de energia em Megawatts-hora (MWh)



🔋 `Energy_Consumption_MWh`:

Consumo anual de energia em Megawatts-hora (MWh)



🏗️ `Grid_Integration_Level`:

Nível de integração com a rede elétrica (dados categóricos):

- `1`: ✅ Fully Integrated (Totalmente integrada)  
- `2`: ⚠️ Partially Integrated (Parcialmente integrada)  
- `3`: 🔻 Minimal Integration (Integração mínima)  
- `4`: 🔌 Isolated Microgrid (Microrrede isolada)



💰 `Founding_Sources`:

Fonte de investimento (dados categóricos):

- `1`: 🏛️ Government (Governamental)  
- `2`: 🏢 Private (Privada)  
- `3`: 🤝 Public-Private Partnership (Colaboração Público e Privado)



💵 `Inicial_Investiment_USD`:

Investimento inicial em dólares (USD)



🌱 `GHG_Emission_Reduction_tCO2e`:

Redução das emissões de gases de efeito estufa (tCO2e)


🌬️ `Air_Pollution_Reduction_Index`:

Índice de redução da poluição do ar


### 🔎 Caracterísitcas do Target

🔌 `Storage_Efficiency_Percentage`: 
     
Eficiência de armazenamento de energia em porcentagem


### 🕵️ Explorando o Dataset

Em um primeiro momento, é interessante investigar os dados que compreendem o *target* do projeto, isto é, a porcentagem de eficiência de armazenamento de energia (Storage_Efficiency_Percentage), visando uma melhor compreensão de sua distribuição, bem como de como se comportam. Nesse sentido, utilizando a biblioteca `statistics`, algumas estatísticas descritivas dos dados serão analisadas. Dentre elas, encontra-se a média, a mediana, o desvio-padrão e os valores mínimo e máximo, com o intuito de analisar a tendência dos dados a serem previstos, bem como a distribuição deles. [1]

#### 🌘 Média

A média é calculada a partir da divisão da soma de todos os elementos que compõe uma variável aleatória pela quantidade total de termos. Essa estatística nos fornece uma tendência central dos valores da variável analisada.

$$
\mu = \frac{1}{N} \sum_{i=1}^{N} X_i
$$

[Fórmula 1: Cálculo da média]

In [None]:
media_target = st.mean(df_energia["Storage_Efficiency_Percentage"])
print(f'A média da porcentagem de eficiência energético é igual a {media_target}.')

#### 🌖 Mediana

A mediana consiste em uma estatística que apresenta o valor que segrega a variável aleatória na metade, isto é, em dois grupos de mesmo tamanho, compreendendo o valor central da variável analisada. Por não ser influenciada por valores discrepantes que compõe o conjunto explorado - os famosos *outliers*, a mediana compreende uma métrica mais robusta para compreender a tendência central dos dados, sobretudo quanto possuímos variáveis aleatórias com *outliers*.

In [None]:
mediana_target = st.median(df_energia["Storage_Efficiency_Percentage"])
print(f'A mediana da porcentagem de eficiência energético é igual a {mediana_target}.')

#### 🌗 Desvio-padrão

O desvio-padrão compreende o quão distante da média se encontram os valores que compõe a variável aleatória analisada.

$$
\sigma = \sqrt{\mathrm{Var(X)}} =  \sqrt{\frac{1}{N} \sum_{i=1}^{N} (X_i - \mu)^2}
$$

[Fórmula 2: Cálculo do desvio-padrão]

#### 🌕 Valores Mínimo e Máximo 

In [None]:
df_energia.describe(include = "all")

In [None]:
print('a')

In [None]:
# df_energia_normalizado = df_energia.copy()
# colunas_fixas = ['Type_of_Renewable_Energy', 'Grid_Integration_Level','Funding_Sources']
# colunas_variaveis = df_energia_normalizado.columns.difference(colunas_fixas)

# normalizador = StandardScaler()
# df_energia_normalizado[colunas_variaveis] = normalizador.fit_transform(df_energia_normalizado[colunas_variaveis])
# df_energia_normalizado

In [None]:
TARGET = "Storage_Efficiency_Percentage"
FEATURES = [
    "Type_of_Renewable_Energy",
    "Grid_Integration_Level",
    "Funding_Sources",
    "GHG_Emission_Reduction_tCO2e",
    "Installed_Capacity_MW",
    "Energy_Production_MWh",
    "Energy_Consumption_MWh",
    "Initial_Investment_USD",
    "Air_Pollution_Reduction_Index",

]

In [None]:
X = df_energia[FEATURES]  
y = df_energia[TARGET] 

In [None]:
X.describe(include = "all")

In [None]:
y.describe(include = "all")

In [None]:
X_valores = X.values
y_valores = y.values

In [None]:
X_treino, X_teste, y_treino, y_teste = train_test_split(X_valores, y_valores, test_size=0.1, random_state=1249)


## 📜 Referências

[1] Daniel Roberto Cassar. (2024). Jupyter Notebook LMA-203 1.0 - Estatística descritiva. [Material não publicado].