<a href="https://colab.research.google.com/github/hugolopg/data_test_05_2022/blob/main/Hugo_Lopes_Relat%C3%B3rio_Digital_Grid.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Relatório sobre produção de energia solar de duas usinas ao longo do dia.

A energia solar varia sua produção de acordo com a incidência solar nas placas, que é afetada por nuvens e a posição do sol no céu. Sendo os horários mais próximos a meio dia com a melhor incidência solar. Neste relatório será analisado os valores de produção entre duas usinas solares nos seguintes horários do dia:
A = 00h00 - 07h59
B = 08h00 - 15h59
C = 16h00 - 23h59

##Carregando o banco de dados

In [35]:
import pandas as pd

url = 'https://raw.githubusercontent.com/hugolopg/data_test_05_2022/main/data.csv'
bd = pd.read_csv(url, index_col=0)
bd['var'].replace('A', '00h00 - 07h59', inplace=True)
bd['var'].replace('B', '08h00 - 15h59', inplace=True)
bd['var'].replace('C', '16h00 - 23h59', inplace=True)
bd = bd.rename(columns={'var': 'Horário','X': 'Usina 1', 'Y': 'Usina 2'})

print(bd.head(5))

         Horário  Usina 1  Usina 2
0  16h00 - 23h59   231.84   580.44
1  16h00 - 23h59   230.37   602.28
2  16h00 - 23h59   250.53   557.76
3  16h00 - 23h59    78.75   288.96
4  08h00 - 15h59    -1.26    -2.52


Ao visualizar os primeiros 5 valores nota-se que o banco de dados ou não está ordenado por dia, ou não há dados completos do dia. Também observa-se valores negativos de produção, o que aponta o gasto dos equipamentos da usina quando a incidência solar não é suficiente para suprir esse custo energético de operação.

## Gerando dados estatísticos

In [54]:
# Média
print('Média da produção de energia para cada usina e faixa de horário\n')
print('Faixa de horário|Usina 1|Usina 2')
print('----------------|-------|-------')

horas = ['00h00 - 07h59','08h00 - 15h59','16h00 - 23h59']

for hora in horas:
  Usina1 = bd.loc[bd['Horário'] == hora]['Usina 1'].mean()
  Usina2 = bd.loc[bd['Horário'] == hora]['Usina 2'].mean()
  print('%16s|%7.2f|%7.2f'%(hora,Usina1,Usina2))



Média da produção de energia para cada usina e faixa de horário

Faixa de horário|Usina 1|Usina 2
----------------|-------|-------
   00h00 - 07h59|  -1.26|  -2.49
   08h00 - 15h59|  41.27| 101.01
   16h00 - 23h59| 105.63| 250.71


Ao verificar a média de produção para cada horário nota-se que no primeiro horário de 00h00 - 07h59 em média não é produtivo, gerando apenas perdas de energia, sendo então melhor não acionar a usina nesse horário.
Também nota-se que a Usina 2 tem maior valor em módulo para todos os horários, o que indica que esta usina tem mais capacidade de geração de energia, assim como mais gasto absoluto para funcionamento.
Outro ponto é a maior produção de energia do horário de 16h00 - 23h59, sendo que a maior parte desse período é noite, o que indica a posição não otimizada da usina solar, fazendo que a maior incidência seja no período da tarde. Isso pode ser resultado da angulação incorreta da placa solar ou então uma sombra de um morro, prédio ou montanha a leste das usinas solares. Também há a possibilidade das usinas estarem desligadas a maior parte do dia, entretando, para maior produção de energia, seria melhor mantê-las ativas durante o dia com um sistema off-grid (Baterias) ou on-grid (interligado à rede elétrica).

In [56]:
# Desvio Padrão
print('Desvio padrão da produção de energia para cada usina e faixa de horário\n')
print('Faixa de horário|Usina 1|Usina 2')
print('----------------|-------|-------')

horas = ['00h00 - 07h59','08h00 - 15h59','16h00 - 23h59']

for hora in horas:
  Usina1 = bd.loc[bd['Horário'] == hora]['Usina 1'].std()
  Usina2 = bd.loc[bd['Horário'] == hora]['Usina 2'].std()
  print('%16s|%7.2f|%7.2f'%(hora,Usina1,Usina2))

Desvio padrão da produção de energia para cada usina e faixa de horário

Faixa de horário|Usina 1|Usina 2
----------------|-------|-------
   00h00 - 07h59|   0.12|   0.73
   08h00 - 15h59|  80.06| 199.81
   16h00 - 23h59| 107.74| 273.57


O desvio padrão da produção de energia são sempre maiores que a média para os últimos 2 horários, o que indica que a geração de energia não é constante nesses horários, o que pode ser resultado de dias ensolarados e nublados frequentes, afetando a produção. Para o primeiro horário o desvio padrão está mais próximo a 0, reforçando que, em geral, esse horário não é produtivo.

In [51]:
# Mínimos
print('Mínimos da produção de energia para cada usina e faixa de horário\n')
print('Faixa de horário|Usina 1|Usina 2')
print('----------------|-------|-------')

horas = ['00h00 - 07h59','08h00 - 15h59','16h00 - 23h59']

for hora in horas:
  Usina1 = bd.loc[bd['Horário'] == hora]['Usina 1'].min()
  Usina2 = bd.loc[bd['Horário'] == hora]['Usina 2'].min()
  print('%16s|%7.2f|%7.2f'%(hora,Usina1,Usina2))

Desvio padrão da produção de energia para cada usina e faixa de horário

Faixa de horário|Usina 1|Usina 2
   00h00 - 07h59|  -1.47|  -3.08
   08h00 - 15h59|  -2.31|  -3.08
   16h00 - 23h59|  -2.52|  -3.08


Ao observar os valores mínimos para cada horário, nota-se que ambas as usinas em determinado momento não foram capazes de suprir nem o gasto de funcionamento. Para a Usina 2, o valor mínimo igual para todos os horários pode indicar a completa obstrução da luz para esta usina solar.

In [58]:
# Máximos
print('Máximos da produção de energia para cada usina e faixa de horário\n')
print('Faixa de horário|Usina 1|Usina 2')
print('----------------|-------|-------')

horas = ['00h00 - 07h59','08h00 - 15h59','16h00 - 23h59']

for hora in horas:
  Usina1 = bd.loc[bd['Horário'] == hora]['Usina 1'].max()
  Usina2 = bd.loc[bd['Horário'] == hora]['Usina 2'].max()
  print('%16s|%7.2f|%7.2f'%(hora,Usina1,Usina2))

Máximos da produção de energia para cada usina e faixa de horário

Faixa de horário|Usina 1|Usina 2
----------------|-------|-------
   00h00 - 07h59|   0.00|   0.00
   08h00 - 15h59| 261.24| 653.24
   16h00 - 23h59| 309.96| 662.76


Ao verificar o máximo da produção de energia, percebe-se que o máximo de 0 para o horário de 00h00 - 07h59 indica que nesse horário não houve momento que a produção de energia superou os gastos. Provável motivo que resultou no desligamento das usinas para resultar o valor máximo ser exatamente 0.

In [68]:
# Correlação de Pearson
import numpy as np

print('Coeficientes de correlação de Pearson entre as usinas para cada faixa de horário\n')
print('Faixa de horário|Coeficiente de Pearson')
print('----------------|----------------------')

horas = ['00h00 - 07h59','08h00 - 15h59','16h00 - 23h59']

for hora in horas:
  pearson = np.corrcoef(bd.loc[bd['Horário'] == hora]['Usina 1'],bd.loc[bd['Horário'] == hora]['Usina 2'])[0][1]
  print('%16s|%22.2f'%(hora,pearson))

Coeficientes de correlação de Pearson entre as usinas para cada faixa de horário

Faixa de horário|Coeficiente de Pearson
----------------|----------------------
   00h00 - 07h59|                 -0.03
   08h00 - 15h59|                  0.91
   16h00 - 23h59|                  0.85


Com o coeficiente de correlação de pearson, nota-se que para os horários onde há maior produção, há correlação entre a produção das usinas, o que indica que ambas têm incidência solar semelhantes, indicando que ambas as usinas possuem o mesmo problema dos indicados acima e possivelmente são próximas uma da outra.