<a href="https://colab.research.google.com/github/squadOito/soulcodead2/blob/wesley%2Fnotebook/notebooks/fator_capacidade_mwh_2015_2023.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Projeto Final**
Escola: SoulCode Academy

Curso: Bootcamp Analista de Dados - Martech - AD2

**Alunos: Adriano Kim, José Aurelio, Marcos Paulo, Paulo Vitorino e Renato Costa e Wesley Luiz**

Professores: Douglas Ribeiro, Franciane Rodrigues e Jonathas Carneiro

#**Perguntas de negócio**:

1)

---



# Base de Dados Informações gerais

<br>O Operador Nacional do Sistema Elétrico (ONS) é o órgão responsável pela coordenação e controle da operação das instalações de geração e transmissão de energia elétrica no Sistema Interligado Nacional (SIN) e pelo planejamento da operação dos sistemas isolados do país, sob a fiscalização e regulação da Agência Nacional de Energia Elétrica (Aneel).

Fator de capacidade de usinas e conjuntos de usinas eólicos e solares despachados pelo ONS em base horária. O fator de capacidade é obtido pela relação entre a geração e a capacidade instalada das usinas.

Os dados presentes são dos anos de 01/01/2015 a 01/08/2023

********* REVISAR Obs.: descrever o PORQUE nao alteramos tanto o dicionario!!!


<br> Fontes:

https://dados.ons.org.br/dataset/fator-capacidade-2

https://www.ons.org.br/paginas/sobre-o-ons/o-que-e-ons


## **Dicionário de dados**

Obs.: descrever o PORQUE nao alteramos tanto o dicionario!!!

* id_subsistema - Identificador do subsistema
* nom_subsistema - Nome do subsistema
* id_estado - Sigla do Estado
* nom_estado - Nome do Estado
* nom_pontoconexao - Nome do ponto de conexão da
usina/conjunto
* nom_localizacao - Localização da usina/conjunto;
O conteúdo está disponível apenas
para Usinas da região Nordeste
* val_latitudesecoletora  - Latitude da usina/conjunto
* val_longitudesecoletora - Longitude da usina/conjunto
* val_latitudepontoconexao - Latitude do Ponto de Conexão
* val_longitudepontoconexao - Longitude do Ponto de Conexão
* nom_modalidadeoperacao - Modalidade de operação
* nom_tipousina - Tipo da usina
* nom_usina_conjunto - Nome da usina/conjunto
* din_instante  - Data e hora
* id_ons - Identificador da usina ou conjunto no
ONS
* ceg - Código Único do Empreendimento de
Geração (CEG), estabelecido pela
ANEEL
* val_geracaoprogramada - Geração Programada, em MWmed(relação entre a eletricidade gerada em MWh e o tempo de funcionamento das instalações).
* val_geracaoverificada - Geração Verificada, em MWmed(relação entre a eletricidade gerada em MWh e o tempo de funcionamento das instalações).
* val_capacidadeinstalada - Capacidade instalada, em MW(MegaWatts)
* val_fatorcapacidade - Fator de capacidade, obtida pela
relação entre a geração e a capacidade
instalada


> fonte:
*  https://dados.ons.org.br/dataset/fator-capacidade-2/resource/142f9c3b-4feb-492e-a0b4-bce97f059fca

# Extração
A primeira etapa da ETL é a extração dos dados de sua fonte original. Dependendo do tipo de dados e da fonte, você pode precisar de diferentes ferramentas e técnicas para extrair os dados.

## Instalações de Bibliotecas
Instalações e importações das bibliotecas necessárias para o processo de ETL.

In [None]:
!pip install gcsfs

In [None]:
!pip install pandera

In [None]:
# Importando Bibliotecas pré instaladas
import os
import pandas as pd
import numpy as np
import pandera as pa
from google.cloud import storage
from google.colab import drive

In [None]:
# Ignorando alguns alertas desnecessários
import warnings
warnings.filterwarnings("ignore")

In [None]:
# Configuração da quantidade de colunas para aparecer em um DataFrame
pd.set_option('display.max_columns',100)

In [None]:
# Conexão com a conta do Google Cloud
serviceAccount = '/content/projeto-final-ad2-e8-ae566c3a2c2b.json'
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = serviceAccount

In [None]:
# Conexão com a bucket do Google Cloud

client = storage.Client()
bucket = client.get_bucket('projeto-final-ad2-e8')
bucket.blob('FATOR_CAPACIDADE_2015a2023_bruto.csv')
path = 'gs://projeto-final-ad2-e8/dados/brutos/csv/FATOR_CAPACIDADE_2015a2023_bruto.csv'


In [None]:
# Leitura e configuração dos arquivos extraidos
df_fator_cap = pd.read_csv(path,
                 sep=';',
                 encoding='UTF-8')

## Pré Análise

In [None]:
# Visualização geral
df_fator_cap

In [None]:
df_fator_cap_backup.tipo_usina

In [None]:
# Visualização de forma aleatoria
df_fator_cap.sample(3)

In [None]:
# Tamanho total de (linhas , colunas)
df_fator_cap.shape

In [None]:
# Todos os tipos de dados presentes
df_fator_cap.dtypes

In [None]:
# Contagem de observações para cada coluna
df_fator_cap.count()

In [None]:
# Informações detalhadas
df_fator_cap.info()

In [None]:
# Fazendo um relatório para mostrar os valores únicos de cada atributo.
# O for vai garantir que a atividade seja feita automaticamentepara todos os atributos

for coluna in df_fator_cap:
    valor = (df_fator_cap[coluna].unique())
    print("-"*70)
    msg = f"Valores únicos para o atributo {coluna}:"
    print(f"{msg:^70}")
    print("-"*70)
    print(f"\n{valor}\n")
    print("-"*70)


# Transformação
Aqui os dados extraídos precisam ser transformados em um formato adequado para análise, e para isso deve seguir alguns passos, que podem precisar serem repetidos ao longo do processo de análise.

## Limpeza de Dados
Remover dados duplicados, corrigir erros de digitação, tratar dados inconsistentes etc.

In [None]:
# Verificar se há valores duplicados
df_fator_cap.duplicated()

In [None]:
# Verificar se há valores nulos/ausentes
df_fator_cap.isnull().sum()

In [None]:
# Descartando colunas
# df.drop(['coluna1',], axis=1, inplace=True)

In [None]:
# Calcular a porcentagem de valores nulos em cada coluna
porcentagem_nulos = (df_fator_cap.isnull().sum() / len(df_fator_cap)) * 100

# Exibir a porcentagem de valores nulos em cada coluna
print(round(porcentagem_nulos,2))

In [None]:
df_fator_cap_backup = df_fator_cap.copy()

## Normalização de Dados
Colocar os dados em um formato padronizado para facilitar a análise.

### Tipagem

In [None]:
# criando um dataset para validar a tipagem
df_data_alterada = df_fator_cap_backup.copy()

In [None]:
# Convertendo para data e hora, preservando as horas
df_data_alterada['din_instante'] = pd.to_datetime(df_data_alterada['din_instante'], exact=False)

In [None]:
# Verificando se foi efetivado a alteração
df_data_alterada.info()

In [None]:
# Garantindo que a tipagem não modificou a informação do registro
df_fator_cap_backup.din_instante[10000]

In [None]:
# Garantindo que a tipagem não modificou a informação do registro
df_data_alterada.din_instante[10000]

In [None]:
# Convertendo para data e hora, preservando as horas. No dataframe de backup
df_fator_cap_backup['din_instante'] = pd.to_datetime(df_fator_cap_backup['din_instante'], exact=False)

In [None]:
# Verificando se foi efetivado a alteração
df_fator_cap_backup.dtypes

In [None]:
# Realizando a tipagem das variaveis
# df.coluna1 = df.coluna1.astype(int)

## Tradução

In [None]:
# Renomeando/Traduzindo colunas
# df.rename(columns={'coluna1':'traducao',}, inplace=True)
df_fator_cap_backup.rename(columns={'din_instante':'data'}, inplace=True)

In [None]:
# Examinando alteração
df_fator_cap_backup.dtypes

In [None]:
# Examinando se os registros foram alterados
# pd.unique(df.traducao)

## **Qualidade e integridade dos dados**

### **Validação da estrutura dos dados (schema)**

In [None]:
# Verifica se há qualquer valor nulo ou nao numerico(NaN)
df_fator_cap_backup.isna().any()

id_subsistema                False
nom_subsistema               False
id_estado                    False
nom_estado                   False
nom_pontoconexao              True
nom_localizacao               True
val_latitudesecoletora        True
val_longitudesecoletora       True
val_latitudepontoconexao      True
val_longitudepontoconexao     True
nom_modalidadeoperacao       False
nom_tipousina                False
nom_usina_conjunto           False
id_ons                       False
ceg                          False
data                         False
val_geracaoprogramada         True
val_geracaoverificada        False
val_capacidadeinstalada       True
val_fatorcapacidade          False
dtype: bool

In [None]:
# Lista das colunas a serem preenchidas
colunas_preenchimento = [
    'nom_pontoconexao',
    'nom_localizacao',
    'val_latitudesecoletora',
    'val_longitudesecoletora',
    'val_latitudepontoconexao',
    'val_longitudepontoconexao',
    'val_geracaoprogramada',
    'val_capacidadeinstalada'
]

# Loop para preenchimento de colunas com 'NA' ou 0
for coluna in colunas_preenchimento:
    if 'val_' in coluna:
        valor_preenchimento = 0
    else:
        valor_preenchimento = 'NA'
    df_fator_cap_backup[coluna].fillna(valor_preenchimento, inplace=True)

In [None]:
# Interpola os valores na coluna e arredonda para duas casas decimais
# df_fator_cap_backup.val_capacidadeinstalada = df_fator_cap_backup.val_capacidadeinstalada.interpolate().round(2)

In [None]:
df_fator_cap_backup.dtypes

In [None]:
df_fator_cap_backup.columns

In [None]:
# Definindo o esquema de validação e o examinando
schema = pa.DataFrameSchema({
    'id_subsistema': pa.Column(pa.String),
    'nom_subsistema': pa.Column(pa.String),
    'id_estado': pa.Column(pa.String),
    'nom_estado': pa.Column(pa.String),
    'nom_pontoconexao': pa.Column(pa.String),
    'nom_localizacao': pa.Column(pa.String),
    'val_latitudesecoletora': pa.Column(pa.Float),
    'val_longitudesecoletora': pa.Column(pa.Float),
    'val_latitudepontoconexao': pa.Column(pa.Float),
    'val_longitudepontoconexao': pa.Column(pa.Float),
    'nom_modalidadeoperacao': pa.Column(pa.String),
    'nom_tipousina': pa.Column(pa.String),
    'nom_usina_conjunto': pa.Column(pa.String),
    'id_ons': pa.Column(pa.String),
    'ceg': pa.Column(pa.String),
    'data': pa.Column(pa.DateTime),
    'val_geracaoprogramada': pa.Column(pa.Float),
    'val_geracaoverificada': pa.Column(pa.Float),
    'val_capacidadeinstalada': pa.Column(pa.Float),
    'val_fatorcapacidade': pa.Column(pa.Float)
})

schema.validate(df_fator_cap_backup)

In [None]:
df_fator_cap_backup.count()

id_subsistema                8622780
nom_subsistema               8622780
id_estado                    8622780
nom_estado                   8622780
nom_pontoconexao             8622780
nom_localizacao              8622780
val_latitudesecoletora       8622780
val_longitudesecoletora      8622780
val_latitudepontoconexao     8622780
val_longitudepontoconexao    8622780
nom_modalidadeoperacao       8622780
nom_tipousina                8622780
nom_usina_conjunto           8622780
id_ons                       8622780
ceg                          8622780
data                         8622780
val_geracaoprogramada        8622780
val_geracaoverificada        8622780
val_capacidadeinstalada      8622780
val_fatorcapacidade          8622780
dtype: int64

## **Colunas Persistidas**

ATUALIZAR!!!!!!!!!!!!!!!!!!!!!!!!!!!


* ATUALIZAR!!!!!!


## Backup - Copia de segurança

In [None]:
# Backup para analise
df_fator_cap_tratado = df_fator_cap_backup.copy()

# Carregamento
Depois que os dados são extraídos e transformados adequadamente, eles estarão prontos para as análise, mas antes disso eles precisam ser carregados em um local de armazenamento adequado. Podendo ser um banco de dados SQL ou NoSQL, um sistema de armazenamento em nuvem, e para o caso de disponibilizar o projeto publicamente é ideal que ele seja colocar em uma pasta de datasets, diferenciando o arquivo bruto e o tratado.

In [None]:
# Upando para o Google Cloud

# df_fator_cap_tratado.to_csv('gs://projeto-final-ad2-e8/dados/tratados/fator_capacidade_mwh_2015_2023.csv', index=False)


# Análise exploratória de dados.
- Descrição de dados: identificação dos tipos de variáveis, dimensões dos dados, valores extremos e estatísticas descritivas.
- Visualização dos dados: criação de gráficos, tabelas e outros tipos de visualização para entender a distribuição e a relação entre as variáveis.
- Identificação de padrões: identificação de padrões, tendências, correlações e outras relações entre as variáveis.
- Testes estatísticos: aplicação de testes estatísticos para confirmar ou refutar hipóteses sobre os dados.

## Instalações de bibliotecas
bibliotecas necessárias para a análise de dados que não haviam sido importadas anteriormente.

## **Estatisticas**

In [None]:
# Resumo de estatisticas descritivas
df_fator_cap_tratado.describe().round(2)

In [None]:
# Correlações de todas colunas quantitativas
df_fator_cap_tratado.corr()

In [None]:
# Distribuição de frequencia
def distfreq(dados, classes=None):
    # Verifica se o número de classes foi fornecido como parâmetro, caso
    # contrário, determina automaticamente. Se o número de dados for menor
    # ou igual a 25, define 5 classes, caso contrário, a quantidade de classes
    # será a raiz quadrada do número de de dados
    if classes is None:
        if len(dados) <= 25:
            classes = 5
        else:
            classes = round(len(dados) ** 0.5 + 0.5)
    else:
        pass

    # Ordena os dados em ordem crescente
    dados = sorted(dados)
    # Calcula a amplitude (diferença entre o maior e o menor valor)
    amplitude = max(dados) - min(dados)
    # Calcula o intervalo entre as classes
    intervalo = amplitude / classes
    # Cria uma lista para armazenar os limites dos intervalos
    intervalos = [dados[0]]
    for i in range(classes):
        intervalos.append((intervalos[i] + intervalo))

    # Imprime o cabeçalho da tabela
    print("-" * 100)
    print(f'{"Valores":^19}|{"Frequência":^19}|{"Freq. Acumulada":^19}|'
        + f'{"Frequência %":^19}|{"Freq. Acumulada %":^19}')
    print("-" * 100)

    a = 0
    b = 0

    # Laço para calcular as frequências para cada classe
    for i in range(classes):
        a = 0
        teste = f'{intervalos[i]:.2f} ---- {intervalos[i+1]:.2f}'

        # Laço para contar quantos valores estão dentro do intervalo atual
        for j in range(len(dados)):
            if dados[j] < intervalos[i + 1] + 0.000001:
                a = a + 1
            else:
                pass

        # Imprime os valores da classe atual e suas frequências
        print(f'{teste:^19}|{a - b:^19}|{a:^19}|{((a - b) / len(dados)):^19.2%}|{((a) / len(dados)):^19.2%}')

        # Atualiza o valor de b para a próxima iteração
        b = a

        # Imprime uma linha separadora
        print("-" * 100)

    # Imprime o final da tabela discriminando o total geral
    print(f'{"Total Geral":^19}|{a:^19}|{"":^19}|{"100,00%":^19}|{"":^19}')
    print("-"*100)
    return

In [None]:
# distfreq(df.loc[df.cidade == 'Londres']['preco_total'],154)

### Filtros e agrupamentos
Criar novas variáveis com base nos dados originais para permitir uma análise mais detalhada e avançada.

In [None]:
# Filtros, agrupamentos

# Visualização

In [None]:
!pip install matplotlib

In [None]:
import matplotlib.pyplot as plt

# Conclusão
Resumo das principais conclusões e insights obtidos a partir da análise exploratória, sugestões para próximos passos da análise ou possíveis ações a serem tomadas.