<a href="https://colab.research.google.com/github/squadOito/soulcodead2/blob/wesley%2Fnotebook/notebooks/2_2_cap_instalada_de_geracao_eletrica_por_fonte_mw.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Projeto Final**
Escola: SoulCode Academy

Curso: Bootcamp Analista de Dados - Martech - AD2

**Alunos: Adriano Kim, José Aurelio, Marcos Paulo, Paulo Vitorino e Renato Costa e Wesley Luiz**

Professores: Douglas Ribeiro, Franciane Rodrigues e Jonathas Carneiro

#**Perguntas de negócio**:

1) Qual o quadro atual de geração de energia elétrica no Brasil (disponibilidade por região)?

2) Diante do panorama atual, quais fontes apresentam maiores taxas de crescimento?

3) Quais as regiões que apresentam maior potencial de exploração de fontes de energia?

---



# Base de Dados Informações gerais
A Empresa de Pesquisa Energética (EPE) apresenta o Anuário Estatístico de Energia Elétrica, que traz as informações relativas à cadeia de energia elétrica do Brasil, bem como informações regionais e das unidades federativas.

Este Anuário resulta da compilação de dados dos anos de 2013 a 2022, coletados e consolidados pela EPE ao longo de 2023. Cumpre ressaltar que os dados apresentados não contemplam a parcela consumida em unidades autoprodutoras de energia elétrica.Realizado no âmbito da Comissão Permanente de Análise e Acompanhamento do Mercado de Energia Elétrica (COPAM), sob a coordenação da EPE.

Os dados relativos à capacidade instalada e geração de energia elétrica são obtidos pelo sistema de informações de geração da Associação Nacional de Energia Elétrica(ANEEL) e pelo Balanço Energético Nacional (BEN).

Fonte: https://dashboard.epe.gov.br/apps/anuario-livro/


## **Dicionário de dados**

* ano - Ano referente a coleta dos registros
* grupo - Cada fonte de energia presente na pesquisa e o total de capacidade de todas fontes ao ano
* total - Total de capacidade instalada de cada fonte energetica em MW(Megawatt)

> fonte:
*   links

# Extração
A primeira etapa da ETL é a extração dos dados de sua fonte original. Dependendo do tipo de dados e da fonte, você pode precisar de diferentes ferramentas e técnicas para extrair os dados.

## Instalações de Bibliotecas
Instalações e importações das bibliotecas necessárias para o processo de ETL.

In [None]:
!pip install gcsfs

In [None]:
!pip install pandera

In [3]:
# Importando Bibliotecas pré instaladas
import os
import pandas as pd
import numpy as np
import pandera as pa
from google.cloud import storage
from google.colab import drive

In [4]:
# Ignorando alguns alertas desnecessários
import warnings
warnings.filterwarnings("ignore")

In [5]:
# Configuração da quantidade de colunas para aparecer em um DataFrame
pd.set_option('display.max_columns',100)

In [6]:
# Conexão com a conta do Google Cloud
serviceAccount = '/content/projeto-final-ad2-e8-ae566c3a2c2b.json'
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = serviceAccount

In [7]:
# Conexão com a bucket do Google Cloud

client = storage.Client()
bucket = client.get_bucket('projeto-final-ad2-e8')
bucket.blob('2_2_cap_instalada_de_geracao_eletrica_por_fonte_mw.xlsx')
path = 'gs://projeto-final-ad2-e8/dados/brutos/excel/2_2_cap_instalada_de_geracao_eletrica_por_fonte_mw.xlsx'


In [18]:
# Leitura e configuração dos arquivos extraidos
df_2_2 = pd.read_excel(path)

## Pré Análise

In [None]:
# Visualização geral
df_2_2

In [None]:
# Visualização de forma aleatoria
df_2_2.sample(3)

In [None]:
# Tamanho total de (linhas , colunas)
df_2_2.shape

In [None]:
# Todos os tipos de dados presentes
df_2_2.dtypes

In [None]:
# Contagem de observações para cada coluna
df_2_2.count()

In [None]:
# Informações detalhadas
df_2_2.info()

In [25]:
# Backup local
df_2_2 = df_2_2.copy()

In [None]:
# Fazendo um relatório para mostrar os valores únicos de cada atributo.
# O for vai garantir que a atividade seja feita automaticamentepara todos os atributos

for coluna in df_2_2:
    valor = (df_2_2[coluna].unique())
    print("-"*70)
    msg = f"Valores únicos para o atributo {coluna}:"
    print(f"{msg:^70}")
    print("-"*70)
    print(f"\n{valor}\n")
    print("-"*70)


In [None]:
df_2_2.ano

# Transformação
Aqui os dados extraídos precisam ser transformados em um formato adequado para análise, e para isso deve seguir alguns passos, que podem precisar serem repetidos ao longo do processo de análise.

## Limpeza de Dados
Remover dados duplicados, corrigir erros de digitação, tratar dados inconsistentes etc.

In [None]:
# Verificar se há valores duplicados
df_2_2.duplicated()

In [29]:
# Verificar se há valores nulos/ausentes
df_2_2.isnull().sum()

ano      0
grupo    0
total    0
dtype: int64

In [None]:
# Verificando os valores presentes na coluna para identificar inconsistencias
# print(f'Valores presentes em coluna1: {pd.unique(df.coluna1)}')

In [None]:
# Descartando colunas
# df.drop(['coluna1',], axis=1, inplace=True)

In [31]:
df_2_2_backup = df_2_2.copy()

## Normalização de Dados
Colocar os dados em um formato padronizado para facilitar a análise.

### Tipagem

In [32]:
# Como alterar data ano
df_2_2_backup['ano'] = pd.to_datetime(df_2_2_backup['ano'], format='%Y')

In [None]:
df_2_2_backup.ano

In [35]:
df_2_2_backup.dtypes

ano      datetime64[ns]
grupo            object
total           float64
dtype: object

In [None]:
# Como tipar qualquer valor
# df['Idade'] = df['Idade'].astype(tipo)

In [None]:
# Realizando a tipagem das variaveis
# df.coluna1 = df.coluna1.astype(int)

## Tradução

In [None]:
# Renomeando/Traduzindo colunas
# df.rename(columns={'coluna1':'traducao',}, inplace=True)

In [56]:
# Examinando alteração
df_2_2_backup.dtypes

ano      datetime64[ns]
grupo            object
total           float64
dtype: object

In [None]:
# Renomeando/Traduzindo registros
# traducao = {
#    'registro1': 'TRADUCAO',
#    'registro2': 'TRADUCAO2',
#}
#df_2_2_backup.coluna1.replace(traducao,inplace=True)

In [None]:
# Examinando se os registros foram alterados
# pd.unique(df.traducao)

## **Qualidade e integridade dos dados**

### **Validação da estrutura dos dados (schema)**

In [None]:
df_2_2.count()

In [None]:
df_2_2_backup.info()

In [61]:
# Definindo o esquema de validação e o examinando
schema = pa.DataFrameSchema({
    'ano': pa.Column(pa.DateTime),
    'grupo': pa.Column(pa.String),
    'total': pa.Column(pa.Float)
})

schema.validate(df_2_2_backup)

Unnamed: 0,ano,grupo,total
0,2013-01-01,Biomassa,11449.195087
1,2013-01-01,CGH,266.387413
2,2013-01-01,Carvão,3389.465000
3,2013-01-01,Derivados de Petróleo,7515.175863
4,2013-01-01,Gás Natural,12300.288650
...,...,...,...
115,2018-01-01,Total,162840.079840
116,2019-01-01,Total,170118.022150
117,2020-01-01,Total,174736.512910
118,2021-01-01,Total,181609.727950


## **Colunas Persistidas**

* ano
* grupo
* total

## Backup - Copia de segurança

In [63]:
# Backup para analise
df_2_2_tratado = df_2_2_backup.copy()

# Carregamento
Depois que os dados são extraídos e transformados adequadamente, eles estarão prontos para as análise, mas antes disso eles precisam ser carregados em um local de armazenamento adequado. Podendo ser um banco de dados SQL ou NoSQL, um sistema de armazenamento em nuvem, e para o caso de disponibilizar o projeto publicamente é ideal que ele seja colocar em uma pasta de datasets, diferenciando o arquivo bruto e o tratado.

In [66]:
# Upando para o Google Cloud

df_2_2_tratado.to_excel('gs://projeto-final-ad2-e8/dados/tratados/dataset_tratados_xlsx/2_2_cap_instalada_de_geracao_eletrica_por_fonte_mw.xlsx', index=False)


# Análise exploratória de dados.
- Descrição de dados: identificação dos tipos de variáveis, dimensões dos dados, valores extremos e estatísticas descritivas.
- Visualização dos dados: criação de gráficos, tabelas e outros tipos de visualização para entender a distribuição e a relação entre as variáveis.
- Identificação de padrões: identificação de padrões, tendências, correlações e outras relações entre as variáveis.
- Testes estatísticos: aplicação de testes estatísticos para confirmar ou refutar hipóteses sobre os dados.

## Instalações de bibliotecas
bibliotecas necessárias para a análise de dados que não haviam sido importadas anteriormente.

## **Estatisticas**

In [67]:
# Resumo de estatisticas descritivas
df_2_2_backup.describe().round(2)

Unnamed: 0,total
count,120.0
mean,26456.58
std,47604.88
min,5.0
25%,2181.87
50%,5587.53
75%,14758.54
max,189126.59


In [None]:
# Correlações de todas colunas quantitativas
df_2_2_backup.corr()

In [None]:
# Distribuição de frequencia
def distfreq(dados, classes=None):
    # Verifica se o número de classes foi fornecido como parâmetro, caso
    # contrário, determina automaticamente. Se o número de dados for menor
    # ou igual a 25, define 5 classes, caso contrário, a quantidade de classes
    # será a raiz quadrada do número de de dados
    if classes is None:
        if len(dados) <= 25:
            classes = 5
        else:
            classes = round(len(dados) ** 0.5 + 0.5)
    else:
        pass

    # Ordena os dados em ordem crescente
    dados = sorted(dados)
    # Calcula a amplitude (diferença entre o maior e o menor valor)
    amplitude = max(dados) - min(dados)
    # Calcula o intervalo entre as classes
    intervalo = amplitude / classes
    # Cria uma lista para armazenar os limites dos intervalos
    intervalos = [dados[0]]
    for i in range(classes):
        intervalos.append((intervalos[i] + intervalo))

    # Imprime o cabeçalho da tabela
    print("-" * 100)
    print(f'{"Valores":^19}|{"Frequência":^19}|{"Freq. Acumulada":^19}|'
        + f'{"Frequência %":^19}|{"Freq. Acumulada %":^19}')
    print("-" * 100)

    a = 0
    b = 0

    # Laço para calcular as frequências para cada classe
    for i in range(classes):
        a = 0
        teste = f'{intervalos[i]:.2f} ---- {intervalos[i+1]:.2f}'

        # Laço para contar quantos valores estão dentro do intervalo atual
        for j in range(len(dados)):
            if dados[j] < intervalos[i + 1] + 0.000001:
                a = a + 1
            else:
                pass

        # Imprime os valores da classe atual e suas frequências
        print(f'{teste:^19}|{a - b:^19}|{a:^19}|{((a - b) / len(dados)):^19.2%}|{((a) / len(dados)):^19.2%}')

        # Atualiza o valor de b para a próxima iteração
        b = a

        # Imprime uma linha separadora
        print("-" * 100)

    # Imprime o final da tabela discriminando o total geral
    print(f'{"Total Geral":^19}|{a:^19}|{"":^19}|{"100,00%":^19}|{"":^19}')
    print("-"*100)
    return

In [None]:
# distfreq(df.loc[df.cidade == 'Londres']['preco_total'],154)

### Filtros e agrupamentos
Criar novas variáveis com base nos dados originais para permitir uma análise mais detalhada e avançada.

In [None]:
# Filtros, agrupamentos

In [None]:
filtro_2_2_Total = df_2_2_backup.loc[df_2_2_backup.grupo == 'Total']
filtro_2_2_Total

In [None]:
filtro_2_2_sem_total = df_2_2_backup.loc[df_2_2_backup.grupo != 'Total']
filtro_2_2_sem_total

In [None]:
filtro_2_2_sem_total[['grupo', 'total']]

In [None]:
filtro_2_2_sem_total.loc[:,['ano', 'grupo']]

In [73]:
# Quantidade de registros para cada grupo
df_2_2_backup.groupby('grupo')['total'].mean().sort_values(ascending=False)

grupo
Total                    158739.461997
Usinas Hidrelétricas      94826.566534
Biomassa                  14101.295956
Gás Natural               13855.010616
Usinas Eólicas            12854.442838
Derivados de Petróleo      7963.079034
PCH                        5130.946094
Carvão                     3257.530000
Outras                     2100.204987
Solar                      2057.791581
Usinas Nucleares           1990.000000
CGH                         602.594357
Name: total, dtype: float64

In [77]:
# Examinando a comparação de algumas estatisticas
estatisticas_usinas = df_2_2_backup.groupby(['grupo']).agg({'total': ['mean', 'median', 'count', 'sum']})
estatisticas_usinas.round(2)

Unnamed: 0_level_0,total,total,total,total
Unnamed: 0_level_1,mean,median,count,sum
grupo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Biomassa,14101.3,14428.67,10,141012.96
CGH,602.59,644.48,10,6025.94
Carvão,3257.53,3275.74,10,32575.3
Derivados de Petróleo,7963.08,7682.69,10,79630.79
Gás Natural,13855.01,13169.81,10,138550.11
Outras,2100.2,2193.56,10,21002.05
PCH,5130.95,5088.48,10,51309.46
Solar,2057.79,1366.45,10,20577.92
Total,158739.46,159976.13,10,1587394.62
Usinas Eólicas,12854.44,13336.77,10,128544.43


# Visualização

In [54]:
!pip install matplotlib

In [55]:
import matplotlib.pyplot as plt

In [None]:
# Grafico que visualiza qual 'tipo de quarto' esta incluido em listagens com preços altos
df_2_2_backup.groupby('grupo').plot.barh()
plt.xlabel('ano')
plt.ylabel('total')
plt.title('Teste')
plt.show()

# Conclusão
Resumo das principais conclusões e insights obtidos a partir da análise exploratória, sugestões para próximos passos da análise ou possíveis ações a serem tomadas.