In [5]:
import pandas as pd
import numpy as np
import sqldf
import datetime
import requests
import io
import zipfile
from pymongo import MongoClient
import pymongo

In [None]:
gd = pd.read_csv('https://dadosabertos.aneel.gov.br/dataset/5e0fafd2-21b9-4d5b-b622-40438d40aba2/resource/b1bd71e7-d0ad-4214-9053-cbd58e9564a7/download/empreendimento-geracao-distribuida.csv')

query = """
    SELECT gd.DthAtualizaCadastralEmpreend as data_entrada_operacao,
    gd.SigTipoGeracao as fonte,
    CASE when gd.DscFonteGeracao in ('Casca de Arroz','Resíduos Florestais','Gás de Alto Forno - Biomassa','Bagaço de Cana de Açúcar','Biogás - RU','Biogás - RA','Biogás-AGR','Biogás - Floresta') then '4.BIOMASSA'
        when gd.DscFonteGeracao in ('Gás Natural','Resíduos Sólidos Urbanos - RU','Licor Negro') then '3.TÉRM+NUC'
        when gd.DscFonteGeracao in ('Cinética do vento') then '2.EÓLICA'
        when gd.DscFonteGeracao in ('Potencial hidráulico') then '1.HIDRO+PCH'
        when gd.DscFonteGeracao in ('Radiação solar') then '5.SOLAR'
    END `segmento`,
    gd.DscFonteGeracao as combustivel,
    gd.SigAgente as agente,
    gd.DscClasseConsumo as classe_consumo,
    gd.NomRegiao as regiao,
    CASE when gd.DscModalidadeHabilitado in ('Com Microgeracao ou Minigeracao distribuida') then 'MMGD'
        when gd.DscModalidadeHabilitado in ('Caracterizada como Autoconsumo remoto') then 'Autoconsumo remoto'
        when gd.DscModalidadeHabilitado in ('Caracterizada como Geracao compartilhada','Integrante de empreendimento de Multiplas UC') then 'Geração compartilhada'
    end `Modalidade`,
    cast(gd.MdaPotenciaInstaladaKW as float)/1000 as potencia_instalada
    from gd;
    """
df_gd = sqldf.run(query)
#--------------------------------------------------------------------------------------
#tratamentos base GD
query_2 = """   
    select df_gd.data_entrada_operacao, df_gd.fonte, df_gd.segmento, df_gd.combustivel, df_gd.agente, df_gd.classe_consumo, df_gd.regiao, df_gd.Modalidade, SUM(df_gd.potencia_instalada) as `potencia_instalada`
    from df_gd
    group by df_gd.data_entrada_operacao, df_gd.fonte, df_gd.segmento
    """
new_df_gd= sqldf.run(query_2)
#--------------------------------------------------------------------------------------
# CAPACIDADE DE GERACAO CENTRALIZADA (EFETIVA)

r = requests.get('https://ons-dl-prod-opendata.s3.amazonaws.com/dataset/capacidade-geracao/CAPACIDADE_GERACAO.csv')
file = io.BytesIO(r.content)
linhas = file.readlines()

linhas = [i.strip().decode('UTF-8') for i in linhas]
linhas = [i.split(';') for i in linhas]

df = pd.DataFrame(linhas[1:], columns=linhas[0])

df.val_potenciaefetiva = pd.to_numeric(df.val_potenciaefetiva)

query_geracao = """select 
    df.dat_entradaoperacao as data_entrada_operacao,
    df.id_subsistema as subsistema,
    df.id_estado as estado,
    df.nom_agenteproprietario as agente,
    df.nom_usina as usina,
    df.nom_tipousina as tipo_usina,
    df.val_potenciaefetiva as potencia_efetiva

    from df 
    """

new_df = sqldf.run(query_geracao)
    


  exec(code_obj, self.user_global_ns, self.user_ns)


In [10]:
#exemplo de dados CVM
# BPA = balanço patrimonial ativo
# BPP = balanço patrimonial passivo
# DRE = demonstrativo de resultado

class Get_dados():
    def __init__(self, tipo_dado, ano):
        self.tipo_dado = tipo_dado.upper()
        self.ano = ano.upper()
        
    def pegar_dados(self):

        dados = f'dfp_cia_aberta_{self.tipo_dado}_con_{self.ano}.csv'
        link = f'http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/DADOS/dfp_cia_aberta_{self.ano}.zip'

        r = requests.get(link)

        file = zipfile.ZipFile(io.BytesIO(r.content))
        file = file.open(dados)
        linhas = file.readlines()
        
        linhas = [i.strip().decode('ISO-8859-1') for i in linhas]
        linhas = [i.split(';') for i in linhas]

        df = pd.DataFrame(linhas[1:], columns=linhas[0])
        
        return df
    


In [None]:
#conexão database geracao_distribuida
dic = new_df_gd.to_dict('records')
client = pymongo.MongoClient("mongodb://felan:chaos1234@ac-pxnwoy0-shard-00-00.1idqyjb.mongodb.net:27017,ac-pxnwoy0-shard-00-01.1idqyjb.mongodb.net:27017,ac-pxnwoy0-shard-00-02.1idqyjb.mongodb.net:27017/?ssl=true&replicaSet=atlas-qzkr3q-shard-0&authSource=admin&retryWrites=true&w=majority")
db = client.felan_database
cl = db.navi_capital
cl.insert_many(dic)


#conexão database geracao_centralizada
dic2 = new_df.to_dict('records')
client2 = pymongo.MongoClient("mongodb://felan:chaos1234@ac-pxnwoy0-shard-00-00.1idqyjb.mongodb.net:27017,ac-pxnwoy0-shard-00-01.1idqyjb.mongodb.net:27017,ac-pxnwoy0-shard-00-02.1idqyjb.mongodb.net:27017/?ssl=true&replicaSet=atlas-qzkr3q-shard-0&authSource=admin&retryWrites=true&w=majority")
db2 = client2.felan_database
cl2 = db2.geracao_centralizada
cl2.insert_many(dic2)


<pymongo.results.InsertManyResult at 0x7f3065c942d0>

In [7]:
#maiores empresas por faturamento
r = requests.get('https://dadosabertos.aneel.gov.br/dataset/e83c7810-0a26-4cb3-ab94-6159dafefb97/resource/59740421-aae9-4c89-a49f-d71704cd5f3a/download/agentereceitafornecimento.csv')
file = io.BytesIO(r.content)
linhas = file.readlines()

linhas = [i.strip().decode('ISO-8859-1') for i in linhas]
linhas = [i.split(',') for i in linhas]

df = pd.DataFrame(linhas[1:], columns=linhas[0])

query_receita = """

select

df.nomAgente as agente,
sum(df.mdaReceitaFornecimento) as receita_fornecimento,
df.anoReferencia as ano_referencia
from df
group by df.anoReferencia, df.nomAgente 
order by df.nomAgente desc

"""

new3 = sqldf.run(query_receita)

select = """

select * from new3
group by new3.agente

"""
receitas = sqldf.run(select)

maiores_receitas = receitas.sort_values(by=['receita_fornecimento','ano_referencia'], ascending=False)