<a href="https://colab.research.google.com/github/furlancad/PythonFinancas/blob/main/Analise_Fundamentalista_Dados_CVM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [5]:
!pip install wget
!pip install plotnine



In [6]:
import wget # biblioteca para realizar o donload de sites
import pandas as pd # biblioteca para manipulação de dados e dataframes
from zipfile import ZipFile # biblioteca para descompactar arquivos
from plotnine import * # biblioteca para criação de gráficos


In [7]:
def download_extract_concatenate_dfp_files(start_year, end_year, financial_statements):
    """
    Função para realizar o download, extração e concatenação de arquivos zipados contendo os dados
    da Demonstração Financeira Padronizada (DFP) de companhias abertas disponibilizados pela Comissão de Valores Mobiliários (CVM)

    Parâmentros:
    start_year (int): Ano inicial da coleta dos dados.
    end_year (int): Ano final da coleta dos dados.
    financial_statements (list): Lista de nomes dos arquivos de demostrativos financeiros que deseja-se concatenar.
    Consolidado: BPA_con (Balanço patrimonial ativo); BPP_con (Balanço patrimonial passivo); DRE_con (Demonstrativo de resultados);
    DFC_con (Demonstrativo de fluxo de caixa); DVA_con (Demonstrativo de valores adicionados; DFC_MI_con; DFC_MD_con; DMPL_con.

    Retorna:
    Arquivo .csv no diretório principal
    """

    url = 'http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/DADOS/'
    # Cria uma lista vazia para inserir os nomes dos arquivos zipados
    arquivo_zipado = []

    # Define o donload dos arquivos zipados de acordo com a url base
    for ano in range(start_year, end_year + 1):
        arquivo_zipado.append(f'dfp_cia_aberta_{ano}.zip')

    # Realiza o download dos arquivos zipados de acordo com a url base
    for arquivos in arquivo_zipado:
        wget.download(url + arquivos)#-#

    # Extrai os arquivos zipados
    for arquivos in arquivo_zipado:
        ZipFile(arquivos, 'r').extractall('DFP')

    # Concatena od dados dos demonstrativos financeiros em um único DataFrame
    for demons in financial_statements:
        arquivo_demonstrativo = pd.DataFrame()
        for ano in range(start_year, end_year + 1):
            arquivo_demonstrativo = pd.concat([arquivo_demonstrativo, pd.read_csv(f'DFP/dfp_cia_aberta_{demons}_{ano}.csv', sep=';', decimal=',', encoding='ISO-8859-1')])
        arquivo_demonstrativo.to_csv(f'dfp_cia_aberta_{demons}_{start_year}-{end_year}.csv', index=False)


In [8]:
# Coleta os dados da DRE
download_extract_concatenate_dfp_files(2010, 2023, ['DRE_con'])

In [9]:
# Realiza a leitura do arquivo
dre = pd.read_csv('dfp_cia_aberta_DRE_con_2010-2023.csv')

In [10]:
dre

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_INI_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA
0,00.000.000/0001-91,2010-12-31,3,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,PENÚLTIMO,2009-01-01,2009-12-31,3.01,Receitas da Intermediação Financeira,6.760851e+07,S
1,00.000.000/0001-91,2010-12-31,3,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2010-01-01,2010-12-31,3.01,Receitas da Intermediação Financeira,8.514321e+07,S
2,00.000.000/0001-91,2010-12-31,3,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,PENÚLTIMO,2009-01-01,2009-12-31,3.01.01,Receita de Juros,6.760851e+07,S
3,00.000.000/0001-91,2010-12-31,3,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2010-01-01,2010-12-31,3.01.01,Receita de Juros,8.514321e+07,S
4,00.000.000/0001-91,2010-12-31,3,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,PENÚLTIMO,2009-01-01,2009-12-31,3.02,Despesas da Intermediação Financeira,-3.930264e+07,S
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
383871,97.837.181/0001-47,2023-12-31,1,DEXCO S.A.,21091,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2023-01-01,2023-12-31,3.99.01.01,ON,9.772000e-01,N
383872,97.837.181/0001-47,2023-12-31,1,DEXCO S.A.,21091,DF Consolidado - Demonstração do Resultado,REAL,MIL,PENÚLTIMO,2022-01-01,2022-12-31,3.99.02,Lucro Diluído por Ação,0.000000e+00,N
383873,97.837.181/0001-47,2023-12-31,1,DEXCO S.A.,21091,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2023-01-01,2023-12-31,3.99.02,Lucro Diluído por Ação,0.000000e+00,N
383874,97.837.181/0001-47,2023-12-31,1,DEXCO S.A.,21091,DF Consolidado - Demonstração do Resultado,REAL,MIL,PENÚLTIMO,2022-01-01,2022-12-31,3.99.02.01,ON,1.014400e+00,N


In [18]:
# Realiza o filtro das contas contábeis do código CVM e da ordem do exercício
dados = dre[dre.CD_CONTA.isin(['3.01', # Receita de Venda de Bens e/ou Serviços
                              '3.03', # Resultado Bruto
                              '3.05', # EBIT
                              '3.11' # Lucro/Prejuízo Consolidado do Período
                              ]) & dre.CD_CVM.isin([12190, 26700, 21431, 19550]) & (dre.ORDEM_EXERC == 'ÚLTIMO')]
# Seleciona as colunas
dados = dados[['DT_REFER', 'DENOM_CIA', 'CD_CONTA', 'DS_CONTA', 'VL_CONTA']]

In [19]:
# Converte a coluna de data para datetime
dados['DT_REFER'] = pd.to_datetime(dados['DT_REFER'])

# Cria a coluna Ano
dados['Ano'] = dados['DT_REFER'].dt.year

dados_pivot = dados.pivot(index = ['Ano', 'DENOM_CIA'], columns = 'CD_CONTA', values = 'VL_CONTA')

In [20]:
dados_pivot.head()

Unnamed: 0_level_0,CD_CONTA,3.01,3.03,3.05,3.11
Ano,DENOM_CIA,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2010,BOMBRIL S.A.,804924.0,365924.0,35356.0,28317.0
2010,HYPERA S.A.,3159728.0,1806425.0,611956.0,261901.0
2010,NATURA COSMETICOS S.A.,5136712.0,3579906.0,1167906.0,744050.0
2011,BOMBRIL S.A.,845814.0,372181.0,56528.0,-19313.0
2011,HYPERA S.A.,3324630.0,2004064.0,421009.0,-54651.0


In [22]:
# Cria os indicadores
indicadores = (
    dados_pivot
    .assign(
            margem_bruta = (dados_pivot['3.03']) / (dados_pivot['3.01']) * 100,
            margem_liquida = (dados_pivot['3.11']) / (dados_pivot['3.01']) * 100,
            margem_ebit = (dados_pivot['3.05']) / (dados_pivot['3.01']) * 100
            )
)

# Retira o índice
indicadores.reset_index(inplace=True)

In [23]:
# Arredonda os valores
indicadores = indicadores.round(decimals = 3)
indicadores.head()

CD_CONTA,Ano,DENOM_CIA,3.01,3.03,3.05,3.11,margem_bruta,margem_liquida,margem_ebit
0,2010,BOMBRIL S.A.,804924.0,365924.0,35356.0,28317.0,45.461,3.518,4.392
1,2010,HYPERA S.A.,3159728.0,1806425.0,611956.0,261901.0,57.17,8.289,19.367
2,2010,NATURA COSMETICOS S.A.,5136712.0,3579906.0,1167906.0,744050.0,69.693,14.485,22.736
3,2011,BOMBRIL S.A.,845814.0,372181.0,56528.0,-19313.0,44.003,-2.283,6.683
4,2011,HYPERA S.A.,3324630.0,2004064.0,421009.0,-54651.0,60.279,-1.644,12.663


In [24]:
# Seleciona colunas e arredonda valores
indicadores = indicadores[['Ano', 'DENOM_CIA', 'margem_bruta', 'margem_liquida', 'margem_ebit']] .round(decimals = 3)
indicadores.head()

CD_CONTA,Ano,DENOM_CIA,margem_bruta,margem_liquida,margem_ebit
0,2010,BOMBRIL S.A.,45.461,3.518,4.392
1,2010,HYPERA S.A.,57.17,8.289,19.367
2,2010,NATURA COSMETICOS S.A.,69.693,14.485,22.736
3,2011,BOMBRIL S.A.,44.003,-2.283,6.683
4,2011,HYPERA S.A.,60.279,-1.644,12.663


In [25]:
indicadores_long = indicadores.melt(id_vars= ['Ano', 'DENOM_CIA'], value_name= 'indicadores')
indicadores_long

Unnamed: 0,Ano,DENOM_CIA,CD_CONTA,indicadores
0,2010,BOMBRIL S.A.,margem_bruta,45.461
1,2010,HYPERA S.A.,margem_bruta,57.170
2,2010,NATURA COSMETICOS S.A.,margem_bruta,69.693
3,2011,BOMBRIL S.A.,margem_bruta,44.003
4,2011,HYPERA S.A.,margem_bruta,60.279
...,...,...,...,...
133,2022,NATURA COSMETICOS S.A.,margem_ebit,7.840
134,2023,BOMBRIL S.A.,margem_ebit,15.530
135,2023,EUROFARMA LABORATÓRIOS S.A.,margem_ebit,15.752
136,2023,HYPERA S.A.,margem_ebit,31.812
