# Webscraping da CVM

Esse robô será feito com as seguintes etapas:

1. Função init


2. Função webscraping

    a. Verificação do diretório de destino e limpeza, caso seja necessário
    
    b. Acionar o nosso webdriver
    
    c. Determinar o intervalo de tempo que queremos baixar os arquivos
    
    d. Solicitar que o webdriver baixe os arquivos
    
    e. Vamos retirar os arquivos .csv de dentro das pastas zipadas e vamos apagar as pastas zipadas
    
    
3. Função importação

    a. Determinar quais arquivos serão abertos
    
    b. Concatenar tudo num data frame só
    
    c. Fazer adaptações necessárias e retornar o data frame final
    
    


# 1. Bibliotecas

In [54]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import zipfile
import pandas as pd
import os

# 2. Classe

In [110]:
class CVM_Extractor:

    def __init__(self, ini, fim):
        self.dir_download = os.getcwd() + '\\files' # Diretório onde está o script
        self.url = 'http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/ITR/DADOS/'
        self.ini = ini
        self.fim = fim

    def scraping_df(self):
        if os.path.isdir(self.dir_download): #Verificamos se o diretório existe
            print("Diretório Existe")
            # Caso o diretório exista, vamos limpá-lo se houver arquivos
            if(len(os.listdir(self.dir_download))>0):
                for i in os.listdir(self.dir_download):
                    print("Removendo arquivo ", i)
                    os.remove(f'{self.dir_download}/{i}')

        else:
            print("Diretório não existe")
            # Cria diretório que não existia
            os.mkdir(self.dir_download)

        chrome_options= webdriver.ChromeOptions()
        prefs = {'download.default_directory':self.dir_download}
        chrome_options.add_experimental_option('prefs', prefs)
        driver = webdriver.Chrome(options=chrome_options)

        print('Passo 1 de 4 - Extração dos arquivos zipados da CVM')
        driver.get(self.url)

        ano_ini = int(self.ini[-4:])
        ano_fim = int(self.fim[-4:])
        c = 2 + (ano_ini - 2011)
        cf = 2 + (ano_fim - 2011)

        while True:
            try:
                driver.find_element(By.XPATH, f'/html/body/div[1]/pre/a[{c}]').click()
                time.sleep(3)
                c += 1
                if c == cf:
                    break
            except:
                break

        while True:
            if len([x for x in os.listdir(self.dir_download) if ('.zip.crdownload' in x)]) > 0:
                pass
            else:
                break

        print('Passo 2 de 4 - Download dos arquivos concluído')
        print('Passo 3 de 4 - Iniciando processo de Unzip das pastas')

        extension = '.zip'
        for item in os.listdir(self.dir_download): # Loop para percorrer todos os arquivos que estão na pasta "files"
            if item.endswith(extension): # Verifica se o arquivo é .zip
                #self.dir_download = os.path.abspath(self.dir_download)
                zipref = zipfile.ZipFile(self.dir_download + '\\' + item) # Criando objeto zipfile
                zipref.extractall(self.dir_download) # Extraindo arquivo para diretório
                zipref.close() # Fecha o arquivo zipado
                os.remove(self.dir_download + '\\' + item) # Deleta cada um dos zips

        print('Passo 4 de 4 - Todos os arquivos .csv foram unzipados')
        driver.quit()


    def import_df(self, dfp, extract = True):
        if extract == True:
            self.scraping_df()
        elif extract == False:
            pass
        
        print('Iniciando processo de unificação dos balanços conforme período selecionado')
        filename = []

        ini = self.ini
        fim = self.fim

        ano_ini = ini[-4:]
        ano_fim = fim[-4:]

        if ano_ini == ano_fim:
            periodo = [ano_ini, None]
        else:
            periodo = [ano_ini, ano_fim]
            lista_anos = list(range(int(periodo[0]), int(periodo[1])+1))


        for d in dfp:
            for p in lista_anos:
                filename += [x for x in os.listdir(self.dir_download) if (d in x) and (str(p) in x)]

        for i in filename:
            df = pd.read_csv(f"{self.dir_download}\\{i}", sep = ';', encoding = 'cp1252')
            try:
                df_concat = pd.concat([df_concat,df], ignore_index = True)
            except:
                df_concat = df

        df_concat['DT_INI_EXERC'] = pd.to_datetime(df_concat['DT_INI_EXERC'], format = ('%Y-%m-%d'))
        df_concat['DT_FIM_EXERC'] = pd.to_datetime(df_concat['DT_FIM_EXERC'], format = ('%Y-%m-%d'))
        df_concat['DT_REFER'] = pd.to_datetime(df_concat['DT_REFER'], format = ('%Y-%m-%d'))

        ini_log =  f'{ini[-4:]}-{ini[3:5]}-{ini[0:2]}'
        fim_log =  f'{fim[-4:]}-{fim[3:5]}-{fim[0:2]}'

        df_final = df_concat.loc[(df_concat['DT_FIM_EXERC'] >= ini_log) & (df_concat['DT_FIM_EXERC'] <= fim_log)]

        print('Formatando dados para melhor visualização')
        
        df = df_final.pivot_table(index=['CNPJ_CIA', 'DENOM_CIA', 'CD_CVM', 'DT_REFER'], columns='CD_CONTA', values='VL_CONTA')
        filtro_indicadores = ['3.01', '3.02', '3.03', '3.04', '3.05', '3.06', '3.07', '3.11', '3.99']
        df_formatado = df.filter(items=filtro_indicadores, axis=1)

        indicadores_dict = {'3.01': 'Receita',
                            '3.02': 'Despes',
                            '3.03': 'Resultado Bruto',
                            '3.04': 'Despesas/Receitas Operacionais',
                            '3.05': 'EBITDA',
                            '3.06': 'Resultado Financeiro',
                            '3.07': 'EBIT',
                            '3.11':	'Lucro/Prejuízo do Período',
                            '3.99': 'Lucro por Ação'}

        df_formatado = df_formatado.rename(columns=indicadores_dict)

        print('Dataframe finalizado')
        return df_final, df_formatado
    
        

In [115]:
dre, dre_formadato = CVM_Extractor('01/01/2021','01/01/2024').import_df(['DRE'], True)

Diretório Existe
Passo 1 de 4 - Extração dos arquivos zipados da CVM
Passo 2 de 4 - Download dos arquivos concluído
Passo 3 de 4 - Iniciando processo de Unzip das pastas
Passo 4 de 4 - Todos os arquivos .csv foram unzipados
Iniciando processo de unificação dos balanços conforme período selecionado
Formatando dados para melhor visualização
Dataframe finalizado


In [116]:
dre

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_INI_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA
1,00.001.180/0001-26,2021-03-31,2,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2021-01-01,2021-03-31,3.01,Receita de Venda de Bens e/ou Serviços,8.208426e+06,S
3,00.001.180/0001-26,2021-03-31,2,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2021-01-01,2021-03-31,3.02,Custo dos Bens e/ou Serviços Vendidos,-2.938607e+06,S
5,00.001.180/0001-26,2021-03-31,2,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2021-01-01,2021-03-31,3.02.01,Energia comprada para revenda,-4.993160e+05,N
7,00.001.180/0001-26,2021-03-31,2,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2021-01-01,2021-03-31,3.02.02,Encargos sobre uso da rede elétrica,-4.556680e+05,N
9,00.001.180/0001-26,2021-03-31,2,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2021-01-01,2021-03-31,3.02.03,Combustível para produção de energia elétrica,-5.373370e+05,N
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1189047,97.837.181/0001-47,2023-09-30,1,DEXCO S.A.,21091,DF Individual - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2023-07-01,2023-09-30,3.99.02,Lucro Diluído por Ação,0.000000e+00,N
1189048,97.837.181/0001-47,2023-09-30,1,DEXCO S.A.,21091,DF Individual - Demonstração do Resultado,REAL,MIL,PENÚLTIMO,2022-01-01,2022-09-30,3.99.02.01,ON,7.384000e-01,N
1189049,97.837.181/0001-47,2023-09-30,1,DEXCO S.A.,21091,DF Individual - Demonstração do Resultado,REAL,MIL,PENÚLTIMO,2022-07-01,2022-09-30,3.99.02.01,ON,2.091000e-01,N
1189050,97.837.181/0001-47,2023-09-30,1,DEXCO S.A.,21091,DF Individual - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2023-01-01,2023-09-30,3.99.02.01,ON,7.435000e-01,N


In [117]:
dre_formadato

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,CD_CONTA,Receita,Despes,Resultado Bruto,Despesas/Receitas Operacionais,EBITDA,Resultado Financeiro,EBIT,Lucro/Prejuízo do Período,Lucro por Ação
CNPJ_CIA,DENOM_CIA,CD_CVM,DT_REFER,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
00.000.000/0001-91,BCO BRASIL S.A.,1023,2021-03-31,3.118638e+07,-2.226020e+07,8.926178e+06,-4.917734e+06,4.008444e+06,666660.000,4.675104e+06,4157202.000,1.4600
00.000.000/0001-91,BCO BRASIL S.A.,1023,2021-06-30,3.172875e+07,-1.384030e+07,1.788845e+07,-9.324739e+06,8.563714e+06,71586.000,8.635300e+06,7645832.000,2.6800
00.000.000/0001-91,BCO BRASIL S.A.,1023,2021-09-30,6.380887e+07,-4.447955e+07,1.932933e+07,-8.163990e+06,1.116534e+07,-546915.000,1.061842e+07,9403715.500,3.2950
00.000.000/0001-91,BCO BRASIL S.A.,1023,2022-03-31,3.486441e+07,-2.249503e+07,1.236938e+07,-7.216248e+06,5.153130e+06,122453.500,5.275584e+06,4933498.500,0.9400
00.000.000/0001-91,BCO BRASIL S.A.,1023,2022-06-30,5.890404e+07,-3.783798e+07,2.106606e+07,-1.034619e+07,1.071987e+07,-1104248.250,9.615619e+06,9018787.500,1.6225
...,...,...,...,...,...,...,...,...,...,...,...,...
97.837.181/0001-47,DEXCO S.A.,21091,2022-06-30,2.648553e+06,-1.777975e+06,8.705784e+05,-1.282146e+05,7.423638e+05,6526.625,7.488904e+05,541938.875,0.0000
97.837.181/0001-47,DEXCO S.A.,21091,2022-09-30,3.618941e+06,-2.441286e+06,1.177655e+06,-3.768995e+05,8.007556e+05,-78354.875,7.224008e+05,525213.125,0.0000
97.837.181/0001-47,DEXCO S.A.,21091,2023-03-31,1.664315e+06,-1.131760e+06,5.325552e+05,-1.899555e+05,3.425998e+05,-134044.750,2.085550e+05,187322.000,0.0000
97.837.181/0001-47,DEXCO S.A.,21091,2023-06-30,2.606599e+06,-1.811617e+06,7.949819e+05,-3.260616e+05,4.689202e+05,-193696.000,2.752242e+05,256994.250,0.0000


In [124]:
dre_formadato.loc['00.000.000/0001-91']

Unnamed: 0_level_0,Unnamed: 1_level_0,CD_CONTA,Receita,Despes,Resultado Bruto,Despesas/Receitas Operacionais,EBITDA,Resultado Financeiro,EBIT,Lucro/Prejuízo do Período,Lucro por Ação
DENOM_CIA,CD_CVM,DT_REFER,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
BCO BRASIL S.A.,1023,2021-03-31,31186380.0,-22260200.0,8926178.0,-4917734.0,4008444.0,666660.0,4675104.0,4157202.0,1.46
BCO BRASIL S.A.,1023,2021-06-30,31728750.0,-13840300.0,17888450.0,-9324739.0,8563714.0,71586.0,8635300.0,7645832.0,2.68
BCO BRASIL S.A.,1023,2021-09-30,63808870.0,-44479550.0,19329330.0,-8163990.0,11165340.0,-546915.0,10618420.0,9403716.0,3.295
BCO BRASIL S.A.,1023,2022-03-31,34864410.0,-22495030.0,12369380.0,-7216248.0,5153130.0,122453.5,5275584.0,4933498.0,0.94
BCO BRASIL S.A.,1023,2022-06-30,58904040.0,-37837980.0,21066060.0,-10346190.0,10719870.0,-1104248.25,9615619.0,9018788.0,1.6225
BCO BRASIL S.A.,1023,2022-09-30,90029210.0,-62166400.0,27862810.0,-13035810.0,14826990.0,-2156958.0,12670040.0,11880270.0,2.14875
BCO BRASIL S.A.,1023,2023-03-31,52310570.0,-36923900.0,15386670.0,-7314910.0,8071761.0,-846743.5,7225018.0,6750808.0,1.2875
BCO BRASIL S.A.,1023,2023-06-30,88729570.0,-64449670.0,24279900.0,-9342220.0,14937680.0,-2342412.0,12595270.0,11848150.0,3.9
BCO BRASIL S.A.,1023,2023-09-30,126439000.0,-93048310.0,33390690.0,-13079610.0,20311080.0,-3314244.375,16996840.0,15978620.0,7.9625
