In [144]:
# Estudar as planilhas baixadas.

<h1 style='font-size:40px'> Stock Price Variation Predictor</h1>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            The present project aims to create a stock price variation predictor using the  BOVESPA corporations' fundamentals. 
        </li>
        <li> 
            The model must estimate the given quarter's 80th percentile variation using the financial statements from the previous quarter.
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Building the dataset</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Unlike most of the ML projects out there, in this one we'll face the challenge of making the dataset with which our models will carry out their predictions.
        </li>
        <li> 
            We are going to use wget in order to download the files and extract the financial statements.
        </li>
    </ul>
</div>

<a href='https://www.youtube.com/watch?v=LCMgVO1BOVQ&t=659s'> Link Tutorial</a>

In [58]:
import wget
import pandas as pd
from datetime import date
from zipfile import ZipFile
from pathlib import Path
import os

# The data source to the financial statements is going to be the URL below.
data_source = 'http://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/ITR/DADOS/'

# Listing the documents from all years available, not including the current one.
current_year = date.today().year
zip_files = [f'itr_cia_aberta_{year}.zip' for year in range(2011, current_year)]

# Downloading the files and extracting their contents.
for file in zip_files:
    wget.download(data_source + file)
    with ZipFile(file, 'r') as zip_file:
        zip_file.extractall('Statements')
    # After the extraction is completed, we are able to delete the zip file.
    os.remove(file)
    
# The zip files contained two kinds of reports, the ones with '_con_' and others with '_ind_' in their names.
# Since we are going to use only the first sort of document, we'll remove the '_ind_' ones,
for file in Path('Statements').iterdir():
    if '_ind_' in file.name:
        os.remove(file)

In [20]:
with open('.gitignore', 'w') as git:
    for file in os.listdir('Statements'):
        git.write(f'Statements/{file}\n')
        
git.close()

<h3 style='font-size:30px;font-style:italic'> itr_cia_aberta</h3>

In [35]:
pd.read_csv('Statements/itr_cia_aberta_BPA_ind_2011.csv', encoding='ISO-8859-1', sep=';')['DS_CONTA'].head(3)

0         Ativo Total
1         Ativo Total
2    Ativo Circulante
Name: DS_CONTA, dtype: object

In [28]:
pd.read_csv('Statements/itr_cia_aberta_BPA_ind_2012.csv', encoding='ISO-8859-1', sep=';').head(3)

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA
0,00.000.000/0001-91,2012-03-31,1,BCO BRASIL S.A.,1023,DF Individual - Balanço Patrimonial Ativo,REAL,MIL,PENÚLTIMO,2011-12-31,1.0,Ativo Total,890352257.0,S
1,00.000.000/0001-91,2012-03-31,1,BCO BRASIL S.A.,1023,DF Individual - Balanço Patrimonial Ativo,REAL,MIL,ÚLTIMO,2012-03-31,1.0,Ativo Total,913866693.0,S
2,00.000.000/0001-91,2012-03-31,1,BCO BRASIL S.A.,1023,DF Individual - Balanço Patrimonial Ativo,REAL,MIL,PENÚLTIMO,2011-12-31,1.01,Ativo Circulante,518716710.0,S


<h3 style='font-size:30px;font-style:italic'> BPA</h3>

In [63]:
pd.read_csv('Statements/itr_cia_aberta_BPA_con_2011.csv', encoding='ISO-8859-1', sep=';',parse_dates=['DT_FIM_EXERC']).head(3)

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA
0,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Balanço Patrimonial Ativo,REAL,MIL,PENÚLTIMO,2010-12-31,1.0,Ativo Total,146901002.0,S
1,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Balanço Patrimonial Ativo,REAL,MIL,ÚLTIMO,2011-03-31,1.0,Ativo Total,149751700.0,S
2,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Balanço Patrimonial Ativo,REAL,MIL,PENÚLTIMO,2010-12-31,1.01,Ativo Circulante,32805947.0,S


<h3 style='font-size:30px;font-style:italic'> BPP</h3>

In [29]:
pd.read_csv('Statements/itr_cia_aberta_BPP_con_2011.csv', encoding='ISO-8859-1', sep=';').head(3)

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA
0,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Balanço Patrimonial Passivo,REAL,MIL,PENÚLTIMO,2010-12-31,2.0,Passivo Total,146901002.0,S
1,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Balanço Patrimonial Passivo,REAL,MIL,ÚLTIMO,2011-03-31,2.0,Passivo Total,149751700.0,S
2,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Balanço Patrimonial Passivo,REAL,MIL,PENÚLTIMO,2010-12-31,2.01,Passivo Circulante,18369509.0,S


<h3 style='font-size:30px;font-style:italic'> DFC_MD</h3>

In [31]:
pd.read_csv('Statements/itr_cia_aberta_DFC_MD_con_2011.csv', encoding='ISO-8859-1', sep=';').head(3)

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_INI_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA
0,00.070.698/0001-11,2011-03-31,1,CIA ENERGETICA DE BRASILIA,14451,DF Consolidado - Demonstração do Fluxo de Caix...,REAL,MIL,PENÚLTIMO,2010-01-01,2010-03-31,6.01,Caixa Líquido Atividades Operacionais,14679.0,S
1,00.070.698/0001-11,2011-03-31,1,CIA ENERGETICA DE BRASILIA,14451,DF Consolidado - Demonstração do Fluxo de Caix...,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,6.01,Caixa Líquido Atividades Operacionais,18238.0,S
2,00.070.698/0001-11,2011-03-31,1,CIA ENERGETICA DE BRASILIA,14451,DF Consolidado - Demonstração do Fluxo de Caix...,REAL,MIL,PENÚLTIMO,2010-01-01,2010-03-31,6.01.01,Recebimento de Consumidores,472870.0,N


<h3 style='font-size:30px;font-style:italic'> DFC_MI</h3>

In [39]:
pd.read_csv('Statements/itr_cia_aberta_DFC_MI_con_2011.csv', encoding='ISO-8859-1', sep=';').head(3)

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_INI_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA
0,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Fluxo de Caix...,REAL,MIL,PENÚLTIMO,2010-01-01,2010-03-31,6.01,Caixa Líquido Atividades Operacionais,1619666.0,S
1,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Fluxo de Caix...,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,6.01,Caixa Líquido Atividades Operacionais,1189117.0,S
2,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Fluxo de Caix...,REAL,MIL,PENÚLTIMO,2010-01-01,2010-03-31,6.01.01,Caixa Gerado nas Operações,2407485.0,S


<h3 style='font-size:30px;font-style:italic'> DMPL</h3>

In [40]:
pd.read_csv('Statements/itr_cia_aberta_DMPL_con_2011.csv', encoding='ISO-8859-1', sep=';').head(3)

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_INI_EXERC,DT_FIM_EXERC,COLUNA_DF,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA
0,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração das Mutações do ...,REAL,MIL,PENÚLTIMO,2010-01-01,2010-03-31,Capital Social Integralizado,5.01,Saldos Iniciais,26156567.0,S
1,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração das Mutações do ...,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,Capital Social Integralizado,5.01,Saldos Iniciais,26156567.0,S
2,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração das Mutações do ...,REAL,MIL,PENÚLTIMO,2010-01-01,2010-03-31,"Reservas de Capital, Opções Outorgadas e Ações...",5.01,Saldos Iniciais,26048342.0,S


<h3 style='font-size:30px;font-style:italic'> DRA</h3>

In [41]:
pd.read_csv('Statements/itr_cia_aberta_DRA_con_2011.csv', encoding='ISO-8859-1', sep=';').head(3)

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_INI_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA
0,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração de Resultado Abr...,REAL,MIL,PENÚLTIMO,2010-01-01,2010-03-31,4.01,Lucro Líquido Consolidado do Período,0.0,S
1,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração de Resultado Abr...,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,4.01,Lucro Líquido Consolidado do Período,0.0,S
2,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração de Resultado Abr...,REAL,MIL,PENÚLTIMO,2010-01-01,2010-03-31,4.02,Outros Resultados Abrangentes,0.0,S


<h3 style='font-size:30px;font-style:italic'> DRE</h3>

In [42]:
pd.read_csv('Statements/itr_cia_aberta_DRE_con_2011.csv', encoding='ISO-8859-1', sep=';').head(3)

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_INI_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA
0,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,PENÚLTIMO,2010-01-01,2010-03-31,3.01,Receita de Venda de Bens e/ou Serviços,6159172.0,S
1,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,3.01,Receita de Venda de Bens e/ou Serviços,8551982.0,S
2,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,PENÚLTIMO,2010-01-01,2010-03-31,3.02,Custo dos Bens e/ou Serviços Vendidos,-960060.0,S


<h3 style='font-size:30px;font-style:italic'> DVA</h3>

In [79]:
#f = lambda x: x[x['ORDEM_EXERC']=='ÚLTIMO']
pd.read_csv('Statements/itr_cia_aberta_DVA_con_2011.csv', encoding='ISO-8859-1', sep=';')#.apply(f, axis=1)#.head(3)

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_INI_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA
0,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração de Valor Adicionado,REAL,MIL,PENÚLTIMO,2010-01-01,2010-03-31,7.01,Receitas,6354944.0,S
1,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração de Valor Adicionado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,7.01,Receitas,8753827.0,S
2,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração de Valor Adicionado,REAL,MIL,PENÚLTIMO,2010-01-01,2010-03-31,7.01.01,"Vendas de Mercadorias, Produtos e Serviços",6156290.0,S
3,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração de Valor Adicionado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,7.01.01,"Vendas de Mercadorias, Produtos e Serviços",8551982.0,S
4,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração de Valor Adicionado,REAL,MIL,PENÚLTIMO,2010-01-01,2010-03-31,7.01.02,Outras Receitas,198654.0,S
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
89505,97.837.181/0001-47,2011-09-30,1,DURATEX S.A.,21091,DF Consolidado - Demonstração de Valor Adicionado,REAL,MIL,ÚLTIMO,2011-01-01,2011-09-30,7.08.04.03,Lucros Retidos / Prejuízo do Período,187980.0,S
89506,97.837.181/0001-47,2011-09-30,1,DURATEX S.A.,21091,DF Consolidado - Demonstração de Valor Adicionado,REAL,MIL,PENÚLTIMO,2010-01-01,2010-09-30,7.08.04.04,Part. Não Controladores nos Lucros Retidos,283.0,S
89507,97.837.181/0001-47,2011-09-30,1,DURATEX S.A.,21091,DF Consolidado - Demonstração de Valor Adicionado,REAL,MIL,ÚLTIMO,2011-01-01,2011-09-30,7.08.04.04,Part. Não Controladores nos Lucros Retidos,525.0,S
89508,97.837.181/0001-47,2011-09-30,1,DURATEX S.A.,21091,DF Consolidado - Demonstração de Valor Adicionado,REAL,MIL,PENÚLTIMO,2010-01-01,2010-09-30,7.08.05,Outros,0.0,S
