## Aqui fazemos a primeira etapa do code, onde é feito o processamento dos dados baixados da ação correspondente, direto do site da Fundamentus. São explicados todos os passos do processamento. 

In [1]:
import numpy as np
import pandas as pd
import pandas_datareader.data as web
from datetime import datetime
import yfinance as yf
from fancyimpute import KNN


pd.set_option('display.width', 1000)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

Using TensorFlow backend.


# DADOS FUNDAMENTALISTAS - FUNDAMENTUS

Ao fazer o download do site da Fundamentus, os dados vem em formato excel, então pegamos e convertemos facilmente para cvs.

Aqui trazemos o csv da ação para o notebook. Ele necessita do ".T" para que ele faça uma transposição, pois os atributos estavam nas linhas e as amostras nas colunas, assim invertemos isso, ficando no formato convencional utilizado.

Após, dropamos uma coluna inútil.

A coluna que mostra as datas, que estão separadas por trimestre, fica com um título NaN e está na primeira posição das colunas, assim precisamos atribuir o devido nome a coluna.

Assim, criamos uma coluna chamada "Data Trimeste", ao que lhe é atribuida as datas, e na sequência deletamos a coluna com o títlo NaN, através do iloc que engloba apenas colunas que tenham título "notnull"(naõ nulos).


A coluna "Data Trimestre" fica posicionada como última coluna do dataset, para ficar mais claro, apagamos, colocamos em uma variavel auxiliar, e a inserimos na primeira posição das colunas.

In [2]:
########################## COMEÇA O CÓDIGO QUE EXTRAI OS DADOS FUNDAMENTALISTAS ##########################

fundamental_data = pd.read_csv("petr4.csv",index_col=0, header=None).T
fundamental_data.drop(columns = 'XLSWrite 1.34 Copyright(c) 1999,2000 Axolot Data', inplace = True)


fundamental_data['Data Trimestre'] = fundamental_data.iloc[0:,0]
fundamental_data = fundamental_data.iloc[:, fundamental_data.columns.notnull()]

data = fundamental_data['Data Trimestre']
fundamental_data.drop(labels=['Data Trimestre'], axis=1,inplace = True)
fundamental_data.insert(0, 'Data Trimestre', data)


fundamental_data.head()

Unnamed: 0,Data Trimestre,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa AC,Aplicações Financeiras AC,Contas a Receber AC,Estoques AC,Ativos Biológicos AC,Tributos a Recuperar AC,Despesas Antecipadas AC,Outros Ativos Circulantes AC,Ativo Realizavel Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo ACLP,Aplicações Financeiras Avaliadas ao Custo Amortizado ACLP,Contas a Receber ACLP,Estoques ACLP,Ativos Biológicos ACLP,Tributos Diferidos ACLP,Despesas Antecipadas ACLP,Créditos com Partes Relacionadas ACLP,Outros Ativos Não Circulantes ACLP,Investimentos,Imobilizado,Intangível,Diferido,Passivo Total,Passivo Circulante,Obrigações Sociais e Trabalhistas PC,Fornecedores PC,Obrigações Fiscais PC,Empréstimos e Financiamentos PC,Passivos com Partes Relacionadas PC,Dividendos e JCP a Pagar PC,Outros PC,Provisões PC,Passivos sobre Ativos Não-Correntes a Venda e Descontinuados PC,Passivo Não Circulante,Empréstimos e Financiamentos PNC,Passivos com Partes Relacionadas PNC,Outros PNC,Tributos Diferidos PNC,Adiantamento para Futuro Aumento Capital PNC,Provisões PNC,Passivos sobre Ativos Não-Correntes a Venda e Descontinuados PNC,Lucros e Receitas a Apropriar PNC,Participação dos Acionistas Não Controladores,Patrimônio Líquido,Capital Social Realizado,Reservas de Capital,Reservas de Reavaliação,Reservas de Lucros,Lucros/Prejuízos Acumulados,Ajustes de Avaliação Patrimonial,Ajustes Acumulados de Conversão,Outros Resultados Abrangentes,Adiantamento para Futuro Aumento Capital
1,30/06/2019,965.248.025,181.333.000,64.051.999,2.456.000,15.509.000,34.237.999,0,9.026.000,0,56.051.999,81.959.002,0,0,200.0,18.808.001,0,0,23.495.000,0,0,14.584.001,677.471.977,9.900.000,0,965.248.025,138.346.004,6.511.000,21.831.999,4.286.000,44.380.000,0,1.272.000,23.719.001,14.335.000,22.011.001,517.483.987,342.782.018,0,2.089.000,14.698.000,0,157.915.005,0,0,5.799.000,303.619.000,205.431.996,2.458.000,0,116.955.996,0,0,0,-21.227.000,0
2,31/03/2019,949.086.978,130.604.999,36.475.998,4.370.000,19.335.999,32.962.001,0,8.299.000,0,29.162.000,87.135.003,0,0,203.0,20.657.000,0,0,24.345.000,0,0,11.266.000,709.226.988,10.854.000,0,949.086.978,113.538.998,7.082.000,22.912.000,1.464.000,36.082.999,0,4.356.000,21.135.000,16.550.000,3.957.000,546.516.992,376.995.021,0,2.115.000,2.563.000,0,164.843.995,0,0,6.372.000,282.658.996,205.431.996,2.458.000,0,99.398.001,0,0,0,-24.629.000,0
3,31/12/2018,860.473.000,143.606.006,53.853.999,4.198.000,22.264.001,34.822.001,0,7.883.000,0,20.585.001,85.477.999,0,0,205.0,21.280.999,0,0,24.100.999,0,0,10.690.000,609.828.995,10.870.000,0,860.473.000,97.067.999,6.426.000,24.516.000,817.000,14.296.001,0,4.296.000,26.279.000,16.630.000,3.808.000,479.862.030,312.580.014,0,2.139.000,2.536.000,0,162.607.006,0,0,6.318.000,277.225.011,205.431.996,2.458.000,0,95.363.998,0,0,0,-26.029.001,0
4,30/09/2018,866.755.936,150.200.992,56.803.000,4.164.000,25.660.000,38.864.998,0,9.441.000,0,15.268.000,81.576.002,0,0,199.0,17.827.000,0,0,25.684.001,0,0,13.396.000,610.728.018,10.855.000,0,866.755.936,94.071.996,6.781.000,27.458.001,1.514.000,16.235.000,0,0,26.862.000,15.070.000,152.000,476.508.979,336.566.026,0,2.161.000,1.745.000,0,136.036.991,0,0,5.810.000,290.365.010,205.431.996,2.457.000,0,98.726.003,0,0,0,-16.250.000,0
5,30/06/2018,850.281.955,144.255.009,65.536.000,4.060.000,19.385.000,35.534.000,0,9.006.000,0,10.734.000,80.529.998,0,0,200.0,19.090.999,0,0,25.615.999,0,0,12.287.000,605.484.024,7.726.000,0,850.281.955,84.649.001,6.013.000,20.768.999,1.648.000,15.353.000,0,0,25.497.999,15.203.000,165.000,478.184.997,338.270.028,0,2.180.000,1.637.000,0,136.097.997,0,0,5.309.000,282.139.006,205.431.996,2.457.000,0,92.760.998,0,0,0,-18.511.000,0


Aqui é o processo de manipulação das datas, muito importante na execução do code.

Primeiro utilizamos pd.to_datetime, função própria do Pandas para que ele entenda o formato e de que se trata de informações sobre data.

Subdividimos em colunas distintas, informações sobre "Dia", "Mês" e "Ano", logo a coluna "Data Trimestre" já não nos era mais útil.

Assim, novamente colocamos as três novas colunas em váriaveis auxiliares, para posiciona-las nas primeiras colunas do dataset.

In [3]:

fundamental_data['Data Trimestre'] = pd.to_datetime(fundamental_data['Data Trimestre'].str.strip(), format='%d/%m/%Y')


fundamental_data["Day"] = fundamental_data['Data Trimestre'].map(lambda x: x.day)
fundamental_data["Month"] = fundamental_data['Data Trimestre'].map(lambda x: x.month)
fundamental_data["Year"] = fundamental_data['Data Trimestre'].map(lambda x: x.year)

fundamental_data.drop(columns = 'Data Trimestre', inplace = True)

year = fundamental_data['Year']
fundamental_data.drop(labels=['Year'], axis=1,inplace = True)
fundamental_data.insert(0, 'Year', year)

month = fundamental_data['Month']
fundamental_data.drop(labels=['Month'], axis=1,inplace = True)
fundamental_data.insert(1, 'Month', month)

day = fundamental_data['Day']
fundamental_data.drop(labels=['Day'], axis=1,inplace = True)
fundamental_data.insert(2, 'Day', day)


fundamental_data.head()

Unnamed: 0,Year,Month,Day,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa AC,Aplicações Financeiras AC,Contas a Receber AC,Estoques AC,Ativos Biológicos AC,Tributos a Recuperar AC,Despesas Antecipadas AC,Outros Ativos Circulantes AC,Ativo Realizavel Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo ACLP,Aplicações Financeiras Avaliadas ao Custo Amortizado ACLP,Contas a Receber ACLP,Estoques ACLP,Ativos Biológicos ACLP,Tributos Diferidos ACLP,Despesas Antecipadas ACLP,Créditos com Partes Relacionadas ACLP,Outros Ativos Não Circulantes ACLP,Investimentos,Imobilizado,Intangível,Diferido,Passivo Total,Passivo Circulante,Obrigações Sociais e Trabalhistas PC,Fornecedores PC,Obrigações Fiscais PC,Empréstimos e Financiamentos PC,Passivos com Partes Relacionadas PC,Dividendos e JCP a Pagar PC,Outros PC,Provisões PC,Passivos sobre Ativos Não-Correntes a Venda e Descontinuados PC,Passivo Não Circulante,Empréstimos e Financiamentos PNC,Passivos com Partes Relacionadas PNC,Outros PNC,Tributos Diferidos PNC,Adiantamento para Futuro Aumento Capital PNC,Provisões PNC,Passivos sobre Ativos Não-Correntes a Venda e Descontinuados PNC,Lucros e Receitas a Apropriar PNC,Participação dos Acionistas Não Controladores,Patrimônio Líquido,Capital Social Realizado,Reservas de Capital,Reservas de Reavaliação,Reservas de Lucros,Lucros/Prejuízos Acumulados,Ajustes de Avaliação Patrimonial,Ajustes Acumulados de Conversão,Outros Resultados Abrangentes,Adiantamento para Futuro Aumento Capital
1,2019,6,30,965.248.025,181.333.000,64.051.999,2.456.000,15.509.000,34.237.999,0,9.026.000,0,56.051.999,81.959.002,0,0,200.0,18.808.001,0,0,23.495.000,0,0,14.584.001,677.471.977,9.900.000,0,965.248.025,138.346.004,6.511.000,21.831.999,4.286.000,44.380.000,0,1.272.000,23.719.001,14.335.000,22.011.001,517.483.987,342.782.018,0,2.089.000,14.698.000,0,157.915.005,0,0,5.799.000,303.619.000,205.431.996,2.458.000,0,116.955.996,0,0,0,-21.227.000,0
2,2019,3,31,949.086.978,130.604.999,36.475.998,4.370.000,19.335.999,32.962.001,0,8.299.000,0,29.162.000,87.135.003,0,0,203.0,20.657.000,0,0,24.345.000,0,0,11.266.000,709.226.988,10.854.000,0,949.086.978,113.538.998,7.082.000,22.912.000,1.464.000,36.082.999,0,4.356.000,21.135.000,16.550.000,3.957.000,546.516.992,376.995.021,0,2.115.000,2.563.000,0,164.843.995,0,0,6.372.000,282.658.996,205.431.996,2.458.000,0,99.398.001,0,0,0,-24.629.000,0
3,2018,12,31,860.473.000,143.606.006,53.853.999,4.198.000,22.264.001,34.822.001,0,7.883.000,0,20.585.001,85.477.999,0,0,205.0,21.280.999,0,0,24.100.999,0,0,10.690.000,609.828.995,10.870.000,0,860.473.000,97.067.999,6.426.000,24.516.000,817.000,14.296.001,0,4.296.000,26.279.000,16.630.000,3.808.000,479.862.030,312.580.014,0,2.139.000,2.536.000,0,162.607.006,0,0,6.318.000,277.225.011,205.431.996,2.458.000,0,95.363.998,0,0,0,-26.029.001,0
4,2018,9,30,866.755.936,150.200.992,56.803.000,4.164.000,25.660.000,38.864.998,0,9.441.000,0,15.268.000,81.576.002,0,0,199.0,17.827.000,0,0,25.684.001,0,0,13.396.000,610.728.018,10.855.000,0,866.755.936,94.071.996,6.781.000,27.458.001,1.514.000,16.235.000,0,0,26.862.000,15.070.000,152.000,476.508.979,336.566.026,0,2.161.000,1.745.000,0,136.036.991,0,0,5.810.000,290.365.010,205.431.996,2.457.000,0,98.726.003,0,0,0,-16.250.000,0
5,2018,6,30,850.281.955,144.255.009,65.536.000,4.060.000,19.385.000,35.534.000,0,9.006.000,0,10.734.000,80.529.998,0,0,200.0,19.090.999,0,0,25.615.999,0,0,12.287.000,605.484.024,7.726.000,0,850.281.955,84.649.001,6.013.000,20.768.999,1.648.000,15.353.000,0,0,25.497.999,15.203.000,165.000,478.184.997,338.270.028,0,2.180.000,1.637.000,0,136.097.997,0,0,5.309.000,282.139.006,205.431.996,2.457.000,0,92.760.998,0,0,0,-18.511.000,0


Essa é uma parte bem crítica, resetamos o índice(para que ele fique com a contagem correta de 0 até o total de linhas). E você deve estar se perguntando: por quê pegar o dataset a partir da 4 posição ?

Esse dataset está em formato descrescente com base nas datas, então, la no final do projeto, quando formos comparar os algortimos de classificação com a série temporal, para validação temos que comparar com dados que já ocorreram, par ter uma noção do desempenho.

Lembrando que se pegassemos de 0:, nesse caso, ele ia predizer dados a partir do 3T de 2018 até o 3T de 2019, sendo que o TCC estava sendo feito nessa época, então não tinhamos os dados reais necessarios para comparação, então por fins logisticos, reduzimos a ánalise um ano antes, para ao final do trabalho, quando compararmos os fundamentus e os algortimos de classificação com as séries temporais e a LSTM tenhamos tranquilidade para comparar com dados que ocorreram de fato para se ter uma boa base para inferir desempenho e tirar conclusões.

In [4]:
fundamental_data.reset_index(drop=True, inplace=True)
fundamental_data = fundamental_data[0:42]
fundamental_data.reset_index(drop=True, inplace=True)

fundamental_data.head()

Unnamed: 0,Year,Month,Day,Ativo Total,Ativo Circulante,Caixa e Equivalentes de Caixa AC,Aplicações Financeiras AC,Contas a Receber AC,Estoques AC,Ativos Biológicos AC,Tributos a Recuperar AC,Despesas Antecipadas AC,Outros Ativos Circulantes AC,Ativo Realizavel Longo Prazo,Aplicações Financeiras Avaliadas a Valor Justo ACLP,Aplicações Financeiras Avaliadas ao Custo Amortizado ACLP,Contas a Receber ACLP,Estoques ACLP,Ativos Biológicos ACLP,Tributos Diferidos ACLP,Despesas Antecipadas ACLP,Créditos com Partes Relacionadas ACLP,Outros Ativos Não Circulantes ACLP,Investimentos,Imobilizado,Intangível,Diferido,Passivo Total,Passivo Circulante,Obrigações Sociais e Trabalhistas PC,Fornecedores PC,Obrigações Fiscais PC,Empréstimos e Financiamentos PC,Passivos com Partes Relacionadas PC,Dividendos e JCP a Pagar PC,Outros PC,Provisões PC,Passivos sobre Ativos Não-Correntes a Venda e Descontinuados PC,Passivo Não Circulante,Empréstimos e Financiamentos PNC,Passivos com Partes Relacionadas PNC,Outros PNC,Tributos Diferidos PNC,Adiantamento para Futuro Aumento Capital PNC,Provisões PNC,Passivos sobre Ativos Não-Correntes a Venda e Descontinuados PNC,Lucros e Receitas a Apropriar PNC,Participação dos Acionistas Não Controladores,Patrimônio Líquido,Capital Social Realizado,Reservas de Capital,Reservas de Reavaliação,Reservas de Lucros,Lucros/Prejuízos Acumulados,Ajustes de Avaliação Patrimonial,Ajustes Acumulados de Conversão,Outros Resultados Abrangentes,Adiantamento para Futuro Aumento Capital
0,2019,6,30,965.248.025,181.333.000,64.051.999,2.456.000,15.509.000,34.237.999,0,9.026.000,0,56.051.999,81.959.002,0,0,200.0,18.808.001,0,0,23.495.000,0,0,14.584.001,677.471.977,9.900.000,0,965.248.025,138.346.004,6.511.000,21.831.999,4.286.000,44.380.000,0,1.272.000,23.719.001,14.335.000,22.011.001,517.483.987,342.782.018,0,2.089.000,14.698.000,0,157.915.005,0,0,5.799.000,303.619.000,205.431.996,2.458.000,0,116.955.996,0,0,0,-21.227.000,0
1,2019,3,31,949.086.978,130.604.999,36.475.998,4.370.000,19.335.999,32.962.001,0,8.299.000,0,29.162.000,87.135.003,0,0,203.0,20.657.000,0,0,24.345.000,0,0,11.266.000,709.226.988,10.854.000,0,949.086.978,113.538.998,7.082.000,22.912.000,1.464.000,36.082.999,0,4.356.000,21.135.000,16.550.000,3.957.000,546.516.992,376.995.021,0,2.115.000,2.563.000,0,164.843.995,0,0,6.372.000,282.658.996,205.431.996,2.458.000,0,99.398.001,0,0,0,-24.629.000,0
2,2018,12,31,860.473.000,143.606.006,53.853.999,4.198.000,22.264.001,34.822.001,0,7.883.000,0,20.585.001,85.477.999,0,0,205.0,21.280.999,0,0,24.100.999,0,0,10.690.000,609.828.995,10.870.000,0,860.473.000,97.067.999,6.426.000,24.516.000,817.000,14.296.001,0,4.296.000,26.279.000,16.630.000,3.808.000,479.862.030,312.580.014,0,2.139.000,2.536.000,0,162.607.006,0,0,6.318.000,277.225.011,205.431.996,2.458.000,0,95.363.998,0,0,0,-26.029.001,0
3,2018,9,30,866.755.936,150.200.992,56.803.000,4.164.000,25.660.000,38.864.998,0,9.441.000,0,15.268.000,81.576.002,0,0,199.0,17.827.000,0,0,25.684.001,0,0,13.396.000,610.728.018,10.855.000,0,866.755.936,94.071.996,6.781.000,27.458.001,1.514.000,16.235.000,0,0,26.862.000,15.070.000,152.000,476.508.979,336.566.026,0,2.161.000,1.745.000,0,136.036.991,0,0,5.810.000,290.365.010,205.431.996,2.457.000,0,98.726.003,0,0,0,-16.250.000,0
4,2018,6,30,850.281.955,144.255.009,65.536.000,4.060.000,19.385.000,35.534.000,0,9.006.000,0,10.734.000,80.529.998,0,0,200.0,19.090.999,0,0,25.615.999,0,0,12.287.000,605.484.024,7.726.000,0,850.281.955,84.649.001,6.013.000,20.768.999,1.648.000,15.353.000,0,0,25.497.999,15.203.000,165.000,478.184.997,338.270.028,0,2.180.000,1.637.000,0,136.097.997,0,0,5.309.000,282.139.006,205.431.996,2.457.000,0,92.760.998,0,0,0,-18.511.000,0


Para fins didáticos, criei uma coluna "Quarter" que indica qual trimestre corresponde aquela linha, e a posicionei na primeira posição das colunas.

In [5]:
fundamental_data['Quarter'] = '2Q2019','1Q2019', '4Q2018', '3Q2018', '2Q2018', '1Q2018', '4Q2017', '3Q2017', '2Q2017', '1Q2017', '4Q2016', '3Q2016', '2Q2016', '1Q2016', '4Q2015', '3Q2015', '2Q2015', '1Q2015','4Q2014', '3Q2014', '2Q2014', '1Q2014', '4Q2013', '3Q2013', '2Q2013', '1Q2013', '4Q2012', '3Q2012', '2Q2012', '1Q2012', '4Q2011', '3Q2011', '2Q2011', '1Q2011', '4Q2010', '3Q2010', '2Q2010', '1Q2010', '4Q2009', '3Q2009', '2Q2009', '1Q2009'
quarter = fundamental_data['Quarter']
fundamental_data.drop(labels=['Quarter'], axis=1, inplace=True)
fundamental_data.insert(0, 'Quarter', quarter)

fundamental_data.head()

ValueError: Length of values does not match length of index

Renomeei a coluna "Month" para "Cluster_Month", pois como se trata de trimestre, ele agrupa ali três meses correspondentes áquele trimestre, então sabemos que colunas onde tem Cluster_Month 3, englona na verdade, os meses 1,2 e 3. E assim por diante com os demais.

A coluna dia não nos é mais útil aqui, então tiramos a coluna.

In [None]:
fundamental_data.rename(columns={'Month' : 'Cluster_Month'},inplace = True)
fundamental_data.drop('Day', axis=1, inplace=True)

fundamental_data.head()

Correção de processamento, os dados vieram com "pontos" o que inviabiliza a manipulação númerica que o pandas compreende, assim tivemos que remover os pontos e atribuir o formato float, anteriormente veio com formato string.

Assim podemos ver a disposição dos números em relação a tabela gerada pela célula abaixo e a que tinhamos antes.

In [None]:
for key in ['Ativo Total','Ativo Circulante','Caixa e Equivalentes de Caixa AC','Aplicações Financeiras AC','Contas a Receber AC','Estoques AC', 'Ativos Biológicos AC','Tributos a Recuperar AC','Despesas Antecipadas AC','Outros Ativos Circulantes AC','Ativo Realizavel Longo Prazo ','Aplicações Financeiras Avaliadas a Valor Justo ACLP','Aplicações Financeiras Avaliadas ao Custo Amortizado ACLP','Contas a Receber ACLP','Estoques ACLP','Ativos Biológicos ACLP','Tributos Diferidos ACLP','Despesas Antecipadas ACLP','Créditos com Partes Relacionadas ACLP','Outros Ativos Não Circulantes ACLP','Investimentos','Imobilizado','Intangível','Diferido','Passivo Total','Passivo Circulante','Obrigações Sociais e Trabalhistas PC','Fornecedores PC','Obrigações Fiscais PC','Empréstimos e Financiamentos PC','Passivos com Partes Relacionadas PC','Dividendos e JCP a Pagar PC','Outros PC','Provisões PC', 'Passivos sobre Ativos Não-Correntes a Venda e Descontinuados PC', 'Passivo Não Circulante','Empréstimos e Financiamentos PNC','Passivos com Partes Relacionadas PNC','Outros PNC','Tributos Diferidos PNC','Adiantamento para Futuro Aumento Capital PNC','Provisões PNC','Passivos sobre Ativos Não-Correntes a Venda e Descontinuados PNC','Lucros e Receitas a Apropriar PNC','Participação dos Acionistas Não Controladores','Patrimônio Líquido','Capital Social Realizado','Reservas de Capital','Reservas de Reavaliação','Reservas de Lucros','Lucros/Prejuízos Acumulados','Ajustes de Avaliação Patrimonial','Ajustes Acumulados de Conversão','Outros Resultados Abrangentes','Adiantamento para Futuro Aumento Capital']:  
    fundamental_data[key] = fundamental_data[key].map(lambda x: str(x).replace(".", ""))
    fundamental_data[key] = fundamental_data[key].astype(float)


fundamental_data.head()

# DADOS DE PREÇO - API YAHOO FINANCE

Após determinandos os dados fundamentalistas da ação, chegou a hora de extrairmos os dados de preço da API aberta da Yahoo Finance.

Lembrando que temos que convertê-las ao formato de escala tempora de trimestre, para que possamos concatêna-las aos dados fundamentalistas, formando um dataset único da ação. Dados de preço e dados fundamentalistas referentes ao mesmo espaço temporal para cada amostra.

Abaixo, primeiro atribuimos a data de inicio e de fim que coletaremos os dados de preço, e depois trazemos o dataset com base nas datas, e 'm' nos diz respeito a escala temporal mês, como não há trimestre, tivemos que fazer a seguir a manipulação no código, com base nos dados originalmente mensais vindo da API.

In [None]:
####################### COMEÇA O CÓDIGO QUE EXTRAI DADOS DE PREÇO ###############################

start = datetime(2008, 12, 31)
end = datetime(2019, 5, 31)
price_data = web.get_data_yahoo('PETR4.SA', start, end, interval = 'm')

price_data.head()

As datas na coluna "Date" estavam como índíce, e usamos o code abaixo para tornar "Date" uma coluna normal do dataset, já que vamos precisar manipula-la.

In [None]:
price_data["Date"] = price_data.index
price_data.reset_index(drop=True, inplace=True)


date = price_data['Date']
price_data.drop(labels=['Date'], axis=1,inplace = True)
price_data.insert(0, 'Date', date)

price_data.head()

Aqui começa a manipulação para transformarmos os dados de preço de escala mensal para escala trimestral.

Tal qual nos dados fundamentalistas, da coluna Date, criamos as colunas referentes a "dia", "mês" e "ano". Assim a coluna Date não nos é mais útil.

Manipulamos para colocar as três colunas referentes a data nas três primeiras posições das colunas no dataset.

In [None]:
price_data["Day"] = price_data['Date'].map(lambda x: x.day)
price_data["Month"] = price_data['Date'].map(lambda x: x.month)
price_data["Year"] = price_data['Date'].map(lambda x: x.year)

price_data.drop(columns = 'Date', inplace = True)



year = price_data['Year']
price_data.drop(labels=['Year'], axis=1,inplace = True)
price_data.insert(0, 'Year', year)

month = price_data['Month']
price_data.drop(labels=['Month'], axis=1,inplace = True)
price_data.insert(1, 'Month', month)

day = price_data['Day']
price_data.drop(labels=['Day'], axis=1,inplace = True)
price_data.insert(2, 'Day', day)

price_data.head()

Nessa parte, o "for" percorre todas as linhas do dataset, e tal qual no padrão dos dados fundamentalistas, temos que atribuir aquele padrão que chamei de "Cluster_Month", onde o mês 3 representa o trimestre dos meses 1,2 e 3. Mês 6 o trimestre dos meses 4,5 e 6. E assim por diante.

Após, deletamos a coluna "dia", que não nos é útil.

In [None]:
for i,row in price_data.iterrows():   
    if (row['Month'] == 1) | (row['Month'] == 2) | (row['Month'] == 3):
        price_data.loc[i,'Month'] = 3
    
    elif (row['Month'] == 4) | (row['Month'] == 5) | (row['Month'] == 6):
         price_data.loc[i,'Month'] = 6
        
    elif (row['Month'] == 7) | (row['Month'] == 8) | (row['Month'] == 9):
         price_data.loc[i,'Month'] = 9
        
    else: 
          price_data.loc[i,'Month'] = 12



price_data.drop('Day', axis=1, inplace=True)

price_data.head()

E aqui tempos uma parte bem interessante. Agora agrupamos cada uma das três linhas correspondentes ao trimestre do ano correspondente.

Podemos olhar juntos para a primeira instrução abaixo e para a tabela acima para entender. Agrupamos por Ano e Mês, assim podemos ver as três primeiras linhas com "Month" igual a 3(na verdade são 1,2 e 3) que foram manipulados para facilitar esse processo. Então iremos agrupar essas três linhas, transformando em uma linha só correspondente ao primeiro trimestre de 2014 nesse caso. E assim convertemos os parâmetros de preço conforme suas especificidades.

- Abertura(Open): Utilização do método “first”, atribuindo o primeiro valor do trimestre.
   
- Fechamento(Close): Utilização do método “last”, atribuindo o último valor do trimestre.
      
- Máximo(High):Utilização do método “max”, atribuindo o máximo valor do trimestre.
 
- Mínimo(Low):Utilização do método “min”, atribuindo o mínimo valor do trimestre.

- Volume(Volume): Utilização do método “mean”, atribuindo a média dos valores do trimestre.

- Fechamento Ajustado(Adj Close):Utilização do método “mean”, atribuindo a média dos valores do trimestre.



Depois, novamente o processo de criar uma coluna "Quartes" com uma identificação mais intuitiva do trimestre e ano, e coloca-lo como a primeira posição das colunas.

Além de renomear a coluna "Month" para "Cluster_Month", tudo no mesmo padrão dos dados fundamentalistas.

In [None]:
final_data_price = price_data.groupby(['Year','Month']).agg({'High': 'max', 'Low': 'min', 'Open':'first', 'Close' : 'last', 'Volume':'mean', 'Adj Close':'mean'}).reset_index()


final_data_price['Quarter'] = '1Q2009', '2Q2009', '3Q2009', '4Q2009', '1Q2010', '2Q2010', '3Q2010', '4Q2010', '1Q2011', '2Q2011', '3Q2011', '4Q2011', '1Q2012', '2Q2012', '3Q2012','4Q2012', '1Q2013', '2Q2013', '3Q2013', '4Q2013', '1Q2014', '2Q2014', '3Q2014', '4Q2014', '1Q2015', '2Q2015', '3Q2015', '4Q2015', '1Q2016', '2Q2016', '3Q2016', '4Q2016', '1Q2017', '2Q2017', '3Q2017', '4Q2017', '1Q2018', '2Q2018', '3Q2018', '4Q2018','1Q2019','2Q2019'

quarter = final_data_price['Quarter']
final_data_price.drop(labels=['Quarter'], axis=1, inplace=True)
final_data_price.insert(0, 'Quarter', quarter)

final_data_price.rename(columns={'Month' : 'Cluster_Month'},inplace = True)

final_data_price.head()

# UNINDO DADOS DE PREÇO E DADOS FUNDAMENTALISTAS

Simplesmente fazendo um merge entre os dados de preço e fundamentalistas que tratamos até aqui.

A coluna "Year" e "Month" ficará repetida, então precisaremos renomear cada uma e excluir as outras duas que são a mesma coisa.

In [None]:
# MESCLA DOS DADOS DE PREÇO E OS FUNDAMENTALISTAS

dataset = pd.merge(final_data_price, fundamental_data, how='left', on='Quarter')

dataset.rename(columns={'Year_x' : 'Year'},inplace = True)
dataset.rename(columns={'Cluster_Month_x' : 'Cluster_Month'},inplace = True)

dataset.drop('Year_y', axis=1, inplace=True)

dataset.drop('Cluster_Month_y', axis=1, inplace=True)

dataset.head()

Ao analisar o dataset, decidi excluir colunas que tinha mais de 1/3 dos dados faltantes, seguindo a lista abaixo de colunas "dropadas".

In [None]:
# exclui colunas que tem mais de 1/3 dos dados como zero ou faltante
dataset = dataset.drop('Ativos Biológicos AC',axis=1)
dataset = dataset.drop('Despesas Antecipadas AC',axis=1)
dataset = dataset.drop('Aplicações Financeiras Avaliadas a Valor Justo ACLP',axis=1)
dataset = dataset.drop('Aplicações Financeiras Avaliadas ao Custo Amortizado ACLP',axis=1)
dataset = dataset.drop('Estoques ACLP',axis=1)
dataset = dataset.drop('Ativos Biológicos ACLP',axis=1)
dataset = dataset.drop('Despesas Antecipadas ACLP',axis=1)
dataset = dataset.drop('Créditos com Partes Relacionadas ACLP',axis=1)
dataset = dataset.drop('Diferido',axis=1)
dataset = dataset.drop('Passivos com Partes Relacionadas PC',axis=1)
dataset = dataset.drop('Dividendos e JCP a Pagar PC',axis=1)
dataset = dataset.drop('Provisões PC',axis=1)
dataset = dataset.drop('Passivos sobre Ativos Não-Correntes a Venda e Descontinuados PC',axis=1)
dataset = dataset.drop('Passivos com Partes Relacionadas PNC',axis=1)
dataset = dataset.drop('Adiantamento para Futuro Aumento Capital PNC',axis=1)
dataset = dataset.drop('Passivos sobre Ativos Não-Correntes a Venda e Descontinuados PNC',axis=1)
dataset = dataset.drop('Lucros e Receitas a Apropriar PNC',axis=1)
dataset = dataset.drop('Reservas de Reavaliação',axis=1)
dataset = dataset.drop('Ajustes de Avaliação Patrimonial',axis=1)
dataset = dataset.drop('Ajustes Acumulados de Conversão',axis=1)
dataset = dataset.drop('Outros Resultados Abrangentes',axis=1)
dataset = dataset.drop('Adiantamento para Futuro Aumento Capital',axis=1)

# APLICAÇÃO DO ALGORTIMO KNN PARA PREENCHIMENTO DOS DADOS FALTANTES

Abaixo, separei apenas as colunas que serão imputadas para treinamento, tirando as de data e os id's. Assim ao invés de um método tradicional como preencher dados faltantes com média ou mediana, utilizei a metodologia com a biblioteca fancy impute, para aplicar KNN e preencher os dados faltantes com esse algortimo.

Na célula abaixo a separação.

Após trocar os valores 0 para "NaN", então realizamos o preenchimento de fato com o KNN.

In [None]:
#separa as colunas que serão usadas para treinamento em 'dataset'
pricing = dataset.iloc[0:,0:3]
dataset = dataset.iloc[0:,3:]
dataset.to_numpy()

X = dataset.replace(0, np.nan, inplace=True)
dataset.replace(0, np.nan, inplace=True)
final_data = KNN(k=3).fit_transform(dataset)

# ela tira as labels das colunas e aqui as coloco de volta
dataset = pd.DataFrame(data = final_data, columns = ['High','Low','Open','Close','Volume','Adj Close','Ativo Total','Ativo Circulante','Caixa e Equivalentes de Caixa AC','Aplicações Financeiras AC','Contas a Receber AC','Estoques AC','Tributos a Recuperar AC','Outros Ativos Circulantes AC','Ativo Realizavel Longo Prazo','Contas a Receber ACLP','Tributos Diferidos ACLP','Outros Ativos Não Circulantes ACLP','Investimentos','Imobilizado','Intangível','Passivo Total','Passivo Circulante','Obrigações Sociais e Trabalhistas PC','Fornecedores PC','Obrigações Fiscais PC','Empréstimos e Financiamentos PC','Outros PC','Passivo Não Circulante','Empréstimos e Financiamentos PNC','Outros PNC','Tributos Diferidos PNC','Provisões PNC','Participação dos Acionistas Não Controladores','Patrimônio Líquido','Capital Social Realizado','Reservas de Capital','Reservas de Lucros','Lucros/Prejuízos Acumulados'])
dataset = pd.concat([pricing, dataset], axis=1)

inference = dataset.iloc[-1,0:].to_frame().T
inference

In [None]:
dataset.info()

# AQUI FINALMENTE PRODUZIMO A NOSSA AMOSTRA QUE SERÁ IMPUTADA AO NOSSO MODELO, SIMULANDO UMA SITUAÇÃO REAL. AO IMPUTAR OS DADOS DE PREÇO E DE FUNDAMENTOS CONFORME OS USADOS NO MODELO, QUAL STATUS DO TARGET ELE RETORNARÁ FRENTE A UMA POSSIVEL VALORIZAÇÃO ?

In [None]:
inference = inference.iloc[0:,3:]
inference

In [None]:
inference.to_csv("ROW_INFERENCE_PETR4.csv", index= False)