<h1><center>EXTRAÇÃO, TRATAMENTO E MODELAGEM DOS DADOS DA BOLSA DE VALORES BRASILEIRA

<P>O objetivo deste artigo é ensinar passo a passo como extrair e modelar os dados da bolsa de valores, utilizando a linguagem de programação Python e a biblioteca Pandas. Então, o primeiro passo é entender que tipo de dados estamos procurando. Porque, dentro do site da B3, exitem diversos DataSets para análise.
Sugiro pesquisar no site oficial as opções disponíveis: https://www.b3.com.br/pt_br/market-data-e-indices/servicos-de-dados/market-data/historico/
Aqui, utilizaremos os dados dos últimos 12 meses e posteriormente vamos automatizar o código que faremos hoje, para que ele seja atualizado automaticamente.

<img src='txt_img_0722.jpg'></img>

Temos então, um arquivo txt com dados semiestruturados pois, eles não possuem uma estrutura clara porém, possuem delimitações que permitirão a estruturação dos dados para utilização por exemplo, no Power BI ou Excell.
Lembrando que este é um estudo da linguagem Python, vamos começar importando a biblioteca Pandas, que será a única utilizada neste artigo.
Não se esqueça de instalar a biblioteca dentro do seu editor de códigos.


In [376]:
import pandas as pd

Antes de importar os dados, precisamos saber quais dados nós estamos procurando e quais dados estão disponíveis no arquivo TXT. Para isso, existe uma documentação chamada de Layout cujas informações nortearão nossa busca. No caso da Bovespa, existe um arquivo pdf disponível na página de históricos.
Para este artigo, utilizaremos:
- A data do Pregão;
- O código da ação;
- O nome da empresa;
- O preço de abertura das ações;
- O preço máximo negociado;
- O preço mínimo negociado;
- O preço de fechamento das ações;
- A quantidade de negócios;
- O volume financeiro negociado;

Também, no caso das ações da Bovespa e para o nosso estudo, precisamos entender que os dados relevantes serão as negociações por lote padrão. Entretanto, poderíamos por exemplo, buscar também as negociações no mercado fracionário afim de estudar correlações entre os mercados. Por fim, entendemos que o arquivo da Bovespa trata-se de um arquivo de dados em formato de largura fixa então, neste artigo iremos uilizar a função read.fwf para importar os dados que vamos utilizar.
Para começar, vamos criar duas listas, uma contendo os valores da largura do texto do nosso DataSet e outra com os nomes das variáveis que deverão receber esses valores.




In [377]:
table = [(2,10), (10,12), (12,24), (27,39), (56,69),(69,82),(82,95),(108,121),(152,170),(170,188)]

name_table = ['data_pregao','cod_bdi', 'cod_acao', 'nome_emp', 'preco_abertura', 'preco_maximo', 'preco_minimo', 
'preco_fechamento', 'qtd_negocios', 'vol_financeiro']


Importante! As informações da variável 'table' foram fornecidas pelo pdf com as informações de layout citadas anteriormente neste artigo.

Finalmente, podemos aplicar o método read fwf para importar os dados necessários e criar o nosso DataFrame.

In [378]:

df_table = pd.read_fwf("hist_ult12meses_a_vista_072022.txt", colspecs = table, names = name_table, skiprows=1)
display(df_table)


Unnamed: 0,data_pregao,cod_bdi,cod_acao,nome_emp,preco_abertura,preco_maximo,preco_minimo,preco_fechamento,qtd_negocios,vol_financeiro
0,20220701,14.0,5GTK11,INVESTO 5GTK,7759.0,7881.0,7759.0,7881.0,400.0,3192480.0
1,20220701,2.0,A1BB34,ABB LTD,3568.0,3568.0,3568.0,3568.0,0.0,7130.0
2,20220701,2.0,A1CR34,AMCOR PLC,6625.0,6625.0,6625.0,6625.0,1690.0,11196250.0
3,20220701,2.0,A1EE34,AMEREN CORP,24500.0,24500.0,24500.0,24500.0,10.0,392000.0
4,20220701,2.0,A1FL34,AFLAC INC,29551.0,29551.0,29551.0,29551.0,0.0,59100.0
...,...,...,...,...,...,...,...,...,...,...
169624,20220720,82.0,CYREU195,CYREE,694.0,694.0,694.0,694.0,500.0,347000.0
169625,20220728,82.0,CYREU195,CYREE,635.0,635.0,635.0,635.0,600.0,381000.0
169626,20220729,78.0,BBASH365,BBASE,200.0,228.0,199.0,199.0,18500.0,3814600.0
169627,20220729,78.0,BBASH429,BBAS,3.0,4.0,2.0,4.0,40600.0,96400.0


Já temos o nosso primeiro DataBase, podemos notar que ainda não é uma tabela pronta para usarmos em análises pois, existe ainda muita informação não filtradas. Então, nesta primeira parte da limpeza dos dados, vamos filtrar o 'cod_bdi' que, conforme explicado no arquivo de layout, traz o filtro de mercado à vista que são os valores que queremos analisar.

In [379]:
df_table = df_table[df_table['cod_bdi'] == 2]
display(df_table)

Unnamed: 0,data_pregao,cod_bdi,cod_acao,nome_emp,preco_abertura,preco_maximo,preco_minimo,preco_fechamento,qtd_negocios,vol_financeiro
1,20220701,2.0,A1BB34,ABB LTD,3568.0,3568.0,3568.0,3568.0,0.0,7.130000e+03
2,20220701,2.0,A1CR34,AMCOR PLC,6625.0,6625.0,6625.0,6625.0,1690.0,1.119625e+07
3,20220701,2.0,A1EE34,AMEREN CORP,24500.0,24500.0,24500.0,24500.0,10.0,3.920000e+05
4,20220701,2.0,A1FL34,AFLAC INC,29551.0,29551.0,29551.0,29551.0,0.0,5.910000e+04
5,20220701,2.0,A1GN34,ALLEGION PLC,26104.0,26104.0,26104.0,26104.0,0.0,5.220000e+04
...,...,...,...,...,...,...,...,...,...,...
35053,20220729,2.0,KHCB34,KRAFT HEINZ,4769.0,4791.0,4726.0,4756.0,26890.0,1.281780e+08
35057,20220729,2.0,KLBN3,KLABIN S/A,400.0,417.0,395.0,415.0,450100.0,1.836819e+08
35059,20220729,2.0,KLBN4,KLABIN S/A,388.0,403.0,384.0,400.0,1326200.0,5.250961e+08
35061,20220729,2.0,KLBN11,KLABIN S/A,1937.0,2025.0,1930.0,1993.0,6559200.0,1.308679e+10


Agora, temos a tabela com os valores que desejamos utilizar. Portanto, vamos fazer alguns tratamentos para limpar os dados e corrigir os tipos dos valores importados. Porque, apesar dos valores já estarem organizados em colunas, a formatação ainda está errada então, vamos transformar os valores de data em data, excluir o índice, excluir o cod_bdi que já utilizamos e transformar os números para a tipagem correta.

In [380]:
df_table = df_table.drop(['cod_bdi'], axis=1)
df_table['data_pregao'] = pd.to_datetime(df_table['data_pregao'], format='%Y%m%d')
df_table['preco_abertura'] = (df_table['preco_abertura']/100).astype(float)
df_table['preco_maximo'] = (df_table['preco_maximo']/100).astype(float)
df_table['preco_minimo'] = (df_table['preco_minimo']/100).astype(float)
df_table['preco_fechamento'] = (df_table['preco_fechamento']/100).astype(float)
df_table['qtd_negocios'] = df_table['qtd_negocios'].astype(int)
df_table['vol_financeiro'] = df_table['vol_financeiro'].astype(int)
df_table['nome_emp'] = df_table['nome_emp'].astype(str)
display(df_table)

Unnamed: 0,data_pregao,cod_acao,nome_emp,preco_abertura,preco_maximo,preco_minimo,preco_fechamento,qtd_negocios,vol_financeiro
1,2022-07-01,A1BB34,ABB LTD,35.68,35.68,35.68,35.68,0,7130
2,2022-07-01,A1CR34,AMCOR PLC,66.25,66.25,66.25,66.25,1690,11196250
3,2022-07-01,A1EE34,AMEREN CORP,245.00,245.00,245.00,245.00,10,392000
4,2022-07-01,A1FL34,AFLAC INC,295.51,295.51,295.51,295.51,0,59100
5,2022-07-01,A1GN34,ALLEGION PLC,261.04,261.04,261.04,261.04,0,52200
...,...,...,...,...,...,...,...,...,...
35053,2022-07-29,KHCB34,KRAFT HEINZ,47.69,47.91,47.26,47.56,26890,128178000
35057,2022-07-29,KLBN3,KLABIN S/A,4.00,4.17,3.95,4.15,450100,183681900
35059,2022-07-29,KLBN4,KLABIN S/A,3.88,4.03,3.84,4.00,1326200,525096100
35061,2022-07-29,KLBN11,KLABIN S/A,19.37,20.25,19.30,19.93,6559200,-2147483648


In [383]:
df_ibov = df_table[df_table['nome_emp'] == 'IBOVESPA']
#print(df_ibov)
#df_table = df_table.drop(19087, axis=0)
display(df_ibov)
#df_table.to_csv('df_acoes_noibov_072022(2).csv')



Unnamed: 0,data_pregao,cod_acao,nome_emp,preco_abertura,preco_maximo,preco_minimo,preco_fechamento,qtd_negocios,vol_financeiro
19087,2022-07-13,IBOV11,IBOVESPA,98335.0,98335.0,98335.0,98335.0,73620,-2147483648
