<h1><center>EXTRAÇÃO, TRATAMENTO E MODELAGEM DOS DADOS DA BOLSA DE VALORES BRASILEIRA

<P>O objetivo deste artigo é ensinar passo a passo como extrair e modelar os dados da bolsa de valores, utilizando a linguagem de programação Python e a biblioteca Pandas. Então, o primeiro passo é entender que tipo de dados estamos procurando. Porque, dentro do site da B3, exitem diversos DataSets para análise.
Sugiro pesquisar no site oficial as opções disponíveis: https://www.b3.com.br/pt_br/market-data-e-indices/servicos-de-dados/market-data/historico/
Aqui, utilizaremos os dados do último mês disponível (07/2022) e posteriormente vamos automatizar o código que faremos hoje, para que ele seja atualizado automaticamente.

<img src='txt_img_0722.jpg'></img>

Temos então, um arquivo txt com dados semiestruturados pois, eles não possuem uma estrutura clara porém, possuem delimitações que permitirão a estruturação dos dados para utilização por exemplo, no Power BI ou Excell.
Lembrando que este é um estudo da linguagem Python, vamos começar importando a biblioteca Pandas, que será a única utilizada neste artigo.
Não se esqueça de instalar a biblioteca dentro do seu editor de códigos.


In [10]:
import pandas as pd

Antes de importar os dados, precisamos saber quais dados nós estamos procurando e quais dados estão disponíveis no arquivo TXT. Para isso, existe uma documentação chamada de Layout cujas informações nortearão nossa busca. No caso da Bovespa, existe um arquivo pdf disponível na página de históricos.
Para este artigo, utilizaremos:
- A data do Pregão;
- O código da ação;
- O nome da empresa;
- O preço de abertura das ações;
- O preço máximo negociado;
- O preço mínimo negociado;
- O preço de fechamento das ações;
- A quantidade de negócios;
- O volume financeiro negociado;

Também, no caso das ações da Bovespa e para o nosso estudo, precisamos entender que os dados relevantes serão as negociações por lote padrão. Entretanto, poderíamos por exemplo, buscar também as negociações no mercado fracionário afim de estudar correlações entre os mercados. Por fim, entendemos que o arquivo da Bovespa trata-se de um arquivo de dados em formato de largura fixa então, neste artigo iremos uilizar a função read.fwf para importar os dados que vamos utilizar.
Para começar, vamos criar duas listas, uma contendo os valores da largura do texto do nosso DataSet e outra com os nomes das variáveis que deverão receber esses valores.




In [11]:
table = [(2,10), (10,12), (12,24), (27,39), 
(56,69),(69,82),(82,95),
(108,121),(152,170),(170,188)]

name_table = ['data_pregao','cod_bdi', 'cod_acao', 'nome_emp', 'preco_abertura', 'preco_maximo', 'preco_minimo', 
'preco_fechamento', 'qtd_negocios', 'vol_financeiro']


Importante! As informações da variável 'table' foram fornecidas pelo pdf com as informações de layout citadas anteriormente neste artigo.

Finalmente, podemos aplicar o método read fwf para importar os dados necessários e criar o nosso DataFrame.

In [12]:

df_table = pd.read_fwf("./arquivos/082022/COTAHIST_M082022.TXT", colspecs = table,
names = name_table, skiprows=1)
display(df_table)


Unnamed: 0,data_pregao,cod_bdi,cod_acao,nome_emp,preco_abertura,preco_maximo,preco_minimo,preco_fechamento,qtd_negocios,vol_financeiro
0,20220801,2.0,A1BB34,ABB LTD,3888.0,3888.0,3888.0,3888.0,0.0,11660.0
1,20220801,2.0,A1CR34,AMCOR PLC,6769.0,6791.0,6713.0,6734.0,270.0,1843820.0
2,20220801,2.0,A1DM34,ARCHER DANIE,43550.0,43645.0,43550.0,43645.0,80.0,3746720.0
3,20220801,2.0,A1EG34,AEGON NV,2277.0,2278.0,2259.0,2259.0,11950.0,27001920.0
4,20220801,2.0,A1EN34,ALLIANT ENER,31085.0,31535.0,31085.0,31424.0,60.0,1879770.0
...,...,...,...,...,...,...,...,...,...,...
199174,20220831,82.0,YDUQV140,YDUQE,196.0,196.0,196.0,196.0,100.0,19600.0
199175,20220831,82.0,YDUQV150,YDUQE,290.0,290.0,290.0,290.0,400.0,116000.0
199176,20220831,82.0,YDUQV200,YDUQE,740.0,740.0,738.0,738.0,2000.0,1478000.0
199177,20220831,82.0,YDUQW960,YDUQE,31.0,31.0,31.0,31.0,200.0,6200.0


Já temos o nosso primeiro DataBase, podemos notar que ainda não é uma tabela pronta para usarmos em análises pois, existe ainda muita informação não filtradas. Então, nesta primeira parte da limpeza dos dados, vamos filtrar o 'cod_bdi' que, conforme explicado no arquivo de layout, traz o filtro de mercado à vista que são os valores que queremos analisar.

In [13]:
df_table = df_table[df_table['cod_bdi'] == 2]
display(df_table)

Unnamed: 0,data_pregao,cod_bdi,cod_acao,nome_emp,preco_abertura,preco_maximo,preco_minimo,preco_fechamento,qtd_negocios,vol_financeiro
0,20220801,2.0,A1BB34,ABB LTD,3888.0,3888.0,3888.0,3888.0,0.0,11660.0
1,20220801,2.0,A1CR34,AMCOR PLC,6769.0,6791.0,6713.0,6734.0,270.0,1843820.0
2,20220801,2.0,A1DM34,ARCHER DANIE,43550.0,43645.0,43550.0,43645.0,80.0,3746720.0
3,20220801,2.0,A1EG34,AEGON NV,2277.0,2278.0,2259.0,2259.0,11950.0,27001920.0
4,20220801,2.0,A1EN34,ALLIANT ENER,31085.0,31535.0,31085.0,31424.0,60.0,1879770.0
...,...,...,...,...,...,...,...,...,...,...
192268,20220831,2.0,Z1OM34,ZOOM VIDEO,1708.0,1730.0,1646.0,1671.0,40790.0,68363590.0
192269,20220831,2.0,Z1TO34,ZTO EXPRESS,3379.0,3379.0,3379.0,3379.0,0.0,3370.0
192270,20220831,2.0,Z1TS34,ZOETIS INC,20362.0,20362.0,20362.0,20362.0,0.0,20360.0
192271,20220831,2.0,Z2EN34,ZENDESK INC,2650.0,2664.0,2650.0,2664.0,0.0,10630.0


Agora, temos a tabela com os valores que desejamos utilizar. Portanto, vamos fazer alguns tratamentos para limpar os dados e corrigir os tipos dos valores importados. Porque, apesar dos valores já estarem organizados em colunas, a formatação ainda está errada então, vamos transformar os valores de data em data, excluir o cod_bdi que já utilizamos e transformar os números para a tipagem correta.

In [14]:
df_table = df_table.drop(['cod_bdi'], axis=1)
df_table['data_pregao'] = pd.to_datetime(df_table['data_pregao'], format='%Y%m%d')
df_table['preco_abertura'] = (df_table['preco_abertura']/100).astype(float)
df_table['preco_maximo'] = (df_table['preco_maximo']/100).astype(float)
df_table['preco_minimo'] = (df_table['preco_minimo']/100).astype(float)
df_table['preco_fechamento'] = (df_table['preco_fechamento']/100).astype(float)
df_table['qtd_negocios'] = df_table['qtd_negocios'].astype(int)
df_table['vol_financeiro'] = df_table['vol_financeiro'].astype(int)
df_table['nome_emp'] = df_table['nome_emp'].astype(str)


Concluímos a primeira parte da nossa tarefa de extração dos dados.
Vou criar uma nova variável, contendo as informações desta tabela para continuar com a limpeza dos dados. Faço isso, para o caso de precisar verificar a tabela inicial em algum momento porque assim, sempre tenho as primeiras informações disponíveis.

In [15]:
df = df_table
display(df)

Unnamed: 0,data_pregao,cod_acao,nome_emp,preco_abertura,preco_maximo,preco_minimo,preco_fechamento,qtd_negocios,vol_financeiro
0,2022-08-01,A1BB34,ABB LTD,38.88,38.88,38.88,38.88,0,11660
1,2022-08-01,A1CR34,AMCOR PLC,67.69,67.91,67.13,67.34,270,1843820
2,2022-08-01,A1DM34,ARCHER DANIE,435.50,436.45,435.50,436.45,80,3746720
3,2022-08-01,A1EG34,AEGON NV,22.77,22.78,22.59,22.59,11950,27001920
4,2022-08-01,A1EN34,ALLIANT ENER,310.85,315.35,310.85,314.24,60,1879770
...,...,...,...,...,...,...,...,...,...
192268,2022-08-31,Z1OM34,ZOOM VIDEO,17.08,17.30,16.46,16.71,40790,68363590
192269,2022-08-31,Z1TO34,ZTO EXPRESS,33.79,33.79,33.79,33.79,0,3370
192270,2022-08-31,Z1TS34,ZOETIS INC,203.62,203.62,203.62,203.62,0,20360
192271,2022-08-31,Z2EN34,ZENDESK INC,26.50,26.64,26.50,26.64,0,10630


A primeira coisa que é importante fazer, é analisar as primeiras possibilidades de erros nas informações e para isso, vamos fazer algumas análises gerais dos valores da tabela como, número de colunas e linhas, informações gerais, se existem valores nulos e possíveis discrepâncias.

In [16]:
#display(df.shape)
#df.isnull().sum()
df.describe()

Unnamed: 0,preco_abertura,preco_maximo,preco_minimo,preco_fechamento,qtd_negocios,vol_financeiro
count,19242.0,19242.0,19242.0,19242.0,19242.0,19242.0
mean,97.772083,98.303373,97.198073,97.740916,1870144.0,-187607900.0
std,841.012715,841.169905,840.811989,840.979765,9873777.0,886473700.0
min,0.42,0.42,0.39,0.4,0.0,-2147484000.0
25%,11.2025,11.4425,11.0,11.2,60.0,40867.5
50%,31.0,31.29,30.585,30.99,3455.0,1645510.0
75%,66.5,66.85,66.1275,66.5,359975.0,41389610.0
max,113716.0,113716.0,113716.0,113716.0,351712300.0,2145100000.0


Já sabemos agora, que o número de linhas é de 17607, não há valores nulos e na descrição existe uma informação importante para verificarmos. No 'max' que mostra os valores máximos de cada coluna, temos uma ação que foi negociada a R$98.335,00 enquanto, a média está em torno de R$100,00.
Vamos verificar este valor.

In [17]:
df.sort_values(by =['preco_abertura'], ascending=False)

Unnamed: 0,data_pregao,cod_acao,nome_emp,preco_abertura,preco_maximo,preco_minimo,preco_fechamento,qtd_negocios,vol_financeiro
104817,2022-08-17,IBOV11,IBOVESPA,113716.00,113716.00,113716.00,113716.00,140180,-2147483648
22750,2022-08-04,ASML34,ASML HOLD,3060.00,3076.92,3055.36,3076.92,150,47442390
14944,2022-08-03,ASML34,ASML HOLD,3058.77,3093.54,3058.77,3093.54,60,18867110
62,2022-08-01,ASML34,ASML HOLD,2990.42,2998.09,2981.53,2986.66,10,5379300
31803,2022-08-05,ASML34,ASML HOLD,2978.00,2979.47,2978.00,2979.47,0,893690
...,...,...,...,...,...,...,...,...,...
160200,2022-08-25,BLUT4,B TECH EQI,0.44,0.45,0.44,0.45,98300,4398600
175856,2022-08-29,BLUT4,B TECH EQI,0.44,0.45,0.40,0.44,447200,19178800
168039,2022-08-26,BLUT4,B TECH EQI,0.44,0.45,0.44,0.45,184100,8196300
183613,2022-08-30,BLUT4,B TECH EQI,0.43,0.43,0.40,0.41,293900,12110500


Como imaginado, o valor discrepante é referente ao IBOV, que é um dado importante porém, não é o foco do nosso estudo. Por isso, vamos excluir a linha que consta o IBOV11 também, podemos ver que existem ações que não tiveram negocios no mercado à vista então, vamos excluir aas linhas com valores de 'qtd_negocios' zerados.

In [18]:
#df.drop([19087],inplace=True)
no_exchange_df = df[df['qtd_negocios'] == 0]
df = df.drop(no_exchange_df.index)
df.describe()

Unnamed: 0,preco_abertura,preco_maximo,preco_minimo,preco_fechamento,qtd_negocios,vol_financeiro
count,16543.0,16543.0,16543.0,16543.0,16543.0,16543.0
mean,83.180683,83.752069,82.573251,83.155648,2175259.0,-218227200.0
std,899.3294,899.490509,899.133371,899.305406,10617650.0,952559000.0
min,0.42,0.42,0.39,0.4,10.0,-2147484000.0
25%,9.45,9.615,9.295,9.45,300.0,225635.0
50%,25.79,26.1,25.42,25.82,10520.0,4106800.0
75%,58.0,58.5,57.495,57.94,659300.0,67296850.0
max,113716.0,113716.0,113716.0,113716.0,351712300.0,2145100000.0


Temos então, uma tabela em que todas as ações tiveram alguma operação no período.
A partir daqui, é importante termos uma boa ideia do que queremos analisar para melhorar ainda mais os dados portanto, vou adicionar duas colunas com o valor percentual de variação das ações, uma para os valores de abertura e fechamento e outro, para os valores máximo e mínimo.

In [19]:
df['perc_fechamento'] = ((df['preco_fechamento'] / df['preco_abertura'])-1)*100
df['perc_max'] = ((df['preco_minimo'] / df['preco_maximo'])-1)*(-100)
display(df)

Unnamed: 0,data_pregao,cod_acao,nome_emp,preco_abertura,preco_maximo,preco_minimo,preco_fechamento,qtd_negocios,vol_financeiro,perc_fechamento,perc_max
1,2022-08-01,A1CR34,AMCOR PLC,67.69,67.91,67.13,67.34,270,1843820,-0.517063,1.148579
2,2022-08-01,A1DM34,ARCHER DANIE,435.50,436.45,435.50,436.45,80,3746720,0.218140,0.217665
3,2022-08-01,A1EG34,AEGON NV,22.77,22.78,22.59,22.59,11950,27001920,-0.790514,0.834065
4,2022-08-01,A1EN34,ALLIANT ENER,310.85,315.35,310.85,314.24,60,1879770,1.090558,1.426986
5,2022-08-01,A1IV34,APARTMENT IN,42.60,42.60,42.24,42.24,10,68080,-0.845070,0.845070
...,...,...,...,...,...,...,...,...,...,...,...
192262,2022-08-31,WIZS3,WIZ S.A.,8.05,8.22,8.01,8.07,917400,744951200,0.248447,2.554745
192263,2022-08-31,WLMM4,WLM IND COM,26.39,26.39,26.39,26.39,100,263900,0.000000,-0.000000
192265,2022-08-31,XPBR31,XP INC,101.71,103.97,99.45,99.45,588010,-2147483648,-2.222004,4.347408
192266,2022-08-31,YDUQ3,YDUQS PART,12.75,12.78,12.21,12.31,2482100,-2147483648,-3.450980,4.460094


Uma vez que temos esses novos dados, podemos fazer uma análise que eu julgo interessante. Quantas ações e dias a variação diária de ações que tiveram negócios foi zero ou seja, quando fecharam no mesmo valor de abertura.
Vamos salvar este filtro e retirar as ações que tiveram este comportamento para continuar nossos estudos.

In [20]:
zero_a_zero_df = df[df['perc_fechamento']==0]
zero_a_zero_df.to_csv('zeroazero082022.csv')
df = df.drop(zero_a_zero_df.index)

Finalmente, vamos fazer a extração das 10 ações que tiveram maior e menor percentual de variação diária neste período.

In [21]:
major_perc_df = df.nlargest(n=20, columns='perc_fechamento', keep='all')
minor_perc_df = df.nsmallest(n=20, columns='perc_fechamento', keep='all')
major_perc_df.to_csv('maiores_perc_var_082022.csv')
minor_perc_df.to_csv('menores_perc_var_082022.csv')


Obrigado e parabéns por ter chegado até aqui, espero que este artigo tenha trazido informações úteis para o seu aprendizado. Mas, o trabalho ainda não acabou. 
Vamos agora, construir um Dashboard no Power BI para mostrar nossas análises de forma clara e impactante.
Logo logo, farei um artigo onde irei mostrar como transformar os passos feitos hoje em funções, para serem aplicados nos mais diversos DataSets.