# Arquivo cotações historicas B3

**Quais informações estão no arquivo de cotações a Bovespa?**

Esse produto contempla as principais informações dos ativos, como: nome e código da empresa, código da ação, código ISIN, tipo de mercado (a vista, termo, opções), especificação (ON/PN), preços (anterior, abertura, mínimo, médio, máximo, fechamento), quantidade de negócios e volume negociado com o papel, dentre outros dados disponíveis.

In [1]:
#Instalações
import pandas as pd

In [2]:
column_widths  = [(2,10),
                  (10,12),
                  (12,24),
                  (27,39),
                  (56,69),
                  (69,82),
                  (82,95),
                  (108,121),
                  (152,170),
                  (170,188)
]

column_names = ['data_pregao',
                'cod_bdi',
                'sigla_acao',
                'nome_acao',
                'preco_abertura',
                'preco_maximo',
                'preco_minimo',
                'preco_fechamento',
                'qtd_negocios',
                'volume_negocios'
]

df = pd.read_fwf('COTAHIST_A2020.TXT', colspecs=column_widths, names=column_names, skiprows=1)
df.head(5)

Unnamed: 0,data_pregao,cod_bdi,sigla_acao,nome_acao,preco_abertura,preco_maximo,preco_minimo,preco_fechamento,qtd_negocios,volume_negocios
0,20200102,2.0,AALR3,ALLIAR,1829.0,1900.0,1828.0,1900.0,585800.0,1094620000.0
1,20200102,2.0,AAPL34,APPLE,12000.0,12134.0,12000.0,12134.0,12700.0,153338000.0
2,20200102,2.0,ABCB4,ABC BRASIL,2000.0,2030.0,1982.0,2030.0,870400.0,1745788000.0
3,20200102,2.0,ABEV3,AMBEV S/A,1886.0,1925.0,1878.0,1920.0,16011300.0,30623480000.0
4,20200102,2.0,ADHM3,ADVANCED-DH,255.0,255.0,235.0,248.0,193400.0,47192700.0


In [3]:
#Contagem de valores nulos no dataset
df.isnull().sum()

data_pregao         0
cod_bdi             0
sigla_acao          0
nome_acao           0
preco_abertura      1
preco_maximo        1
preco_minimo        1
preco_fechamento    1
qtd_negocios        1
volume_negocios     1
dtype: int64

In [4]:
#Mostra as linhas com valores nulos
df[df.isnull().any(axis=1)]

Unnamed: 0,data_pregao,cod_bdi,sigla_acao,nome_acao,preco_abertura,preco_maximo,preco_minimo,preco_fechamento,qtd_negocios,volume_negocios
1251646,COTAHIST,0.2,020BOVESPA 2,123000001251,,,,,,


In [5]:
#Elimina linhas com valore nulos
df = df.drop(df[df.isna().any(axis=1)].index)
df.isnull().sum()

data_pregao         0
cod_bdi             0
sigla_acao          0
nome_acao           0
preco_abertura      0
preco_maximo        0
preco_minimo        0
preco_fechamento    0
qtd_negocios        0
volume_negocios     0
dtype: int64

In [6]:
#Tipos de dados do dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1251646 entries, 0 to 1251645
Data columns (total 10 columns):
 #   Column            Non-Null Count    Dtype  
---  ------            --------------    -----  
 0   data_pregao       1251646 non-null  object 
 1   cod_bdi           1251646 non-null  float64
 2   sigla_acao        1251646 non-null  object 
 3   nome_acao         1251646 non-null  object 
 4   preco_abertura    1251646 non-null  float64
 5   preco_maximo      1251646 non-null  float64
 6   preco_minimo      1251646 non-null  float64
 7   preco_fechamento  1251646 non-null  float64
 8   qtd_negocios      1251646 non-null  float64
 9   volume_negocios   1251646 non-null  float64
dtypes: float64(7), object(3)
memory usage: 95.5+ MB


In [7]:
#Ajuste nos tipos de dados

df['data_pregao']      = pd.to_datetime(df['data_pregao'], format = '%Y%m%d')
df['preco_abertura']   = (df['preco_abertura']/100)
df['preco_maximo']     = (df['preco_maximo']/100)
df['preco_minimo']     = (df['preco_minimo']/100)
df['preco_fechamento'] = (df['preco_fechamento']/100)
df['qtd_negocios']     = df['qtd_negocios'].astype(int)
df['volume_negocios']  = df['volume_negocios'].astype(int)
df.head(5)

Unnamed: 0,data_pregao,cod_bdi,sigla_acao,nome_acao,preco_abertura,preco_maximo,preco_minimo,preco_fechamento,qtd_negocios,volume_negocios
0,2020-01-02,2.0,AALR3,ALLIAR,18.29,19.0,18.28,19.0,585800,1094619600
1,2020-01-02,2.0,AAPL34,APPLE,120.0,121.34,120.0,121.34,12700,153338000
2,2020-01-02,2.0,ABCB4,ABC BRASIL,20.0,20.3,19.82,20.3,870400,1745787800
3,2020-01-02,2.0,ABEV3,AMBEV S/A,18.86,19.25,18.78,19.2,16011300,-2147483648
4,2020-01-02,2.0,ADHM3,ADVANCED-DH,2.55,2.55,2.35,2.48,193400,47192700


In [8]:
#Filtragem do lote padrão
df = df[df['cod_bdi'] == 2]

#Drop coluna cod_bdi
df = df.drop(['cod_bdi'], axis=1)
df.head(5)

Unnamed: 0,data_pregao,sigla_acao,nome_acao,preco_abertura,preco_maximo,preco_minimo,preco_fechamento,qtd_negocios,volume_negocios
0,2020-01-02,AALR3,ALLIAR,18.29,19.0,18.28,19.0,585800,1094619600
1,2020-01-02,AAPL34,APPLE,120.0,121.34,120.0,121.34,12700,153338000
2,2020-01-02,ABCB4,ABC BRASIL,20.0,20.3,19.82,20.3,870400,1745787800
3,2020-01-02,ABEV3,AMBEV S/A,18.86,19.25,18.78,19.2,16011300,-2147483648
4,2020-01-02,ADHM3,ADVANCED-DH,2.55,2.55,2.35,2.48,193400,47192700
