### Importar bibliotecas

In [1]:
import pandas as pd
import os

### Ler os arquivos de dados e transformar para formato legível e compatível com as técnicas de aprendizagem de máquina

##### 1 - Definindo nome dos atributos e suas respectivas posições. Os dados gerados pela Bovespa não vem separados por vírgula ou algum outro tipo de separador, eles são delimitados pela posição.

In [2]:
nome_atributos = ['TIPO', 'DATA', 'CODBDI', 'CODNEG', 'TPMERC', 'NOMRES', 'ESPECI', 'PRAZOT', 
                'MODREF', 'PREABE', 'PREMAX', 'PREMIN', 'PREMED', 'PREULT', 'PREOFC', 'PREOFV', 
                'TOTNEG', 'QUATOT', 'VOLTOT', 'PREEXE', 'INDOPC', 'DATVEN', 'FATCOT', 'PTOEXE', 'CODISI', 'DISMES']
posicao_atributos = [(0,2),(2,10),(10,12),(12,24),(24,27),(27,39),(39,49),(49,52),(52,56),
           (56,69),(69,82),(82,95),(95,108),(108,121),(121,134),(134,147),(147,152),
           (152,170),(170,188),(188,201),(201,202),(202,210),(210,217),(217,230),(230,242),(242,245)]

##### 2 - Função que recebe o nome do arquivo contendo os dados, faz a leitura dele e realiza a transformação para o pandas seguindo o padrão da posição de cada atributo

In [3]:
def converterArquivoBruto(arquivo):

    dados = pd.read_fwf(arquivo, colspecs=posicao_atributos)

    dados.columns = nome_atributos
    
    # removendo ultima linha do tipo 99, esta última linha apenas representa que o arquivo chegou ao fim.
    dados = dados.iloc[:-1]
    
    return dados

##### 3 - Listar e salvar o nome de todos os arquivos brutos de dados que estão na pasta 

In [4]:
arquivos = os.listdir("../dados/dados_brutos/")

arquivos

['COTAHIST_A1988.TXT',
 'COTAHIST_A2008.TXT',
 'COTAHIST_A2007.TXT',
 'COTAHIST_A1993.TXT',
 'COTAHIST_A1994.TXT',
 'COTAHIST_A2018.TXT',
 'COTAHIST_A2014.TXT',
 'COTAHIST_A1990.TXT',
 'COTAHIST_A2017.TXT',
 'COTAHIST_A1996.TXT',
 'COTAHIST_A1992.TXT',
 'COTAHIST_A2016.TXT',
 'COTAHIST_A2002.TXT',
 'COTAHIST_A2015.TXT',
 'COTAHIST_A2009.TXT',
 'COTAHIST_A2013.TXT',
 'COTAHIST_A1999.TXT',
 'COTAHIST_A1989.TXT',
 'COTAHIST_A2000.TXT',
 'COTAHIST_A2006.TXT',
 'COTAHIST_A2005.TXT',
 'COTAHIST_A2011.TXT',
 'COTAHIST_A1986.TXT',
 'COTAHIST_A2001.TXT',
 'COTAHIST_A2012.TXT',
 'COTAHIST_A1998.TXT',
 'COTAHIST_A2004.TXT',
 'COTAHIST_A2010.TXT',
 'COTAHIST_A1987.TXT',
 'COTAHIST_A2003.TXT',
 'COTAHIST_A1991.TXT',
 'COTAHIST_A1997.TXT',
 'COTAHIST_A1995.TXT']

##### 4 - Variável para receber o conjunto de dados de todos os anos

In [5]:
dados_completos = pd.DataFrame(columns=nome_atributos)

##### 5 - Percorrer todos os arquivos que estão na pasta de dados, e enviar para a função de converter o arquivo bruto para o pandas

In [6]:
for arquivo in arquivos:
    dados_completos = dados_completos.append(converterArquivoBruto('../dados/dados_brutos/'+arquivo))

len(dados_completos)

7237112

##### Podemos ver que o conjunto de dados possui pouco mais de **7,2 milhões de linhas**

In [7]:
dados_completos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7237112 entries, 0 to 104790
Data columns (total 26 columns):
TIPO      object
DATA      object
CODBDI    float64
CODNEG    object
TPMERC    object
NOMRES    object
ESPECI    object
PRAZOT    object
MODREF    object
PREABE    float64
PREMAX    float64
PREMIN    float64
PREMED    float64
PREULT    float64
PREOFC    float64
PREOFV    float64
TOTNEG    float64
QUATOT    float64
VOLTOT    float64
PREEXE    float64
INDOPC    float64
DATVEN    float64
FATCOT    float64
PTOEXE    float64
CODISI    object
DISMES    float64
dtypes: float64(17), object(9)
memory usage: 1.5+ GB


In [8]:
dados_completos.describe()

Unnamed: 0,CODBDI,PREABE,PREMAX,PREMIN,PREMED,PREULT,PREOFC,PREOFV,TOTNEG,QUATOT,VOLTOT,PREEXE,INDOPC,DATVEN,FATCOT,PTOEXE,DISMES
count,7237112.0,7237112.0,7237112.0,7237112.0,7237112.0,7237112.0,7237112.0,7237112.0,7237112.0,7237112.0,7237112.0,7237112.0,7237112.0,7237112.0,7237112.0,7237112.0,7237112.0
mean,52.70179,91825.46,93637.84,90891.21,92537.69,92585.85,23342.99,35867.65,295.6031,31505460.0,9838591000.0,90118.8,0.01004448,78143410.0,250.9604,883410100.0,138.7549
std,39.05563,12773410.0,12793520.0,12767220.0,12792230.0,12786330.0,2060975.0,26102200.0,1865.974,763056100.0,1100675000000.0,726772.1,0.2488559,35600980.0,2030.245,7182770000.0,84.72491
min,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,19860220.0,0.0,0.0,0.0
25%,2.0,128.0,134.0,121.0,127.0,128.0,0.0,0.0,2.0,1000.0,214878.8,0.0,0.0,20180520.0,1.0,0.0,105.0
50%,62.0,847.0,858.0,830.0,844.0,847.0,41.0,35.0,5.0,13000.0,2452140.0,0.0,0.0,99991230.0,1.0,0.0,122.0
75%,82.0,3432.0,3492.0,3398.0,3432.0,3439.0,1235.0,1200.0,24.0,287000.0,28043120.0,640.0,0.0,99991230.0,1.0,0.0,160.0
max,96.0,27448430000.0,27448430000.0,27448430000.0,27448430000.0,27448430000.0,1000000000.0,70000010000.0,99787.0,1000000000000.0,732405000000000.0,50000000.0,9.0,99991230.0,1000000.0,116000000000.0,685.0


In [9]:
dados_completos.head()

Unnamed: 0,TIPO,DATA,CODBDI,CODNEG,TPMERC,NOMRES,ESPECI,PRAZOT,MODREF,PREABE,...,TOTNEG,QUATOT,VOLTOT,PREEXE,INDOPC,DATVEN,FATCOT,PTOEXE,CODISI,DISMES
0,1,19880104,2.0,ABC 6,10,ABC XTAL,PPA,,CZ$,225.0,...,2.0,3000.0,685000.0,0.0,0.0,99991231.0,1.0,0.0,ABCXACPPA,101.0
1,1,19880104,2.0,ACE 2,10,ACESITA,PP C01,,CZ$,440.0,...,1.0,400.0,176000.0,0.0,0.0,99991231.0,1.0,0.0,ACESACPP,114.0
2,1,19880104,2.0,EAL 2,10,ACO ALTONA,PP,,CZ$,863.0,...,8.0,33100.0,29863800.0,0.0,0.0,99991231.0,1.0,0.0,EALTACPP,117.0
3,1,19880104,2.0,AVI 2,10,ACOS VILL,PP C42,,CZ$,330.0,...,12.0,112700.0,37149000.0,0.0,0.0,99991231.0,1.0,0.0,AVILACPP,140.0
4,1,19880104,2.0,CRA 2,10,ADUBOS CRA,PP C31,,CZ$,90.0,...,1.0,10000.0,900000.0,0.0,0.0,99991231.0,1.0,0.0,CRADACPP,121.0


##### Verificando quais anos estão presentes no conjunto de dados

In [10]:
anos = dados_completos.DATA.str[:4].unique()
anos.sort() # ordenar
anos

array(['1986', '1987', '1988', '1989', '1990', '1991', '1992', '1993',
       '1994', '1995', '1996', '1997', '1998', '1999', '2000', '2001',
       '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009',
       '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017',
       '2018'], dtype=object)

##### Verificando qual é a última semana de dados que estão presente no dataset

In [11]:
t = dados_completos.loc[dados_completos['DATA'].str[:4] == '2018', 'DATA'].unique()
t[-5:]

array(['20181018', '20181019', '20181022', '20181023', '20181024'], dtype=object)

##### Salvando os dados em CSV

In [12]:
dados_completos.to_csv('../dados/historico_acoes.csv', index=False)