# Predizendo boas oportunidades

#### Alunos: Hélder Gurgel e Raphaella Medeiros

A finalidade do trabalho é identificar boas oportunidades de negócios considerando os papeis listados na BOVESPA. 

<font color='red'>**ATENÇÃO!**</font> Em nenhum momento apresentamos sugestões de compras ou afirmamos que os valores mostrados pela execução deste notebook são oportunidades de ganhos certos. Temos o único interesse de selecionar, por uso dos algorítmos de aprendizado de máquina, algumas opções de comprar para auxiliar o corretor de valor e obter nota máxima na cadeira de Análise Preditiva no UNI7.

## Obtendo os valores das cotações

A BOVESPA disponibiliza por meio de seu [site](http://www.bmfbovespa.com.br/pt_br/servicos/market-data/historico/mercado-a-vista/cotacoes-historicas/) todas as cotações até a data de ontem. 

Para a excução do script aqui apresentado, fizemos o download somente das informações do ano de 2018.

<font color='blue'>**NOTA:**</font> o porque escolher somente tais campos e o que eles representam para nós serão detalhados no decorrer deste *notebook*

In [1]:
import pandas as pd

In [17]:
def to_float(x): return float(x)/100

In [22]:
bovespa = pd.read_fwf("bases/COTAHIST_A2018.TXT", \
            header=None, skiprows=1, skipfooter=1, \
            colspecs=[[12,24],[2,10],[56,69],[69,82],[82,95],[95,108],[108,121],[121,134],[134,147],[152,170]], \
            names=['CODNEG','DATAPREGAO','PREABE','PREMAX','PREMIN','PREMED','PREULT','PREOFC','PREOFV','QUATOT'], \
            converters = {
                'PREABE': to_float,
                'PREMAX': to_float,
                'PREMIN': to_float,
                'PREMED': to_float,
                'PREULT': to_float,
                'PREOFC': to_float,
                'PREOFV': to_float
            })

In [24]:
bovespa.head(5)

Unnamed: 0,CODNEG,DATAPREGAO,PREABE,PREMAX,PREMIN,PREMED,PREULT,PREOFC,PREOFV,QUATOT
0,AALR3,20180102,14.94,15.16,14.7,14.84,14.89,14.75,14.89,94500
1,AALR3F,20180102,14.79,14.93,14.79,14.86,14.8,14.73,15.16,225
2,AAPL34,20180102,56.81,56.81,56.3,56.38,56.3,55.0,56.3,900
3,AAPL34F,20180102,56.81,65.0,56.54,59.63,56.54,54.59,62.0,61
4,ABCB2,20180102,4.11,4.2,4.11,4.14,4.2,4.13,6.0,1200


## Modificando base original

### Identificando "boas oportunidades"

O primeiro desafio é identificar o que vamos considerar como uma boa oportunidade de compra. Decidimos por "boa oportunidades" àqueles papéis que valorizaram pelo menos 2% no dia.

In [31]:
#PREABE = preço de abertura
#PREULT = preço de fechamento (ou última negociação)
#Todos os campos calculados terão o _ como prefixo

bovespa['_VALORIZACAO'] = 1 - bovespa['PREABE']/bovespa['PREULT'] 
bovespa['_BOAOPORTUNIDADE'] = bovespa['_VALORIZACAO'] >= 0.02

In [32]:
bovespa.head()

Unnamed: 0,CODNEG,DATAPREGAO,PREABE,PREMAX,PREMIN,PREMED,PREULT,PREOFC,PREOFV,QUATOT,_VALORIZACAO,_BOAOPORTUNIDADE
0,AALR3,20180102,14.94,15.16,14.7,14.84,14.89,14.75,14.89,94500,-0.003358,False
1,AALR3F,20180102,14.79,14.93,14.79,14.86,14.8,14.73,15.16,225,0.000676,False
2,AAPL34,20180102,56.81,56.81,56.3,56.38,56.3,55.0,56.3,900,-0.009059,False
3,AAPL34F,20180102,56.81,65.0,56.54,59.63,56.54,54.59,62.0,61,-0.004775,False
4,ABCB2,20180102,4.11,4.2,4.11,4.14,4.2,4.13,6.0,1200,0.021429,True


In [37]:
bovespa.groupby(['_BOAOPORTUNIDADE']).size()

_BOAOPORTUNIDADE
False    193513
True      43830
dtype: int64

Tivemos então, durante o ano de 2018 e até esta data *(1/junho)*, 43 mil oportunidades de ganho (uau :o)

### ... mas vendo as consequências para amanhã

Uma segunda consideracão é com relação a quando receberemos a notificação.

Imaginando o dia a dia de trabalho em uma financeira, acreditamos que, ao final do dia, o corretor de ações atualizará a base com as informações oficiais do dia de trabalho e obterá uma relação de possíveis bons negócios para o dia seguinte. Assim sendo, devemos ser capazes de identificar quais ações serão boas para amanhã (e não para hoje, que é o que mostramos na coluna de _BOAOPORTUNIDADE).

Fazemos então uma verificação de quais acões se mostraram valorizadas no dia seguinte com base nas informações que temos hoje.

#### criando um índice para os pregões

In [81]:
indices_para_as_datas = {}
for i,e in enumerate(datas):
    indices_para_as_datas[e] = i

In [85]:
bovespa['_INDICEPREGAO'] = bovespa['DATAPREGAO'].replace(indices_para_as_datas)

In [86]:
bovespa.head(1)

Unnamed: 0,CODNEG,DATAPREGAO,PREABE,PREMAX,PREMIN,PREMED,PREULT,PREOFC,PREOFV,QUATOT,_VALORIZACAO,_BOAOPORTUNIDADE,_INDICEPREGAO
0,AALR3,20180102,14.94,15.16,14.7,14.84,14.89,14.75,14.89,94500,-0.003358,False,0


#### Incluindo o valor de _BOAOPORTUNIDADE do próximo pregão

In [162]:
bovespa_proximo_dia = bovespa.loc[:,('CODNEG','_INDICEPREGAO','_BOAOPORTUNIDADE')]

In [163]:
bovespa_proximo_dia['_INDICEPREGAO'] = bovespa_proximo_dia._INDICEPREGAO-1

In [164]:
bovespa_proximo_dia.rename(columns={'_BOAOPORTUNIDADE': '_BOAOPORTUNIDADEPROXIMOPREGAO'}, inplace=True)

In [165]:
bovespa_completa = bovespa.merge(bovespa_proximo_dia, \
                                 how='inner', \
                                 left_on=['CODNEG', '_INDICEPREGAO'], \
                                 right_on=['CODNEG', '_INDICEPREGAO'])

In [166]:
bovespa_completa[bovespa_completa.CODNEG == 'ABCB2']

Unnamed: 0,CODNEG,_INDICEPREGAO,DATAPREGAO,PREABE,PREMAX,PREMIN,PREMED,PREULT,PREOFC,PREOFV,QUATOT,_VALORIZACAO,_BOAOPORTUNIDADE,_BOAOPORTUNIDADEPROXIMOPREGAO
4,ABCB2,0,20180102,4.11,4.2,4.11,4.14,4.2,4.13,6.0,1200,0.021429,True,False
1819,ABCB2,1,20180103,4.2,4.5,4.01,4.2,4.21,4.2,4.6,3500,0.002375,False,False
3752,ABCB2,2,20180104,4.35,4.35,4.26,4.33,4.26,4.25,4.6,700,-0.021127,False,False
5651,ABCB2,3,20180105,4.38,4.7,3.98,4.29,4.35,4.25,4.58,24800,-0.006897,False,True
7484,ABCB2,4,20180108,4.37,4.95,4.37,4.6,4.51,4.51,4.9,17100,0.031042,True,False
9239,ABCB2,5,20180109,4.43,4.65,4.36,4.51,4.47,4.47,4.79,13600,0.008949,False,True
11093,ABCB2,6,20180110,4.58,4.78,4.5,4.61,4.7,4.55,4.79,6600,0.025532,True,True
13026,ABCB2,7,20180111,4.66,5.2,4.6,4.87,4.91,4.91,5.0,27200,0.050916,True,False
15172,ABCB2,8,20180112,4.8,4.85,4.66,4.79,4.8,4.72,4.85,36600,0.0,False,False
16887,ABCB2,9,20180115,4.82,4.9,4.79,4.82,4.79,4.6,4.81,30600,-0.006263,False,False


## Preparando nossa base para o treino

In [167]:
bovespa_completa.groupby('_BOAOPORTUNIDADEPROXIMOPREGAO').size()

_BOAOPORTUNIDADEPROXIMOPREGAO
False    157507
True      35559
dtype: int64

<font color=blue>Nota</font> Temos um problema de desbalanceamento nas nossas informações. Optamos por balancear reduzindo a quantidade do maior grupo até a quantidade do menor grupo.

In [168]:
import numpy as np

In [170]:
indices_positivos = bovespa_completa[bovespa_completa._BOAOPORTUNIDADEPROXIMOPREGAO].index.values

In [171]:
indices_negativos = bovespa_completa[~bovespa_completa._BOAOPORTUNIDADEPROXIMOPREGAO].index.values

In [172]:
print len(indices_positivos), len(indices_negativos)

35559 157507


In [173]:
indices_negativos_selecionados = np.random.choice(indices_negativos, size=len(indices_positivos), replace=False)

In [174]:
print len(indices_negativos_selecionados)

35559


In [183]:
bovespa_para_treino = pd.concat([bovespa_completa.iloc[indices_positivos], \
                                 bovespa_completa.iloc[indices_negativos_selecionados]])

In [184]:
bovespa_para_treino.groupby('_BOAOPORTUNIDADEPROXIMOPREGAO').size()

_BOAOPORTUNIDADEPROXIMOPREGAO
False    35559
True     35559
dtype: int64

<font color=green>Pensamento ;)</font> Eu acho que estamos começando a gostar de python :)

Com isto entregamos uma base **base_para_treino** que servirá para os processos de treino e predição.

## Realizando o treino

### Retirando colunas desnecessárias

In [185]:
bovespa_para_treino.columns

Index([u'CODNEG', u'_INDICEPREGAO', u'DATAPREGAO', u'PREABE', u'PREMAX',
       u'PREMIN', u'PREMED', u'PREULT', u'PREOFC', u'PREOFV', u'QUATOT',
       u'_VALORIZACAO', u'_BOAOPORTUNIDADE', u'_BOAOPORTUNIDADEPROXIMOPREGAO'],
      dtype='object')

In [186]:
bovespa_para_treino.drop(['CODNEG','_INDICEPREGAO','DATAPREGAO','_BOAOPORTUNIDADE'], axis=1, inplace=True)

In [187]:
bovespa_para_treino.head()

Unnamed: 0,PREABE,PREMAX,PREMIN,PREMED,PREULT,PREOFC,PREOFV,QUATOT,_VALORIZACAO,_BOAOPORTUNIDADEPROXIMOPREGAO
5,4.01,4.2,4.01,4.12,4.2,4.08,4.2,222,0.045238,True
19,0.13,0.28,0.13,0.2,0.25,0.22,0.25,209200,0.48,True
24,0.5,0.81,0.5,0.54,0.81,0.5,0.0,6100,0.382716,True
26,0.4,0.49,0.37,0.48,0.49,0.02,0.0,2014900,0.183673,True
27,0.07,0.07,0.07,0.07,0.07,0.0,0.22,94600,0.0,True


In [194]:
y = bovespa_para_treino[['_BOAOPORTUNIDADEPROXIMOPREGAO']]

In [197]:
y.head()

Unnamed: 0,_BOAOPORTUNIDADEPROXIMOPREGAO
5,True
19,True
24,True
26,True
27,True


In [192]:
X = bovespa_para_treino.drop(['_BOAOPORTUNIDADEPROXIMOPREGAO'], axis=1)

In [193]:
X.head()

Unnamed: 0,PREABE,PREMAX,PREMIN,PREMED,PREULT,PREOFC,PREOFV,QUATOT,_VALORIZACAO
5,4.01,4.2,4.01,4.12,4.2,4.08,4.2,222,0.045238
19,0.13,0.28,0.13,0.2,0.25,0.22,0.25,209200,0.48
24,0.5,0.81,0.5,0.54,0.81,0.5,0.0,6100,0.382716
26,0.4,0.49,0.37,0.48,0.49,0.02,0.0,2014900,0.183673
27,0.07,0.07,0.07,0.07,0.07,0.0,0.22,94600,0.0


### Normalizando X

In [198]:
from sklearn.preprocessing import Normalizer

In [199]:
normalizer = Normalizer("l2")

In [201]:
X_normalizado = normalizer.fit_transform(X)

In [202]:
X_normalizado

array([[ 1.80413494e-02,  1.88961764e-02,  1.80413494e-02, ...,
         1.88961764e-02,  9.98797895e-01,  2.03530245e-04],
       [ 6.21414914e-07,  1.33843212e-06,  6.21414914e-07, ...,
         1.19502868e-06,  1.00000000e+00,  2.29445507e-06],
       [ 8.19672104e-05,  1.32786881e-04,  8.19672104e-05, ...,
         0.00000000e+00,  9.99999966e-01,  6.27403339e-05],
       ...,
       [ 4.58963328e-02,  4.59062799e-02,  4.58963328e-02, ...,
         0.00000000e+00,  9.94718959e-01,  2.15540403e-07],
       [ 2.02898551e-05,  2.31884058e-05,  1.66666666e-05, ...,
         0.00000000e+00,  9.99999999e-01,  7.01262271e-06],
       [ 1.62728135e-04,  1.62824197e-04,  1.61959644e-04, ...,
         0.00000000e+00,  9.99999934e-01, -3.98595324e-08]])

### Separando X e y para treino e teste