# Buscando padrões no comportamento de ações

# Business Understanding:

###  - Ações e Bolsas de Valores

Segundo o Portal do Investidor, portal ligado ao Governo Federal, "Ação é a menor parcela do capital social das companhias ou sociedades anônimas. É, portanto, um título patrimonial e, como tal, concede aos seus titulares, os acionistas, todos os direitos e deveres de um sócio, no limite das ações possuídas." As ações são comumente negociadas nas chamadas bolsas de valores.

Conforme o site do banco BTG Pactual, "Bolsa de Valores é um ambiente de negociação no qual investidores podem comprar ou vender seus títulos emitidos por empresas, sejam elas com capitais públicos, mistos ou privados. Esse processo é intermediado com auxílio de correspondentes de negociações através de corretoras". A ideia é obter um ambiente que seja seguro para realização das negociações de ações.

Há mais de 20 Bolsas de Valores ativas atualmente no mercado, cuja capitalização de mercado somadas ultrapassam os 60 trilhões de dólares. Uma destas bolsas é a de Toronto, que movimenta anualmente mais de 1,62 trilhão de dólares.

###  - Toronto-Dominion Bank (TD Bank Group)

Inserida na Bolsa de Toronto, a empresa Toronto-Dominion Bank, também conhecida como TD Bank Group, é uma empresa multinacional canadense de serviços bancários e financeiros com sede em Toronto, Ontário. O banco e suas subsidiárias são comumente conhecidos como TD e negociam sob o nome Toronto-Dominion Bank.

###  - Por que analisar comportamentos de ações?

As ações são investimentos de renda variável, e portanto possuem riscos considerados altos. Mas a escolha do investimento pode ser realizada de uma forma mais técnica e racional, o que pode contribuir para minimização dos riscos. Analisar o comportamento de uma ação ao longo do tempo pode aproximar o investidor dos ganhos esperados.

### - Objetivo do trabalho

O objetivo do presente trabalho é obter pelo menos 5 ações em qualquer período, que contenham um comportamento com similaridade de pelo menos 80% em relação ao comportamento do preço das ações do TD Bank Group na bolsa de Toronto, no período entre 01 de dezembro de 2021 e 01 de fevereiro de 2022. O gráfico a seguir contém a variação do valor das ações do TD Bank Group na Bolsa de Toronto neste período:

![Grafico_01_12_01_02](https://user-images.githubusercontent.com/67437213/172915576-06eee66b-69d1-4da0-8038-ed994632407d.PNG)

In [1]:
# Importando bibliotecas

import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings("ignore")

# Data Understanding

In [2]:
# Carregando a base de dados e verificando as 5 primeiras linhas do DataFrame

df = pd.read_parquet('../input/databaseparquet/database.parquet')
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,Ticker,Exchange
0,2008-09-02,25.100143,25.536482,24.527897,24.670959,22.517595,2876665.0,A,NYSE
1,2008-09-03,24.570814,24.678112,23.862661,24.184549,22.073639,3855265.0,A,NYSE
2,2008-09-04,23.97711,23.984262,22.989986,23.018599,21.009457,3656609.0,A,NYSE
3,2008-09-05,22.889843,23.547926,22.711016,23.454935,21.407715,3217357.0,A,NYSE
4,2008-09-08,23.876966,23.97711,23.297567,23.583691,21.525227,3046102.0,A,NYSE


In [3]:
# Verificando as 5 últimas linhas do DataFrame
df.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,Ticker,Exchange
17312557,2022-03-22,28.040001,28.049999,28.040001,28.049999,28.049999,500.0,ZZZD,TO
17312558,2022-03-23,27.99,27.99,27.85,27.889999,27.889999,1700.0,ZZZD,TO
17312559,2022-03-24,27.809999,27.809999,27.809999,27.809999,27.809999,0.0,ZZZD,TO
17312560,2022-03-25,28.09,28.09,27.889999,27.889999,27.889999,2400.0,ZZZD,TO
17312561,2022-03-28,27.950001,27.98,27.85,27.98,27.98,2000.0,ZZZD,TO


In [4]:
# Verificando os tipos das colunas do dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17312562 entries, 0 to 17312561
Data columns (total 9 columns):
 #   Column     Dtype         
---  ------     -----         
 0   Date       datetime64[ns]
 1   Open       float64       
 2   High       float64       
 3   Low        float64       
 4   Close      float64       
 5   Adj Close  float64       
 6   Volume     float64       
 7   Ticker     object        
 8   Exchange   object        
dtypes: datetime64[ns](1), float64(6), object(2)
memory usage: 1.2+ GB


### Dicionário de dados

- Date: data do registro dos valores da ação;
- Open: valor da ação na abertura da bolsa;
- High: maior valor da ação registrado no respectivo dia;
- Low: menor valor da ação registrado no respectivo dia;
- Close: valor da ação no fechamento da bolsa;
- Adj Close: é o ajuste do valor da ação no fechamento da bolsa por algumas ações corporativas, como desdobramentos de ações, dividendos e ofertas de direitos. 
- Volume: Quantidade de uma ação negociada durante o dia específico;
- Ticker: código identificador da empresa que contém suas ações na bolsa;
- Exchange: código identificador da bolsa de valores.

# Data Preparation - Parte 1

#### Na parte 1 de preparação dos dados, o foco principal estará na filtragem dos dados para o período de 01-12-2021 a 01-02-2022.


In [5]:
# Selecionando o período de interesse da bolsa de Toronto (01-12-2021 a 01-02-2022)

df.set_index(df.Date, inplace = True)
toronto = df.loc[df['Exchange'] == 'TO']
toronto = toronto.loc[(toronto['Date'] >= '2021-12-01') & (toronto['Date'] <= '2022-02-01')]
toronto.head()

Unnamed: 0_level_0,Date,Open,High,Low,Close,Adj Close,Volume,Ticker,Exchange
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2021-12-01,2021-12-01,0.13,0.13,0.13,0.13,0.13,28200.0,AAB,TO
2021-12-02,2021-12-02,0.13,0.13,0.13,0.13,0.13,74900.0,AAB,TO
2021-12-03,2021-12-03,0.13,0.13,0.13,0.13,0.13,38000.0,AAB,TO
2021-12-06,2021-12-06,0.13,0.13,0.13,0.13,0.13,10600.0,AAB,TO
2021-12-07,2021-12-07,0.14,0.14,0.13,0.13,0.13,5600.0,AAB,TO


In [6]:
# Descobrindo quantas datas há de operação da bolsa de Toronto no período de interesse

len(toronto['Date'].unique())

42

#### Como há 42 datas no período de interesse, vamos descartar todas as ações que possuam uma quantidade menor de datas, evitando utilizá-las para manter a homogeneidade do dataset neste sentido. Criou-se uma lista com todos os tickers únicos da bolsa de Toronto, e outra lista com todos os tickers, incluindo as repetições, a fim de auxiliar na obtenção das ações a serem descartadas. Foi criada também uma função que filtra o dataset, retirando tais ações.   

In [7]:
lista_tickers_toronto = toronto['Ticker'].unique().tolist()
lista_ticker = toronto['Ticker'].tolist()

def filter_rows_by_values(df, col, values):
    return df[~df[col].isin(values)]

acoes_descartadas = []
for acao in lista_tickers_toronto:
    conta_acao = lista_ticker.count(acao)
    if conta_acao < 42:
        acoes_descartadas.append(acao)
        
toronto = filter_rows_by_values(toronto, "Ticker", acoes_descartadas)

In [8]:
# Retirando as ações descartadas da lista de tickers únicos

for acao in acoes_descartadas:
    if acao in lista_tickers_toronto:
        lista_tickers_toronto.remove(acao)
    else:
        pass

#### A seguir será criada uma lista de dataframes, onde cada um contém apenas um ticker:

In [9]:
dfs = []

for t in lista_tickers_toronto:
    dataframe = toronto.loc[toronto['Ticker'] == t]
    dfs.append(dataframe)

In [10]:
# Observando as 5 primeiras linhas do 1º dataframe

dfs[0].head()

Unnamed: 0_level_0,Date,Open,High,Low,Close,Adj Close,Volume,Ticker,Exchange
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2021-12-01,2021-12-01,0.13,0.13,0.13,0.13,0.13,28200.0,AAB,TO
2021-12-02,2021-12-02,0.13,0.13,0.13,0.13,0.13,74900.0,AAB,TO
2021-12-03,2021-12-03,0.13,0.13,0.13,0.13,0.13,38000.0,AAB,TO
2021-12-06,2021-12-06,0.13,0.13,0.13,0.13,0.13,10600.0,AAB,TO
2021-12-07,2021-12-07,0.14,0.14,0.13,0.13,0.13,5600.0,AAB,TO


#### A seguir, será calculado para cada dataframe o retorno em relação ao dia anterior, cujo cálculo se dá pela divisão do valor final ajustado da ação em um determinado dia, e este valor no dia anterior, e após é reduzido em uma unidade. 

In [11]:
for d in dfs:
    d['Ret Dia Ant'] = ((d['Adj Close'] / d['Adj Close'].shift()) - 1)

#### Criou-se então um dataframe vazio denominado 'correlacao', a fim de adicionar a coluna com os retornos de cada ação: 

In [12]:
correlacao = pd.DataFrame()
for d in dfs:
    correlacao[d['Ticker'].iloc[0]] = d['Ret Dia Ant']
correlacao.reset_index(inplace = True)
correlacao.drop('Date', axis = 1, inplace = True)
correlacao.head()

Unnamed: 0,AAB,AAV,ABCT,ABST,ABTC,ABX,AC,ACB,ACD,ACQ,...,ZWG,ZWH,ZWK,ZWP,ZWS,ZWT,ZWU,ZXM,ZZZ,ZZZD
0,,,,,,,,,,,...,,,,,,,,,,
1,0.0,0.013353,0.0,0.003607,-0.006861,-0.013147,0.044687,0.02474,-0.017647,0.053039,...,0.010621,0.011612,0.024338,0.01915,0.013673,0.008535,0.01056,0.003536,0.013657,-0.005392
2,0.0,0.001464,0.0,-0.02336,-0.055268,0.005157,-0.009981,-0.054638,-0.001198,-0.020374,...,-0.000328,0.002208,-0.024361,-0.002349,0.006977,-0.018618,0.002412,-0.00047,-0.008893,0.010119
3,0.0,-0.020468,-0.011887,0.034039,-0.087751,0.008978,0.033125,0.024194,0.0,0.031774,...,0.011498,0.005727,0.01603,-0.003531,0.006467,0.01121,0.008821,-0.008696,0.016041,-0.006798
4,0.0,-0.004478,0.022556,-0.001779,0.03006,-0.003814,0.009758,0.062992,0.007194,0.034714,...,0.007145,-0.002628,0.005765,0.013585,0.00413,0.017908,0.003975,0.02679,0.023013,0.006484


In [13]:
correlacao.drop(0, inplace = True)
correlacao.head()

Unnamed: 0,AAB,AAV,ABCT,ABST,ABTC,ABX,AC,ACB,ACD,ACQ,...,ZWG,ZWH,ZWK,ZWP,ZWS,ZWT,ZWU,ZXM,ZZZ,ZZZD
1,0.0,0.013353,0.0,0.003607,-0.006861,-0.013147,0.044687,0.02474,-0.017647,0.053039,...,0.010621,0.011612,0.024338,0.01915,0.013673,0.008535,0.01056,0.003536,0.013657,-0.005392
2,0.0,0.001464,0.0,-0.02336,-0.055268,0.005157,-0.009981,-0.054638,-0.001198,-0.020374,...,-0.000328,0.002208,-0.024361,-0.002349,0.006977,-0.018618,0.002412,-0.00047,-0.008893,0.010119
3,0.0,-0.020468,-0.011887,0.034039,-0.087751,0.008978,0.033125,0.024194,0.0,0.031774,...,0.011498,0.005727,0.01603,-0.003531,0.006467,0.01121,0.008821,-0.008696,0.016041,-0.006798
4,0.0,-0.004478,0.022556,-0.001779,0.03006,-0.003814,0.009758,0.062992,0.007194,0.034714,...,0.007145,-0.002628,0.005765,0.013585,0.00413,0.017908,0.003975,0.02679,0.023013,0.006484
5,0.076923,0.016492,0.014706,0.023173,-0.007782,0.000851,0.020709,0.02716,-0.005952,-0.008929,...,-0.000645,0.000439,-0.004525,0.006993,-0.001828,0.005027,-0.001584,0.003925,-0.007586,0.003937


# Modeling

A forma de medição da similaridade entre as ações será pela Correlação de Pearson.

### Correlação de Pearson

O coeficiente de correlação de Pearson é um teste que mede a relação estatística entre duas variáveis contínuas. Se a associação entre os elementos não for linear, o coeficiente não será representado adequadamente.

O coeficiente de correlação de Pearson pode ter um intervalo de valores de +1 a -1. Um valor de 0 indica que não há associação entre as duas variáveis. Um valor maior que 0 indica uma associação positiva. Isto é, à medida que o valor de uma variável aumenta, o mesmo acontece com o valor da outra variável. Um valor menor que 0 indica uma associação negativa. Isto é, à medida que o valor de uma variável aumenta, o valor da outra diminui.

Para realizar a correlação de Pearson, é necessário cumprir o seguinte:

- A escala de medição deve ser uma escala ou relação de intervalo;
- As variáveis devem ser aproximadamente distribuídas;
- A associação deve ser linear;
- Não deve haver valores atípicos nos dados.

#### Interpretação do coeficiente

O coeficiente de correlação de Pearson tem o objetivo de indicar como as duas variáveis associadas estão entre si, assim:

- Correlação menor que zero: Se a correlação é menor que zero, significa que é negativo, isto é, que as variáveis são inversamente relacionadas.

- Quando o valor de alguma variável é alto, o valor da outra variável é baixo. Quanto mais próximo você estiver de -1, mais clara será a covariação extrema. Se o coeficiente é igual a -1, nos referimos a uma correlação negativa perfeita.

- Correlação maior que zero: Se a correlação for igual a +1, significa que é perfeito positivo. Neste caso, significa que a correlação é positiva, isto é, que as variáveis estão diretamente correlacionadas.

- Quando o valor de uma variável é alto, o valor da outra variável também é alto, o mesmo acontece quando eles são baixos. Se estiver próximo de +1, o coeficiente será covariado.

- Correlação igual a zero: Quando a correlação é igual a zero, significa que não é possível determinar qualquer senso de covariação. No entanto, isso não significa que não haja relação não linear entre as variáveis.

Quando as variáveis são independentes, significa que elas estão correlacionadas, mas isso significa que o resultado é verdadeiro.

**Fonte:** https://www.questionpro.com/blog/pt-br/correlacao-de-pearson/

#### Aplicou-se então a correlação de Pearson ao objeto 'correlacao', a fim de extrair posteriormente as maiores similaridades com a ação do TD Bank Group.

In [14]:
pearson = pd.DataFrame(correlacao.corr())
pearson.head()

Unnamed: 0,AAB,AAV,ABCT,ABST,ABTC,ABX,AC,ACB,ACD,ACQ,...,ZWG,ZWH,ZWK,ZWP,ZWS,ZWT,ZWU,ZXM,ZZZ,ZZZD
AAB,1.0,0.098163,-0.106489,0.11111,0.203074,0.108482,0.030546,0.1829,0.015742,-0.123633,...,0.238099,0.135238,0.15329,0.07831,0.214443,0.278029,0.135179,0.077824,0.179816,0.101999
AAV,0.098163,1.0,0.246602,0.106632,0.086847,-0.102588,0.357937,0.16276,-0.081368,0.335505,...,0.083035,0.063012,0.29301,0.179038,0.18769,0.301644,0.062577,0.325793,0.097603,0.131225
ABCT,-0.106489,0.246602,1.0,-0.103793,-0.132098,-0.069081,-0.011285,-0.099296,0.366719,0.29243,...,-0.204695,-0.204321,-0.167244,-0.156385,-0.161454,-0.120768,0.052917,0.255705,0.116967,-0.161101
ABST,0.11111,0.106632,-0.103793,1.0,0.126805,0.301517,0.167684,0.455567,-0.073251,0.421465,...,0.458311,0.286432,0.083765,0.234725,0.222252,0.572988,0.387078,0.351261,0.141288,0.140384
ABTC,0.203074,0.086847,-0.132098,0.126805,1.0,0.070275,0.122542,0.468174,0.077991,0.113161,...,0.18691,0.196378,0.256511,0.260534,0.178513,0.549574,0.218684,0.246454,0.125356,0.515438


#### A seguir, será aplicado um filtro para conhecermos as ações que contém similaridades de pelo menos em torno de 80% em relação à ação 'TD' do TD Bank Group. Foi inserido no filtro valores maiores ou iguais a 0.79 para abranger as proximidades aos 80%.

In [15]:
pearson_80 = pearson.loc[pearson['TD'] >= 0.79]
pearson_80_TD = pearson_80['TD']
pearson_80_TD = pd.DataFrame(pearson_80_TD * 100)
pearson_80_TD

Unnamed: 0,TD
HCA,82.686966
HCAL,87.910627
HFU,82.551807
HUM,79.232117
TD,100.0
XFN,82.560353


#### Ações similares encontradas: HCA, HCAL, HFU, HUM e XFN.

In [16]:
# Separando em uma lista as ações que contém a similaridade desejada:

pearson_80_TD_transposta = pearson_80_TD.T
lista_acoes_80_TD = pearson_80_TD_transposta.columns

# Parte 2 - Ponto de vista da variação diária

#### Na parte 2, será colocada como parâmetro a variação diária de uma ação, que é a simples subtração de um dia, pelo dia anterior. Será criada uma cópia da lista de dataframes 'dfs' e calculada para cada dataframe a variação diária entre o valor da ação ajustado de um dia e do dia anterior.

In [17]:
# Criando a cópia de dfs

dfs_var_diaria = dfs[:]

In [18]:
# Calculando a variação diária em cada dataframe

for d in dfs_var_diaria:
    d['Variacao'] = d['Adj Close'] - d['Adj Close'].shift()

In [19]:
# Guardando as variações diárias de cada ação em um dataframe

correlacao_var_diaria = pd.DataFrame()
for d in dfs_var_diaria:
    correlacao_var_diaria[d['Ticker'].iloc[0]] = d['Variacao'].values
correlacao_var_diaria.reset_index(inplace = True)
correlacao_var_diaria.drop('index', axis = 1, inplace = True)
correlacao_var_diaria.head()

Unnamed: 0,AAB,AAV,ABCT,ABST,ABTC,ABX,AC,ACB,ACD,ACQ,...,ZWG,ZWH,ZWK,ZWP,ZWS,ZWT,ZWU,ZXM,ZZZ,ZZZD
0,,,,,,,,,,,...,,,,,,,,,,
1,0.0,0.09,0.0,0.04,-0.04,-0.308926,0.900002,0.19,-0.148646,1.779999,...,0.320002,0.26,0.790001,0.320002,0.290001,0.299999,0.129999,0.150002,0.497036,-0.15
2,0.0,0.01,0.0,-0.26,-0.32,0.119583,-0.210001,-0.43,-0.00991,-0.720001,...,-0.01,0.050001,-0.810001,-0.040001,0.15,-0.66,0.030001,-0.02,-0.328045,0.280001
3,0.0,-0.14,-0.079473,0.37,-0.48,0.209274,0.690001,0.18,0.0,1.100002,...,0.35,0.129999,0.52,-0.059999,0.140001,0.389999,0.11,-0.369999,0.586502,-0.190001
4,0.0,-0.03,0.149011,-0.02,0.15,-0.089689,0.209999,0.48,0.059458,1.239998,...,0.219999,-0.059999,0.190002,0.23,0.089998,0.630001,0.05,1.130001,0.8549,0.18


In [20]:
correlacao_var_diaria.drop(0, inplace = True)

In [21]:
# Aplicando Pearson ao dataframe 'correlacao_var_diaria'

pearson_var_diaria = pd.DataFrame(correlacao_var_diaria.corr())
pearson_var_diaria.head()

Unnamed: 0,AAB,AAV,ABCT,ABST,ABTC,ABX,AC,ACB,ACD,ACQ,...,ZWG,ZWH,ZWK,ZWP,ZWS,ZWT,ZWU,ZXM,ZZZ,ZZZD
AAB,1.0,0.126007,-0.091381,0.101631,0.206511,0.111432,0.054353,0.164191,0.026624,-0.094692,...,0.250173,0.143806,0.175418,0.089991,0.233307,0.297613,0.141082,0.08605,0.193308,0.117144
AAV,0.126007,1.0,0.226505,0.105924,0.085346,-0.107441,0.352734,0.171182,-0.086526,0.354416,...,0.094306,0.068817,0.300471,0.174199,0.203387,0.312895,0.065776,0.323982,0.094101,0.135827
ABCT,-0.091381,0.226505,1.0,-0.111255,-0.141738,-0.059613,-0.007883,-0.117523,0.347342,0.298793,...,-0.2019,-0.209591,-0.17887,-0.146111,-0.157824,-0.139021,0.056933,0.263897,0.102556,-0.157636
ABST,0.101631,0.105924,-0.111255,1.0,0.089779,0.306798,0.153731,0.433822,-0.089012,0.415665,...,0.441388,0.26705,0.066362,0.241185,0.200335,0.544705,0.369189,0.327851,0.138352,0.130066
ABTC,0.206511,0.085346,-0.141738,0.089779,1.0,0.05971,0.112058,0.471353,0.08949,0.079459,...,0.134297,0.150621,0.23459,0.258199,0.132216,0.501743,0.176129,0.222,0.102223,0.482644


In [22]:
# Buscando similaridades com o valor mínimo de aproximadamente 80%

pearson_var_diaria_80 = pearson_var_diaria.loc[pearson_var_diaria['TD'] >= 0.79]
pearson_var_diaria_TD = pearson_var_diaria_80['TD']
pearson_var_diaria_TD = pd.DataFrame(pearson_var_diaria_TD * 100)
pearson_var_diaria_TD

Unnamed: 0,TD
HCA,83.450669
HCAL,87.916765
HFU,82.50339
HUM,79.503453
TD,100.0
XFN,83.004181


#### Foram encontradas as mesmas ações da Parte 1.

# Data Preparation - Parte 3

#### Na parte 3 de preparação dos dados, o enfoque será na separação do conjunto de dados da bolsa de Toronto em blocos de 42 dias, a fim de encontrarmos similaridades em qualquer período, não limitando-se ao período inicialmente proposto.

#### Será trabalhado nesta parte com um novo objeto, denominado toronto_df, que é um filtro do dataset inicial 'df', contendo somente a bolsa de valores de Toronto na coluna 'Exchange'.

In [23]:
toronto_df = df.loc[df['Exchange'] == 'TO']
toronto_df.head()

Unnamed: 0_level_0,Date,Open,High,Low,Close,Adj Close,Volume,Ticker,Exchange
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2008-09-02,2008-09-02,0.42,0.42,0.4,0.4,0.364324,27500.0,AAB,TO
2008-09-03,2008-09-03,0.39,0.39,0.39,0.39,0.355216,3000.0,AAB,TO
2008-09-04,2008-09-04,0.39,0.39,0.35,0.35,0.318783,30000.0,AAB,TO
2008-09-05,2008-09-05,0.34,0.34,0.25,0.32,0.291459,8989000.0,AAB,TO
2008-09-08,2008-09-08,0.33,0.33,0.32,0.33,0.300567,81800.0,AAB,TO


In [24]:
# Descobrindo quantas datas únicas há no objeto 'toronto_df'

datas = toronto_df['Date'].unique()
len(datas)

3405

#### Semelhantemente à parte 1, criou-se uma lista com todos os tickers únicos da bolsa de Toronto, e outra lista com todos os tickers, incluindo as repetições, a fim de auxiliar na obtenção das ações a serem descartadas. Foi criada também uma função que filtra o dataset, retirando tais ações. Como há 3405 datas únicas, serão mantidas apenas as ações que contenham tal quantidade de datas.

In [25]:
lista_tickers_unicos_toronto_df = toronto_df['Ticker'].unique().tolist()
lista_ticker_toronto_df = toronto_df['Ticker'].tolist()

In [26]:
acoes_descartadas_df = []
for acao in lista_tickers_unicos_toronto_df:
    conta_acao = lista_ticker_toronto_df.count(acao)
    if conta_acao < 3405:
        acoes_descartadas_df.append(acao)
        
toronto_df = filter_rows_by_values(toronto_df, "Ticker", acoes_descartadas_df)

In [27]:
# Verificando se o filtro foi realizado da forma correta, das ações com 3405 datas, e foram encontrados 463 tickers com esta quantidade.

toronto_df['Ticker'].value_counts()

AAB    3405
PPL    3405
POU    3405
POM    3405
PNP    3405
       ... 
FN     3405
FM     3405
FFN    3405
FFH    3405
YRI    3405
Name: Ticker, Length: 463, dtype: int64

#### Vamos criar uma lista de todos os dataframes com 42 datas, que contenham apenas um ticker neste dataframe. O range vai até 37536 devido ao seguinte cálculo: 3405 datas multiplicado por 463 = 1576515 datas, que dividido por 42 é aproximadamente 37536.

In [28]:
days = 42
dfs_42 = [] 

for i in range(0,37536,1):
    df_42 = toronto_df.iloc[days*i:days*(i+1)]
    if (len(df_42['Ticker'].unique().tolist()) == 1) is True:
        dfs_42.append(df_42)
    else:
        pass

#### Vamos excluir todos os dataframes que contenham o ticker 'TD', pois posteriormente adicionaremos somente o dataframe deste ticker de 01-12-2021 a 01-02-2022.

In [29]:
dfs_42 = [d for d in dfs_42 if 'TD' not in d['Ticker'].values]

#### Vamos adicionar ao objeto 'toronto' a coluna referente ao retorno em relação ao dia anterior e posteriormente guardarmos em um objeto denominado 'td', que será o dataframe do ticker 'TD' de 01-12-2021 a 01-02-2022.

In [30]:
toronto['Ret Dia Ant'] = ((toronto['Adj Close'] / toronto['Adj Close'].shift()) - 1)
td = toronto.loc[toronto['Ticker'] == 'TD']

#### Na lista de dataframes contendo 42 datas, adicionaremos a coluna referente ao retorno em relação ao dia anterior e faremos uma distinção entre tickers iguais pela adição de um número aleatório entre 0 e 50000. Em seguida, será adicionado o dataframe 'td' a esta lista.

In [31]:
for d in dfs_42:
    d['Ret Dia Ant'] = ((d['Adj Close'] / d['Adj Close'].shift()) - 1)
    d['Ticker'] = d['Ticker'] + '_' + f'{np.random.randint(0,50000)}'
    
dfs_42.append(td)

In [32]:
# Realizando um drop da primeira linha de cada dataframe, pois contém valores vazios:

for d in dfs_42:
    d.drop(index = d.index[0], axis=0, inplace = True)

#### Semelhantemente à parte 1, criaremos um dataframe para coletar cada um dos retornos em relação ao dia anterior para cada ação.

In [33]:
correlacao_42 = pd.DataFrame()
for d in dfs_42:
    correlacao_42[d['Ticker'].iloc[0]] = d.iloc[:,-1].values

correlacao_42.reset_index(inplace = True)
correlacao_42.drop('index', axis = 1, inplace = True)
correlacao_42.head()

Unnamed: 0,AAB_20944,AAB_6638,AAB_21695,AAB_6079,AAB_3277,AAB_21537,AAB_43924,AAB_23751,AAB_27409,AAB_48349,...,YRI_24489,YRI_49013,YRI_13825,YRI_21767,YRI_47008,YRI_17086,YRI_30114,YRI_34841,YRI_17804,TD
0,-0.025,0.0,0.0,0.0,0.0,0.0,0.071429,0.0,0.023256,-0.022222,...,0.011583,0.005797,-0.003021,-0.00531,-0.011164,-0.001949,-0.026975,-0.037106,0.020484,0.049141
1,-0.102564,0.0625,0.0,-0.045455,0.041667,0.0,0.0,-0.027778,0.022727,0.0,...,-0.089059,-0.044669,-0.009091,-0.005338,0.004839,0.007812,-0.009901,0.0,-0.038321,-0.00943
2,-0.085714,0.0,0.0,-0.047619,0.0,-0.107143,0.0,0.057143,0.022222,0.0,...,0.051676,-0.012066,-0.050459,0.010733,0.001605,0.005814,-0.002,-0.009634,-0.02277,-0.011926
3,0.03125,0.0,0.166667,0.05,0.0,0.04,0.033333,0.027027,0.065217,0.022727,...,-0.001328,0.019847,-0.064412,-0.00885,0.014423,0.025048,0.024194,-0.013619,-0.001942,0.004764
4,-0.181818,0.0,-0.142857,-0.047619,0.0,0.0,0.0,-0.026316,-0.040816,0.0,...,0.009309,0.005988,0.043029,-0.040143,-0.009479,0.013158,-0.029703,0.017751,0.021401,0.005796


#### Aplicando a correlação de Pearson.

In [34]:
pearson_42 = pd.DataFrame(correlacao_42.corr())
pearson_42.head()

Unnamed: 0,AAB_20944,AAB_6638,AAB_21695,AAB_6079,AAB_3277,AAB_21537,AAB_43924,AAB_23751,AAB_27409,AAB_48349,...,YRI_24489,YRI_49013,YRI_13825,YRI_21767,YRI_47008,YRI_17086,YRI_30114,YRI_34841,YRI_17804,TD
AAB_20944,1.0,-0.210354,0.079843,0.021535,0.020553,0.076777,-0.071087,0.301632,0.429319,-0.118293,...,0.281227,0.203292,-0.172193,-0.051181,0.094321,0.096452,0.110129,-0.066438,0.2045,0.003127
AAB_6638,-0.210354,1.0,0.095173,0.091321,-0.267341,-0.216619,0.060071,-0.051758,-0.079659,-0.253964,...,-0.265462,-0.270996,0.14181,0.227364,-0.046634,-0.108375,-0.125124,-0.215507,0.227798,0.18268
AAB_21695,0.079843,0.095173,1.0,-0.088426,0.246249,-0.113072,0.116856,-0.185572,0.209913,0.222762,...,0.140469,-0.135709,-0.027797,0.025829,-0.017593,-0.06293,0.134401,-0.04881,0.02124,0.058502
AAB_6079,0.021535,0.091321,-0.088426,1.0,-0.046036,-0.042477,0.177091,0.366307,-0.130607,-0.335859,...,-0.016164,0.119895,-0.119901,-0.03949,0.229604,0.0986,0.076953,-0.196385,0.131117,0.265264
AAB_3277,0.020553,-0.267341,0.246249,-0.046036,1.0,0.113872,-0.291156,0.095758,0.347889,0.017214,...,0.08034,0.009314,-0.084811,0.178534,-0.173949,-0.281672,-0.216214,0.050075,0.092914,-0.077963


#### Aplicou-se um filtro para busca de similaridades de alguma das ações em relação à 'td' e foi verificado que não há nenhuma ação com similaridade com pelo menos 80% ou em torno disto. Sendo assim, colocou-se o patamar de 70% para tentar encontrar alguma ação com tal similaridade.  

In [35]:
pearson_42_70 = pearson_42.loc[pearson_42['TD'] >= 0.7]
pearson_42_70_TD = pearson_42_70['TD']
pearson_42_70_TD = pd.DataFrame(pearson_42_70_TD * 100)
pearson_42_70_TD

Unnamed: 0,TD
IAG_13006,74.935888
TD,100.0


#### Não será considerada esta ação para análise no item a seguir por não atender ao critério de 80%.

# Evaluation

#### Nesta etapa, vamos avaliar as ações com maior similaridade em relação à TD Bank Group, buscando gerar insights.

In [36]:
# Plotando o valor ajustado da ação no fechamento pelo maior valor da série de cada ação.

import plotly.graph_objs as go

def plot_lines(df_, columns = [lista_acoes_80_TD[i] for i in range(0,6,1)]):
    
    fig = go.Figure()
    for column in columns:
        fig.add_trace(go.Scatter(x = df_.index, y = df_.loc[df_.Ticker == column]['Adj Close']/max(df_.loc[df_.Ticker == column]['Adj Close']),
                                 mode = 'markers+lines', name = column))
    return fig

In [37]:
plot_lines(toronto)

#### Pela análise do gráfico, nota-se que a similaridade prevista pela correlação de Pearson realmente existe entre estas ações. Porém, todas tiveram seus maiores valores no dia 17 de janeiro de 2022. Como explicar isto? 
#### Há uma particularidade importante do mercado: o dia 17 de janeiro de 2022 é feriado nos Estados Unidos devido ao dia de Martin Luther King Jr., sendo assim não há operação das bolsas do país neste dia. Com isso, a bolsa de Toronto é mais movimentada neste dia, atraindo mais investidores, ocasionando elevação nos preços das ações. 

# O que representam as ações encontradas, o que fazem?

#### HCA - Hospital Corporation of America, oferece serviços de saúde.
#### HUM - Humana Inc., seguradora de saúde, operou em conjunto ao HCA por muitos anos. **Fonte:** https://www.fiercehealthcare.com/payer/humana-hca-reach-new-agreement-blue-cross-idaho-ceo-to-retire
#### HCAL - Hamilton Enhanced Canadian Bank ETF, possui 6.7% controlado pelo TD Bank Group no formato de holding.
#### HFU - BetaPro S&P/TSX Capped Financials 2x Dly Bull ETF Class A, é um ETF.
#### XFN - iShares S&P/TSX Capped Financials Index ETF, é um ETF.

## O que são ETFs?

#### Os ETFs – ou Exchange Traded Funds – são fundos de investimento negociados na bolsa de valores e no mercado de balcão organizado, que espelham determinados índices do mercado – como o índice Ibovespa. O objetivo deste tipo de investimento é ter um desempenho semelhante ao índice ao qual ele é referenciado e, por conta desta característica, a composição do ETF tende a ser idêntica à composição do índice de referência.
**Fonte:** https://www.btgpactualdigital.com/como-investir/artigos/coluna-andre-bona/o-que-sao-etfs-e-os-principais-disponiveis-para-o-investidor?cmpid=c04:m05:google:11177116067::110394111315&utm_medium=spl&utm_source=google&utm_campaign=11177116067&utm_content=110394111315&creative=603002635856&adposition=&keyword=&matchtype=&targetid=dsa-1592469244208&device=c&feeditemid=&loc_interest_ms=&loc_physical_ms=9102151&placement=&s_kwcid=AL!9288!3!603002635856!!!g!!&gclid=Cj0KCQjw-pCVBhCFARIsAGMxhAfhwTu8SEJLHSkUbIaKJmj65Xv6xOV8bFr9bOQabfIxQ4rUOX54NQAaAo1yEALw_wcB

# Considerações finais

#### Devido à ação HCAL possuir ligação direta ao TD Bank Group por controle 6.7% no formato de holding, é esperado que o comportamento da ação seja de acordo com TD. Quanto à HFU e XFN, por serem ETFs ligadas à bolsa de Toronto, possuem desempenhos conectados aos seus índices de referência que operam na própria bolsa, o que pode explicar suas similaridades com TD. Quanto a HCA e HUM, são empresas da área de saúde que operaram em conjunto por muitos anos, porém o que é possível inferir em relação à TD, é que o TD Bank Group possui uma área da empresa dedicada à serviços de saúde denominada "TD Bank Healthcare Practice Solutions Group", o que pode gerar algumas operações em comum pelos investidores devido à este fato, organizando tais ações numa mesma carteira de investimentos. 