# Capítulo 2 - Análise: reunindo tudo e tomando decisões

[Referência](https://riptutorial.com/pandas)

### Exemplos.

Análise Quintil: com dados aleatórios.

A análise de quintis é uma estrutura comum para avaliar a eficácia dos fatores de segurança.

### O que é um fator

Um fator é um método de pontuação/classificação de conjuntos de títulos. Para um determinado momento e para um determinado conjunto de títulos, um fator pode ser representado como uma série de pandas em que o índice é uma matriz de identificadores de títulos e os valores são as pontuações ou classificações.

Se considerarmos as pontuações dos fatores ao longo do tempo, podemos, em cada momento, dividir o conjunto de títulos em 5 grupos iguais, ou quintis, com base na ordem das pontuações dos fatores. Não há nada particularmente sagrado no número 5. Poderíamos ter usado 3 ou 10. Mas usamos 5 com frequência. Finalmente, rastreamos o desempenho de cada um dos cinco baldes para determinar se há uma diferença significativa nos retornos. Tendemos a nos concentrar mais intensamente na diferença de retornos do balde com a classificação mais alta em relação ao da classificação mais baixa.

____________

Vamos começar definindo alguns parâmetros e gerando dados aleatórios.

Para facilitar a experimentação com a mecânica, fornecemos um código simples para criar dados aleatórios para nos dar uma ideia de como isso funciona.

**Inclui dados aleatórios**

* Retornos: gera retornos aleatórios para um número especificado de títulos e períodos.

* Sinais: gera sinais aleatórios para um número especificado de títulos e períodos e com o nível prescrito de correlação com os retornos. Para que um fator seja útil, deve haver alguma informação ou correlação entre as pontuações/classificações e os retornos subsequentes. Se não houvesse correlação, nós veríamos. Isso seria um bom exercício para o leitor, duplicar esta análise com dados aleatórios gerados com 0 de correlação.

In [1]:
# Inicialização

import pandas as pd
import numpy as np

In [2]:
num_securities = 1000
num_periods = 1000
period_frequency = 'W'
start_date = '2000-12-31'

np.random.seed([3,1415])

means = [0, 0]
covariance = [[ 1., 5e-3],
              [5e-3, 1.]]

# gera para conjuntos de dados m [0] e m [1] com correlação de ~0,005
m = np.random.multivariate_normal(means, covariance,
                                  (num_periods, num_securities)).T

In [5]:
m

array([[[ 2.40439842, -1.99883907,  1.05846999, ..., -2.72051681,
          1.16391321, -0.09355325],
        [ 2.99022738,  0.70475282,  0.68816812, ...,  0.67153358,
          1.45647911,  1.09309566],
        [ 0.26661179,  0.09139405, -0.21271218, ...,  0.83498683,
         -0.06172875,  0.13338354],
        ...,
        [ 0.58031704,  1.49991343,  0.85241726, ..., -0.64162404,
          1.6481826 , -0.81027017],
        [-0.2150292 , -0.75509327,  0.24534957, ..., -0.95983744,
          0.32270648, -0.54264219],
        [-1.66853157,  1.71336487,  0.84040112, ...,  0.36503649,
          0.99596603, -0.65933852]],

       [[ 0.61500681,  0.8041211 , -1.25906613, ...,  1.15994415,
         -0.77332085,  1.29157132],
        [-0.19656191,  1.87681034,  0.98515146, ...,  0.08831308,
          0.811356  ,  0.35574777],
        [ 0.22858708,  0.32009034, -1.3152288 , ..., -0.03779635,
         -0.21034589,  0.5412049 ],
        ...,
        [ 0.1132181 ,  0.42068062,  1.96075496, ..., -

Agora, vamos gerar um índice de série temporal e um índice representando IDs de segurança. Em seguida, use-os para criar dataframes para retornos e sinais

In [12]:
ids = pd.Index(['s{:05d}'.format(s) for s in range(num_securities)], 'ID')
tidx = pd.date_range(start=start_date, periods=num_periods, freq=period_frequency)

TypeError: data type 'ID' not understood

In [8]:
tidx

DatetimeIndex(['2000-12-31', '2001-01-07', '2001-01-14', '2001-01-21',
               '2001-01-28', '2001-02-04', '2001-02-11', '2001-02-18',
               '2001-02-25', '2001-03-04',
               ...
               '2019-12-22', '2019-12-29', '2020-01-05', '2020-01-12',
               '2020-01-19', '2020-01-26', '2020-02-02', '2020-02-09',
               '2020-02-16', '2020-02-23'],
              dtype='datetime64[ns]', length=1000, freq='W-SUN')

Divide-se m[0] por 25 para reduzir para algo que se pareça com retornos de ações. Adiciona-se 1e-7 para dar um retorno médio positivo modesto.

In [9]:
security_returns = pd.DataFrame(m[0] / 25 + 1e-7, tidx, ids)
security_signals = pd.DataFrame(m[1], tidx, ids)

NameError: name 'ids' is not defined