# Cadeia de Markov
#### Uma cadeia de markov é um modelo de análise de problemas estatísticos no qual se preve estados futuros baseados no estado atual e nas probabilidades de mudança de estados

### Definição

Denotamos por **1, 2, ..., k** os **k** estados possíveis de uma cadeia de Markov. A probabilidade de o sistema estar no estado **i** em qualquer observação, se na observação imediatamente precedente estava no estado **j**, é denotada por $p_{ij}$ e é chamada a probabilidade de transição do estado **j** ao estado **i**. A matriz P = [$p_{ij}$] é chamada a **matriz de transição** da cadeia de Markov.

Por exemplo, em uma cadeia de Markov de três estados, a matriz de transição *P* tem o formato

$$p = \begin{bmatrix}
          p_{11} & p_{12} & p_{13} \\
          p_{21} & p_{22} & p_{23} \\
          p_{31} & p_{32} & p_{33} \\
\end{bmatrix} $$

Nesta matriz $p_{32}$ é a probabilidade que o sistema vai mudar para o estado 3 a partir do 2, $p_{11}$ é a probabilidade que o sistema vai continuar no estado 1 imediatamente depois de ter sido observado no estado 1, e assim por diante.

#### Exemplo: Clima

Suponha que o clima em uma determinada região se comporte de acordo com uma cadeia de Markov.

Especificamente, suponha que hoje seja um dia úmido, a probabilidade de amanha ser úmido é de 0.667 e de ser seco 0.333. Agora, se hoje for um dia seco, a probabilidade de ser úmido é de 0.172 e de ser seco de 0.828.

Para \ De | Umido | Seco
:----------------:| :-----: | --------:
úmido | 0.667 | 0.172
seco  | 0.333 | 0.828


#### Exemplo: Doações na Universidade

Conferindo os registros de doações recebidas, a secretaria da associação de ex-alunos de uma universidade observa que 80% de seus ex-alunos que contribuem ao fundo da associação em um certo ano também contribuem no ano seguinte e que 30% dos que não contribuem em um certo ano contribuem no ano seguinte. Isto pode ser visto como uma cadeia de Markov de dois estados: o estado 1 corresponde a um ex-aluno que contribui em um ano qualquer e o estado 2 corresponde a um ex-aluno que não contribuiu naquele ano. A matrriz de transição é:

In [1]:
import numpy as np

In [2]:
# definindo a matriz de transição P
P = np.array([[80/100, 30/100],
              [20/100, 70/100]])

# imprimindo a matriz P
print("A matriz de transição P é: \n\n{}".format(P))

A matriz de transição P é: 

[[0.8 0.3]
 [0.2 0.7]]


Nos exemplos acima, as matrizes de transição das cadeias de Markov têm a propiedade que as entradas em qualquer coluna somam 1. Isto não é acidental. Se **P** = [$P_{ij}$] é a matriz de transição de uma cadeia de Markov qualquer de **k** estados, então para cada **j** nós devemos ter 
$$p_{1j} + p_{2j} + ... p_{kj} = 1$$
por que se o sistema está no estado **j** em uma observação, é certo que estará em pelo menos um dos **k** estados possíveis na próxima observação com probabilidade 1.0 (não deixa de existir).

Uma matriz com essa propiedade é chamada **matriz estocástica**, **matriz de probabilidade** ou **matriz de Markov**. Pelo que observamos acima, a matriz de transição de uma cadeia de Markov é sempre uma matriz estocástica.

Em geral, não pode ser determinado com certeza o estado de um sistema em uma cadeia de Markov numa observação arbitrária. O melhor que podemos fazr é especificar probabilidades para cada um dos estados possíveis. Por exemplo, nós podemos descrever o estado possível do sistema em uma certa observação em uma cadeia de Markov com três estados, por um vetor-coluna:

$$$$

 \begin{align}
        x = \begin{bmatrix}
        x_{1} \\
        x_{2} \\
        x_{3} 
        \end{bmatrix}.
    \end{align}
 $$$$

Na qual $x_{1}$ é a probabilidade que o sistema está no estado 1, $x_{2}$ é a probabilidade que ele está no estado 2 e $x_{3}$ é a probabilidade que ele está no estado 3. Em geral, temos a seguinte definição:

> O **vetor-estado** de uma observação de uma cadeia de Markov com **k** estados é um vetor-coluna **x** cujo i-ésimo componente $x_{i}$ é a probabilidade do sistema estar, naquela observação, no i-ésimo estado.

Observe que as entradas em qualquer vetor-estado de uma cadeia de Markov são não-negativas e têm soma 1. (Por que?) Um vetor-coluna com está propiedade é chamado **vetor de probabilidade**.

Suponha agora, que nós sabemos o vetor-estado $x^{(0)}$ de uma cadeia de Markov em alguma observação inicial. O teorema seguinte nos permitirá determinar os vetores-estado
$$x^{(1)}, x^{(2)}, ..., x^{(n), ...}$$
nas observações subsequentes.

> **Teorema**: Se *P* é a matriz de transição de uma cadeia de Markov e $x^{(n)}$ é o vetor-estado da n-ésima observação, então $x^{(n + 1)} = Px^{n}$.

A prova deste teorema envolver ideias de teorias da probabilidades e não será dada aqui. Deste teorema, segue que

|                                         |
|-----------------------------------------|
|$$x^{(1)} = PX^{(0)}$$                   |
|$$x^{(2)} = PX^{(1)} = P^{2}x^{(0)}$$    |
|$$x^{(3)} = PX^{(2)} = P^{3}x^{(0)}$$    |
|<center> &vellip; <center>               |
|$$x^{(n)} = PX^{(n - 1)} = P^{n}x^{(0)}$$|

Desta maneira, o vetor-estado inicial $x^{(0)}$ e a matriz de transição **P** determinam $x^{(n)}$ para **n = 1, 2, ...**

A matriz de transição no exemplo era:

In [3]:
# imprimindo a matriz P
print("A matriz de transição P: \n\n{}".format(P))

A matriz de transição P: 

[[0.8 0.3]
 [0.2 0.7]]


Nós agora iremos construir um registro futuro provável de doações de um novo graduando que não doou no primeiro ano após a formatura. Para um tal graduando, o sistema está, inicialmente, com certeza no estado 2, de modo que o vetor-estado inicial é:

In [4]:
# definindo o vetor-estado x          
x = np.array([[0], [1]])

# imprimindo o vetor-estado x
print(f"O vetor-estado inicial é: \n{x}")

O vetor-estado inicial é: 
[[0]
 [1]]


Pelo Teorema acima, nós temos, então,

In [5]:
# Função que simula *t* iterações em cima de um vetor x, dado uma matriz de transições P
def simulate(P, x, t):
    
    # Estrutura de repetição para *t* repetições
    for i in range(t):
        
        # Atualização do estado x, dado uma matriz P é feita pelo produto escalar P.x
        x = P @ x

    # Retornar o estado final após todas iterações    
    return x

In [6]:
# vetor-estado após 1 ano

x_final = simulate(P, x, t=1)

print(f"O vetor-estado após 1 ano é: \n{x_final}")

O vetor-estado após 1 ano é: 
[[0.3]
 [0.7]]


Assim, após 1 ano é esperado que o aluno tenha 30% de chance de doar nesse ano (estado 1) e 70% de chance de continuar não tendo doado (estado 2).

In [7]:
# vetor-estado após 5 anos e após 100 anos

x_5 = simulate(P, x, t=5)
x_100 = simulate(P, x, t=100)

print(f"O vetor-estado após 5 anos é: \n{x_5}")
print(f"E após 100 anos: \n{x_100}")

O vetor-estado após 5 anos é: 
[[0.58125]
 [0.41875]]
E após 100 anos: 
[[0.6]
 [0.4]]


Percebe-se que o estado final, ou seja, após n anos, converge para um valor real, de modo que é possível prever se o aluno terá ou não doado.

# Montando uma Carteira de Investimentos



## Introdução

Um investidor está gerindo a carteira de investimento de um bilionário da indústria automobilistica. Por meio de uma análise estatística e social, o investidor calculou as probabilidades de movimentação diaria das ações do seu cliente nesse setor, olhando apenas itens de pouca flutuação, e precisa produzir um ranking das melhores ações no momento.


### Definição do Problema

Dado uma matriz *p* de probabilidades e de tamanho NxN de compra e venda de ações, retorne uma carteira que tenha o maior retorno provável.

 \begin{align}
        p = \begin{bmatrix}
        x_{11} & x_{12} & ... & x_{1n}\\
        x_{21} & x_{22} & ... & x_{2n}\\
        ...\\
        x_{n1} & x_{n2} & ... & x_{nn}
        \end{bmatrix}.
    \end{align}

### Detalhes

A matriz de entrada terá tamanho NxN, onde cada posição $x_{ij}$ corresponde à chance de compra de uma ação *i* a partir da venda da quantidade necessária da ação *j*.


### Exemplo
Tendo recebido a seguinte matriz de probabilidades (em essência, é uma matriz de preferências para cada ação), ou seja, o cliente com seu conhecimento prévio tem preferência pela ação *2*, ou então prefere manter a ação *1* a curto prazo e a *2* a longo prazo.
$$
 \begin{align}
        p = \begin{bmatrix}
        0.1 & 0.3 \\
        0.9 & 0.7\\
        \end{bmatrix}
    \end{align}
 $$

In [8]:
def stocks(n, c=None, d=None):
  """
  Create a NxN probability matrix P that show a preference and previous
  knowledge for a given stock list.
  """
  if c is None:
    s = sum((int(n / 4), int(n / 12), int(n/5)))

    # Number of average risk stocks, high risk stocks, long term stocks and fixed income stocks 
    c = (int(n / 4), int(n / 12), int(n/5), n - s)
    
    # Percentage of uniformely distributed presence in a portfolio for each type
    d = [(10, 100), (0, 25), (33, 66), (25, 50)]

  P = np.zeros((n, n))
  i = 0

  # Fill in individual stocks uniform chance of appearing in a portfolio
  for idx, stock in enumerate(c):
    p = d[idx]
    P[i:i+stock] = np.random.uniform(p[0], p[1], size=(stock, n))
    i += stock

  # Divide by column-wise sum to get probability
  P /= P.sum(axis=0)

  return P, c

In [9]:
def get_accumulated(x, c):
  i = 0
  acc = np.zeros(len(c))
  for idx, stock in enumerate(c):
    acc[idx] = x[i:i+c[idx]].sum()
    i += c[idx]
  return acc

In [10]:
n = 1000
P, c = stocks(n)

# Verifying the Markov Matrix property
np.allclose(P.sum(axis=0), 1)

True

In [11]:
# Generating an average risk only portfolio
x = np.concatenate((np.ones(c[0]), np.zeros(n - c[0]))) / c[0]

In [12]:
x_100 = simulate(P, x, t=5)
print(get_accumulated(x_100, c))

[0.32584553 0.02455334 0.23457963 0.4150215 ]


Acima, o cliente nos apresenta sua carteira atual, composta apenas de ações de risco médio.

Em seguida, usamos a matriz de Markov, simulando 20 iterações de compras e vendas, até obter a carteira que tem maior ganho estimado, de acordo com a matriz de conhecimentos prévios fornecida pelo cliente.

Como visto, para obter o valor em um tempo específico, é preciso multiplicar a matriz de transição varias vezes, que, para simulações muito grandes, talvez não haja convergência em tempo ótimo, visto que a complexidade de multiplicação de matriz é $O(n^3)$, e pode demorar muito tempo para rodar diversas simulações.

Para tal, faremos uso de uma propriedade de Álgebra Linear a seguir (exponenciação em cima dos autovalores)

$$$$
\begin{align}
A^x = P\cdot D^x \cdot P^{-1}
\end{align}

$$$$

Tal propriedade nos diz que a potencia de uma matriz pode ser reescrita de tal forma em que $P$ é a matriz formada pelos autovetores, $P^{-1}$ é a inversa de $P$ e $D$ é a diagonalização de A, obtido através de seus autovalores

In [13]:
def simulate_eig(P, x, t):
  eig = np.linalg.eig(P)
  V = eig[1]
  D_n = np.diag(eig[0]) ** t

  return (V @ D_n @ np.linalg.inv(V) @ x).real, eig

In [None]:
x_n, eig = simulate_eig(P, x, 5)
print(get_accumulated(x_n, c))

# Matriz de Distribuição Estacionária

Dependendo da matriz de probabilidades P, é provável (desde que seus vetores sejam independentes) que ela convirga para uma certa distribuição de probabilidades. No caso de um portfólio de ações, essa matriz, também chamada de matriz estacionária é a que melhor reflete as probabilidades dadas pelo cliente.

Dessa forma, é de nosso interesse saber calculá-la do jeito mais eficiente.
Caso P tenha convergência definida, o vetor de estados final é dado pela seguinte equação: 
$$\frac{\vec{x}}{\sum_{i=0}^{n}\vec{x}_{i}} \text{, onde }\vec{x} \text{ são os autovetores de P.}$$ 

In [None]:
def stationary(P=None, eig=None):
  if P is None and eig is None:
    raise ValueError

  if eig == None:
    eig = np.linalg.eig(P)

  vec = eig[1][:,np.isclose(eig[0], 1)]

  return (vec / vec.sum()).real

Após calcular a matriz estacionária, acumulamos as ações individuais sugeridas dado os diferentes tipos de ações (de acordo com risco, prazo e tipo de retorno).

In [None]:
def build_portfolio(eig, c, total_price):

  r = get_accumulated(stationary(eig=eig), c)
  suggested = dict(zip(["Risco Padrão", "Alto Risco", "Longo Prazo", "Renda Fixa"], r))

  print(f"Carteira Sugerida (R$ {round(total_price / 1e3)}k): ")

  for key in suggested.keys():
    print(f"{key}: R$", round(suggested[key] * total_price, 2))

build_portfolio(eig, c, total_price=1e4)

Por fim, vamos comparar as velocidades de processamento necessário para cada um dos dois métodos. Isso será feito com uma amostra de n=10 simulações, usando o método Iterativo e Analítico, anotando o tempo final e o de início e guardando as diferenças.

In [None]:
from timeit import default_timer as timer
import time

def time_it(f, *args):
  start = timer()
  f(args)
  end = timer()
  return end - start

In [None]:
def teste(a):
  print(a)
  time.sleep(1)

# Simulação de Monte Carlo

Uma simulação de Monte Carlo é usada para modelar a probabilidade de diferentes resultados em um processo que não pode ser facilmente previsto devido à intervenção de variáveis ​​aleatórias. É uma técnica usada para entender o impacto do risco e da incerteza.

In [None]:
!pip install --upgrade pandas-datareader --quiet

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import pandas_datareader.data as web

Abaixo, um método simples para obter dados de ações (lista de preços em função de dT = tempo passado) do Yahoo Finance

In [None]:
def get_data(stocks):
    df = web.DataReader(stocks, 'yahoo', start='2019-09-10', end='2019-10-09')
    prices = df['Close']
    returns = prices.pct_change()

    return prices, returns.mean(), returns.cov()

Em seguida, instanciamos um vetor de pesos normalizados (cuja soma da 1.0), ou seja, um vetor de probabilidades.

In [None]:
stocks = ['GE', 'GOOG', 'IBM']
prices, return_mean, return_cov = get_data(stocks)

weights = np.random.random(len(return_mean))
weights /= np.sum(weights)

Em seguida, calculamos a decomposição de Cholesky, para obter uma matriz triangular inferior (matriz triangular, onde todos os elementos acima da diagonal são nulos) e sua conjugada transposta, de acordo com a equação abaixo.

$$A = L\times D \times L^{T} \text{ (1)}$$

Exemplo:

![exemplo de decomposicao de cholesky](https://wikimedia.org/api/rest_v1/media/math/render/svg/61b139af2d8d18abde0ee195701edd3f0abd7b2e)

E no formato da equação 1:

![LDL_T decomposition](https://wikimedia.org/api/rest_v1/media/math/render/svg/6e81a32696db6b00ce5409afe577d36fd1f27db7)


Com esa decomposição, geramos uma matriz *Z* de tamanho Dias x Ações com elementos aleatórios retirados de uma distribuição normal.

Em seguida, simulamos o retorno esperado fazendo um produto interno de *L* pela matriz *Z* e somamos com a média das ações reais.

In [None]:
t = 10
F = 100

mean_vectorized = np.full(shape=(F, len(weights)), fill_value=return_mean).T
x = np.zeros((F, t))

price_0 = 100

# Cholesky decomposition to Lower Triangular Matrix
L = np.linalg.cholesky(return_cov)

for i in range(t):
  Z = np.random.normal(size=(F, len(weights)))
  returns = mean_vectorized + np.inner(L, Z)
  x[:, i] = np.cumprod(np.inner(weights, returns.T) + 1) * price_0
  
plt.plot(x)
plt.ylabel('Portfolio Value (R$)')
plt.xlabel('Days (F=100)')
plt.title('MC simulation of a stock portfolio')
plt.show()