# **SME0142 - Álgebra Linear e Aplicações**

**Docente:** Cynthia de Oliveira Lage Ferreira  
**Aluno:** Luiz Fernando Rabelo (11796893)

30 de novembro de 2022

## **Trabalho Prático: Cadeias de Markov**

O presente trabalho apresenta uma conceituação de Cadeias de Markov usando um exemplo intuitivo, expõe um exemplo clássico da aplicabilidade das mesmas e ainda exibe uma aplicação para estimação de gastos no colecionamento de figurinhas do Álbum da Copa Panini 2022.

Vídeo Explicativo: https://www.youtube.com/watch?v=V36xFzKj_gw

### **Definição de Cadeia de Markov**

Uma Cadeia de Markov, de maneira geral, pode ser vista como um grafo utilizado para modelar processos estatísticos, em que a disposição atual de um sistema depende apenas da disposição imediatamente anterior.

Nesse sentido, a Cadeia de Markov pode ser vista como um _grafo_, de forma que:

- cada _vértice_ do grafo recebe o nome de _estado_, sendo a semântica do _estado_ variável a cada contexto;
- cada _aresta_ do grafo possui um valor entre 0 e 1 representando a _probabilidade de transição_ entre dois estados.

Por poder ser representada como um grafo, é comum que se associe esse grafo à uma matriz, chamada _Matriz de Probabilidade de Transição_:

$
P = 
\begin {bmatrix}
P_{00} & P_{01} & P_{02} & ... \\
P_{10} & P_{11} & P_{12} & ... \\
P_{20} & P_{21} & P_{22} & ... \\
... & ... & ... & ... \\
\end {bmatrix}
$

Cada $P_{ij}$, representa a probabilidade de se sair do estado _i_ e alcançar o estado _j_ no próximo passo, sendo que $\sum_{j=0}^{n-1} P_{ij} = 1, \forall i$.

### **Exemplificação Climática - Teoria**

De maneira simplificada, podemos pensar, por exmplo, em modelar um sistema de previsões climáticas utilizando uma cadeia de Markov:

![Grafo Exemplo Clima](./img/exemplo-clima.svg)

O mesmo exemplo do grafo, mas representado pela Matriz de Probabilidades de Transição:

$
P = 
\begin {bmatrix}
0.6 & 0.3 & 0.1 \\
0.3 & 0.4 & 0.3 \\
0.1 & 0.3 & 0.6 \\
\end {bmatrix}
$

### **Exemplificação Climática - Prática**

In [None]:
# Bibliotecas Utilizadas:
import numpy as np
import matplotlib.pyplot as plt
import math

# Matriz de probabilidade de transição:
P_clima = [
    [.6, .3, .1],
    [.3, .4, .3],
    [.1, .3, .6]
]

# Inicialização de variáveis auxiliares:
nomes_estados = ['Ensolarado', 'Ameno', 'Chuvoso']
numeros_estados = [0, 1, 2]
estado_atual = 1  # ameno
passos = 30
contagem = [0, 0, 0]
tempos = []
historico = []

# Transição entre os estados;
for i in range(passos):
    tempos.append(i)
    historico.append(estado_atual)
    contagem[estado_atual] += 1
    estado_atual = np.random.choice(numeros_estados, p=P_clima[estado_atual])

# Gráfico das transições entre estados no tempo:
plt.plot(tempos, historico, '-o')
plt.xlabel('Tempo')
plt.ylabel('Estado')
plt.yticks(numeros_estados, nomes_estados)
plt.title('Tempo X Transição entre estados')
plt.show()

# Gráfico das contagens de cada estado:
plt.bar(numeros_estados, contagem)
plt.xlabel('Estado')
plt.ylabel('Número de visitas')
plt.xticks(numeros_estados, nomes_estados)
plt.title('Estados X Número de Visitas')

plt.show()

### **A Ruína do Aposador - Teoria**

Um famoso problema modelado por Cadeias de Markov é o da _Ruína do Apostador_. Nesse problema, é considerado que um apostador que aposta fichas com probabilidade de vitória _p_ e de derrota _q = 1 - p_, apostando, repetidamente, até que sua quantidade de fichas acabe ou atinja um valor máximo _n_. Dado que o apostador começa com i fichas, qual a probabilidade de que o apostador vá à ruína (perca todas as fichas)?

![Estrutura Apostador](./img/exemplo-apostador.svg)

A matriz de probabilidade de transição para esse problema possui a seguinte estrutura:

$
P = 
\begin {bmatrix}
1 & 0 & 0 & 0 & 0 & ... \\
q & 0 & p & 0 & 0 & ... \\
0 & q & 0 & p & 0 & ... \\
0 & 0 & q & 0 & p & ... \\
... & ... & ... & ... & ... & ... \\
\end {bmatrix}
$

Matematicamente, o que queremos calcular é $P(X_t=0|X_0=i)$, o que também pode ser expresso por $1 - P(X_t=n|X_0=i)$. Utilizando o Teorema da Probabilidade Total:

$$P(X_t=n|X_0=i)$$

$$ = \sum_{k=0}^n P(X_t=n|X_0=i,X_1=k)P(X_1=k|X_0=i)$$

$$= P(X_t=n|X_0=i,X_1=i+1)P(X_1=i+1|X_0=i) + P(X_t=n|X_0=i,X_1=i-1)P(X_1=i-1|X_0=i)$$

$$= P(X_t=n|X_1=i+1)p + P(X_t=n|X_1=i-1)q$$

Denotando por $P(X_t=n|X_0=i)$ por $P_i$, $P(X_t=n|X_1=i+1)$ por $P_{i+1}$ e $P(X_t=n|X_1=i-1)$ por $P_{i-1}$, podemos montar a seguinte relação de recorrência:

$$P_i = pP_{i+1} + qP_{i-1}$$

$$P_i (p + q) = pP_{i+1} + qP_{i-1}$$

$$pP_i + qP_i = pP_{i+1} + qP_{i-1}$$

$$(P_{i+1} - P_i)p = (P_i - P_{i-1})q$$

$$(P_{i+1} - P_i) = \frac{q}{p}(P_i - P_{i-1})$$

Resolvendo a equação de recorrência:

$$i=1: P_2-P_1 = \frac{q}{p} (P_1 - P_0) = \frac{q}{p}P_1$$
$$i=2: P_3-P_2 = \frac{q}{p} (P_2 - P_1) = \left(\frac{q}{p}\right)^2P_1$$
$$i=2: P_4-P_3 = \frac{q}{p} (P_3 - P_2) = \left(\frac{q}{p}\right)^3P_1$$
$$i-1: P_i-P_{i-1} = \left(\frac{q}{p}\right)^{i-1}P_1$$

Somando todos os termos, ficareos com:

$$P_i-P_1=\frac{q}{p}P_1 + \left(\frac{q}{p}\right)^2 P_1 + ... + \left(\frac{q}{p}\right)^{i-1}P_1$$

$$P_i=P_1(1 + \frac{q}{p} + \left(\frac{q}{p}\right)^2 + ... + \left(\frac{q}{p}\right)^{i-1}$$

Para resolver a série, é possível montar:

$$S = 1 + x + x^2 + ... + x^{i-2} + x^{i-1}$$

Multiplicando por _x_:

$$xS = x + x^2 + x^3 + ... + x^{i-1} + x^{i}$$

Subtraindo as 2 séries:

$$S(1-x) = 1 - x^i$$

$$S = \frac{1 - x^i}{1-x}$$

Portanto, concluímos que:

$$
P_i =
\left\{
\begin{array}{c}
P_1\left(\frac{1-\big(\frac{q}{p}\big)^i}{1-\frac{q}{p}}\right), \quad p \ne q\\
i P_1, \qquad p = q\\
\end{array}
\right.
$$

Para encontrar $P_1$, utilizamos que $P_N=P(X_t=N|X_0=N)=1$. Se $p\neq q$, então $P_N = P_1 \left(\frac{1-(\frac{q}{p})^N}{1-\frac{q}{p}}\right) = 1 \implies P_1 = \frac{1-\frac{q}{p}}{1-(\frac{q}{p})^N}$ e se $p=q$, então $P_N=NP_1=1\implies P_1=\frac{1}{N}$.

E com isso, substituindo $P_1$ na equação de cima, concluímos que:

$$
P_i = P(X_t=N|x_0=i)=
\left\{
\begin{array}{c}
\frac{1-\big(\frac{q}{p}\big)^i}{1-\big(\frac{q}{p}\big)^N}, \quad p \ne q\\
\frac{i}{N}, \qquad p = q\\
\end{array}
\right.
$$

Finalmente, a probabilidade de ruína pode ser explicitada por:

$$
P(X_t=0|x_0=i)=
\left\{
\begin{array}{c}
1 - \frac{1-\big(\frac{q}{p}\big)^i}{1-\big(\frac{q}{p}\big)^N}, \quad p \ne q\\
1 - \frac{i}{N}, \qquad p = q\\
\end{array}
\right.
$$

### **A Ruína do Apostador - Prática**

In [None]:
# Definição da quantidade máxima de fichas:
maximo = 100

# Definição das probabilidades de vitória a cada aposta:
probabilidades = [.15, .30, .45, .60, .75, .9]

# Testes com as diferentes probabilidades:
for i in range(len(probabilidades)):
    prob_vencer = probabilidades[i]
    qtd_fichas = 40
    tempo = 0
    lista_fichas = []
    lista_tempos = []
    while 0 < qtd_fichas < maximo:
        if np.random.uniform() <= prob_vencer:
            qtd_fichas += 1
        else:
            qtd_fichas -= 1
        lista_fichas.append(qtd_fichas)
        lista_tempos.append(tempo)
        tempo += 1
    plt.plot(lista_tempos, lista_fichas, label='p: ' + str(prob_vencer))
    plt.xlabel('Tempo')
    plt.ylabel('Número de Fichas')

plt.legend()
plt.show()

In [None]:
# Definição da quantidade máxima de fichas:
maximo = 100

# Definição da probabilidade de vitória a cada aposta e do número inicial de fichas:
prob_vencer = 0.52
fichas_iniciais = 50

# Definição da quantidade de iterações para simulação (quanto maior, mais preciso):
total_iteracoes = 200

# Inicialização da quantidade de derrotas obtidas por simulação:
total_derrotas_simuladas = 0

# Cômputo do percentual das ruínas na prática de acordo com o número de iterações:
for i in range(total_iteracoes):
    qtd_fichas = fichas_iniciais
    while 0 < qtd_fichas < maximo:
        if np.random.uniform() <= prob_vencer:
            qtd_fichas += 1
        else:
            qtd_fichas -= 1
    if qtd_fichas == 0:
        total_derrotas_simuladas += 1
percentual_derrotas_simuladas = total_derrotas_simuladas / total_iteracoes


# Cômputo do percentual das ruínas de forma teórica:
if prob_vencer != 0.5:
    percentual_derrotas_teoricas = \
        1 - (1 - ((1-prob_vencer)/prob_vencer)**fichas_iniciais) / (1-((1-prob_vencer)/prob_vencer) ** maximo)
else:
    percentual_derrotas_teoricas = \
        1 - fichas_iniciais / maximo

print('Valor Esperado Teórico: ruína em ', percentual_derrotas_teoricas * 100, '% dos casos')
print('Valor Computado na Prática ruína em :', percentual_derrotas_simuladas * 100, '% dos casos')

### **O Problema do Apostador de Cupons**

O _Coupon Collector's Problem_ é um problema estatístico em que é considerado um apostador que deseja montar uma coleção formada por _N_ cupons. Cada cupom é obtido a partir de um pacote fechado, o que não permite saber qual o cupom específico dentro daquele pacote. A questão pricipal do problema é: qual é o número esperado de pacotes a serem abertos até ter retirado cada cupom pelo menos 1 vez?

A solução para esse problema é dada pela seguinte abordagem:

Denotando por $t_i$ o tempo necessário para coletar um cupom dado que $t_{i-1}$ cupons foram coletados, temos que cada $t_i$ é uma variável aleatória que segue uma distribuição geométrica em que a probabilidade de sucesso é dada por:

$$p_i = \frac{n-(i-1)}{n} = \frac{n-i+1}{n}$$

O valor esperado para a Distribuição Geométrica é $\frac{1}{p}$, o que implica que:

$$E(t_i) = \frac{1}{p_i} = \frac{n}{n-i+1}$$

O número de tentativas $T$ necessárias para retirar os $N$ cupons é dado por $T = \sum_{i=1}^N t_i$.

Pela linearidade da soma de valores esperados:

$$E(T) = E(\Sigma_{i=1}^N t_i) = \sum_{i=1}^N E(t_i) = \sum_{i=1}^N \frac{n}{n-i+1} = n \sum_{i=1}^N \frac{1}{n-i+1} = n \cdot H_n$$

O número $H_n$ é o n-ésimo número harmônico. Ele pode ser estimado por uma análise assintótica:

$$E(T) = n \cdot H_n \approx n (ln(n) + \gamma + \frac{1}{2n}) $$

em que $\gamma \approx 0.5772156649$ é a Constante de Euler-Mascheroni.

### **O Problema do Álbum de Figurinhas - Teoria**

O _Problema do Álbum de Figurinhas_ é um exemplo de aplicação do _Problema do Apostador de Cupons_, pois deseja-se aproximar a quantidade de pacotes necessários para se obter todas as figurinhas do Álbum da Copa Mundo Panini de 2022. Sendo assim, as novas características do problema são:

- Cada pacote possui 5 figurinhas;
- Todas as figurinhas são produzidas na mesma quantidade.
- O álbum possui _N=670_ figurinhas comuns a serem coladas;

Obs: Além das 670 figurinhas convencionais, o álbum tem espaço para 8 figurinhas com estampa da Coca-Cola e 80 figurinhas extras (Legends). Ambas não foram consideradas pois as probabilidades de obtenção são distintas da probabilidade das convencionais. Além disso, apesar de a Panini garantir que cada pacote possui 5 figurinhas distintas, existem alguns relatos de pessoas que encontraram figurinhas repetidas em um único pacote (vide casos apresentados nas Referências) e, por esse motivo (e também a fim de simplificar os cálculos para a aplicação), essa garantia de não repetição por pacote também foi desconsiderada.

Nesse sentido, usando o _Problema do Apostador de Figurinhas_ para se estimar custo para se completar o álbum sem realização de trocas é dado por:

$$figurinhas \approx 670 \left(ln(670) + \gamma + \frac{1}{2\cdot670}\right) \approx 4748$$

$$pacotes = \frac{figurinhas}{5} \approx 950$$

$$custo = pacotes \cdot 4 \approx 3800$$

### **O Problema do Álbum de Figurinhas - Prática**

Podemos simular o problema do álbum de figurinhas utilizando uma Cadeia de Markov com 670 estados, em que o número de cada estado representa a quantidade de figurinhas distintas obtidas. Nesse sentido, a Matriz de Probabilidade de Transição possui a seguinte estrutura:

$$
P =
\begin{bmatrix}
0 & 1 & 0 & 0 & 0 & 0 & ... & 0\\
0 & 1 / 670 & 669 / 670 & 0 & 0 & 0 & ... & 0\\
0 & 0 & 2 / 670 & 668/670 & 0 & 0 & ... & 0\\
0 & 0 & 0 & 3 / 670 & 667 / 670 & 0 & ... & 0\\
... & ... & ... & ... & ... & ... & ... & 0\\
0 & 0 & 0 & 0 & i / 670 & (670-i) / 670 & ... & 0\\
... & ... & ... & ... & ... & ... & ... & 0\\
0 & 0 & 0 & 0 & 0 & 0 & ... & 1 / 670\\
\end{bmatrix}
$$

In [None]:
# Inicialização do primeiro estado:
estado_atual = 0

# Inicialização da contagem de figurinhas coletadas:
qtd_figurinhas_coletadas = 0

# Inicialização das listas para análise por gráfico:
lista_estados = []
lista_figurinhas = []

# Retirada das figurinhas até que todas sejam distintas:
while estado_atual != 670:
    lista_estados.append(estado_atual)
    lista_figurinhas.append(qtd_figurinhas_coletadas)
    if np.random.uniform() <= (670 - estado_atual) / 670:
        estado_atual += 1
    qtd_figurinhas_coletadas += 1

# Plotagem do gráfico para visualização da evolução:
plt.plot(lista_estados, lista_figurinhas)
plt.xlabel('Figurinhas Distintas')
plt.ylabel('Figurinhas Totais')
plt.title('Figurinhas Distintas X Totais')
plt.show()

In [None]:
# Inicialização da contagem de figurinhas coletadas:
qtd_figurinhas_coletadas = 0

# Definição do total de iterações:
total_iteracoes = 200

# Execução do mesmo código mas com mais iteraçẽos:
for _ in range(total_iteracoes):
    estado_atual = 0
    while estado_atual != 670:
        if np.random.uniform() <= (670 - estado_atual) / 670:
            estado_atual += 1
        qtd_figurinhas_coletadas += 1

# Cálculo da média das figurinhas coletadas / pacotes / gasto:
media_figurinhas = math.ceil(qtd_figurinhas_coletadas / total_iteracoes)
media_pacotes = math.ceil(media_figurinhas / 5)
media_gasto = media_pacotes * 4

# Comparação com o valor teórico:
print('Valor teórico: 4748 figurinhas = 950 pacotes = 3800 reais')
print('Valor simulado:', media_figurinhas, '=', media_pacotes, 'pacotes =', media_gasto, 'reais')


## **Referências**

- MAGALHÃES, Marcos Nascimento. **Noções de Probabilidade e Estatística**;
- ROSS, Sheldon. **Introduction to Probability Models**;
- RODRIGUES, Francisco Aparecido. **Cadeias de Markov: Caminhadas Aleatórias**. Disponível em: https://www.youtube.com/watch?v=cwhQYqR_Iag
- MIT OpenCourseWare. **The Coupon Collector Problem**. Disponível em https://www.youtube.com/watch?v=3mu47FWEuqA;
- BRILLIANT. **Coupon Collector Problem**. Disponível em https://brilliant.org/wiki/coupon-collector-problem/;
- RECLAMEAQUI: **Reclamações**. Exemplos disponíveis em https://www.reclameaqui.com.br/editora-panini/figurinhas-repetidas-no-mesmo-pacote_MtgkrWqqv9BBAmVj/ e https://www.reclameaqui.com.br/editora-panini/figurinhas-repetidas-no-mesmo-pacote_4vLX058DIbavADK8/.