# Exercício 1: Probabilidade conjunta e intersecção de eventos
*Objetivo: calcular probabilidades ligadas à intersecção de eventos*

Já sabemos que duas jogadas de dados são independentes. Mas, qual é a chance de tirarmos um duplo-6 ao jogar dois dados?

In [None]:
dado = np.array([1, 2, 3, 4, 5, 6])
favoravel = 0
total = 0
for i in range(100000):    
    tirei1 = np.random.choice(dado)
    tirei2 = np.random.choice(dado)
    total += 1
    if tirei1 == 6 and tirei2 == 6:
        favoravel += 1

print(favoravel / total)

0.02805


Como os experimentos são independentes, e queremos calcular a probabilidade de resultados específicos deles, podemos simplesmente multiplicar as probabilidades individuais:

$$
P(d_1 = 6 \cap d_2=6) = P(d_1 = 6, d_2=6) = P(d_1=6) P(d_2=6)
$$

# Exercício 2: Probabilidade conjunta para experimentos dependentes
*Objetivo: usar simulações para calcular probabilidades conjuntas quando eventos são dependentes*

Em algumas situações, o resultado de um experimento é dependente do resultado de outro. Um exemplo disso é jogarmos dois dados e querermos a probabilidade da segunda jogada ter resultado maior que a primeira.

Essa probabilidade pode ser obtida através de simulação: 

In [None]:
dado = np.array([1, 2, 3, 4, 5, 6])
favoravel = 0
total = 0
for i in range(1000):    
    tirei1 = np.random.choice(dado)
    tirei2 = np.random.choice(dado)
    total += 1
    if tirei2 > tirei1 :
        favoravel += 1

print(favoravel / total)

0.411


Uma possível maneira de entender melhor esse processo é fazendo uma tabela com todas as possibilidades, marcando F quando as células representarem elementos favoráveis:

| Dado 1 | 1 | 2 | 3 | 4 | 5 | 6 |
| --- | --- | --- | --- | --- | --- | ---  |
| Dado 2 | - | -  | - | - | - | - |
| 1      | x | x | x | x | x | x |
| 2      | F | x | x | x | x | x |
| 3      | F | F | x | x | x | x |
| 4      | F | F | F | x | x | x |
| 5      | F | F | F | F | x | x |
| 6      | F | F | F | F | F | x |

Contando nossas possibilidades, temos 36 resultados possíveis para o experimento, e 15 resultados favoráveis. Podemos então calcular $15/36=0.42$.

Essa é a probabilidade $P(d_2 > d_1)$.

1. Faça uma simulação que estime a probabilidade do resultado do segundo dado ser um número par e, simultaneamente, igual ou maior que o resultado do primeiro dado.
2. Usando uma tabela, verifique se o resultado da simulação está próximo ao resultado teórico.

In [None]:
15/36

0.4166666666666667

# Exercício 3: União de eventos
*Objetivo: calcular probabilidades ligadas a situações tipo "ou"*

Agora, vamos jogar uma moeda. Qual é a probabilidade de sair "cara" na primeira **ou** sair "cara" na segunda?

In [None]:
moeda = np.array(['cara', 'coroa'])
favoravel = 0
total = 0
for i in range(10000):    
    tirei1 = np.random.choice(moeda)
    tirei2 = np.random.choice(moeda)
    total += 1
    if tirei1 == 'cara' or tirei2 == 'cara':
        favoravel += 1

print(favoravel / total)

0.756


Veja que, neste caso, temos 4 possibilidades:
1. cara, cara
1. coroa, cara
1. cara, coroa
1. coroa, coroa

A probabilidade de sair "cara" na primeira pode ser calculada usando o número de eventos favoráveis (na nossa lista, os eventos 1 e 3, ou seja, dois eventos!) dividido pelo número total de eventos (que são 4), o que nos dá $2/4=0.5$. Podemos fazer um raciocínio semelhante e usar os eventos 1 e 2 (dois eventos) para a probabilidade de sair "cara" na segunda moeda.

Agora, veja: se calculamos $P(m_1=\text{cara}) + P(m_2=\text{cara})$, temos $1$. Isso acontece porque estamos contando duas vezes o evento "cara, cara" (evento 1 na nossa lista). Então, para saber a probabilidade de tirar "cara" em qualquer uma das moedas, podemos calcular a probabilidade de tirar cara em cada uma delas e então subtrair aquilo que contamos duas vezes, ou:

$$
P(m_1 = \text{cara} \cup m_2=\text{cara}) = P(m_1=\text{cara}) + P(m_2=\text{cara}) - P(m_1=\text{cara} \cap m_2=\text{cara})
$$

Podemos generalizar esse resultado para:
$$
P(A \cup B) = P(A) + P(B) - P(A \cap B)
$$

Estime, primeiro usando a simulação, e depois confirmando com a teoria, a probabilidade de jogar dois dados e ter resultado 6 em pelo menos um deles.

# Exercício 4: probabilidade marginal
*Objetivo: calcular probabilidades marginais à partir de probabilidades conjuntas*

Algumas vezes, conhecemos a probabilidade de eventos conjuntos. Por exemplo, se estamos arremessando dados independentemente, cada par de resultados pode aparecer com uma probabilidade igual a $1/6^2 = 1/36$, isto é:

| Dado 1 | 1 | 2 | 3 | 4 | 5 | 6 |
| --- | --- | --- | --- | --- | --- | ---  |
| Dado 2 | - | -  | - | - | - | - |
| 1      | $1/36$ | $1/36$ | $1/36$ | $1/36$ | $1/36$ | $1/36$ |
| 2      | $1/36$ | $1/36$ | $1/36$ | $1/36$ | $1/36$ | $1/36$ |
| 3      | $1/36$ | $1/36$ | $1/36$ | $1/36$ | $1/36$ | $1/36$ |
| 4      | $1/36$ | $1/36$ | $1/36$ | $1/36$ | $1/36$ | $1/36$ |
| 5      | $1/36$ | $1/36$ | $1/36$ | $1/36$ | $1/36$ | $1/36$ |
| 6      | $1/36$ | $1/36$ | $1/36$ | $1/36$ | $1/36$ | $1/36$ |

Se conhecemos somente esta tabela, como poderíamos estimar a probabilidade do dado 1 dar resultado 6 ($P(d_1=6)$)? A maneira direta é:
1. Somar todas as probabilidades da tabela (isso deve dar 1, já que a tabela representa todo o universo de jogadas)
1. Somar todas as probabilidades relacionadas a eventos favoráveis ($6 \times 1/36 = 1/6$)
1. Dividir a probabilidade relacionada a eventos favoráveis pela probabilidade total de eventos da tabela.

Esse resultado fica especialmente relevante quando não temos tabelas com probabilidades, e sim com contagens.

Num restaurante fictício, clientes pedem uma bebida e uma comida. No último fim de semana, seguintes pedidos foram registrados:
| Comida | hamburguer | salada |
| --- | --- | --- |
| Bebida | - | -  | 
| água | 50 | 250 |
| refrigerante | 170 | 20 |
| suco | 350 | 350 |

1. Se sorteamos um pedido aleatório entre esses, qual é a probabilidade de encontrarmos um pedido de salada e refrigerante?
2. Se sortearmos um pedido aleatório entre esses, qual é a probabilidade de encontrarmos um pedido com hamburguer?
3. Se sortearmos um pedido aleatório entre esses, qual é a probabilidade de encontrarmos um pedido com suco?

# Exercício 5: Probabilidade condicional
*Objetivo: calcular probabilidades condicionais*

Saber algo sobre eventos é sempre interessante. Informações adicionais podem acabar aumentando nossa capacidade de estimação. Por exemplo, se escolhermos um estado brasileiro ao acaso, há uma probabilidade de $4/26$ que trate-se de um estado da região sudeste. Porém, se sabemos com certeza que o estado selecionado não tem litoral, então a probabilidade de ele estar na região sudeste é de $1$ (MG) em $9$ (MG, AC, RR, AM, RO, TO, MT, GO, MS). Veja que interessante: nossa definição de probabilidade ainda é $P(x) = \frac{\text{\# resultados favoráveis}}{\text{\# total de experimentos}}$, mas agora temos um número total de experimentos bem menor!

Quando temos uma probabilidade de algum evento $A$ *dado que sabemos* de outro evento $B$, escrevemos:

$P(A | B)$

Em nosso restaurante fictício, qual é a probabilidade de, ao sortearmos um pedido aleatoriamente, encontrarmos:

1. Um pedido que tenha água
2. Um pedido que tenha água, sabendo que o pedido selecionado teve salada
3. Um pedido que tenha água, sabendo que o pedido selecionado teve hamburguer

Após, calcule:
1. $P(\text{comida=salada} | \text{bebida=refrigerante})$
2. $P(\text{comida=hamburguer} | \text{bebida=água})$

# Exercício 6: Problema de Monty-Hall
*Objetivo: usar simulações e teoria em conjunto para um processo de tomada de decisão*

Esse problema é bastante famoso. Havia um game-show (parecido com o Silvio Santos) no meio do Século XX nos Estados Unidos, que inspirou o nome do problema - mesmo que o próprio Monty-Hall nunca tivesse feito esse jogo específico.

O jogo funciona da seguinte forma. O jogador é colocado diante de três portas. O anfitrião do show então lhe informa que, atrás de cada uma das portas, há uma coisa diferente: um repolho, outro repolho, ou um carro de luxo. Porém, os prêmios estão embaralhados e somente o anfitrião sabe o que há atrás de cada porta.

O jogador, então, escolhe uma das portas.

Antes de abri-la, o anfitrião pára o jogo para efeito dramático. Então, das portas restantes (não escolhidas pelo jogador), revela uma, que possui um repolho - o que significa que as portas ainda fechadas escondem um outro repolho e um carro de luxo. Então, o anfitrião dá a opção do jogador de trocar a sua escolha da porta.

O jogador deve aceitar a oferta e mudar de porta? Por que?

In [None]:
portas = np.array(['REPOLHO', 'REPOLHO', 'CARRO'])
np.random.shuffle(portas)
print(portas)

['REPOLHO' 'CARRO' 'REPOLHO']


# Atividade: Simulando os combates do War
*Objetivo: analisar um estudo feito usando simulação*

Uma habilidade importante na ciência de dados é a de conectar conceitos matemáticos com suas simulações computacionais, e ambos (matemática e simulações) a elementos do mundo real. O texto abaixo possui uma análise das chances de vitória no jogo "War" (um jogo de tabuleiro da Grow). Leia atentamente o texto e decida:
1. Você encontra alguma desconexão entre o texto, o modelo matemático e as simulações computacionais? Qual ou quais?
2. O fluxo de raciocínio está claro e correto? Faltam informações? Sobram informações?
3. Você concorda com as conclusões? Por que?

---

Um famoso jogo de tabuleiro chamado War tem uma dinâmica na qual territórios devem invadir outros territórios, formando uma estratégia para conquistar continentes, eliminar adversários ou simplesmente expandir suas fronteiras. A dinâmica de *combate* do War é bastante interessante. Cada território (o atacante, $A$, e o defensor, $D$) tem um certo número de exércitos. Daí, cada jogador (controlador dos territórios) joga um dado para cada exército em seu território, até um máximo de três. No caso específico do atacante, um dos exércitos não pode participar do ataque porque é um exército "de ocupação". Os dados são ordenados do maior para o menor, e então pareados. Para cada dado pareado, o território que tirou menor valor perde um exército (em caso de empate, defesa ganha). O ataque deve parar se o território defesor fica sem exércitos, ou se o atacante fica com apenas um exército, e o atacante pode decidir encerrar o ataque.

Uma pergunta que sempre me facinou: quantos exércitos eu devo ter para poder atacar com quase certeza de vencer?

Uma pergunta parecida é a seguinte: a cada rodada (jogada de dados), ataque e defesa perdem exércitos. Em média, quantos exércitos ataque e defesa, cada um, perdem quando jogamos?

Antes de começar essa pergunta grande, vamos calcular qual é a média e desvio padrão da perda de exércitos por jogada!

In [None]:
def simular_rodada(n_ataque, n_defesa):
    # Recebe: numero de exercitos no ataque e na defesa
    # Retorna: (a,d), que são os números de exércitos perdidos pelo ataque e pela defesa, respectivamente
    dado = np.array([1,2,3,4,5,6])
    dados_ataque = min(n_ataque-1, 3)
    dados_defesa = min(n_defesa, 3)
    jogada_ataque = sorted(np.random.choice(dado, dados_ataque), reverse=True)
    jogada_defesa = sorted(np.random.choice(dado, dados_defesa), reverse=True)
    #print(jogada_ataque, jogada_defesa)
    a = 0
    d = 0
    for i in range(min(len(jogada_ataque), len(jogada_defesa))):
        if jogada_defesa[i] >= jogada_ataque[i]:
            a += 1
        else:
            d += 1 
    return a, d

In [None]:
A = []
D = []
for i in range(10000):
    a, d = simular_rodada(10,10)
    A.append(a)
    D.append(d)

print(np.mean(A), np.std(A))
print(np.mean(D), np.std(D))

1.9001 1.0695419533613442
1.0999 1.0695419533613442


Veja que interessante: a perda média de exércitos para o ataque é praticamente o dobro da perda de exércitos da defesa! Mesmo assim, o desvio padrão ainda é alto, então resultados improváveis ainda são possíveis!

Vamos partir para uma nova simulação: se eu atacar com $N$ exércitos um território que tem $M$ exércitos, quem vai vencer?

In [None]:
def ate_vencer(N, M):
    M_ = M
    N_ = N
    while (1):
        a, d = simular_rodada(N_, M_)
        M_ -= d
        N_ -= a
        if N_ <= 2:
            return "DEFESA" # defesa ganha
        if M_ < 1:
            return "ATAQUE" # ataque ganha
    return "ALGO DEU ERRADO"

print(ate_vencer(75,50))


ATAQUE


Claro que, para qualquer número de jogadas, ataque e defesa têm alguma chance de vencer.

Mas, então, fica a pergunta: se ataque tem N exércitos e defesa tem M exércitos, qual é a probabilidade de ataque vencer?

In [None]:
def prob_vencer(N, M, tentativas):
    vitorias = 0
    for i in range(tentativas):
        if ate_vencer(N,M) == "ATAQUE":
            vitorias += 1
    return vitorias/tentativas

In [None]:
print(prob_vencer(5,5,1000))

0.167


É bem interessante - e condizente com os resultados anteriores - que a probabilidade do ataque vencer quando há um número igual de exércitos em ambos os territórios é muito baixa. Bom, podemos fazer uma busca por vários valores de exércitos e então gerar uma tabela de probabilidades

In [None]:
n_max = 30
m_max = 30
probs = np.zeros( (n_max, m_max) )

for n in range(2, n_max):
    print(n) # Esse print() está aqui para sabermos que a simulação ainda está rodando e nada travou 
    for m in range(1, m_max):
        probs[n,m] = prob_vencer(n, m, 100)



2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29


In [None]:
with np.printoptions(precision=2, suppress=True, formatter={'float': '{:0.1f}'.format}, linewidth=200):
    print(probs)

[[0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0]
 [0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0]
 [0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0]
 [0.0 0.6 0.3 0.1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0]
 [0.0 0.9 0.6 0.2 0.2 0.1 0.1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0]
 [0.0 1.0 0.8 0.4 0.3 0.2 0.1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0]
 [0.0 1.0 0.9 0.5 0.4 0.3 0.1 0.1 0.1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0]
 [0.0 1.0 0.9 0.6 0.4 0.3 0.2 0.2 0.1 0.1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0]
 [0.0 1.0 1.0 0.

E, agora, podemos encontrar uma regra que parece valer para esses números razoáveis de exércitos: devemos ter pelo menos três vezes o número de exércitos da defesa para ter um ataque com por volta de 90% de chance de sucesso.

No lado da defesa, se mantivermos as fronteiras com um número bem grande de exércitos, raramente vamos ser pegos desprevenidos.