# Introdução à Combinatória e Cálculo das Probabilidades
## Professor: Leonardo Yves de Souza Melo
## Fontes:
### 1. Think Bayes - Allen B. Downey
### 2. Python for Probability, Statistics, and Machine Learning - José Unpingco

# Bibliotecas

In [36]:
import numpy as np
import pandas as pd
from collections import defaultdict

### Construção de um dicionário em que cada par ``(i,j)`` representa uma chave e o respectivo valor é a soma das variáveis, portanto, ``i+j``

### Na presente situação os valores de ``i`` e ``j`` serão encarados como as faces sorteadas de dois dados, após o lançamento dos mesmos

In [37]:
d = {(i,j): i+j for i in range(1,7) for j in range(1,7)}
d

{(1, 1): 2,
 (1, 2): 3,
 (1, 3): 4,
 (1, 4): 5,
 (1, 5): 6,
 (1, 6): 7,
 (2, 1): 3,
 (2, 2): 4,
 (2, 3): 5,
 (2, 4): 6,
 (2, 5): 7,
 (2, 6): 8,
 (3, 1): 4,
 (3, 2): 5,
 (3, 3): 6,
 (3, 4): 7,
 (3, 5): 8,
 (3, 6): 9,
 (4, 1): 5,
 (4, 2): 6,
 (4, 3): 7,
 (4, 4): 8,
 (4, 5): 9,
 (4, 6): 10,
 (5, 1): 6,
 (5, 2): 7,
 (5, 3): 8,
 (5, 4): 9,
 (5, 5): 10,
 (5, 6): 11,
 (6, 1): 7,
 (6, 2): 8,
 (6, 3): 9,
 (6, 4): 10,
 (6, 5): 11,
 (6, 6): 12}

### Todas as chaves do dicionário ``d``, isso equivale à todos os pares possíveis, ou seja o espaço amostral

In [38]:
d.keys()

dict_keys([(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)])

### Todos os valores guardados no dicionário, seguindo a ordem de aparição das suas respectivas chaves

In [39]:
d.values()

dict_values([2, 3, 4, 5, 6, 7, 3, 4, 5, 6, 7, 8, 4, 5, 6, 7, 8, 9, 5, 6, 7, 8, 9, 10, 6, 7, 8, 9, 10, 11, 7, 8, 9, 10, 11, 12])

### Todos os pares chave-valor do dicionário

In [40]:
d.items()

dict_items([((1, 1), 2), ((1, 2), 3), ((1, 3), 4), ((1, 4), 5), ((1, 5), 6), ((1, 6), 7), ((2, 1), 3), ((2, 2), 4), ((2, 3), 5), ((2, 4), 6), ((2, 5), 7), ((2, 6), 8), ((3, 1), 4), ((3, 2), 5), ((3, 3), 6), ((3, 4), 7), ((3, 5), 8), ((3, 6), 9), ((4, 1), 5), ((4, 2), 6), ((4, 3), 7), ((4, 4), 8), ((4, 5), 9), ((4, 6), 10), ((5, 1), 6), ((5, 2), 7), ((5, 3), 8), ((5, 4), 9), ((5, 5), 10), ((5, 6), 11), ((6, 1), 7), ((6, 2), 8), ((6, 3), 9), ((6, 4), 10), ((6, 5), 11), ((6, 6), 12)])

### Construção de um dicionário que executa a função inversa do dicionário anterior. Tendo os valores das somas das faces como as chaves, tem o valor de cada face sorteada como conteúdo da respectiva chave

In [41]:
dinv = defaultdict(list)
for i,j in d.items():
    dinv[j].append(i)
dinv

defaultdict(list,
            {2: [(1, 1)],
             3: [(1, 2), (2, 1)],
             4: [(1, 3), (2, 2), (3, 1)],
             5: [(1, 4), (2, 3), (3, 2), (4, 1)],
             6: [(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)],
             7: [(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)],
             8: [(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)],
             9: [(3, 6), (4, 5), (5, 4), (6, 3)],
             10: [(4, 6), (5, 5), (6, 4)],
             11: [(5, 6), (6, 5)],
             12: [(6, 6)]})

### Todas as chaves do dicionário ``dinv``

In [42]:
dinv.keys()

dict_keys([2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])

### Todas os valores guardados no dicionário, seguindo a ordem de aparição das suas respectivas chaves

In [43]:
dinv.values()

dict_values([[(1, 1)], [(1, 2), (2, 1)], [(1, 3), (2, 2), (3, 1)], [(1, 4), (2, 3), (3, 2), (4, 1)], [(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)], [(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)], [(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)], [(3, 6), (4, 5), (5, 4), (6, 3)], [(4, 6), (5, 5), (6, 4)], [(5, 6), (6, 5)], [(6, 6)]])

### Todos os pares chave-valor do dicionário

In [44]:
dinv.items()

dict_items([(2, [(1, 1)]), (3, [(1, 2), (2, 1)]), (4, [(1, 3), (2, 2), (3, 1)]), (5, [(1, 4), (2, 3), (3, 2), (4, 1)]), (6, [(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)]), (7, [(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)]), (8, [(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)]), (9, [(3, 6), (4, 5), (5, 4), (6, 3)]), (10, [(4, 6), (5, 5), (6, 4)]), (11, [(5, 6), (6, 5)]), (12, [(6, 6)])])

**Se quisermos calcular todos os pares de faces que tiveram sete como soma de seus respectivos valores, devemos apenas chamar o objeto ``dinv[7]``**

In [45]:
dinv[7],len(dinv[7])

([(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)], 6)

**Para calcular as probabilidades devemos computar os casos favoráveis referentes ao nosso evento e todos os casos possíveis. Com os valores em mãos, calculamos a razão entre a quantidade de casos favoráveis e de casos possíveis**

### Usamos ``len(d.keys())`` para calcular a quantidade de casos totais, pois o valor obtido a partir da expressão representa a quantidade de elementos presentes na lista de todos os resultados possíveis, e obviamente ``dinv[i]`` representa a quantidade de casos favoráveis à determinada valor de soma das faces.

In [46]:
float(len(d.keys()))

36.0

Compare com a formulação teórica do problema em que obteríamos $6^2 = 36$

### Construção de um dicionário em que cada chave representa a soma das faces dos diados e seus valores são as respectivas probabilidades associadas a partir da fórmula: <br>
> # $P(A) = \frac{n(A)}{n(\Omega)}$

### O objeto cujo nome é $X$ representa o que chamamos matematicamente de variável aleatória. A partir de uma variável aleatória podemos associar os eventos do espaço amostral à números reais. No caso em que estamos estudando, ela associou os pares de faces obtidos ``(i,j)`` ao número real ``i+j`` que representa a soma dos mesmos. A partir da imagem da variável aleatória $X$ calculamos as probabilidades, aplicando um argumento numérico na função de probabilidade em vez de um argumento em forma de conjunto

In [47]:
X = {i:len(j)/float(len(d.keys())) for i,j in dinv.items()}
X

{2: 0.027777777777777776,
 3: 0.05555555555555555,
 4: 0.08333333333333333,
 5: 0.1111111111111111,
 6: 0.1388888888888889,
 7: 0.16666666666666666,
 8: 0.1388888888888889,
 9: 0.1111111111111111,
 10: 0.08333333333333333,
 11: 0.05555555555555555,
 12: 0.027777777777777776}

Agora considere o caso em que estejamos interessados em saber se a metade do produto do valor de 3 dados é maior ou não que a soma das faces, isto é
> ## $\frac{i\cdot j \cdot k}{2} > i+j+k$ 

Vamos construir o dicionário em que vamos guardar todos os valores dos ternos ordenados ``(i,j,k)``, como chaves. Os valores de cada chave serão os booleanos indicando se a inequação está safisteita ou não, para os valores do terno.

In [48]:
d1 = {(i,j,k): (i*j*k)/2 > i+j+k for i in range(1,7)
                                     for j in range(1,7)
                                         for k in range(1,7)}
d1

{(1, 1, 1): False,
 (1, 1, 2): False,
 (1, 1, 3): False,
 (1, 1, 4): False,
 (1, 1, 5): False,
 (1, 1, 6): False,
 (1, 2, 1): False,
 (1, 2, 2): False,
 (1, 2, 3): False,
 (1, 2, 4): False,
 (1, 2, 5): False,
 (1, 2, 6): False,
 (1, 3, 1): False,
 (1, 3, 2): False,
 (1, 3, 3): False,
 (1, 3, 4): False,
 (1, 3, 5): False,
 (1, 3, 6): False,
 (1, 4, 1): False,
 (1, 4, 2): False,
 (1, 4, 3): False,
 (1, 4, 4): False,
 (1, 4, 5): False,
 (1, 4, 6): True,
 (1, 5, 1): False,
 (1, 5, 2): False,
 (1, 5, 3): False,
 (1, 5, 4): False,
 (1, 5, 5): True,
 (1, 5, 6): True,
 (1, 6, 1): False,
 (1, 6, 2): False,
 (1, 6, 3): False,
 (1, 6, 4): True,
 (1, 6, 5): True,
 (1, 6, 6): True,
 (2, 1, 1): False,
 (2, 1, 2): False,
 (2, 1, 3): False,
 (2, 1, 4): False,
 (2, 1, 5): False,
 (2, 1, 6): False,
 (2, 2, 1): False,
 (2, 2, 2): False,
 (2, 2, 3): False,
 (2, 2, 4): False,
 (2, 2, 5): True,
 (2, 2, 6): True,
 (2, 3, 1): False,
 (2, 3, 2): False,
 (2, 3, 3): True,
 (2, 3, 4): True,
 (2, 3, 5): True,
 (2,

### O dicionário tem como chaves, as triplas de números inteiros que variam de 1 a 6, e que representam as jogadas de três dados

In [49]:
d1.keys()

dict_keys([(1, 1, 1), (1, 1, 2), (1, 1, 3), (1, 1, 4), (1, 1, 5), (1, 1, 6), (1, 2, 1), (1, 2, 2), (1, 2, 3), (1, 2, 4), (1, 2, 5), (1, 2, 6), (1, 3, 1), (1, 3, 2), (1, 3, 3), (1, 3, 4), (1, 3, 5), (1, 3, 6), (1, 4, 1), (1, 4, 2), (1, 4, 3), (1, 4, 4), (1, 4, 5), (1, 4, 6), (1, 5, 1), (1, 5, 2), (1, 5, 3), (1, 5, 4), (1, 5, 5), (1, 5, 6), (1, 6, 1), (1, 6, 2), (1, 6, 3), (1, 6, 4), (1, 6, 5), (1, 6, 6), (2, 1, 1), (2, 1, 2), (2, 1, 3), (2, 1, 4), (2, 1, 5), (2, 1, 6), (2, 2, 1), (2, 2, 2), (2, 2, 3), (2, 2, 4), (2, 2, 5), (2, 2, 6), (2, 3, 1), (2, 3, 2), (2, 3, 3), (2, 3, 4), (2, 3, 5), (2, 3, 6), (2, 4, 1), (2, 4, 2), (2, 4, 3), (2, 4, 4), (2, 4, 5), (2, 4, 6), (2, 5, 1), (2, 5, 2), (2, 5, 3), (2, 5, 4), (2, 5, 5), (2, 5, 6), (2, 6, 1), (2, 6, 2), (2, 6, 3), (2, 6, 4), (2, 6, 5), (2, 6, 6), (3, 1, 1), (3, 1, 2), (3, 1, 3), (3, 1, 4), (3, 1, 5), (3, 1, 6), (3, 2, 1), (3, 2, 2), (3, 2, 3), (3, 2, 4), (3, 2, 5), (3, 2, 6), (3, 3, 1), (3, 3, 2), (3, 3, 3), (3, 3, 4), (3, 3, 5), (3, 3, 6),

### Os valores são dados do tipo ``bool`` que são ``False`` ou ``True`` que representam se a inequação $\frac{i\cdot j\cdot k}{2}>i+j+k$ é satisfeita ou não

In [50]:
d1.values()

dict_values([False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, True, False, False, False, False, True, True, False, False, False, True, True, True, False, False, False, False, False, False, False, False, False, False, True, True, False, False, True, True, True, True, False, False, True, True, True, True, False, True, True, True, True, True, False, True, True, True, True, True, False, False, False, False, False, False, False, False, True, True, True, True, False, True, True, True, True, True, False, True, True, True, True, True, False, True, True, True, True, True, False, True, True, True, True, True, False, False, False, False, False, True, False, False, True, True, True, True, False, True, True, True, True, True, False, True, True, True, True, True, False, True, True, True, True, True, True, True, True, True, True, True, False, False, False, False, True, True, False, True, Tr

### Utilização da classe ``defaultdict`` para montagem do dicionário que nos fornecerá todos os elementos associados à cada possível valor da variável aleatória indicadora referente ao resulato da desigualdade (mesmo roteiro dos cálculos anteriores).

In [51]:
dinv1 = defaultdict(list)
for i,j in d1.items():
    dinv1[j].append(i)
dinv1

defaultdict(list,
            {False: [(1, 1, 1),
              (1, 1, 2),
              (1, 1, 3),
              (1, 1, 4),
              (1, 1, 5),
              (1, 1, 6),
              (1, 2, 1),
              (1, 2, 2),
              (1, 2, 3),
              (1, 2, 4),
              (1, 2, 5),
              (1, 2, 6),
              (1, 3, 1),
              (1, 3, 2),
              (1, 3, 3),
              (1, 3, 4),
              (1, 3, 5),
              (1, 3, 6),
              (1, 4, 1),
              (1, 4, 2),
              (1, 4, 3),
              (1, 4, 4),
              (1, 4, 5),
              (1, 5, 1),
              (1, 5, 2),
              (1, 5, 3),
              (1, 5, 4),
              (1, 6, 1),
              (1, 6, 2),
              (1, 6, 3),
              (2, 1, 1),
              (2, 1, 2),
              (2, 1, 3),
              (2, 1, 4),
              (2, 1, 5),
              (2, 1, 6),
              (2, 2, 1),
              (2, 2, 2),
              (2, 2, 3),


#### Obtenção do tamanho do espaço amostral ($n(\Omega)$) por meio de ``len(d1.keys())``

Compare com a formulação teórica em que obteríamos $6^3 = 216$

In [52]:
float(len(d1.keys()))

216.0

### Construção da variável aleatória $X_1$ para representar a situação a ser modelada

In [53]:
X1 = {i:len(j)/float(len(d1.keys())) for i,j in dinv1.items()}
X1

{False: 0.37037037037037035, True: 0.6296296296296297}

# Definição
Dois eventos $A$ e $B$, são considerados independentes se, e somente se, $P(A|B)=P(A)$ e $P(B|A)=P(B)$, isso implica em $P(A\cap B)=P(A)\cdot P(B)$
> ## $P(A|B) = \frac{P(A\cap B)}{P(B)}$, então se $P(A|B)=P(A)$, $P(A)=\frac{P(A\cap B)}{P(B)}\rightarrow P(A\cap B)=P(A)\cdot P(B)$

### Construção de uma tabela em que cada linha representa o par ordenado proveniente do lançamento de dois dados e as colunas representam informações sobre cada lançamento

In [54]:
d = pd.DataFrame(index=[(i,j) for i in range(1,7) for j in range(1,7)],
                 columns=['sm','d1','d2','pd1','pd2','p'])
d.head(5)

Unnamed: 0,sm,d1,d2,pd1,pd2,p
"(1, 1)",,,,,,
"(1, 2)",,,,,,
"(1, 3)",,,,,,
"(1, 4)",,,,,,
"(1, 5)",,,,,,


- ``d.d1``: representa os dados da coluna d1 
- ``d.d2``: representa os dados da coluna d2 
- ``d.index``: representa os rótulos das linhas, ou seja, o resultado do lançamento de dois dados
- ``i[0]``: representa o valor do primeiro dado
- ``i[1]``: representa o valor do segundo dado

In [55]:
d.d1 = [i[0] for i in d.index]
d.d2 = [i[1] for i in d.index]
d

Unnamed: 0,sm,d1,d2,pd1,pd2,p
"(1, 1)",,1,1,,,
"(1, 2)",,1,2,,,
"(1, 3)",,1,3,,,
"(1, 4)",,1,4,,,
"(1, 5)",,1,5,,,
"(1, 6)",,1,6,,,
"(2, 1)",,2,1,,,
"(2, 2)",,2,2,,,
"(2, 3)",,2,3,,,
"(2, 4)",,2,4,,,


### Como podemos preencher a coluna ``sm``, com as somas das colunas ``d1`` e ``d2``? 
Podemos fazer isso utilizando a função ``map`` e aplicando em cada elemento do objeto ``d.index``, com todos os pares ordenados obtidos a partir de todas as possibilidades de lançamento, ou podemos calcular utilizando expressões aritméticas simples, somando as colunas ``d1`` e ``d2``<br>
Abaixo nós temos a verificação de que os dois métodos são equivalentes

In [56]:
list(map(sum,d.index)) == d.d1 + d.d2

(1, 1)    True
(1, 2)    True
(1, 3)    True
(1, 4)    True
(1, 5)    True
(1, 6)    True
(2, 1)    True
(2, 2)    True
(2, 3)    True
(2, 4)    True
(2, 5)    True
(2, 6)    True
(3, 1)    True
(3, 2)    True
(3, 3)    True
(3, 4)    True
(3, 5)    True
(3, 6)    True
(4, 1)    True
(4, 2)    True
(4, 3)    True
(4, 4)    True
(4, 5)    True
(4, 6)    True
(5, 1)    True
(5, 2)    True
(5, 3)    True
(5, 4)    True
(5, 5)    True
(5, 6)    True
(6, 1)    True
(6, 2)    True
(6, 3)    True
(6, 4)    True
(6, 5)    True
(6, 6)    True
dtype: bool

In [57]:
d.sm = d.d1 + d.d2
d

Unnamed: 0,sm,d1,d2,pd1,pd2,p
"(1, 1)",2,1,1,,,
"(1, 2)",3,1,2,,,
"(1, 3)",4,1,3,,,
"(1, 4)",5,1,4,,,
"(1, 5)",6,1,5,,,
"(1, 6)",7,1,6,,,
"(2, 1)",3,2,1,,,
"(2, 2)",4,2,2,,,
"(2, 3)",5,2,3,,,
"(2, 4)",6,2,4,,,


Agora considere que o primeiro dado é desiquilibrado e que nele a probabilidade de sair uma face menor ou igual a 3, é igual a $\frac{1}{9}$, e a probabilidade de sair uma face maior que 3 é igual a $\frac{2}{9}$. Já o segundo dado se mantém equilibrado, com todas as probabilidades iguais a $\frac{1}{6}$<br>
> ### Por qual motivo você deveria acreditar que as probabilidades do dado 1, de fato representam probabilidades??

``d.loc[d.d1<=3,'pd1']``: representa todas as linhas da coluna ``pd1`` em que a coluna ``d1`` apresenta valor menor ou igual a 3. Uma espécie de preenchimento condicional <br>
``d.loc[d.d1>3,'pd1']``: representa todas as linhas da coluna ``pd1`` em que a coluna ``d1`` apresenta valor maior que 3 <br>
``d.pd2``: representa as probabilidades de cada face do dado 2

O preenchimento foi realizado na coluna ``pd1``, no entanto, foi condicionado à restrições dos dados da coluna ``d1`` por meio do método ``loc``.

In [58]:
d.loc[d.d1<=3,'pd1'] = 1/9
d.loc[d.d1>3,'pd1'] = 2/9
d.pd2 = 1/6
display(d.head(5),d[-4:-10:-1])

Unnamed: 0,sm,d1,d2,pd1,pd2,p
"(1, 1)",2,1,1,0.111111,0.166667,
"(1, 2)",3,1,2,0.111111,0.166667,
"(1, 3)",4,1,3,0.111111,0.166667,
"(1, 4)",5,1,4,0.111111,0.166667,
"(1, 5)",6,1,5,0.111111,0.166667,


Unnamed: 0,sm,d1,d2,pd1,pd2,p
"(6, 3)",9,6,3,0.222222,0.166667,
"(6, 2)",8,6,2,0.222222,0.166667,
"(6, 1)",7,6,1,0.222222,0.166667,
"(5, 6)",11,5,6,0.222222,0.166667,
"(5, 5)",10,5,5,0.222222,0.166667,
"(5, 4)",9,5,4,0.222222,0.166667,


Preenchimento da coluna ``p`` utilizando o produto dos valores das colunas ``d1`` e ``d2``, a partir da ideia de independência entre os eventos representados por cada uma. Isto é, o lançamento do primeiro dado é independente do segundo.

In [59]:
d.p = d.pd1*d.pd2
display(d.head(5),d[-4:-10:-1])

Unnamed: 0,sm,d1,d2,pd1,pd2,p
"(1, 1)",2,1,1,0.111111,0.166667,0.0185185
"(1, 2)",3,1,2,0.111111,0.166667,0.0185185
"(1, 3)",4,1,3,0.111111,0.166667,0.0185185
"(1, 4)",5,1,4,0.111111,0.166667,0.0185185
"(1, 5)",6,1,5,0.111111,0.166667,0.0185185


Unnamed: 0,sm,d1,d2,pd1,pd2,p
"(6, 3)",9,6,3,0.222222,0.166667,0.037037
"(6, 2)",8,6,2,0.222222,0.166667,0.037037
"(6, 1)",7,6,1,0.222222,0.166667,0.037037
"(5, 6)",11,5,6,0.222222,0.166667,0.037037
"(5, 5)",10,5,5,0.222222,0.166667,0.037037
"(5, 4)",9,5,4,0.222222,0.166667,0.037037


O método ``groupby`` foi utilizado para agrupar os dados da coluna ``sm`` a partir da soma das probabilidades associadas a cada uma das linhas. Por exemplo, o resultado obtido na coluna ``p`` para todas as linhas em que a coluna ``sm`` é igual a 3, foram somados.

``d[d.sm==3]``: é um objeto ``DataFrame``<br>
``d[d.sm==3]['p']``: é um objeto ``Series``

In [60]:
display(d[d.sm==3])
d[d.sm==3]['p'].sum()

Unnamed: 0,sm,d1,d2,pd1,pd2,p
"(1, 2)",3,1,2,0.111111,0.166667,0.0185185
"(2, 1)",3,2,1,0.111111,0.166667,0.0185185


0.037037037037037035

In [63]:
d.groupby('sm')['p'].sum()

sm
2     0.018519
3     0.037037
4     0.055556
5     0.092593
6     0.129630
7     0.166667
8     0.148148
9     0.129630
10    0.111111
11    0.074074
12    0.037037
Name: p, dtype: float64