# Estatística com Python parte 2: Probabilidade e Amostragem

- Nível: Básico 
- Aluno: Paulo Freitas Nobrega 
- Professor: Rodrigo Fernando Dias 
- Link do curso: https://cursos.alura.com.br/course/estatistica-probabilidade-e-amostragem

---

## Base Teórica


### Distribuição de Probabilidade
Para cada valor de uma variável aleatória discreta, pode-se determinar uma probabilidade correspondente à este valor. Assim, ao listar cada valor de uma variável aleatória, juntamente à sua probabilidade, obtém-se uma distribuição de probabilidade. 

Em teoria da probabilidade, uma distribuição de probabilidade deve satisfazer os seguintes axiomas:

- A probabilidade de cada valor da variável, é sempre um número real pertencente ao intervalo [0, 1]. Assim: $0 \leqslant P(X) \leqslant 1$
- A soma de todas as probabilidades do espaço amostral, é sempre igual a 1. Assim: $P(\Omega) = \Sigma^{n}_{i=1}P(X_{i})=1$

### Fatorial
O produto de todos os inteiros positivos menores ou iguais a $n$.

$n! = n \cdot (n-1) \cdot (n-2) \dotsc 3 \cdot 2 \cdot 1$, para $n \geq 2$

> Por convenção $0! = 1! = 1$

### Arranjo
Sequência ordenada de $k$ elementos distintos, tomados $k$ a $k$, escolhidos entre os $n$ existentes. Cada arranjo difere dos demais:

- Pela natureza dos elementos, onde $(1,3) \ne (3,5)$
- Pela ordem dos elementos, onde $(1,3) \ne (3,1)$

$\Large{A_{n,k} = \frac{n!}{(n-k)!}}$

válida $\forall \,n \in \mathbb{N^*}, \forall \,k \in \mathbb{N^*}$ e com $k \leqslant n$

### Permutação
Quantidade de arranjos possíveis, onde cada arranjo, possui a totalidade dos elementos do conjunto.

$\large{P_{n} = n!}$

válida $\forall \,n \in \mathbb{N^*}$

**Com Repetição**

$\Large{P^{(n1, \,n2, \,..., \,nr)}_{n} = \frac{n!}{n1!n2! \dotsc nr!}}$

> O fato de possuir repetições para serem permutadas, acarreta em uma dimunuição do número de permutações possíveis.

### Combinação
Conjuntos de $k$ elementos possíveis, tomados $k$ a $k$, escolhidos entre os $n$ existentes. Em combinações, considera-se apenas os elementos que compõem um conjunto, não importando a ordem dos mesmo. Dessa forma, cada combinação difere das demais apenas:

- Pela natureza dos elementos, onde $(1,3) \ne (3,5)$

> É importante notar a diferença entre as combinações e os arranjos. Entende-se combinações como conjuntos, onde naturalmente a ordem dos elementos não importa. Já em relação a arranjos, os definimos como sequências, que por sua natureza, já destingue a ordem dos seus elementos. Assim:
>
> - **Arranjos** $\to$ **Sequências**
> - **Combinações** $\to$ **Conjuntos**.


$\Large{C_{n,k} = \binom{n}{k} = \frac{n!}{k! (n-k)!}}$

válida $\forall \,n,k \in \mathbb{N}$ e com $k \leqslant n$

---

## Aula 01: Distribuição binomial
A distribuição binomial estuda o número de sucessos em $n$ tentativas e as suas respectivas probabilidades. Naturalmente, os valores possíveis são os números inteiros $0, 1, 2, 3, 4, ... , n$.

Uma distribuição binomial tem as seguintes características:

- Consiste de $n$ ensaios
- Cada ensaio só pode resultar em um de dois resultados, identificados como “sucesso” e “fracasso” – com valores 1 e zero, respectivamente.
- $P(k)$ é o número de sucessos em $n$ ensaios.
- A probabilidade de sucesso (ocorrer o evento de interesse) é $p$ e o valor de $p$ permanece o mesmo em todos os ensaios.
- Os ensaios são independentes: o resultado de um ensaio não tem efeito sobre o resultado de outro.


$\Large{P(k)=\binom{n}{k}p^k q^{(n-k)}}$

onde:

- $n$ número de tentativas do experimento aleatório;
- $p$ probabilidade de sucesso em uma única tentativa;
- $q = 1-p$ probabilidade de fracasso em uma única tentativa;

---

## Exercícios

### Concurso para ciêntista de dados

Em um concurso para preencher uma vaga de cientista de dados temos um total de **10 questões** de múltipla escolha com **3 alternativas possíveis** em cada questão. **Cada questão possui o mesmo valor**. Suponha que um candidato resolva se aventurar sem ter estudado absolutamente nada. Ele resolve chutar todas as respostas. Assumindo que a prova **vale 10 pontos e a nota de corte seja 5**. Obtenha a probabilidade:

1. Candidato acertar 5 questões; 
2. Candidato passar para a próxima fase do processo seletivo;

In [1]:
# bibliotecas
from scipy.stats import binom

In [2]:
# dados do problema
questoes = 10
alternativas = 3

# número de tentativas do experimento
n = 10

# probabilidade de sucesso em uma única tentativa
p = 1 / alternativas

# probabilidade de fracasso em uma única tentativa
q = 1 - p

### 1. Probabilidade do candidato acertar 5 questões
Neste cenário, o candidato acertará exatamente 5 questões.

In [3]:
# Calculando com método pmf da biblioteca scipy.stats
binom.pmf(5, n, p)

0.13656454808718183

### 2. Probabilidade do candidato passar para a próxima fase do processo seletivo
Neste cenário, o candidato poderá acertar 5 ou mais questões, com o limite máximo de n. Então, soma-se a probabilidade de cada ensaio, para obter-se a probabilidade total.

In [4]:
# Calculando com o método pmf da biblioteca scipy.stats e list comprehension

# probabilidade 5 + 6 + 7 + 8 + 9 + 10 acertos
sum([binom.pmf(k, n, p) for k in range(5, 11, 1)])

0.2131280800690952

In [5]:
# Calculando com o método cdf da biblioteca scipy.stats

# Neste método retorna-se o somatório das probabilidade
# de 0 a k ensaios.
k = 4
espaco_amostral = p + q
espaco_amostral - binom.cdf(k, n, p)

0.21312808006909512

In [6]:
# Calculando com  o método sf da biblioteca scipy.stats

# Neste método retorna-se o:
# espaço amostral - somatório das probabilidade
# de 0 a k ensaios
k = 4
binom.sf(k, n, p)

0.21312808006909517

### Calculando sem auxílio de bibliotecas externas

In [7]:
def fatorial(n: int) -> int:
    """
    Calcula o produto de todos os inteiros positivos menores
    ou iguais a n
    """
    return 1 if n < 1 else n * fatorial(n-1)


def arranjos(n, k: int) -> float:
    """
    Calcula a quantidade de sequências ordenadas, formada
    de k elementos distintos, tomados k a k, escolhidos entre
    os n existentes.

    Cada arranjo difere dos demais:
    pela sua natureza (1,3) != (3,5)
    pela sua ordem (1,3) != (3,1)
    """

    # quando n for um conjunto de elementos (list), então
    # atribui à n a quantidade de elementos do conjunto
    n = len(n) if isinstance(n, list) else n

    return fatorial(n) / fatorial(n-k)


def combinacoes(n, k: int) -> float:
    """
    Calcula a quantidade de conjuntos, formados de k elementos possíveis,
    tomados k a k, escolhidos entre os n existentes

    Cada combinação difere das demais apenas:
    pela sua natureza (1,3) != (3,5)
    """

    return arranjos(n, k) / fatorial(k)


def dist_binomial_pmf(s, n: int, p: float) -> list:
    """
    Determina a probabilidade de observar k sucessos em n
    ensaios, em que a probabilidade de sucesso para cada
    ensaio seja p
    """

    # n = número de ensaios
    # p = probabilidade de sucesso
    # q = probabilidade de fracasso
    # k = número de sucesso desejado
    q = 1 - p

    # s é um variável auxiliar
    # poderá conter um valor inteiro ou uma lista de inteiros
    if not isinstance(s, list):
        s = [s]

    return [combinacoes(n, k) * (p**k) * (q**(n-k)) for k in s]


ensaios = list(range(5, 11, 1))
sum(dist_binomial_pmf(ensaios, n, p))

0.2131280800690952

Referências:

---

- FERREIRA, Valéria. **Análise Estatística**. Rio de Janeiro: SESES, 2015.
- IEZZI, Gelson. **Fundamento de Matemática Elementar**. São Paulo: ATUAL EDITORA, 1977.