# Estatística com Python: probabilidade e amostragem

## 1 Importando os dados

In [1]:
import pandas as pd

In [2]:
dados = pd.read_csv('../Estatística com Python - frequências e medidas/dados.csv')

In [3]:
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


## 2 Distribuições de Probabilidade

### Problema

Em um concurso para preencher uma vaga de cientista de dados temos um total de 10 questões de múltipla escolha com 3 alternativas possíveis em cada questão. Cada questão tem o mesmo valor. Suponha que um candidato resolva se aventurar sem ter estudado absolutamente nada. Ele resolve fazer a prova de olhos vendados e chutar todas as resposta. Assumindo que a prova vale 10 pontos e a nota de corte seja 5, obtenha a probabilidade deste candidato acertar 5 questões e também a probabilidade deste candidato passar para a próxima etapa do processo seletivo.

### 2.1 Distribuição Binomial

Um evento binomial é caracterizado pela possibilidade de ocorrência de apenas duas categorias. Estas categorias somadas representam todo o espaço amostral, sendo também mutuamente excludentes, ou seja, a ocorrência de uma implica na não ocorrência da outra.

Em análises estatísticas o uso mais comum da distribuição binomial é na solução de problemas que envolvem situações de sucesso e fracasso.

#### Experimento Binomial

1. Realização de *n* ensaios idênticos
2. Os ensaios são independentes
3. SOmente dois resultados são possívels, exemplo: Verdadeiro ou falso; Cara ou Coroa; Sucesso ou Fracasso
4. A probabilidade de sucesso é representada por *p* e a de fracasso por 1 - *p* = *q*. Estas probabilidades não se modificam de ensaio para ensaio.

#### Média da distribuição binomial

O valor esperado ou a média da distribuição binomial é igual ao número de experimentos realizados multiplicado pela chance de ocorrência do evento
* media_distribuicao_binomial = *n* * *p*

#### Desvio padrão da distribuição binomial

O desvio padrão é o produto entre o número de experimentos, a probabilidade de sucesso e a probabilidade de fracasso.
* desvio_padrao_distribuicao_binomial = math.sqrt(*n* * *p* * *q*)

#### Importando bibliotecas

* [Scipy](https://docs.scipy.org/doc/scipy/reference/generated/scipy.special.comb.html)

In [4]:
from scipy.special import comb

#### Combinações


Número de combinações de $n$ objetos, tomados $k$ a cada vez, é:

##### $$C_{k}^{n} = \binom{n}{k} = \frac{n!}{k!(n - k)!}$$

Onde

##### $$n! = n\times(n-1)\times(n-2)\times...\times(2)\times(1)$$
##### $$k! = k\times(k-1)\times(k-2)\times...\times(2)\times(1)$$

Por definição

##### $$0! = 1$$

#### Exemplo: Mega Sena

Em um volante de loteria da Mega Sena temos um total de **60 números** para escolher onde a aposta mínima é de **seis números**. Você que é curiosa(o) resolve calcular a probabilidade de se acertar na Mega Sena com apenas **um jogo**. Para isso precisamos saber quantas **combinações de seis números podem ser formadas com os 60 números disponíveis**.

##### $$C_{6}^{60} = \binom{60}{6} = \frac{60!}{6!(60 - 6)!}$$

In [6]:
combinacoes = comb(60, 6)
combinacoes

50063860.0

In [7]:
# Probabilidade de acertar na mega sena
probabilidade = 1 / combinacoes
print("%0.15f"% probabilidade)

0.000000019974489


#### Exemplo Show de prêmios

Suponha que acabamos de criar um jogo de loteria, chamado Show de prêmios da Alura. Neste nosso novo jogo, o apostador marca 20 números, dentre os 25 disponíveis no bilhete, e pode ganhar até 1 milhão de reais.

Determine qual o número de combinações possíveis (espaço amostral) e a probabilidade de se ganhar o prêmio jogando apenas um bilhete (considere apenas quinze casas decimais).

In [8]:
combinacoes = comb(25, 20)
combinacoes

53130.0

In [9]:
probabilidade = 1 / combinacoes
print("%0.15f"%probabilidade)

0.000018821757952


#### Exemplo: Concurso para Cientista de dados

Em um concurso para preencher uma vaga de cientista de dados temos um total de 10 questões de múltipla escolha com 3 alternativas possíveis em cada questão. Cada questão tem o mesmo valor. Suponha que um candidato resolva se aventurar sem ter estudado absolutamente nada. Ele resolve fazer a prova de olhos vendados e chutar todas as resposta. Assumindo que a prova vale 10 pontos e a nota de corte seja 5, obtenha a probabilidade deste candidato acertar 5 questões e também a probabilidade deste candidato passar para a próxima etapa do processo seletivo.

##### Qual é o número de ensaios (*n*)?

In [10]:
n = 10 # 10 questões
n

10

##### Os ensaios são independentes ?

Sim. A opção escolhida em uma questão não influencia em nada a  opção escolhida em outra questão.

##### Somente dois resultados são possíveis em cada ensaio?

Sim. O candidato tem duas possibilidades: ACERTAR ou ERRAR uma questão.

##### Qual a probabilidade de sucesso (*p*)?

In [12]:
numero_de_alternativa_por_questao = 3
p = 1 / numero_de_alternativa_por_questao
p

0.3333333333333333

##### Qual a probabilidade de fracasso (*q*)?

In [13]:
q = 1 - p
q

0.6666666666666667

##### Qual o total de eventos que se deseja obter sucesso (*k*)?

In [14]:
k = 5 # acertar 5 questões
k

5

##### Solução 1

In [15]:
probabilidade = (comb(n, k) * (p ** k) * (q ** (n - k)))
print('%0.8f' % probabilidade)

0.13656455


##### Importando bibliotecas

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.binom.html

In [16]:
from scipy.stats import binom

##### Solução 2

In [17]:
probabilidade = binom.pmf(k, n, p)
print('%0.8f' % probabilidade)

0.13656455


##### Obter a probabilidade do candidato passar

###### $$P(acertar \geq 5) = P(5) + P(6) + P(7) + P(8) + P(9) + P10)$$

In [18]:
binom.pmf(5, n, p) + binom.pmf(6, n, p) + binom.pmf(7, n, p) + binom.pmf(8, n, p) + binom.pmf(9, n, p) + binom.pmf(10, n, p)

0.21312808006909492

In [19]:
binom.pmf([5, 6, 7, 8, 9, 10], n, p).sum()

0.21312808006909492

In [20]:
binom.cdf(4, n, p) # probabilidade de acertar 1 + probabilidade de acertar 2 + probabilidade de acertar 3 + probabilidade de acertar 4

0.7868719199309048

In [21]:
binom.cdf(10, n, p)# probabilidade de acertar 1 + probabilidade de acertar 2 + probabilidade de acertar 3 + probabilidade de acertar 4 ...

1.0

In [22]:
1 - binom.cdf(4, n, p)

0.21312808006909523

In [23]:
binom.sf(4, n, p) # calcula a probabilidade de 1 - binom...

0.21312808006909525

#### Lançando dados

Um dado, perfeitamente equilibrado, é lançado para o alto dez vezes. Utilizando a distribuição binomial, obtenha a probabilidade de o dado cair com o número cinco voltado para cima pelo menos três vezes.

In [24]:
# numero de ensaios
n = 10

# probabilidade de sucesso
p = 1 / 6

# probabilidade de fracasso
q = 1 - p

In [25]:
probabilidade = binom.sf(5, n, p)
print('%0.4f' % probabilidade)

0.0024


#### Exemplo: Gincana

Uma cidade do interior realiza todos os anos uma gincana para arrecadar fundos para o hospital da cidade. Na última gincana se sabe que a proporção de participantes do sexo feminino foi de 60%. O total de equipes, com 12 integrantes, inscritas na gincana deste ano é de 30. Com as informações acima responda: Quantas equipes deverão ser formadas por 8 mulheres?

In [26]:
p = 0.6 # probabilidade de escolher uma mulher é de 60%
p

0.6

In [27]:
n = 12
n

12

In [28]:
k = 8
k

8

In [29]:
probabilidade = binom.pmf(k, n, p)
print('%0.8f' % probabilidade)

0.21284094


In [30]:
equipes = 30 * probabilidade
equipes

6.3852281856

#### Chance de ter olhos azuis

Suponha que a probabilidade de um casal ter filhos com olhos azuis seja de 22%. Em 50 famílias, com 3 crianças cada uma, quantas podemos esperar que tenham dois filhos com olhos azuis?

In [31]:
p = 0.22
p

0.22

In [32]:
n = 3
n

3

In [33]:
k = 2
k

2

In [34]:
probabilidade = binom.pmf(k, n, p)
print('%0.8f' % probabilidade)

0.11325600


In [35]:
familias = 50 * probabilidade
familias

5.662799999999996