# Estatística com Python: probabilidade e amostragem

## 1 Importando os dados

In [1]:
import pandas as pd

In [2]:
dados = pd.read_csv('../Estatística com Python - frequências e medidas/dados.csv')

In [3]:
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


## 2 Distribuições de Probabilidade

### Problema

Em um concurso para preencher uma vaga de cientista de dados temos um total de 10 questões de múltipla escolha com 3 alternativas possíveis em cada questão. Cada questão tem o mesmo valor. Suponha que um candidato resolva se aventurar sem ter estudado absolutamente nada. Ele resolve fazer a prova de olhos vendados e chutar todas as resposta. Assumindo que a prova vale 10 pontos e a nota de corte seja 5, obtenha a probabilidade deste candidato acertar 5 questões e também a probabilidade deste candidato passar para a próxima etapa do processo seletivo.

### 2.1 Distribuição Binomial

Um evento binomial é caracterizado pela possibilidade de ocorrência de apenas duas categorias. Estas categorias somadas representam todo o espaço amostral, sendo também mutuamente excludentes, ou seja, a ocorrência de uma implica na não ocorrência da outra.

Em análises estatísticas o uso mais comum da distribuição binomial é na solução de problemas que envolvem situações de sucesso e fracasso.

#### Experimento Binomial

1. Realização de *n* ensaios idênticos
2. Os ensaios são independentes
3. SOmente dois resultados são possívels, exemplo: Verdadeiro ou falso; Cara ou Coroa; Sucesso ou Fracasso
4. A probabilidade de sucesso é representada por *p* e a de fracasso por 1 - *p* = *q*. Estas probabilidades não se modificam de ensaio para ensaio.

#### Média da distribuição binomial

O valor esperado ou a média da distribuição binomial é igual ao número de experimentos realizados multiplicado pela chance de ocorrência do evento
* media_distribuicao_binomial = *n* * *p*

#### Desvio padrão da distribuição binomial

O desvio padrão é o produto entre o número de experimentos, a probabilidade de sucesso e a probabilidade de fracasso.
* desvio_padrao_distribuicao_binomial = math.sqrt(*n* * *p* * *q*)

#### Importando bibliotecas

* [Scipy](https://docs.scipy.org/doc/scipy/reference/generated/scipy.special.comb.html)

In [4]:
from scipy.special import comb

#### Combinações


Número de combinações de $n$ objetos, tomados $k$ a cada vez, é:

##### $$C_{k}^{n} = \binom{n}{k} = \frac{n!}{k!(n - k)!}$$

Onde

##### $$n! = n\times(n-1)\times(n-2)\times...\times(2)\times(1)$$
##### $$k! = k\times(k-1)\times(k-2)\times...\times(2)\times(1)$$

Por definição

##### $$0! = 1$$

#### Exemplo: Mega Sena

Em um volante de loteria da Mega Sena temos um total de **60 números** para escolher onde a aposta mínima é de **seis números**. Você que é curiosa(o) resolve calcular a probabilidade de se acertar na Mega Sena com apenas **um jogo**. Para isso precisamos saber quantas **combinações de seis números podem ser formadas com os 60 números disponíveis**.

##### $$C_{6}^{60} = \binom{60}{6} = \frac{60!}{6!(60 - 6)!}$$

In [6]:
combinacoes = comb(60, 6)
combinacoes

50063860.0

In [7]:
# Probabilidade de acertar na mega sena
probabilidade = 1 / combinacoes
print("%0.15f"% probabilidade)

0.000000019974489


#### Exemplo Show de prêmios

Suponha que acabamos de criar um jogo de loteria, chamado Show de prêmios da Alura. Neste nosso novo jogo, o apostador marca 20 números, dentre os 25 disponíveis no bilhete, e pode ganhar até 1 milhão de reais.

Determine qual o número de combinações possíveis (espaço amostral) e a probabilidade de se ganhar o prêmio jogando apenas um bilhete (considere apenas quinze casas decimais).

In [8]:
combinacoes = comb(25, 20)
combinacoes

53130.0

In [9]:
probabilidade = 1 / combinacoes
print("%0.15f"%probabilidade)

0.000018821757952


#### Exemplo: Concurso para Cientista de dados

Em um concurso para preencher uma vaga de cientista de dados temos um total de 10 questões de múltipla escolha com 3 alternativas possíveis em cada questão. Cada questão tem o mesmo valor. Suponha que um candidato resolva se aventurar sem ter estudado absolutamente nada. Ele resolve fazer a prova de olhos vendados e chutar todas as resposta. Assumindo que a prova vale 10 pontos e a nota de corte seja 5, obtenha a probabilidade deste candidato acertar 5 questões e também a probabilidade deste candidato passar para a próxima etapa do processo seletivo.

##### Qual é o número de ensaios (*n*)?

In [10]:
n = 10 # 10 questões
n

10

##### Os ensaios são independentes ?

Sim. A opção escolhida em uma questão não influencia em nada a  opção escolhida em outra questão.

##### Somente dois resultados são possíveis em cada ensaio?

Sim. O candidato tem duas possibilidades: ACERTAR ou ERRAR uma questão.

##### Qual a probabilidade de sucesso (*p*)?

In [12]:
numero_de_alternativa_por_questao = 3
p = 1 / numero_de_alternativa_por_questao
p

0.3333333333333333

##### Qual a probabilidade de fracasso (*q*)?

In [13]:
q = 1 - p
q

0.6666666666666667

##### Qual o total de eventos que se deseja obter sucesso (*k*)?

In [14]:
k = 5 # acertar 5 questões
k

5

##### Solução 1

In [15]:
probabilidade = (comb(n, k) * (p ** k) * (q ** (n - k)))
print('%0.8f' % probabilidade)

0.13656455


##### Importando bibliotecas

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.binom.html

In [16]:
from scipy.stats import binom

##### Solução 2

In [17]:
probabilidade = binom.pmf(k, n, p)
print('%0.8f' % probabilidade)

0.13656455


##### Obter a probabilidade do candidato passar

###### $$P(acertar \geq 5) = P(5) + P(6) + P(7) + P(8) + P(9) + P10)$$

In [18]:
binom.pmf(5, n, p) + binom.pmf(6, n, p) + binom.pmf(7, n, p) + binom.pmf(8, n, p) + binom.pmf(9, n, p) + binom.pmf(10, n, p)

0.21312808006909492

In [19]:
binom.pmf([5, 6, 7, 8, 9, 10], n, p).sum()

0.21312808006909492

In [20]:
binom.cdf(4, n, p) # probabilidade de acertar 1 + probabilidade de acertar 2 + probabilidade de acertar 3 + probabilidade de acertar 4

0.7868719199309048

In [21]:
binom.cdf(10, n, p)# probabilidade de acertar 1 + probabilidade de acertar 2 + probabilidade de acertar 3 + probabilidade de acertar 4 ...

1.0

In [22]:
1 - binom.cdf(4, n, p)

0.21312808006909523

In [23]:
binom.sf(4, n, p) # calcula a probabilidade de 1 - binom...

0.21312808006909525

#### Lançando dados

Um dado, perfeitamente equilibrado, é lançado para o alto dez vezes. Utilizando a distribuição binomial, obtenha a probabilidade de o dado cair com o número cinco voltado para cima pelo menos três vezes.

In [24]:
# numero de ensaios
n = 10

# probabilidade de sucesso
p = 1 / 6

# probabilidade de fracasso
q = 1 - p

In [25]:
probabilidade = binom.sf(5, n, p)
print('%0.4f' % probabilidade)

0.0024


#### Exemplo: Gincana

Uma cidade do interior realiza todos os anos uma gincana para arrecadar fundos para o hospital da cidade. Na última gincana se sabe que a proporção de participantes do sexo feminino foi de 60%. O total de equipes, com 12 integrantes, inscritas na gincana deste ano é de 30. Com as informações acima responda: Quantas equipes deverão ser formadas por 8 mulheres?

In [26]:
p = 0.6 # probabilidade de escolher uma mulher é de 60%
p

0.6

In [27]:
n = 12
n

12

In [28]:
k = 8
k

8

In [29]:
probabilidade = binom.pmf(k, n, p)
print('%0.8f' % probabilidade)

0.21284094


In [30]:
equipes = 30 * probabilidade
equipes

6.3852281856

#### Chance de ter olhos azuis

Suponha que a probabilidade de um casal ter filhos com olhos azuis seja de 22%. Em 50 famílias, com 3 crianças cada uma, quantas podemos esperar que tenham dois filhos com olhos azuis?

In [31]:
p = 0.22
p

0.22

In [32]:
n = 3
n

3

In [33]:
k = 2
k

2

In [34]:
probabilidade = binom.pmf(k, n, p)
print('%0.8f' % probabilidade)

0.11325600


In [35]:
familias = 50 * probabilidade
familias

5.662799999999996

### 2.2 Distribuição Poisson

É empregada para descrever o número de ocorrências em um intervalo de tempo ou espaço específico. Os eventos são caracterizados pela possibilidade de contagem dos sucessos, mas a não possibilidade de contagem dos fracassos.

Como exemplos de processos onde podemos aplicar a distribuição de Poisson temos a determinação do número de clientes que entram em uma loja em determinada hora, o número de carros que chegam em um drive-thru de uma lanchonete na hora do almoço, a determinação do número de acidentes registrados em um trecho de estrada etc.

#### $$P(k) = \frac{e^{-\mu}(\mu)^k}{k!}$$

Onde:

$e$ = constante cujo valor aproximado é 2,718281828459045

$\mu$ = representa o número médio de ocorrências em um determinado intervalo de tempo ou espaço

$k$ = número de sucessos no intervalo desejado

#### Experimento Poisson

1. A probabilidade de uma ocorrência é a mesma em todo o intervalo observado.
2. O número de ocorrências em determinado intervalo é independente do número de ocorrências em outros intervalos.
3. A probabilidade de uma ocorrência é a mesma em intervalos de igual comprimento.

#### Importando bibliotecas

In [4]:
import numpy as np

In [5]:
np.e

2.718281828459045

#### Exemplo: Delivery

Um restaurante recebe em média **20 pedidos por hora**. Qual a chance de que, em determinada hora escolhida ao acaso, o restaurante receba **15 pedidos**?

##### Qual o número médio de ocorrências por hora?

In [6]:
media = 20
media

20

##### Qual o número de ocorrências que queremos obter no perído (k)?

In [7]:
k = 15
k

15

##### Solução 1

In [8]:
probabilidade = ((np.e ** (-media)) * (media ** k)) / np.math.factorial(k)
print("%0.8f"%probabilidade)

0.05164885


##### Solução 2

In [9]:
from scipy.stats import poisson

probabilidade = poisson.pmf(k, media)
print("%0.8f"%probabilidade)

0.05164885


#### Estimativa de cliente em determinada hora

O número médio de clientes que entram em uma padaria por hora é igual a 20. Obtenha a probabilidade de, na próxima hora, entrarem exatamente 25 clientes.

In [10]:
media = 20
media

20

In [12]:
# ocorrencia
k = 25
k

25

In [13]:
probabilidade = poisson.pmf(k, media)
print("%0.8f"% probabilidade)

0.04458765


### Problema

Em um estudo sobre as alturas dos moradores de uma cidade verificou-se que o conjunto de dados segue uma distribuição aproximadamente normal, com média 1,70 e desvio padrão de 0,1. Com estas informações obtenha o seguinte conjunto de probabilidades:
1. Probabilidade de uma pessoa, selecionada ao acaso, ter menos de 1,80 metros;
2. Probabilidade de uma pessoa, selecionada ao acaso, ter entre 1,60 metros e 1,80 metros;
3. Probabilidade de uma pessoa, selecionada ao acaso, ter mais de 1,90 metros.

### 2.3 Distribuição Normal

A distribuição normal é uma das mais utilizadas em estatísticas. É uma distribuição contínua, onde a distribuição de frequências de uma variáveis quantitativa apresenta a forma de sino e é simétrica em relação a sua média.

#### Características importantes

1. É simétrica em torna da média
2. A área sob a curva corresponde à proporção de 1 ou 100%
3. As medidas de tendência central (média, mediana e moda) apresentam o mesmo valor
4. Os extremos da curva tendem ao infinito em mbas as direções e, teoricamente, jamais tocam o eixo x
5. O desvio padrão define o achatamento e largura da distribuição. Curvas mais largas e mais achatadas apresentam valores maiores de desvio padrão
6. A distribuição é definida por sua média e desvio padrão
7. A probabilidade sempre será igual à área soba a curva, delimitada pelos limites inferior e superior


#### tabelas padronizadas

As tabelas padronizadas foram criadas para facilitar a obtenção dos valores das áreas sob a curva normal e eliminar a necessidade de solucionar integrais definidas.

Para consultarmos os valores em uma tabela padronizada basta transformarmos nossa variável em uma variável padronizada $Z$.

Esta variável $Z$ representa o afastamento em desvios padrões de um valor da variável original em relação à média.

##### $$Z = \frac{x-\mu}{\sigma}$$

Onde:

$x$ = variável normal com média $\mu$ e desvio padrão $\sigma$

$\sigma$ = desvio padrão

$\mu$ = média

#### Construindo tabela normal padronizada

In [4]:
import pandas as pd
import numpy as np
from scipy.stats import norm

tabela_normal_padronizada = pd.DataFrame(
    [],
    index=["{0:0.2f}".format(i / 100) for i in range(0, 400, 10)],
    columns = ["{0:0.2f}".format(i / 100) for i in range(0, 10)])

for index in tabela_normal_padronizada.index:
    for column in tabela_normal_padronizada.columns:
        Z = np.round(float(index) + float(column), 2)
        tabela_normal_padronizada.loc[index, column] = "{0:0.4f}".format(norm.cdf(Z))

tabela_normal_padronizada.rename_axis('Z', axis = 'columns', inplace = True)

tabela_normal_padronizada

Z,0.00,0.01,0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.09
0.0,0.5,0.504,0.508,0.512,0.516,0.5199,0.5239,0.5279,0.5319,0.5359
0.1,0.5398,0.5438,0.5478,0.5517,0.5557,0.5596,0.5636,0.5675,0.5714,0.5753
0.2,0.5793,0.5832,0.5871,0.591,0.5948,0.5987,0.6026,0.6064,0.6103,0.6141
0.3,0.6179,0.6217,0.6255,0.6293,0.6331,0.6368,0.6406,0.6443,0.648,0.6517
0.4,0.6554,0.6591,0.6628,0.6664,0.67,0.6736,0.6772,0.6808,0.6844,0.6879
0.5,0.6915,0.695,0.6985,0.7019,0.7054,0.7088,0.7123,0.7157,0.719,0.7224
0.6,0.7257,0.7291,0.7324,0.7357,0.7389,0.7422,0.7454,0.7486,0.7517,0.7549
0.7,0.758,0.7611,0.7642,0.7673,0.7704,0.7734,0.7764,0.7794,0.7823,0.7852
0.8,0.7881,0.791,0.7939,0.7967,0.7995,0.8023,0.8051,0.8078,0.8106,0.8133
0.9,0.8159,0.8186,0.8212,0.8238,0.8264,0.8289,0.8315,0.834,0.8365,0.8389


A tabela acima fornece a área sob a curva entre  −∞  e  Z  desvios padrão acima da média. Lembrando que por se tratar de valores padronizados temos  μ=0 .

#### Exemplo; Qual sua altura?

Em um estudo sobre as alturas dos moradores de uma cidade verificou-se que o conjunto de dados segue uma distribuição aproximadamente normal, com média 1,70 e desvio padrão de 0,1. Com estas informações obtenha o seguinte conjunto de probabilidades:

A. probabilidade de uma pessoa, selecionada ao acaso, ter menos de 1,80 metros.

B. probabilidade de uma pessoa, selecionada ao acaso, ter entre 1,60 metros e 1,80 metros.

C. probabilidade de uma pessoa, selecionada ao acaso, ter mais de 1,90 metros.

##### Problema A - Identificação da área sob a curva

##### Obter a variável padronizada Z

In [5]:
media = 1.7
media

1.7

In [6]:
desvio_padrao = 0.1
desvio_padrao

0.1

In [7]:
x = 1.8
x

1.8

In [8]:
Z = (x - media) / desvio_padrao
Z

1.0000000000000009

#### Solução 1 - Utilizando tabela

In [9]:
# Para encontrar a probabilidade eu preciso somar Z com as demais colunas para encontra o Z corretamente
# Por exemplO: se o Z for igual a 0.15, podemos notar q na coluna Z não tem o 0.15 mas tem o Z = 0.10 e a coluna 0.05 (ao somar os dois encontramos o Z = 0.15)
# Nosso caso (Z = 1) já temos ele, então não é necessário somar nada.
probabilidade = 0.8413
probabilidade

0.8413

#### Solução 2 - Utilizando Scipy

In [10]:
from scipy.stats import norm
norm.cdf(Z)

0.8413447460685431

##### Problema B - Identificação da área sob a curva

##### Obter a variável padronizada Z

In [11]:
Z_inferior = (1.6 - media) / desvio_padrao
round(Z_inferior, 2)

-1.0

In [12]:
Z_superior = (1.8 - media) / desvio_padrao
round(Z_superior, 2)

1.0

##### Solução 1 - Utilizando tabela

In [13]:
probabilidade = (0.8413 - 0.5) * 2
probabilidade

0.6826000000000001

##### Solução 2 - Utilizando Scipy

In [14]:
probabilidade = norm.cdf(Z_superior) - (1 - norm.cdf(Z_superior))
probabilidade

0.6826894921370863

In [15]:
probabilidade = norm.cdf(Z_superior) - norm.cdf(Z_inferior)
probabilidade

0.6826894921370857

##### Problema C - Identificação da área sob a curva

##### Obter a variável padronizada Z

In [16]:
Z = (1.9 - media) / desvio_padrao
Z

1.9999999999999996

##### Solução 1 - Utilizando Tabela

In [17]:
probabilidade = 1 - 0.9767
probabilidade

0.023299999999999987

##### Solução 2 - Utilizando Scipy

In [18]:
probabilidade = 1 - norm.cdf(Z)
probabilidade

0.02275013194817921

In [19]:
probabilidade = norm.cdf(-Z)
probabilidade

0.022750131948179216

##### Exervívio - Vida Útil

O inmetro verificou que as lâmpadas incandescentes da fabricante XPTO apresentam uma vida útil normalmente distribuida, com média igual a 720 dias e desvio padrão igual a 30 dias. Calcule a a probabilidade de uma lâmpada, escolhida ao acaso, durar:
1. Entre 650 e 750 dias
2. Mais que 800 dias
3. Menos que 700 dias

In [20]:
media = 720
media

720

In [21]:
desvio_padrao = 30
desvio_padrao

30

In [22]:
# Durar entre 650 e 750 dias
Z_inferior = (650 - media) / desvio_padrao
Z_superior = (750 - media) / desvio_padrao

probabilidade = round(((norm.cdf(Z_superior) - norm.cdf(Z_inferior)) * 100), 2)
probabilidade

83.15

In [23]:
# Durar mais que 800 dias
Z = (800 - media) / desvio_padrao
probabilidade = round((1 - norm.cdf(Z)) * 100, 2)
probabilidade

0.38

In [24]:
# Durar menos que 700 dias
Z = (700 - media) / desvio_padrao
probabilidade = round((norm.cdf(Z)*100), 2)
probabilidade

25.25

## 3 Amostragem

### 3.1 População e Amostra

#### População
Conjunto de todos os elementos de interesse em um estudo. Diversos elementos podem compor uma população, por exemplo: pessoas, idades, alturas, carros etc.     
Com relação ao tamanho, as populações podem ser limitadas (populações finitas) ou iliitadas (populações infinitas)

##### Populações finitas
Permitem contagem de seus elementos. Como exemplos temos o número de funcionário de uma empresa, a quantidade de alunos em uma escola etc.

##### Populações infinitas
Não é possível contar seus elementos. Como exemplo temos a quantidade de porções que se pode extrar da água do mar para uma análise, temperatura medida em cada ponto de um território etc.     
**Quando os elementos de uma população puderem ser contados, porém apresentando uma quantidade muito grande, assume-se a população como infinita.**

#### Amostra
Subconjunto representataivo da população

parâmetros. O principal foco da inferência estatística é justamente gerar estimativas e testar hipóteses sobre os parâmetros populacionais utilizando as informações de amostras.

### 3.2 Quanto utilizar uma amostra?

##### Populações infinitas
O estudo não chegaria nunca ao fim. Não é possível investigar todos os elementos da população.

##### Testes destrutivos
Estudos onde os elementos avaliados são totalmente consumidos ou destruídos. Exemplo: testes de vida útil, testes de segurança contra colisões em automóveis.

##### Resultados rápidos
Pesquisas que precisam de mais agilidade na divulgação. Exemplo: pesquisas de opinião, pesquisas que envolvam problemas de saúde pública.

##### Custos elevados
Quando a população é finita mas muito numerosa, o custo de um censo pode tornar o processo inviável.

### 3.3 Amostragem Aleatória Simples

É uma das principais maneiras de se extrair uma amostra de uma população. A exigência fundamental deste tipo de abordagem é que cada elemento da população tenha as mesmas chances de ser selecionado para fazer parte da amostra.

In [25]:
dados.shape[0]

76840

In [26]:
dados.Renda.mean()

2000.3831988547631

In [28]:
amostra = dados.sample(n = 100, random_state = 101) # 100 amostras e o 101 é como um seed para números aleatórios

In [29]:
amostra.shape[0]

100

In [30]:
amostra.Renda.mean()

2150.85

In [31]:
dados.Sexo.value_counts(normalize=True)

0    0.692998
1    0.307002
Name: Sexo, dtype: float64

In [32]:
amostra.Sexo.value_counts(normalize=True)

0    0.69
1    0.31
Name: Sexo, dtype: float64

### 3.4 Amostra Estratificada

É uma melhoria do processo de amostragem aleatória simples. Neste método é proposta a divisão da população em subgrupos de elementos com características similares, ou seja, grupos mais homogêneos. Com estes subgrupos separados, aplica-se a técnica de amostragem aleatória simples dentro de cada subgrupo individualmente.

### 3.5 Amostragem por Conglomerados

Também visa melhorar o critério de amostragem aleatória simples. Na amostragem por conglomerados são também criados subgrupos, porém não serão homogêneas como na amostragem estratificada. Na amostragem por conglomerados os subgrupos serão heterogêneos, onde, em seguida, serão aplicadas a amostragem aleatória simples ou estratificada.

Um exemplo bastante comum de aplicação deste tipo de técnica é na divisão da população em grupos territoriais, onde os elementos investigados terão características bastante variadas.