***
# <font color=green size=10>CURSO DE ESTATÍSTICA - PARTE 2</font>
***

# <font color=green>1 CONHECENDO OS DADOS</font>
***

## <font color=green>1.1 Dataset do projeto</font>
***

### Pesquisa Nacional por Amostra de Domicílios - 2015

A **Pesquisa Nacional por Amostra de Domicílios - PNAD** investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

### Fonte dos Dados

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

### Variáveis utilizadas

> ### Renda
> ***

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

> ### Idade
> ***

Idade do morador na data de referência em anos.

> ### Altura (elaboração própria)
> ***

Altura do morador em metros.

> ### UF
> ***

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

> ### Anos de Estudo
> ***

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

> ### Cor
> ***

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

#### <font color='red'>Observação</font>
***
> Os seguintes tratamentos foram realizados nos dados originais:
> 1. Foram eliminados os registros onde a **Renda** era inválida (999 999 999 999);
> 2. Foram eliminados os registros onde a **Renda** era missing;
> 3. Foram considerados somente os registros das **Pessoas de Referência** de cada domicílio (responsável pelo domicílio).

### Importando pandas e lendo o dataset do projeto

https://pandas.pydata.org/

In [97]:
import pandas as pd

In [51]:
dados = pd.read_csv('dados.csv')
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


---
---

# <font color=green>2 DISTRIBUIÇÕES DE PROBABILIDADE</font>
***

## <font color=red>Problema</font>
***

Em um concurso para preencher uma vaga de cientista de dados temos um total de **10 questões** de múltipla escolha com **3 alternativas possíveis** em cada questão. **Cada questão tem o mesmo valor.** Suponha que um candidato resolva se aventurar sem ter estudado absolutamente nada. Ele resolve fazer a prova de olhos vendados e chutar todas as resposta. Assumindo que a prova **vale 10 pontos e a nota de corte seja 5**, obtenha a probabilidade deste candidato **acertar 5 questões** e também a probabilidade deste candidato **passar para a próxima etapa do processo seletivo**.

## <font color=green>2.1 Distribuição Binomial</font>
***

Um evento **binomial** é caracterizado pela possibilidade de ocorrência de apenas duas categorias. Estas categorias somadas representam todo o espaço amostral, sendo também mutuamente excludentes, ou seja, a ocorrência de uma implica na não ocorrência da outra.

Em análises estatísticas o uso mais comum da distribuição binomial é na solução de problemas que envolvem situações de **sucesso** e **fracasso**.

Calcula a probabilidade de um número específico de sucessos em uma série de tentativas independentes.

# $$P(k)=\binom{n}{k} p^k q^{n-k}$$

Onde:

$p$ = probabilidade de sucesso

$q = (1 - p)$ = probabilidade de fracasso

$n$ = número de eventos estudados

$k$ = número de eventos desejados que tenham sucesso

### Experimento Binomial

1. Realização de $n$ ensaios idênticos.

2. Os ensaios são independentes.

3. Somente dois resultados são possíveis, exemplo: Verdadeiro ou falso; Cara ou coroa; Sucesso ou fracasso.

4. A probabilidade de sucesso é representada por $p$ e a de fracasso por $1-p=q$. Estas probabilidades não se modificam de ensaio para ensaio.

### Média da distribuição binomial

O valor esperado ou a média da distribuição binomial é igual ao número de experimentos realizados multiplicado pela chance de ocorrência do evento.

# $$\mu = n \times p$$

### Desvio padrão da distribuição binomial

O desvio padrão é o produto entre o número de experimentos, a probabilidade de sucesso e a probabilidade de fracasso.

# $$\sigma = \sqrt{n \times p \times q}$$

### Importando bibliotecas
https://docs.scipy.org/doc/scipy/reference/generated/scipy.special.comb.html

In [98]:
from scipy.special import comb, binom

### Combinações

Número de combinações de $n$ objetos, tomados $k$ a cada vez, é:

# $$C_{k}^{n} = \binom{n}{k} = \frac{n!}{k!(n - k)!}$$

Onde

## $$n! = n\times(n-1)\times(n-2)\times...\times(2)\times(1)$$
## $$k! = k\times(k-1)\times(k-2)\times...\times(2)\times(1)$$

Por definição

## $$0! = 1$$

## <font color='blue'>Exemplo: Mega Sena</font>

Em um volante de loteria da Mega Sena temos um total de **60 números** para escolher onde a aposta mínima é de **seis números**. Você que é curiosa(o) resolve calcular a probabilidade de se acertar na Mega Sena com apenas **um jogo**. Para isso precisamos saber quantas **combinações de seis números podem ser formadas com os 60 números disponíveis**.

### $$C_{6}^{60} = \binom{60}{6} = \frac{60!}{6!(60 - 6)!}$$

In [38]:
combinacoes = comb(60, 6)
combinacoes

np.float64(50063860.0)

In [39]:
probabilidade = 1 / combinacoes
probabilidade

np.float64(1.997448858318156e-08)

In [44]:
print('Probabilidade de acertar na Mega Sena com apenas um jogo: {:.15f}'.format(probabilidade))

NameError: name 'probabilidade' is not defined

In [41]:
print('Probabilidade de acertar na Mega Sena com apenas um jogo: {:.10f}'.format(probabilidade))

Probabilidade de acertar na Mega Sena com apenas um jogo: 0.0000000200


# Exemplo:
Determine qual o número de combinações possíveis (espaço amostral) e a probabilidade de se ganhar o prêmio jogando apenas um bilhete (considere apenas quinze casas decimais). Onde o apostador marca 20 números, dentre os 25 disponíveis no bilhete

### Análise Binomial
- Ensaio: Cada bilhete que o apostador compra é um ensaio.
- Sucesso: O sucesso é o bilhete do apostador ser o bilhete premiado.

$p$ = (probabilidade de sucesso em um ensaio): é a probabilidade de o bilhete do apostador ser o bilhete premiado.

$q = (1 - p)$ = (probabilidade de fracasso em um ensaio): é a probabilidade de o bilhete do apostador não ser o bilhete premiado.

$n$ = (número de ensaios): Cada bilhete que o apostador compra é um ensaio. Como o apostador compra apenas um bilhete, n = 1.

$k$ = (número de sucessos): O apostador quer ganhar uma vez, então k = 1.


### Cálculo do Espaço Amostral

O número de combinações possíveis (espaço amostral) é a combinação de 25 números tomados 20 a 20:

In [42]:
# Espaço amostral: C(25, 20)
comb = comb(25, 20)
comb

np.float64(53130.0)

In [43]:
print(f'Existem {comb} combinações possíveis de 20 números escolhidos entre 25. ')

Existem 53130.0 combinações possíveis de 20 números escolhidos entre 25. 


### Cálculo da Probabilidade

A probabilidade de ganhar o prêmio com um único bilhete é a razão entre 1 (o bilhete do apostador) e o número total de combinações possíveis:

In [44]:
# Probabilidade de ganhar o prêmio jogando apenas um bilhete: 1/espaço amostral
prob = 1/comb
prob

np.float64(1.8821757952192734e-05)

In [45]:
# ajustando a precisão para quinze casas decimais
print('Probabilidade de ganhar o prêmio jogando apenas um bilhete: {:.15f}'.format(prob))

Probabilidade de ganhar o prêmio jogando apenas um bilhete: 0.000018821757952


## Exemplo:
Uma moeda, perfeitamente equilibrada, é lançada para o alto quatro vezes. Utilizando a distribuição binomial, obtenha a probabilidade de a moeda cair com a face coroa voltada para cima duas vezes.

#### Identificando os componentes necessários e aplicar a fórmula.



## $P(k)=\binom{n}{k} p^k q^{n-k}$

1. Identificando os Componentes:

    $p$ = (probabilidade de sucesso em um ensaio): A probabilidade de sair coroa em um único lançamento.

    $q = (1 - p)$ = (probabilidade de fracasso em um ensaio): A probabilidade de não sair coroa (ou seja, sair cara) em um único lançamento.

    $n$ = (número de ensaios): Quantas vezes a moeda é lançada.

    $k$ = (número de sucessos): Quantas vezes queremos que a face coroa apareça.






2. Calculando os Valores:

    $n$ = 4 (a moeda é lançada quatro vezes)

    $k$ = 2 (queremos que coroa apareça duas vezes)

    $p$ = 0.5 (a probabilidade de sair coroa em um lançamento é 1/2, já que a moeda é equilibrada)

    $q$ = 0.5 (a probabilidade de sair cara é também 1/2)

3. Aplicando a Fórmula da Distribuição Binomial:

A fórmula da distribuição binomial é:


$P(k)=\binom{n}{k} p^k q^{n-k}$

ou

P(X = k) = (n! / (k! * (n - k)!)) * p^k * q^(n - k)

Onde:

    P(X = k) é a probabilidade de obter exatamente k sucessos em n ensaios.
    n! é o fatorial de n (n! = n * (n-1) * (n-2) * ... * 1).

4. Calculando a Probabilidade:

Substituindo os valores na fórmula:

$P(2)=\binom{4}{2} 0.5^k 0.5^{4-2}$

ou

P(X = 2) = (4! / (2! * (4 - 2)!)) * (0.5)^2 * (0.5)^(4 - 2)

P(X = 2) = (4! / (2! * 2!)) * (0.5)^2 * (0.5)^2

Calculando os fatoriais:

    4! = 4 * 3 * 2 * 1 = 24
    2! = 2 * 1 = 2

Substituindo novamente:

P(X = 2) = (24 / (2 * 2)) * (0.25) * (0.25)

P(X = 2) = (24 / 4) * 0.0625

P(X = 2) = 6 * 0.0625

P(X = 2) = 0.375

Resultado:

A probabilidade de a moeda cair com a face coroa voltada para cima duas vezes em quatro lançamentos é de 0.375, ou 37.5%.

In [46]:

n = 4
k = 2
p = 0.5
q = 0.5



In [47]:
# Espaço amostral: C(4, 2)
moeda = comb(n, k)
moeda

TypeError: 'numpy.float64' object is not callable

In [75]:
# Probabilidade de sair coroa em um único lançamento: 0.5
# Probabilidade de sair examente 2 vezes coroa em 4 lançamento:
prob_moeda = moeda * (p ** k) * (q ** (n - k))
prob_moeda

np.float64(0.375)

In [76]:
print(f"A probabilidade de obter coroa duas vezes em quatro lançamentos é: {prob_moeda}")

A probabilidade de obter coroa duas vezes em quatro lançamentos é: 0.375


## Exemplo:
Um dado, perfeitamente equilibrado, é lançado para o alto dez vezes. Utilizando a distribuição binomial, obtenha a probabilidade de o dado cair com o número cinco voltado para cima pelo menos três vezes.

> O problema pede a probabilidade de o dado cair com o número cinco voltado para cima **pelo menos três vezes**. Isso significa que precisamos calcular a probabilidade para 3, 4, 5, 6, 7, 8, 9 e 10 sucessos e somar todas essas probabilidades.

> ou seja o problema pede $P(x = 3) + P(x = 4) + ... + P(x = 9) + P(x = 10)$.

In [77]:

n = 10      # Número de lançamentos do dado
k = 3       # Número de sucessos desejados
p = 1/6     # Probabilidade de sair o número 5 em um único lançamento
q = 1 - p   # Probabilidade de não sair o número 5 em um único lançamento



In [78]:
# Espaço amostral: C(10, 3)
dados = comb(n, k)
dados

np.float64(120.0)

In [79]:
# Probabilidade
prob_dados = dados * (p ** k) * (q ** (n - k))
prob_dados

np.float64(0.15504535957425192)

In [81]:
print(f'A probabilidade de obter o número 5 pelo exatamente três vezes em dez lançamentos é: {prob_dados}')

A probabilidade de obter o número 5 pelo exatamente três vezes em dez lançamentos é: 0.15504535957425192


In [82]:
# Calcular P (x = 3) + P (x = 4) + ... + P (x = 9) + P (x = 10)
probabilidade_total = 0
for i in range(3, 11):
    dados = comb(n, i)
    probabilidade = dados * (p ** i) * (q ** (n - i))
    probabilidade_total += probabilidade


In [83]:
print(f'A probabilidade de obter o número 5 pelo menos três vezes em dez lançamentos é: {probabilidade_total}')

A probabilidade de obter o número 5 pelo menos três vezes em dez lançamentos é: 0.22477320212874055


## <font color='blue'>Exemplo: Concurso para cientista de dados</font>

Em um concurso para preencher uma vaga de cientista de dados temos um total de **10 questões** de múltipla escolha com **3 alternativas possíveis** em cada questão. **Cada questão tem o mesmo valor.** Suponha que um candidato resolva se aventurar sem ter estudado absolutamente nada. Ele resolve fazer a prova de olhos vendados e chutar todas as resposta. Assumindo que a prova **vale 10 pontos e a nota de corte seja 5**, obtenha a probabilidade deste candidato **acertar 5 questões** e também a probabilidade deste candidato **passar para a próxima etapa do processo seletivo**.

### Qual o número de ensaios ($n$)?

In [57]:
n = 10      # Número de ensaios
n

10

### Os ensaios são independentes?

Sim. A opção escolhida em uma questão não influencia em nada a opção escolhida em outra questão.

### Somente dois resultados são possíveis em cada ensaio?

Sim. O candidato tem duas possibilidades, ACERTA ou ERRAR uma questão. 

### Qual a probabilidade de sucesso ($p$)?

In [56]:
num_alternitas_questao = 3  # Número de alternativas possíveis em cada questão
p = 1/num_alternitas_questao     # Probabilidade de sucesso
p

0.3333333333333333

### Qual a probabilidade de fracasso ($q$)?
-q

In [58]:
q = 1 - p   # Probabilidade de não sucesso



### Qual o total de eventos que se deseja obter sucesso ($k$)?

In [59]:
k = 5       # Número de sucessos desejados


### Solução 1

Para exatamente 5 questões certas, utilizamos a fórmula da distribuição binomial:

In [60]:
prob_5_questoes_certas = comb(n, k) * (p ** k) * (q ** (n - k))
prob_5_questoes_certas

np.float64(0.13656454808718185)

### Importando bibliotecas
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.binom.html

In [99]:
from scipy.stats import binom

### Solução 2

In [62]:
prob_5_questoes_certas_02 = binom.pmf(k, n, p)
prob_5_questoes_certas_02

np.float64(0.13656454808718146)

### Obter a probabilidade do candidato passar

### $$P(acertar \geq 5) = P(5) + P(6) + P(7) + P(8) + P(9) + P10)$$

5 ou mais questões certas.

In [127]:
prob_5_ou_mais_questoes_certas = binom.pmf(5,n,p) + binom.pmf(6,n,p) + binom.pmf(7,n,p) + binom.pmf(8,n,p) + binom.pmf(9,n,p) + binom.pmf(10,n,p)
prob_5_ou_mais_questoes_certas

NameError: name 'binom' is not defined

In [64]:
# outra forma de calcular a probabilidade de acertar 5 ou mais questões passando uma lista de valores
binom.pmf([5,6,7,8,9,10], n, p).sum()

np.float64(0.21312808006909476)

In [65]:
# outra forma de calcular a probabilidade de acertar 5 ou mais questões utilizando o método cdf
binom.cdf(4, n, p) # P(X <= 4)

np.float64(0.7868719199309048)

In [66]:
1 - binom.cdf(4, n, p)

np.float64(0.21312808006909523)

In [67]:
# outra forma de calcular a probabilidade de acertar 5 ou mais questões utilizando o método sf
binom.sf(4, n, p) # P(X > 4)

np.float64(0.21312808006909525)

## <font color='blue'>Exemplo: Gincana</font>

Uma cidade do interior realiza todos os anos uma gincana para arrecadar fundos para o hospital da cidade. Na última gincana se sabe que a **proporção de participantes do sexo feminino foi de 60%**. **O total de equipes, com 12 integrantes, inscritas na gincana deste ano é de 30**. Com as informações acima responda: Quantas equipes deverão ser formadas por **8 mulheres**?

### Solução

In [72]:
n = 12      # Número de ensaios (integrantes da equipe)
k = 8       # Número de sucessos desejados (mulheres na equipe)
p = 0.6     # Probabilidade de sucesso em um único ensaio (mulher)
q = 1 - p   # Probabilidade de não sucesso em um único ensaio (homem)


In [74]:
# Espaço amostral: C(12, 8) Número de combinações possíveis de 12 integrantes, tomados 8 a 8
# Probabilidade de formar uma equipe com 8 mulheres
prob_equipe = comb(n, k) * (p ** k) * (q ** (n - k))
prob_equipe

np.float64(0.21284093951999997)

In [75]:
# outra forma de calcular a probabilidade de formar uma equipe com 8 mulheres
prob_equipe_02 = binom.pmf(k,n,p)
prob_equipe_02

np.float64(0.21284093952)

In [76]:
# Quantas equipes deverão ser formadas por 8 mulheres?
num_equipes = 30 * prob_equipe
num_equipes

np.float64(6.385228185599999)

# Exemplo:

Suponha que a probabilidade de um casal ter filhos com olhos azuis seja de 22%. Em 50 famílias, com 3 crianças cada uma, quantas podemos esperar que tenham dois filhos com olhos azuis?



In [None]:
n = 3      # Número de ensaios - numeros de filhos por família
k = 2       # Número de sucessos desejados - Numeros de filhos com olhos azuis
p = 0.22     # Probabilidade de sucesso
q = 1 - p   # Probabilidade de não sucesso

In [82]:
# probabilidade de ter 2 filhos com olhos azuis em um unica familia
filhos_olhos_azuis = binom.pmf(k,n,p)
filhos_olhos_azuis

np.float64(0.11325599999999993)

In [83]:
# Número de famílias com 2 filhos com olhos azuis
num_familias = 50 * filhos_olhos_azuis
num_familias

np.float64(5.662799999999996)

In [84]:
num_familia_02 = 50 * 0.22
num_familia_02

11.0

In [100]:
from scipy.stats import binom

p = 0.22
n = 3
k = 2
N = 50

probabilidade = binom.pmf(k, n, p)

media = probabilidade * N
media

np.float64(5.662799999999996)

---
---

## <font color=red>Problema</font>
***

Um restaurante recebe em média **20 pedidos por hora**. Qual a chance de que, em determinada hora escolhida ao acaso, o restaurante receba **15 pedidos**?

## <font color=green>2.2 Distribuição Poisson</font>
***

É empregada para descrever o número de ocorrências em um intervalo de tempo ou espaço específico. Os eventos são caracterizados pela possibilidade de contagem dos sucessos, mas a não possibilidade de contagem dos fracassos.

Como exemplos de processos onde podemos aplicar a distribuição de Poisson temos a determinação do número de clientes que entram em uma loja em determinada hora, o número de carros que chegam em um drive-thru de uma lanchonete na hora do almoço, a determinação do número de acidentes registrados em um trecho de estrada etc.

# $$P(k) = \frac{e^{-\mu}(\mu)^k}{k!}$$

Onde:

$e$ = constante cujo valor aproximado é 2,718281828459045

$\mu$ = representa o número médio de ocorrências em um determinado intervalo de tempo ou espaço

$k$ = número de sucessos no intervalo desejado

### Experimento Poisson

1. A probabilidade de uma ocorrência é a mesma em todo o intervalo observado.

2. O número de ocorrências em determinado intervalo é independente do número de ocorrências em outros intervalos.

3. A probabilidade de uma ocorrência é a mesma em intervalos de igual comprimento.

### Média da distribuição Poisson


# $$\mu$$

### Desvio padrão da distribuição Poisson

# $$\sigma = \sqrt{\mu}$$


### Importando bibliotecas


http://www.numpy.org/

In [101]:
import numpy as np

## <font color='blue'>Exemplo: Delivery</font>


Um restaurante recebe em média **20 pedidos por hora**. Qual a chance de que, em determinada hora escolhida ao acaso, o restaurante receba **15 pedidos**?

> a

### Qual o número médio de ocorrências por hora ($\mu$)?



In [87]:
media = 20  # Número médio de ocorrências por hora

### Qual o número de ocorrências que queremos obter no período ($k$)?



In [89]:
k = 15  # Número de ocorrências desejadas

### Solução 1

In [103]:
prob_paisson = (np.exp(-media) * (media ** k)) / np.math.factorial(k)
prob_paisson

AttributeError: module 'numpy' has no attribute 'math'

### Importando bibliotecas


https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.poisson.html



### Solução 2

In [104]:
from scipy.stats import poisson

In [105]:
prob_paisson_02 = poisson.pmf(k, media)
prob_paisson_02

np.float64(0.05568133753165013)

## Exemplo:

O número médio de clientes que entram em uma padaria por hora é igual a 20. Obtenha a probabilidade de, na próxima hora, entrarem exatamente 25 clientes.

In [106]:
n = 20  # Número médio de ocorrências por hora
k = 25  # Número de ocorrências desejadas

In [107]:
prob_padoca = poisson.pmf(k, n)
prob_padoca

np.float64(0.04458764910826764)

In [108]:
print(f'A probabilidade de, na próxima hora, entrarem exatamente 25 clientes é: {prob_padoca}')

A probabilidade de, na próxima hora, entrarem exatamente 25 clientes é: 0.04458764910826764


In [113]:
# ou
print(f'A probabilidade de, na próxima hora, entrarem exatamente 25 clientes é: {prob_padoca:.2%}')

A probabilidade de, na próxima hora, entrarem exatamente 25 clientes é: 4.46%


## <font color=red>Problema</font>
***



Em um estudo sobre as alturas dos moradores de uma cidade verificou-se que o conjunto de dados segue uma **distribuição aproximadamente normal**, com **média 1,70** e **desvio padrão de 0,1**. Com estas informações obtenha o seguinte conjunto de probabilidades:

> **A.** probabilidade de uma pessoa, selecionada ao acaso, ter menos de 1,80 metros.

> **B.** probabilidade de uma pessoa, selecionada ao acaso, ter entre 1,60 metros e 1,80 metros.    

> **C.** probabilidade de uma pessoa, selecionada ao acaso, ter mais de 1,90 metros.



## <font color=green>2.3 Distribuição Normal</font>
***



A distribuição normal é uma das mais utilizadas em estatística. É uma distribuição contínua, onde a distribuição de frequências de uma variável quantitativa apresenta a forma de sino e é simétrica em relação a sua média.



![Normal](https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img001.png)


### Características importantes


1. É simétrica em torno da média;

2. A área sob a curva corresponde à proporção 1 ou 100%;

3. As medidas de tendência central (média, mediana e moda) apresentam o mesmo valor;

4. Os extremos da curva tendem ao infinito em ambas as direções e, teoricamente, jamais tocam o eixo $x$;

5. O desvio padrão define o achatamento e largura da distribuição. Curvas mais largas e mais achatadas apresentam valores maiores de desvio padrão;

6. A distribuição é definida por sua média e desvio padrão;

7. A probabilidade sempre será igual à área sob a curva, delimitada pelos limites inferior e superior.



# $$f(x) = \frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$$

Onde:

$x$ = variável normal

$\sigma$ = desvio padrão

$\mu$ = média




A probabilidade é obtida a partir da área sob a curva, delimitada pelos limites inferior e superior especificados. Um exemplo pode ser visto na figura abaixo.


![alt text](https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img002.png)




Para obter a área acima basta calcular a integral da função para os intervalos determinados. Conforme equação abaixo:


# $$P(L_i<x<L_s) = \int_{L_i}^{L_s}\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$$

Onde:

$x$ = variável normal

$\sigma$ = desvio padrão

$\mu$ = média

$L_i$ = limite inferior

$L_s$ = limite superior




### Tabelas padronizadas



As tabelas padronizadas foram criadas para facilitar a obtenção dos valores das áreas sob a curva normal e eliminar a necessidade de solucionar integrais definidas.

Para consultarmos os valores em uma tabela padronizada basta transformarmos nossa variável em uma variável padronizada $Z$.

Esta variável $Z$ representa o afastamento em desvios padrões de um valor da variável original em relação à média.



# $Z = \frac{x-\mu}{\sigma}$

Onde:

$x$ = variável normal com média $\mu$ e desvio padrão $\sigma$

$\sigma$ = desvio padrão

$\mu$ = média


### Construindo tabela normal padronizada
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html


In [1]:
import pandas as pd
import numpy as np
from scipy.stats import norm

tabela_normal_padronizada = pd.DataFrame(
    [], 
    index=["{0:0.2f}".format(i / 100) for i in range(0, 400, 10)],
    columns = ["{0:0.2f}".format(i / 100) for i in range(0, 10)])

for index in tabela_normal_padronizada.index:
    for column in tabela_normal_padronizada.columns:
        Z = np.round(float(index) + float(column), 2)
        tabela_normal_padronizada.loc[index, column] = "{0:0.4f}".format(norm.cdf(Z))

tabela_normal_padronizada.rename_axis('Z', axis = 'columns', inplace = True)

tabela_normal_padronizada

Z,0.00,0.01,0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.09
0.0,0.5,0.504,0.508,0.512,0.516,0.5199,0.5239,0.5279,0.5319,0.5359
0.1,0.5398,0.5438,0.5478,0.5517,0.5557,0.5596,0.5636,0.5675,0.5714,0.5753
0.2,0.5793,0.5832,0.5871,0.591,0.5948,0.5987,0.6026,0.6064,0.6103,0.6141
0.3,0.6179,0.6217,0.6255,0.6293,0.6331,0.6368,0.6406,0.6443,0.648,0.6517
0.4,0.6554,0.6591,0.6628,0.6664,0.67,0.6736,0.6772,0.6808,0.6844,0.6879
0.5,0.6915,0.695,0.6985,0.7019,0.7054,0.7088,0.7123,0.7157,0.719,0.7224
0.6,0.7257,0.7291,0.7324,0.7357,0.7389,0.7422,0.7454,0.7486,0.7517,0.7549
0.7,0.758,0.7611,0.7642,0.7673,0.7704,0.7734,0.7764,0.7794,0.7823,0.7852
0.8,0.7881,0.791,0.7939,0.7967,0.7995,0.8023,0.8051,0.8078,0.8106,0.8133
0.9,0.8159,0.8186,0.8212,0.8238,0.8264,0.8289,0.8315,0.834,0.8365,0.8389


<img src='https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img003.png' width='250px'>

A tabela acima fornece a área sob a curva entre $-\infty$ e $Z$ desvios padrão acima da média. Lembrando que por se tratar de valores padronizados temos $\mu = 0$.

## <font color='blue'>Exemplo: Qual sua altura?</font>

Em um estudo sobre as alturas dos moradores de uma cidade verificou-se que o conjunto de dados segue uma **distribuição aproximadamente normal**, com **média 1,70** e **desvio padrão de 0,1**. Com estas informações obtenha o seguinte conjunto de probabilidades:

> **A.** probabilidade de uma pessoa, selecionada ao acaso, ter menos de 1,80 metros.

> **B.** probabilidade de uma pessoa, selecionada ao acaso, ter entre 1,60 metros e 1,80 metros.    

> **C.** probabilidade de uma pessoa, selecionada ao acaso, ter mais de 1,90 metros.

### Problema A - Identificação da área sob a curva

<img style='float: left' src='https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img004.png' width='350px'>

### Obter a variável padronizada $Z$

In [8]:
desvio_padrao=0.1
media=1.7
z=(1.8 - media) / desvio_padrao
z

1.0000000000000009

### Solução 1 - Utilizando tabela

### Solução 2 - Utilizando Scipy

In [2]:
norm.cdf(1.8, loc=1.7, scale=0.1)

np.float64(0.8413447460685431)

In [4]:
u=70
s=5
x=85

In [5]:
z=(x-u)/s
z

3.0

In [6]:
norm.cdf(z)

np.float64(0.9986501019683699)

In [3]:
norm.cdf(85, loc=70, scale=5) # exemplo com média 70 e desvio padrão 5

np.float64(0.9986501019683699)

### Problema B - Identificação da área sob a curva

<img style='float: left' src='https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img005.png' width='350px'>

### Obter a variável padronizada $Z$

In [54]:
desvio_padrao=0.1
media=1.7
z=(1.7 - media) / desvio_padrao
z

0.0

### Solução 1 - Utilizando tabela

In [12]:
# Para calcular a probabilidade de uma pessoa ter entre 1,60 metros e 1,80 metros, precisamos calcular as áreas sob a curva para os dois limites.
# usar a tabela normal padronizada para obter as áreas correspondentes a 1,80 metros (0.8413) e 1,70 metros (0.5 ou a média)
# A subtração das duas áreas nos dará a probabilidade entre 1,7 e 1,8.
# para a probabilidade de uma pessoa ter entre 1,60 metros e 1,80 metros, por simetria, basta multiplicar por 2 a area entre 1,7 e 1,8.
prob01= (0.8413 - 0.5) * 2
prob01

0.6826000000000001

### Solução 2 - Utilizando Scipy

In [13]:
# Z entre 1.7 e 1.8
z_lim_superior = (1.8 - media) / desvio_padrao
z_lim_superior

1.0000000000000009

In [14]:
z_lim_inferior = (1.6 - media) / desvio_padrao
z_lim_inferior

-0.9999999999999987

In [15]:
norm.cdf(z_lim_superior)

np.float64(0.8413447460685431)

In [16]:
# A area total é 1. Subtraindo a area até 1.8 da area total (1 - area = area a frente do ponto), obtemos a area entre 1.6 e 1.8
norm.cdf(z_lim_superior) - (1 - norm.cdf(z_lim_superior))

np.float64(0.6826894921370863)

In [17]:
# ou
norm.cdf(z_lim_superior) - norm.cdf(z_lim_inferior)


np.float64(0.6826894921370857)

In [18]:
# ou ainda, utilizando a tabela normal padronizada
0.8413 - (1 - 0.8413)


0.6826000000000001

## Exemplo:
O faturamento diário de um motorista de aplicativo segue uma distribuição aproximadamente normal, com média R$ 300,00 e desvio padrão igual a R$ 50,00. Obtenha as probabilidades de que, em um dia aleatório, o motorista ganhe:

1) Entre R$ 250,00 e R$ 350,00

2) Entre R$ 400,00 e R$ 500,00

In [55]:
# Dados
media_motorista = 300  # Média do faturamento diário
desvio_padrao_motorista = 50  # Desvio padrão do faturamento diário


In [56]:
# item a
z_inf = (250 - media_motorista) / desvio_padrao_motorista  # Variável padronizada para R$ 250,00
z_inf

-1.0

In [57]:
z_sup = (350 - media_motorista) / desvio_padrao_motorista  # Variável padronizada para R$ 350,00
z_sup

1.0

In [58]:
norm.cdf(z_sup)


np.float64(0.8413447460685429)

In [59]:
# item 01
prob_motorista_a = norm.cdf(z_sup) - norm.cdf(z_inf)
prob_motorista_a

np.float64(0.6826894921370859)

In [60]:
# item 2 - Entre R$ 400,00 e R$ 500,00
z_inf_01 = (400 - media_motorista) / desvio_padrao_motorista  # Variável padronizada para R$ 250,00
z_inf_01

2.0

In [61]:
z_sup_01 = (500 - media_motorista) / desvio_padrao_motorista  # Variável padronizada para R$ 350,00
z_sup_01

4.0

In [62]:
# item 01
prob_motorista_b = norm.cdf(z_sup_01) - norm.cdf(z_inf_01)
prob_motorista_b

np.float64(0.02271846070634609)

### Problema C - Identificação da área sob a curva

<img style='float: left' src='https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img006.png' width='350px'>

### Obter a variável padronizada $Z$

In [63]:
z= (1.9 - media) / desvio_padrao
z

1.9999999999999996

### Solução 1 - Utilizando tabela

In [64]:
# consultando a tabela deve-se encontrar z =1,90 (linha) + 0,09 (coluna) = 1,99 = z que corresponde a 0,9767
prob03 = 1 - 0.9767
prob03

0.023299999999999987

### Solução 2 - Utilizando Scipy

In [65]:
prob03_02 = 1 - norm.cdf(z)
prob03_02

np.float64(0.02275013194817921)

In [None]:
# ou pode-se passar um z negativo que significa
prob03_02 = 1 - norm.cdf(z)
prob03_02

### Exemplo:
O Inmetro verificou que as lâmpadas incandescentes da fabricante XPTO apresentam uma vida útil normalmente distribuída, com média igual a 720 dias e desvio padrão igual a 30 dias. Calcule a probabilidade de uma lâmpada, escolhida ao acaso, durar:

1) Entre 650 e 750 dias

2) Mais que 800 dias

3) Menos que 700 dias

In [None]:
### Exemplo:
#Uma lâmpadas apresentam uma vida útil normalmente distribuída, com média igual a 720 dias e desvio padrão igual a 30 dias. Calcule a probabilidade de uma lâmpada, escolhida ao acaso, durar:
#1) Entre 650 e 750 dias
#2) Mais que 800 dias
#3) Menos que 700 dias

In [66]:
media_lamp = 720  # Média da vida útil das lâmpadas
desvio_padrao_lamp = 30  # Desvio padrão da vida útil das lâmpadas

In [68]:
# Item 1 - Entre 650 e 750 dias
z_inf_lamp = (650 - media_lamp) / desvio_padrao_lamp  # Variável padronizada para 650 dias
z_sup_lamp = (750 - media_lamp) / desvio_padrao_lamp  # Variável padronizada para 750 dias
prob_lamp_01 = norm.cdf(z_sup_lamp) - norm.cdf(z_inf_lamp)  # Probabilidade entre 650 e 750 dias
prob_lamp_01

np.float64(0.8315294174398976)

In [69]:
# Item 2 - Mais que 800 dias
z_lamp_02 = (800 - media_lamp) / desvio_padrao_lamp  # Variável padronizada para 800 dias
prob_lamp_02 = 1 - norm.cdf(z_lamp_02)  # Probabilidade de durar mais que 800 dias
prob_lamp_02

np.float64(0.003830380567589775)

In [71]:
# Item 3 - Menos que 700 dias
z_lamp_03 = (700 - media_lamp) / desvio_padrao_lamp  # Variável padronizada para 700 dias
prob_lamp_03 = norm.cdf(z_lamp_03)  # Probabilidade de durar menos que 700 dias
prob_lamp_03

np.float64(0.2524925375469229)

### Exemplo:
Utilizando a tabela padronizada, ou o ferramental disponibilizado pelo Python, encontre a área sob a curva normal para os valores de Z abaixo:

1) Z < 1,96

2) Z > 2,15

3) Z < -0,78

4) Z > 0,59

In [72]:
# Item A
probabilidade = norm.cdf(1.96)
print("{0:0.4f}".format(probabilidade))

# Item B
probabilidade = 1 - norm.cdf(2.15)
# ou -> probabilidade = norm.sf(2.15)
print("{0:0.4f}".format(probabilidade))

# Item C
probabilidade = norm.cdf(-0.78)
print("{0:0.4f}".format(probabilidade))

# Item D
probabilidade = 1 - norm.cdf(0.59)
# ou -> probabilidade = norm.sf(0.59)
print("{0:0.4f}".format(probabilidade))


0.9750
0.0158
0.2177
0.2776


# <font color=green>3 AMOSTRAGEM</font>
***

## <font color=green>3.1 População e Amostra</font>
***

### População
Conjunto de todos os elementos de interesse em um estudo. Diversos elementos podem compor uma população, por exemplo: pessoas, idades, alturas, carros etc.

Com relação ao tamanho, as populações podem ser limitadas (populações finitas) ou ilimitadas (populações infinitas).

### Populações finitas

Permitem a contagem de seus elementos. Como exemplos temos o número de funcionário de uma empresa, a quantidade de alunos em uma escola etc.

### Populações infinitas

Não é possível contar seus elementos. Como exemplos temos a quantidade de porções que se pode extrair da água do mar para uma análise, temperatura medida em cada ponto de um território etc.

<font color=red>Quando os elementos de uma população puderem ser contados, porém apresentando uma quantidade muito grande, assume-se a população como infinita.</font>.

### Amostra
Subconjunto representativo da população.

Os atributos numéricos de uma população como sua média, variância e desvio padrão, são conhecidos como **parâmetros**. O principal foco da inferência estatística é justamente gerar estimativas e testar hipóteses sobre os parâmetros populacionais utilizando as informações de amostras.

## <font color=green>3.2 Quando utilizar uma amostra?</font>
***

### Populações infinitas

O estudo não chegaria nunca ao fim. Não é possível investigar todos os elementos da população.

### Testes destrutivos

Estudos onde os elementos avaliados são totalmente consumidos ou destruídos. Exemplo: testes de vida útil, testes de segurança contra colisões em automóveis.

### Resultados rápidos

Pesquisas que precisam de mais agilidade na divulgação. Exemplo: pesquisas de opinião, pesquisas que envolvam problemas de saúde pública.

### Custos elevados

Quando a população é finita mas muito numerosa, o custo de um censo pode tornar o processo inviável.

## <font color=green>3.3 Amostragem Aleatória Simples</font>
***

É uma das principais maneiras de se extrair uma amostra de uma população. A exigência fundamental deste tipo de abordagem é que cada elemeto da população tenha as mesmas chances de ser selecionado para fazer parte da amostra.

In [76]:
dados = pd.read_csv('dados.csv')
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


In [77]:
dados.shape[0]

76840

In [78]:
dados.Renda.mean()

np.float64(2000.3831988547631)

In [79]:
amostra = dados.sample(n=100, random_state=101)  # Seleciona 10 elementos aleatórios, random_state é utilizado para garantir a reprodutibilidade do resultado
amostra.shape[0]

100

In [80]:
amostra.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
29042,29,0,39,8,5,480,1.719128
62672,43,0,55,2,6,250,1.639205
29973,29,1,36,2,12,788,1.654122
22428,26,0,46,8,8,1680,1.62245
55145,41,0,37,2,9,2500,1.625268


In [81]:
amostra.Renda.mean()  # Média da amostra

np.float64(2150.85)

In [82]:
# retorna a proporção de cada categoria
dados.Sexo.value_counts(normalize=True)

Sexo
0    0.692998
1    0.307002
Name: proportion, dtype: float64

In [83]:
amostra.Sexo.value_counts(normalize=True)

Sexo
0    0.69
1    0.31
Name: proportion, dtype: float64

## <font color=green>3.4 Amostragem Estratificada</font>
***

É uma melhoria do processo de amostragem aleatória simples. Neste método é proposta a divisão da população em subgrupos de elementos com características similares, ou seja, grupos mais homogêneos. Com estes subgrupos separados, aplica-se a técnica de amostragem aleatória simples dentro de cada subgrupo individualmente.

## <font color=green>3.5 Amostragem por Conglomerados</font>
***

Também visa melhorar o critério de amostragem aleatória simples. Na amostragem por conglomerados são também criados subgrupos, porém não serão homogêneas como na amostragem estratificada. Na amostragem por conglomerados os subgrupos serão heterogêneos, onde, em seguida, serão aplicadas a amostragem aleatória simples ou estratificada.

Um exemplo bastante comum de aplicação deste tipo de técnica é na divisão da população em grupos territoriais, onde os elementos investigados terão características bastante variadas.

# <font color=green>4 ESTIMAÇÃO</font>
***

## <font color='red'>Problema </font>

Suponha que os pesos dos sacos de arroz de uma indústria alimentícia se distribuem aproximadamente como uma normal de **desvio padrão populacional igual a 150 g**. Selecionada uma **amostra aleatório de 20 sacos** de um lote específico, obteve-se um **peso médio de 5.050 g**. Construa um **intervalo de confiança para a média populacional** assumindo um **nível de significância de 5%**.

---

É a forma de se fazer suposições generalizadas sobre os parâmetros de uma população tendo como base as informações de uma amostra.

- **Parâmetros** são os atributos numéricos de uma população, tal como a média, desvio padrão etc.

- **Estimativa** é o valor obtido para determinado parâmetro a partir dos dados de uma amostra da população.

## <font color=green>4.1 Teorema do limite central</font>
***

> O **Teorema do Limite Central** afirma que, com o aumento do tamanho da amostra, a distribuição das médias amostrais se aproxima de uma distribuição normal com média igual à média da população e desvio padrão igual ao desvio padrão da variável original dividido pela raiz quadrada do tamanho da amostra. Este fato é assegurado para $n$ maior ou igual a 30.

# $$\sigma_\bar{x} = \frac{\sigma}{\sqrt{n}}$$

O desvio padrão das médias amostrais é conhecido como **erro padrão da média**

### Entendendo o Teorema do Limite Central

> O Teorema do Limite Central afirma que, **com o aumento do tamanho da amostra, a distribuição das médias amostrais se aproxima de uma distribuição normal** com média igual à média da população e desvio padrão igual ao desvio padrão da variável original dividido pela raiz quadrada do tamanho da amostra. Este fato é assegurado para n maior ou igual a 30.

> O Teorema do Limite Central afirma que, com o aumento do tamanho da amostra, a distribuição das médias amostrais se aproxima de uma distribuição normal **com média igual à média da população** e desvio padrão igual ao desvio padrão da variável original dividido pela raiz quadrada do tamanho da amostra. Este fato é assegurado para n maior ou igual a 30.

> O Teorema do Limite Central afirma que, com o aumento do tamanho da amostra, a distribuição das médias amostrais se aproxima de uma distribuição normal com média igual à média da população e **desvio padrão igual ao desvio padrão da variável original dividido pela raiz quadrada do tamanho da amostra**. Este fato é assegurado para n maior ou igual a 30.

# $$\sigma_\bar{x} = \frac{\sigma}{\sqrt{n}}$$

## <font color=green>4.2 Níveis de confiança e significância</font>
***

O **nível de confiança** ($1 - \alpha$) representa a probabilidade de acerto da estimativa. De forma complementar o **nível de significância** ($\alpha$) expressa a probabilidade de erro da estimativa.

O **nível de confiança** representa o grau de confiabilidade do resultado da estimativa estar dentro de determinado intervalo. Quando fixamos em uma pesquisa um **nível de confiança** de 95%, por exemplo, estamos assumindo que existe uma probabilidade de 95% dos resultados da pesquisa representarem bem a realidade, ou seja, estarem corretos.

O **nível de confiança** de uma estimativa pode ser obtido a partir da área sob a curva normal como ilustrado na figura abaixo.

![alt text](https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img007.png)

## <font color=green>4.3 Erro inferencial</font>
***

O **erro inferencial** é definido pelo **desvio padrão das médias amostrais** $\sigma_\bar{x}$ e pelo **nível de confiança** determinado para o processo.

# $$e = z \frac{\sigma}{\sqrt{n}}$$

## <font color=green>4.4 Intervalos de confiança</font>
***

### Intevalo de confiança para a média da população

#### Com desvio padrão populacional conhecido

## $$\mu = \bar{x} \pm z\frac{\sigma}{\sqrt{n}}$$

#### Com desvio padrão populacional desconhecido

## $$\mu = \bar{x} \pm z\frac{s}{\sqrt{n}}$$

## <font color='blue'>Exemplo: </font>

Suponha que os pesos dos sacos de arroz de uma indústria alimentícia se distribuem aproximadamente como uma normal de **desvio padrão populacional igual a 150 g**. Selecionada uma **amostra aleatório de 20 sacos** de um lote específico, obteve-se um **peso médio de 5.050 g**. Construa um intervalo de confiança para a **média populacional** assumindo um **nível de significância de 5%**.

### Média amostral

### Nível de significância ($\alpha$)

### Nível de confiança ($1 - \alpha$)

### Obtendo $z$

### Obtendo $z$

![alt text](https://caelum-online-public.s3.amazonaws.com/1178-estatistica-parte2/01/img008.png)

### Valores de $z$ para os níveis de confiança mais utilizados

|Nível de<br>confiança|Valor da área sob<br>a curva normal| $z$ |
|:----------------:|:---------------------------------:|:---:|
|90%               |0,95                               |1,645|
|95%               |0,975                              |1,96 |
|99%               |0,995                              |2,575|

### Obtendo $\sigma_\bar{x}$

### Obtendo $e$

### Solução 1 - Calculando o intervalo de confiança para a média

### Solução 2 - Calculando o intervalo de confiança para a média

## Exemplo:


Para estimar o valor médio gasto por cada cliente de uma grande rede de fast-food, foi selecionada uma amostra de 50 clientes.

Assumindo que o valor do desvio padrão da população seja de R$ 6,00 e que esta população se distribui normalmente, obtenha a margem de erro desta estimativa para um nível de confiança de 95%.

$e = z * (σ / √n)$

Onde:

    e é a margem de erro.
    z é o valor crítico da distribuição normal para o nível de confiança desejado.
    σ é o desvio padrão da população.
    n é o tamanho da amostra.


In [84]:
# Para estimar o valor médio gasto por cada cliente de uma grande rede de fast-food, foi selecionada uma amostra de 50 clientes.
# Assumindo que o valor do desvio padrão da população seja de R$ 6,00 e que esta população se distribui normalmente, obtenha a margem de erro desta estimativa para um nível de confiança de 95%.
# solução com e = z * (σ / √n)

# e é a margem de erro.
# z é o valor crítico da distribuição normal para o nível de confiança desejado.
# σ é o desvio padrão da população (s).
# n é o tamanho da amostra.

s = 6  # Desvio padrão da população
n = 50  # Tamanho da amostra
z = 1.96  # Valor crítico da distribuição normal para um nível de confiança de 95%
# Cálculo da margem de erro
e = z * (s / (n ** 0.5))
e

1.6631151493507597

In [85]:
# Dados do problema
desvio_padrao = 6.00 # Desvio padrão da população
n = 50               # Tamanho da amostra
confianca = 0.95

# Calcula o valor de z para o nível de confiança desejado
z = norm.ppf(0.5 + (confianca / 2))
z



np.float64(1.959963984540054)

In [86]:

# Calcula a margem de erro
e = z * (desvio_padrao / np.sqrt(n))

print(f"A margem de erro é de: R$ {e:.2f}")

A margem de erro é de: R$ 1.66


## Exemplo:
Uma amostra aleatória simples de 1976 itens de uma população normalmente distribuída, com desvio padrão populacional igual a 11, resultou em uma média amostral de 28.

Qual o intervalo de confiança de 90% para a média populacional?

In [87]:
# Identificar os valores fornecidos: média amostral, desvio padrão populacional, tamanho da amostra e nível de confiança.
s = 11  # Desvio padrão da população
n = 1976  # Tamanho da amostra
media_amostral = 28  # Média amostral


In [91]:
# Encontrar o valor de Z correspondente ao nível de confiança de 90%.
z = norm.ppf(0.5 + (0.90 / 2))
z

np.float64(1.6448536269514722)

In [89]:
# Calcular a margem de erro (e).
e = z * (s / (n ** 0.5))
e

np.float64(0.40703004864353387)

In [90]:
# Calcular os limites inferior e superior do intervalo de confiança.

limite_inferior = media_amostral - e
limite_superior = media_amostral + e
print(f"Intervalo de confiança de 90%: ({limite_inferior:.2f}, {limite_superior:.2f})")

Intervalo de confiança de 90%: (27.59, 28.41)


In [92]:
# ou
media_amostral = 28
desvio_padrao = 11
n = 1976

norm.interval(confidence = 0.90,
                loc = media_amostral,
                scale = desvio_padrao / np.sqrt(n))


(np.float64(27.592969951356466), np.float64(28.407030048643534))

### Aprendi até aqui:
    A conceituação de parâmetros e de estimativa
    O teorema do limite central
    Níveis de confiança e de significância
    A obter a margem de erro de um experimento
    A obter intervalos de confiança para uma estimativa pontual (estimação intervalar)

# <font color=green>5 CÁLCULO DO TAMANHO DA AMOSTRA</font>
***

## <font color='red'>Problema </font>

Estamos estudando o rendimento mensal dos chefes de domicílios com renda até R$\$$ 5.000,00 no Brasil. Nosso supervisor determinou que o **erro máximo em relação a média seja de R$\$$ 10,00**. Sabemos que o **desvio padrão populacional** deste grupo de trabalhadores é de **R$\$$ 1.082,79**. Para um **nível de confiança de 95%**, qual deve ser o tamanho da amostra de nosso estudo?

## <font color=green>5.1 Variáveis quantitativas e população infinita</font>
***

# $$e = z \frac{\sigma}{\sqrt{n}}$$

#### Com desvio padrão conhecido

## $$n = \left(z\frac{\sigma}{e}\right)^2$$

#### Com desvio padrão desconhecido

## $$n = \left(z\frac{s}{e}\right)^2$$

Onde:

$z$ = variável normal padronizada

$\sigma$ = desvio padrão populacional

$s$ = desvio padrão amostral

$e$ = erro inferencial

### <font color='red'>Observações</font>

1. O desvio padrão ($\sigma$ ou $s$) e o erro ($e$) devem estar na mesma unidade de medida.

2. Quando o erro ($e$) for representado em termos percentuais, deve ser interpretado como um percentual relacionado à média.

## <font color='blue'>Exemplo: Rendimento médio</font>

Estamos estudando o rendimento mensal dos chefes de domicílios no Brasil. Nosso supervisor determinou que o **erro máximo em relação a média seja de R$\$$ 100,00**. Sabemos que o **desvio padrão populacional** deste grupo de trabalhadores é de **R$\$$ 3.323,39**. Para um **nível de confiança de 95%**, qual deve ser o tamanho da amostra de nosso estudo?

In [93]:
# Obter o z para o nível de confiança de 95%
z = norm.ppf(0.5 + (0.95 / 2))
z

np.float64(1.959963984540054)

### Obtendo $\sigma$

In [94]:
# Obter o desvio padrão populacional
sigma = 3323.39  # Desvio padrão populacional


### Obtendo $e$

In [None]:
e = 100  # Erro máximo em relação à média

### Obtendo $n$

In [102]:
# Cálculo do tamanho da amostra
n = (z * (sigma / e)) ** 2
n

np.float64(4242.860955311813)

In [100]:
# Arredondando para o próximo número inteiro por tratar-se de individuos
n01 = int(np.ceil(n))
n01

4243

In [103]:
# ou
n02 = int(n.round())
n02

4243

## Exemplo:
O valor do gasto médio dos clientes de uma loja de conveniência é de R$ 45,50. Assumindo que o desvio padrão dos gastos é igual a R$ 15,00, qual deve ser o tamanho da amostra para estimarmos a média populacional com um nível de significância de 10%?

Considere que o erro máximo aceitável seja de 10%.

In [None]:
# O valor do gasto médio dos clientes de uma loja de conveniência é de R$ 45,50. Assumindo que o desvio padrão dos gastos é igual a R$ 15,00, qual deve ser o tamanho da amostra para estimarmos a média populacional com um nível de significância de 10%?
# Considere que o erro máximo aceitável seja de 10%.

In [105]:
#cálculo do tamanho da amostra.
# Dados do problema
nivel_de_significancia = 0.10 # o que nos ajudará a encontrar o valor de z.
media_gasto = 45.50  # Média dos gastos dos clientes
desvio_padrao_gasto = 15.00  # Desvio padrão dos gastos dos clientes
nivel_confianca = 0.90  # Nível de confiança de 90%. Como o nível de significância é de 10%, o nível de confiança é de 90% (100% - 10%)
# Erro máximo aceitável
erro_maximo = 0.10 * media_gasto  # 10% do gasto médio


In [106]:
# Calcular o erro máximo (e) em valor:
e = erro_maximo


In [107]:
# Encontrar o valor de z:
z = norm.ppf(0.5 + (nivel_confianca / 2))
z

np.float64(1.6448536269514722)

In [108]:
# Aplicar a fórmula para calcular o tamanho da amostra (n):
n = (z * (desvio_padrao_gasto / e)) ** 2
n

np.float64(29.404529751067166)

In [109]:
# ou
media = 45.5
sigma = 15
significancia = 0.10
confianca = 1 - significancia

z = norm.ppf(0.5 + (confianca / 2))
erro_percentual = 0.10
e = media * erro_percentual

n = (z * (sigma / e)) ** 2
n.round()

np.float64(29.0)

---
---

## <font color='red'>Problema</font>

Em um lote de **10.000 latas** de refrigerante foi realizada uma amostra aleatória simples de **100 latas** e foi obtido o **desvio padrão amostral do conteúdo das latas igual a 12 ml**. O fabricante estipula um **erro máximo sobre a média populacional de apenas 5 ml**. Para garantir um **nível de confiança de 95%** qual o tamanho de amostra deve ser selecionado para este estudo?

## <font color=green>5.2 Variáveis quantitativas e população finita</font>
***

#### Com desvio padrão conhecido

## $$n = \frac{z^2 \sigma^2 N}{z^2 \sigma^2 + e^2(N-1)}$$

#### Com desvio padrão desconhecido

## $$n = \frac{z^2 s^2 N}{z^2 s^2 + e^2(N-1)}$$

Onde:

$N$ = tamanho da população

$z$ = variável normal padronizada

$\sigma$ = desvio padrão populacional

$s$ = desvio padrão amostral

$e$ = erro inferencial

## <font color='blue'>Exemplo: Indústria de refrigerantes</font>

Em um lote de **10.000 latas** de refrigerante foi realizada uma amostra aleatória simples de **100 latas** e foi obtido o **desvio padrão amostral do conteúdo das latas igual a 12 ml**. O fabricante estipula um **erro máximo sobre a média populacional de apenas 5 ml**. Para garantir um **nível de confiança de 95%** qual o tamanho de amostra deve ser selecionado para este estudo?

### Obtendo $N$

In [124]:
n = 100  # Tamanho da amostra


### Obtendo $z$

In [125]:
z = norm.ppf(0.5 + (0.95 / 2))  # Nível de confiança de 95%
z

np.float64(1.959963984540054)

### Obtendo $s$

In [126]:
s = 12  # Desvio padrão amostral

### Obtendo $e$

In [113]:
e = 5  # Erro máximo sobre a média populacional

### Obtendo $n$

## $$n = \frac{z^2 s^2 N}{z^2 s^2 + e^2(N-1)}$$

In [128]:
n = (z ** 2 * s ** 2 * n) / (z ** 2 * s ** 2 + e ** 2 * (n - 1))
n

np.float64(18.26747036526522)

In [129]:
n01 = int(np.ceil(n))  # Arredondando para o próximo número inteiro por tratar-se de latas
n01

19

## Exemplo:

Um fabricante de farinha verificou que, em uma amostra aleatória formada por 200 sacos de 25 kg de um lote formado por 2.000 sacos, apresentou um desvio padrão amostral do peso igual a 480 g.

Considerando um erro máximo associado à média populacional igual a 0,3 kg e um nível de confiança igual a 95%, qual tamanho de amostra deveria ser selecionado para obtermos uma estimativa confiável do parâmetro populacional?

In [134]:
# calcular o tamanho da amostra em populações finitas.
# Dados do problema
N = 2000  # Tamanho da população (total de sacos de farinha no lote).

s = 480  # Desvio padrão amostral (em gramas).
e = 0.3 * 1000  # Erro máximo associado à média populacional (em gramas)
# Nível de confiança de 95%
z = norm.ppf(0.5 + (0.95 / 2))  # Valor crítico da distribuição normal para um nível de confiança de 95%


In [136]:
# Tamanho da amostra
#n = (z ** 2 * s ** 2 * N) / (z ** 2 * s ** 2 + e ** 2 * (N - 1))
n = ((z**2) * (s**2) * (N)) / (((z**2) * (s**2)) + ((e**2) * (N - 1)))
n

np.float64(9.790887571738981)

In [133]:
# ou
N = 2000
z = norm.ppf(0.5 + (0.95 / 2))
s = 480
e = 0.3 * 1000   # Convertendo kg para g

n = ((z**2) * (s**2) * (N)) / (((z**2) * (s**2)) + ((e**2) * (N - 1)))
int(n.round())

10

### Aprendi até aqui:
    O cálculo do tamanho da amostra para populações infinitas
    O cálculo do tamanho da amostra para populações finitas
    A diferença entre o cálculo do tamanho da amostra com desvio padrão conhecido e desconhecido
    A importância de considerar o erro máximo na estimativa do tamanho da amostra

# <font color=green>6 FIXANDO O CONTEÚDO</font>
***

## <font color='blue'>Exemplo: Rendimento médio</font>

Estamos estudando o **rendimento mensal dos chefes de domicílios com renda até R$\$$ 5.000,00 no Brasil**. Nosso supervisor determinou que o **erro máximo em relação a média seja de R$\$$ 10,00**. Sabemos que o **desvio padrão populacional** deste grupo de trabalhadores é de **R$\$$ 1.082,79** e que a **média populacional** é de **R$\$$ 1.426,54**. Para um **nível de confiança de 95%**, qual deve ser o tamanho da amostra de nosso estudo? Qual o intervalo de confiança para a média considerando o tamanho de amostra obtido?

### Construindo o dataset conforme especificado pelo problema

In [137]:
renda_5000 = dados.query('Renda <= 5000').Renda  # Filtrando os dados para renda até R$ 5.000,00

In [138]:
sigma = renda_5000.std()
sigma

1082.794549030635

In [139]:
media = renda_5000.mean()
media

np.float64(1426.5372144947232)

### Calculando o tamanho da amostra

In [140]:
z = norm.ppf(0.5 + (0.95 / 2))  # Nível de confiança de 95%
z

np.float64(1.959963984540054)

In [141]:
e = 10  # Erro máximo em relação à média

In [142]:
# Tamanho da amostra
n = (z * (sigma / e)) ** 2  # Cálculo do tamanho da amostra
n

np.float64(45038.954815977115)

In [143]:
print(f'O tamanho da amostra necessário é de {int(np.ceil(n))} elementos.')

O tamanho da amostra necessário é de 45039 elementos.


### Calculando o intervalo de confiança para a média

In [145]:
intervalo = norm.interval(confidence=0.95, loc=media, scale=sigma / np.sqrt(int(np.ceil(n))))
intervalo

(np.float64(1416.5372195108241), np.float64(1436.5372094786223))

### Realizando uma prova gráfica

### Aprendi até aqui:
    A entender os intervalos de confiança, com a realização de simulações de processos de amostragem com prova gráfica
    A aplicação das técnicas desenvolvidas no treinamento para a solução de problemas reais
    O dimensionamento de um processo de pesquisa de campo, com controle de custos e margem de erro