In [4]:
import numpy as np 
import pandas as pd
from scipy.stats import norm

In [3]:
dados = pd.read_csv('dados.csv')

In [5]:
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


# <font color=green>5 CÁLCULO DO TAMANHO DA AMOSTRA</font>
***

## <font color='red'>Problema </font>

Estamos estudando o rendimento mensal dos chefes de domicílios com renda até R$\$$ 5.000,00 no Brasil. Nosso supervisor determinou que o **erro máximo em relação a média seja de R$\$$ 10,00**. Sabemos que o **desvio padrão populacional** deste grupo de trabalhadores é de **R$\$$ 1.082,79**. Para um **nível de confiança de 95%**, qual deve ser o tamanho da amostra de nosso estudo?

## <font color=green>5.1 Variáveis quantitativas e população infinita</font>
***

# $$e = z \frac{\sigma}{\sqrt{n}}$$

#### Com desvio padrão conhecido

## $$n = \left(z\frac{\sigma}{e}\right)^2$$

#### Com desvio padrão desconhecido

## $$n = \left(z\frac{s}{e}\right)^2$$

Onde:

$z$ = variável normal padronizada

$\sigma$ = desvio padrão populacional

$s$ = desvio padrão amostral

$e$ = erro inferencial

### <font color='red'>Observações</font>

1. O desvio padrão ($\sigma$ ou $s$) e o erro ($e$) devem estar na mesma unidade de medida.

2. Quando o erro ($e$) for representado em termos percentuais, deve ser interpretado como um percentual relacionado à média.

## <font color='blue'>Exemplo: Rendimento médio</font>

Estamos estudando o rendimento mensal dos chefes de domicílios no Brasil. Nosso supervisor determinou que o **erro máximo em relação a média seja de R$\$$ 100,00**. Sabemos que o **desvio padrão populacional** deste grupo de trabalhadores é de **R$\$$ 3.323,39**. Para um **nível de confiança de 95%**, qual deve ser o tamanho da amostra de nosso estudo?

In [1]:
0.95 / 2

0.475

In [2]:
0.5 + (0.95 / 2)

0.975

In [5]:
z = norm.ppf(0.975)
z

1.959963984540054

### Obtendo $\sigma$

In [6]:
sigma = 3323.39

### Obtendo $e$

In [7]:
e = 100

### Obtendo $n$

In [9]:
n= (z* (sigma / e)) ** 2
int(n.round())

4243

# Exercicio:
---
O valor do gasto médio dos clientes de uma loja de conveniência é de R 45,50. Assumindo que o desvio padrão dos gastos é igual a R15,00, qual deve ser o tamanho da amostra para estimarmos a média populacional com um nível de significância de 10%?

Considere que o erro máximo aceitável seja de 10%.

In [16]:
media = 45.5

In [10]:
sigma = 15

In [11]:
significancia = 0.10

In [12]:
confianca = 1 - significancia

In [13]:
z = norm.ppf(0.5 + (confianca / 2))

In [14]:
erro_percentual = 0.10

In [17]:
e = media * erro_percentual

In [18]:
n = (z * (sigma / e)) ** 2
n.round()

29.0

---
---

## <font color='red'>Problema</font>

Em um lote de **10.000 latas** de refrigerante foi realizada uma amostra aleatória simples de **100 latas** e foi obtido o **desvio padrão amostral do conteúdo das latas igual a 12 ml**. O fabricante estipula um **erro máximo sobre a média populacional de apenas 5 ml**. Para garantir um **nível de confiança de 95%** qual o tamanho de amostra deve ser selecionado para este estudo?

## <font color=green>5.2 Variáveis quantitativas e população finita</font>
***

#### Com desvio padrão conhecido

## $$n = \frac{z^2 \sigma^2 N}{z^2 \sigma^2 + e^2(N-1)}$$

#### Com desvio padrão desconhecido

## $$n = \frac{z^2 s^2 N}{z^2 s^2 + e^2(N-1)}$$

Onde:

$N$ = tamanho da população

$z$ = variável normal padronizada

$\sigma$ = desvio padrão populacional

$s$ = desvio padrão amostral

$e$ = erro inferencial

## <font color='blue'>Exemplo: Indústria de refrigerantes</font>

Em um lote de **10.000 latas** de refrigerante foi realizada uma amostra aleatória simples de **100 latas** e foi obtido o **desvio padrão amostral do conteúdo das latas igual a 12 ml**. O fabricante estipula um **erro máximo sobre a média populacional de apenas 5 ml**. Para garantir um **nível de confiança de 95%** qual o tamanho de amostra deve ser selecionado para este estudo?

### Obtendo $N$

In [25]:
n = 1000

### Obtendo $z$

In [31]:
z = norm.ppf((0.5 + (0.95/2)))
z

1.959963984540054

### Obtendo $s$

In [27]:
s = 12

### Obtendo $e$

In [28]:
e = 5

### Obtendo $n$

## $$n = \frac{z^2 s^2 N}{z^2 s^2 + e^2(N-1)}$$

In [30]:
N = ((z**2) * (s**2) * (n)) / (((z**2) * (s**2)) + ((e**2) * (n - 1)))
int(N.round())

22

# Exercicio:
---
Um fabricante de farinha verificou que, em uma amostra aleatória formada por 200 sacos de 25 kg de um lote formado por 2.000 sacos, apresentou um desvio padrão amostral do peso igual a 480 g.

Considerando um erro máximo associado à média populacional igual a 0,3 kg e um nível de confiança igual a 95%, qual tamanho de amostra deveria ser selecionado para obtermos uma estimativa confiável do parâmetro populacional?



In [39]:
N = 2000

In [40]:
s = 480

In [41]:
e = 0.3 * 1000

In [42]:
z = norm.ppf((0.5 + (0.95/2)))
z

1.959963984540054

In [43]:
N = ((z**2) * (s**2) * (n)) / (((z**2) * (s**2)) + ((e**2) * (n - 1)))
int(N.round())

10