# 05 - Amostragem, Estimação, Inferência e Teste de Hipóteses

Nessa aula, iremos tratar dos seguintes conteúdos:
- Noções sobre Amostragem
- Terminologia
- Tipos de amostragem
- Métodos de Amostragem
- Tamanho amostral
- Níveis de confiança e significância
- Erro Inferencial e Intervalo de Confiança
- Cálculo do Tamanho Amostral
- Teste de Hipóteses
- Valor p
- Comparação entre duas médias

## 

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# função para calcular a probabilidade a partir do Z Score
import scipy.stats as st

## Exercícios

__1)__ Suponha que os pesos das sacas de soja de uma indústria alimentícia se distribuem aproximadamente como uma normal de desvio padrão populacional igual a 570 g. Selecionada uma amostra aleatória de 25 sacas de um lote específico, obteve-se um peso médio de 27.215 g. Construa um intervalo de confiança para a **média populacional** assumindo um **nível de significância de 10%**.

In [2]:
# Carregando as funções para distribuição normal do SciPy
from scipy.stats import norm

# Parametros
X = 27215              # media amostral
desvpad = 570         # desvio padrão populacional
alpha = 0.10          # nivel de significancia
conf = 1 - alpha      # nivel de confiança
n = 25                # tamanho da amostra

# Calculando a probabilidade
prob = conf + (alpha / 2)

# Calculando o Z-score para a probabilidade
z = norm.ppf(prob)
print("Z-score: ", np.round(z, 4))

# Definindo o erro inferencial
e = (z * desvpad) / np.sqrt(n)
print("Erro inferencial: ", np.round(e,4))


# Definindo o intervalo de confiança de duas formas
print("Intervalo de confiança pela fórmula: ", (X - e, X + e))
print("Intervalo de confiança usando o SciPy: ", norm.interval(conf, loc = X, scale = desvpad / np.sqrt(n)))

Z-score:  1.6449
Erro inferencial:  187.5133
Intervalo de confiança pela fórmula:  (27027.486686527533, 27402.513313472467)
Intervalo de confiança usando o SciPy:  (27027.486686527533, 27402.513313472467)


__2)__ Um estudo a respeito do rendimento mensal dos chefes de domicílios no Brasil, determinou que o __erro máximo em relação a média seja de R$\$$ 370,00__. Sabendo que o desvio padrão populacional deste grupo de trabalhadores é de **R$\$$ 2.516,28**. Para um __nível de confiança de 99%__, qual deve ser o tamanho da amostra de nosso estudo?

In [3]:
# parametros
desvpad = 2516.28 #desvio padrão
e = 370      #erro inferencial
conf = 0.99        # nivel de confiança
alpha = 1- conf    # nivel de significancia

# Calculando o Z-Score
z = norm.ppf(conf + (alpha / 2))

# Determinando o tamanho da amostra
n = ((z * desvpad) / e)**2

# Valor da amostra
print("Tamanho da amostra será: ", np.round(n, 0))

Tamanho da amostra será:  307.0


__3)__ Um fabricante de lajotas de cerâmica introduz um novo material em sua fabricação e acredita que aumentará a resistência média, que é de 206 kg. A resistência das lajotas tem distribuição normal com desvio padrão de 12 kg. Retira-se uma amostra de 30 lajotas, obtendo $\overline{X}_{obs}$ = 210 kg. Ao nível de 10%, pode o fabricante aceitar que a resistência média de suas lajotas tenha aumentado?

$H_0: \mu = 206 $<br>
$H_1: \mu > 206 $

### Resolução:

Vamos calcular o valor crítico para o teste e assim conseguir saber se aceitamos ou rejeitamos $H_{0}$:

$$ P\left(Z <\frac{\overline{X}_{c} - \mu}{\frac{\sigma}{\sqrt{n}}} | \mu =206 \right) = 1 - \alpha =  0.9 $$

In [4]:
# Calculo da Z score
z = st.norm.ppf(0.9)
print("Z Score para 90%: ", z)

# Parametros
mu = 206
sigma = 12
n = 30

# Valor critico
Xc = mu + (sigma/np.sqrt(n))*z
print("Valor crítico: ", Xc, " kg")

# Valor observado
Xobs = 210
print("Valor médio observado: ", Xobs, " kg")

# teste de Hipotese
print("Teste de Hipótese: ")
if(Xobs < Xc):
    print("Aceitamos H0")
else:
    print("Rejeitamos H0")

Z Score para 90%:  1.2815515655446004
Valor crítico:  208.80773880421935  kg
Valor médio observado:  210  kg
Teste de Hipótese: 
Rejeitamos H0


__4)__ Uma fábrica de automóveis anuncia que seus carros consomem, em média, 11 litros por 100 km, com desvio padrão de 0,8 litro por 100 km. Uma revista decide testar essa afirmação e analisa 35 carros dessa marca, obtendo 11,4 litros por 100 km, como consumo médio. Admitindo que o consumo tenha distribuição normal, ao nível de 5%, o que a revista concluirá sobre o anúncio da fábrica?

$H_0: \mu = 11$<br>
$H_1: \mu \neq 11$

### Resolução:

Precisamos primeiramente definir a região crítica para o teste de hipótese:

$\alpha$ = P(rejeitar $H_{0}$ | $H_{0}$ é verdadeira) = 0.05, ou seja:

$$ P\left(\overline{X} < \overline{X}_{c1} \cup \overline{X} > \overline{X}_{c2} | \mu = 11 \right) = 0.05 $$

<br>

Para o caso do teste bicaudal, temos que a probabilidade para cada um dos casos será igual a $\alpha/2$:

$$ P\left(\overline{X} < \overline{X}_{c1} | \mu = 11 \right) = 0.025 $$

$$ P\left(\overline{X} > \overline{X}_{c2} | \mu = 11 \right) = 0.025 $$

<br>

Por fim ajustando a probabilidade para o caso crítico 2:

$$ P\left(\overline{X} < \overline{X}_{c1} | \mu = 11 \right) = 0.025 $$

$$ P\left(\overline{X} < \overline{X}_{c2} | \mu = 11 \right) = 0.975 $$


In [5]:
# Define o alpha
alpha = 0.05

#Caso critico 1
print("Caso crítico 1")

# Z Score caso 1
z1 = st.norm.ppf(alpha/2)
print("Z Score caso crítico 1: ", z1)

# Parametros
mu = 11
sigma = 0.8
n = 35

# Valor critico 1
Xc1 = mu + (sigma/np.sqrt(n))*z1
print("Valor crítico 1: ", Xc1, " litros por 100 km")
print("==================================================")

#Caso critico 2
print("Caso crítico 2")

# Z Score caso 2
z2 = st.norm.ppf(1 - alpha/2)
print("Z Score caso crítico 2: ", z2)

# Valor critico 2
Xc2 = mu + (sigma/np.sqrt(n))*z2
print("Valor crítico 2: ", Xc2, " litros por 100 km")
print("==================================================")

# Valores observados
Xobs = 11.4
print("Valor médio observado: ", Xobs, " litros por 100 km")

# teste de Hipotese
print("Teste de Hipótese: ")
if(Xobs < Xc1 or Xobs > Xc2):
    print("Rejeitamos H0")
else:
    print("Aceitamos H0")

Caso crítico 1
Z Score caso crítico 1:  -1.9599639845400545
Valor crítico 1:  10.734964495896211  litros por 100 km
Caso crítico 2
Z Score caso crítico 2:  1.959963984540054
Valor crítico 2:  11.265035504103789  litros por 100 km
Valor médio observado:  11.4  litros por 100 km
Teste de Hipótese: 
Rejeitamos H0


__5)__ Os novos operários de uma empresa são treinados a operarem uma máquina, cujo tempo X (em horas) de aprendizado é anotado. Observou-se que X segue de perto a distribuição normal N(25; 100). Uma nova técnica de ensino, que deve melhorar o tempo de aprendizado, foi testada em 16 novos empregados, os quais apresentaram 20.5 horas como tempo médio de aprendizado. Usando o p-valor, você diria que a nova técnica é melhor que a anterior?

$H_0: \mu = 25$ horas<br>
$H_1: \mu < 25$ horas

$$ P\left(\overline{X} < 20.5 | \mu = 25\right) = P\left(\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}} < \frac{20.5 - \mu}{\frac{\sigma}{\sqrt{n}}}\right) = P\left(\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}} < \frac{20.5 - 25}{\frac{\sqrt{100}}{\sqrt{16}}}\right) = P(Z < -1,8)$$


In [6]:
# Parametros
Xobs = 20.5
mu = 25
sigma = np.sqrt(100)
n = 16

# Calculo do Z-score
z = (Xobs - mu)/(sigma/np.sqrt(n))

# Print do Z Score e da probabilidade
print('Z - Score: ', z)
print('Probabilidade: ', st.norm.cdf(z))

Z - Score:  -1.8
Probabilidade:  0.03593031911292579


Dado que o valor p < 0.05, temos forte evidência para rejeitar $H_{0}$, ou seja a metodologia nova aplicada é melhor.

## 