**D1AED: Análise Estatística para Ciência de Dados** <br/>
IFSP Campinas

Prof: Samuel Martins <br/><br/>

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License</a>.

In [1]:
import numpy as np

# Testes de Hipóteses - Paramétricos

<img src='./imgs/z-test_or_t-test.png' width=800 style='border: 1px solid gray'/>

<img src='./imgs/resumao.png' width=800 style='border: 1px solid gray'/>

## Problema 1: Refrigerantes
Uma fábrica produtos **refrigerantes em latas de 350 ml**. De vez em quando, há falhas no processo de envazamento o que resulta em latas com menos ou mais refrigerante do que o prometido. <br/>
Quando o volume médio ultrapassa os 350ml, a fábrica obtém prejuízos na produção.
Por outro lado, quando o volume médio fica abaixo de 350 ml, a fábrica pode ter problemas com fiscalização.

A fim de monitorar e garantir a qualidade de sua produção, a empresa frequentemente obtém amostras de **50 latas** para inspeção.
O departamento de controle de qualidade realiza então um **teste de hipótese** para avaliar se o maquinário está com defeito, assumindo um <b style='color: #ed7d31'>nível de significância de 5%</b>.

Ao analisar um dada amostra, a equipe de qualiidade observou um **volume médio de 352.56 ml** com **desvio padrão de 5.64 ml**.

É possível <b style='color: #ea4239'>rejeitar a hipótese</b> de que o **volume médio da produção é de 350ml**?<br/>
Ou seja, e possivel afirmar que o maquinário está com defeito? <br/><br/>

In [2]:
amostra = np.array([348.81, 358.24, 361.24, 354.95, 349.92, 346.63, 351.36, 344.48, 358.59, 354.27, 353.67, 353.97, 355.17, 344.79, 346.36, 361.34, 357.75, 343.83, 345.87, 351.77, 348.8 , 356.38, 354.78, 361.71, 352.67, 356.47, 361.12, 347.25, 343.91, 351.3 , 352.66, 354.06, 349.87, 351.58, 355.81, 357.11, 339.64, 350.73, 350.83, 354.94, 349.48, 357.81, 354.07, 344.8 , 341.21, 354.03, 366.14, 352.87, 357.03, 356.35])

In [3]:
media_populacao = 350
media_populacao

350

In [4]:
n = amostra.size  # tamanho da amostra
n

50

In [5]:
media_amostra = amostra.mean()
media_amostra

352.56839999999994

In [6]:
desvio_padrao_amostra = amostra.std()
desvio_padrao_amostra

5.640189840776635

### ➜ Solução _manual_

#### 1) Formular hipóteses

<span style='font-size: 14pt'>
$$
H_0: \mu = 350 \\
H_a: \mu \neq 350
$$
</span>

<img src='./imgs/teste-bicaudal.png' width=800 style='border: 1px solid gray'/>

#### 2) Escolher o Teste e Critérios adequados

**Teste escolhido:** Z-test com desvio padrão amostral.

In [7]:
nivel_significancia = 0.05
nivel_significancia

0.05

In [8]:
nivel_confianca = 1 - nivel_significancia
nivel_confianca

0.95

In [9]:
# computando os valores críticos do teste
from scipy.stats import norm

# valor crítico - z_alpha/2
z_inf = norm.ppf(nivel_significancia / 2)

# valor crítico - z_(1 - alpha/2)
z_sup = norm.ppf(1 - (nivel_significancia / 2))

# note que os valores são os mesmos, apenas com sinal trocado
print(f'z_inf = {z_inf}, z_sup = {z_sup}')

z_inf = -1.9599639845400545, z_sup = 1.959963984540054


#### 3) Executar o Teste

##### **3.1) Computando a estatística de teste**

In [10]:
z = (media_amostra - media_populacao) / (desvio_padrao_amostra / np.sqrt(n))

In [11]:
print(f'z-statistic = {z}')

z-statistic = 3.2199856885480487


##### **3.2) Computando o p-value**
Não precisaríamos fazer esta etapa, uma vez que, para o Z-test, apenas a estatística de teste é suficiente para tomarmos a decisão.

<img src='./imgs/p_value_teste_bicaudal.png' width=800 style='border: 1px solid gray'/>

In [12]:
p_value = 2 * norm.cdf(-z)

print(f'p_value = {p_value}')

p_value = 0.001281969965012119


In [13]:
# alternativamente
p_value = 2 * (1 - norm.cdf(z))

print(f'p_value = {p_value}')

p_value = 0.0012819699650121752


#### 4) Tomar uma decisão

##### **4.1) Usando a estatística de teste**

In [14]:
if z <= z_inf or z >= z_sup:
    print('Rejeitar H0')
else:
    print('Manter H0')

Rejeitar H0


##### **4.2) Usando o p-value**

In [15]:
if p_value <= nivel_significancia:
    print('Rejeitar H0')
else:
    print('Manter H0')

Rejeitar H0


### ➜ Usando o _ztest_ do statsmodels
https://www.statsmodels.org/dev/generated/statsmodels.stats.weightstats.ztest.html

In [16]:
from statsmodels.stats.weightstats import ztest

In [17]:
media_populacao

350

In [18]:
# atribuímos 0 para os graus de liberdade.
# Caso contrário, o cômputo do desvio padrão consideraria n-1

ztest(x1=amostra, value=media_populacao, alternative='two-sided', ddof=0)

(3.2199856885480487, 0.001281969965012119)

In [19]:
print(f'z-statistic computado manualmente = {z}')
print(f'p-value computado manualmente = {p_value}')

z-statistic computado manualmente = 3.2199856885480487
p-value computado manualmente = 0.0012819699650121752


### ➜ Usando o _DescrStatsW_ do statsmodels

https://www.statsmodels.org/stable/generated/statsmodels.stats.weightstats.DescrStatsW.html

In [20]:
from statsmodels.stats.weightstats import DescrStatsW

In [21]:
test = DescrStatsW(amostra)

In [22]:
# considera uma correção de 1 para obter graus de liberdade = n - 1
test.ztest_mean(value=media_populacao, alternative='two-sided')

(3.187623201974273, 0.0014344733245010698)