# Teste de hipóteses

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

In [2]:
from scipy.stats import t as t_student
from statsmodels.stats.weightstats import ztest
from statsmodels.stats.weightstats import DescrStatsW

## <font color=blue>Teste Unicaudal</font>
***

Trabalhamos até agora com o teste bicaldal, agora, vamos analisar um novo exemplo e aplicar os testes unicaldais. Tanto faz ser for **Unicaudal superior ou Unicaudal inferior**, a ideia é a mesma, só muda o local na cauda da distribuição.

Em resumo, o nível de confiança é usado para estimar a incerteza, enquando o nível de significância é usado para avaliar a evidência conta a hipótese nula.

## <font color='red'>Problema</font>

Um famoso fabricante de refrigerantes alega que uma lata de 350 ml de seu principal produto contém, **no máximo**, **37 gramas de açúcar**. Esta alegação nos leva a entender que a quantidade média de açúcar em uma lata de refrigerante deve ser **igual ou menor que 37 g**.

Um consumidor desconfiado e com conhecimentos em inferência estatística resolve testar a alegação do fabricante e seleciona, aleatóriamente, em um conjunto de estabelecimentos distintos, **uma amostra de 25 latas** do refrigerante em questão. Utilizando o equipamento correto o consumidor obteve as quantidades de açúcar em todas as 25 latas de sua amostra. 

**Assumindo que essa população se distribua aproximadamente como uma normal e considerando um nível de significância de 5%, é possível aceitar como válida a alegação do fabricante?**

### Construindo tabela $t$ de Student
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.t.html

In [3]:
# Quanto maior o grau de liberdade, mais essa tabela se aproxima de uma normal

import pandas as pd
from scipy.stats import t as t_student

tabela_t_student = pd.DataFrame(
    [],
    index = [i for i in range(1,31)],
    columns = [i / 100 for i in range(10, 0, -1)]
)

for index in tabela_t_student.index:
    for colum in tabela_t_student.columns:
        tabela_t_student.loc[index, colum] = t_student.ppf(1 -float(colum) / 2, index)

index = [('Graus de Liberdade (n - 1)', i) for i in range(1, 31)]
tabela_t_student.index = pd.MultiIndex.from_tuples(index)

columns = [("{0:0.3f}".format(i/ 100), "{0:0.3f}".format(i/ 100 / 2)) for i in range(10, 0, -1)]
tabela_t_student.columns = pd.MultiIndex.from_tuples(columns)

tabela_t_student.rename_axis(['Bicaudal', 'Unicaudal'], axis=1, inplace = True)

tabela_t_student

Unnamed: 0_level_0,Bicaudal,0.100,0.090,0.080,0.070,0.060,0.050,0.040,0.030,0.020,0.010
Unnamed: 0_level_1,Unicaudal,0.050,0.045,0.040,0.035,0.030,0.025,0.020,0.015,0.010,0.005
Graus de Liberdade (n - 1),1,6.313752,7.026366,7.915815,9.057887,10.578895,12.706205,15.894545,21.204949,31.820516,63.656741
Graus de Liberdade (n - 1),2,2.919986,3.103977,3.319764,3.578247,3.896425,4.302653,4.848732,5.642778,6.964557,9.924843
Graus de Liberdade (n - 1),3,2.353363,2.470807,2.605427,2.762599,2.95051,3.182446,3.481909,3.896046,4.540703,5.840909
Graus de Liberdade (n - 1),4,2.131847,2.2261,2.332873,2.455892,2.600762,2.776445,2.998528,3.29763,3.746947,4.604095
Graus de Liberdade (n - 1),5,2.015048,2.097837,2.190958,2.297392,2.421585,2.570582,2.756509,3.002875,3.36493,4.032143
Graus de Liberdade (n - 1),6,1.94318,2.019201,2.104306,2.201059,2.313263,2.446912,2.612242,2.828928,3.142668,3.707428
Graus de Liberdade (n - 1),7,1.894579,1.966153,2.046011,2.136453,2.240879,2.364624,2.516752,2.714573,2.997952,3.499483
Graus de Liberdade (n - 1),8,1.859548,1.927986,2.004152,2.090166,2.189155,2.306004,2.448985,2.633814,2.896459,3.355387
Graus de Liberdade (n - 1),9,1.833113,1.899222,1.972653,2.055395,2.150375,2.262157,2.398441,2.573804,2.821438,3.249836
Graus de Liberdade (n - 1),10,1.812461,1.876774,1.948099,2.028327,2.120234,2.228139,2.359315,2.527484,2.763769,3.169273


As células da tabela acima são valores de $t$ para uma área ou probabilidade na cauda superior da distribuição $t$.

<img src='https://raw.githubusercontent.com/claytontey/Images/master/h5.jpg' width=40%>

**Responda:** De acordo com nossa tabela, para um teste bicaudal, com nível de significância de **6%** e **5 graus** de liberdade, o valor de **t** seria?.

Para um teste unicaudal, com nível de significância de **5%** e **11 registros**, o valor de t seria igual a: 

>2.015048	

In [4]:
# Criando o dataset

amostra2 = [37.27, 36.42, 34.84, 34.60, 37.49, 
           36.53, 35.49, 36.90, 34.52, 37.30, 
           34.99, 36.55, 36.29, 36.06, 37.42, 
           34.47, 36.70, 35.86, 36.80, 36.92, 
           37.04, 36.39, 37.32, 36.64, 35.45]

In [5]:
amostra2 = pd.DataFrame(amostra2, columns=['Amostras'])
amostra2.head()

Unnamed: 0,Amostras
0,37.27
1,36.42
2,34.84
3,34.6
4,37.49


### <font color = 'orangered'>Obtendo a média 

In [6]:
m_amostra = amostra2.mean()[0]
m_amostra

36.2504

### <font color = 'orangered'>Obtendo o desvio-padrão

In [7]:
dp_amostra = amostra2.std()[0]
dp_amostra

0.9667535018469455

### <font color = 'orangered'>Dados do problema

In [8]:
media = 37
significancia = 0.05
confianca = 1 - significancia
n = 25
grau_de_liberdade = n -1 

### <font color = 'orangered'>Formulação das hipóteses $H_0$ e $H_1$

#### <font color='dodgerblue'>Lembre-se, a hipótese nula sempre contém a alegação de igualdade</font>

### $H_0: \mu \leq 37$

### $H_1: \mu > 37$

In [9]:
from scipy.stats import t as t_student

In [10]:
tabela_t_student[22:25]

Unnamed: 0_level_0,Bicaudal,0.100,0.090,0.080,0.070,0.060,0.050,0.040,0.030,0.020,0.010
Unnamed: 0_level_1,Unicaudal,0.050,0.045,0.040,0.035,0.030,0.025,0.020,0.015,0.010,0.005
Graus de Liberdade (n - 1),23,1.713872,1.769907,1.831567,1.900307,1.978249,2.068658,2.176958,2.313231,2.499867,2.807336
Graus de Liberdade (n - 1),24,1.710882,1.766675,1.828051,1.896457,1.973994,2.063899,2.171545,2.306913,2.492159,2.79694
Graus de Liberdade (n - 1),25,1.708141,1.763711,1.824828,1.892928,1.970095,2.059539,2.166587,2.30113,2.485107,2.787436


><font color = 'Deeppink'>Como o teste é unicaudal, o nível de significância é de 5% e o número de amostras 25 (graus de liberdade = 24) o valor será de 1.71088</font>

### <font color = 'orangered'>Fixação da significância do teste ($\alpha$)

<img src='https://raw.githubusercontent.com/claytontey/Images/master/h6.jpg' width=40%>

### <font color = 'orangered'>Área de aceitação

In [11]:
t_alpha = t_student.ppf(confianca, grau_de_liberdade)
t_alpha

1.7108820799094275

### <font color = 'orangered'>Cálculo da estatística-teste e verificação desse valor com as áreas de aceitação e rejeição do teste

# $$t = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}}$$

In [12]:
# Estou rejeitando a H0(nula) de que a média = 300 ao nível de significância de 5%

t = (m_amostra - media) / (dp_amostra / np.sqrt(n))
t

-3.876893119952081

><font color = 'Deeppink'>Como o valor é -3.88 notamos que esse valor encontra-se dentra da área de aceitação de H0.</font>

<img src='https://raw.githubusercontent.com/claytontey/Images/master/h7.jpg' width=20%>

#### <font color='dodgerblue'>Regras de rejeição de $H_0$</font>

#### Valor crítico $z$:
Rejeitar se $z \leq -z_\alpha$

Rejeitar se $z \geq z_\alpha$

Rejeitar se $z \leq -z_{\alpha/2}$ ou se $z \geq z_{\alpha/2}$

#### Valor crítico $t$:
Rejeitar se $t \leq -t_\alpha$

Rejeitar se $t \geq t_\alpha$

Rejeitar se $t \leq -t_{\alpha/2}$ ou se $t \geq t_{\alpha/2}$

#### Valor $p$:
Rejeitar se $p\_value \leq \alpha$

### <font color = 'orangered'>Teste de rejeição de t

In [13]:
t >= t_alpha

False

#### <font color='dodgerblue'>Critério do $p-valor$</font>

- Teste Bicaudal
Rejeitar $H_0$ se o valor $p\leq\alpha$

In [14]:
p_valor = t_student.sf(t, df = 24)
p_valor

0.9996406170303819

In [15]:
p_valor <= significancia

False

><font color='dodgerblue'>Podemos concluir que com um nível de confiança de 95% não podemos rejeitar $H_0$ ou seja, a alegação do fabricante é verdadeira. </font>

## <font color = 'Deeppink'>Vamos fazer um exercício

<font color = 'Deeppink'>A empresa Limpa Esgoto garante ser capaz de realizar o tratamento de esgoto e obter, no máximo, 150 g de impurezas para cada mil litros de esgoto tratado. Vinte amostras de mil litros de esgoto apresentaram, em média, 230 g de impurezas e desvio padrão amostral igual a 90 g.

<font color = 'Deeppink'>Assumindo alfa igual a 5% e população normalmente distribuída, seria possível discordar da empresa Limpa Esgoto? Assinale a alternativa que apresenta a estatística de teste e a decisão correta do teste.

<font color = 'darkolivegreen'>**Hipótese nula** = a média amostral e a média populacional sao iguais com nível de 5% de significância?

In [16]:
n = 20
media_populacional = 150
media_amostral = 230
desvio_amostral = 90
significancia = 0.05

t_exercicio = (media_amostral - media_populacional) / (desvio_amostral / np.sqrt(n))
t_exercicio

3.9752319599996264

><font color = 'darkolivegreen'>O valor de 3.98 indica a posição de t para o meu conjunto de dados.

In [17]:
grau_de_liberdade = 19
confianca = 1 - significancia

t_alpha = t_student.ppf(confianca, grau_de_liberdade)
t_alpha

1.729132811521367

><font color = 'darkolivegreen'>Já o valor de 1.73 $t_\alpha$ é o valor máximo da região de aceitação, ou seja, valores maiores que 1.73 fazem parte da área de rejeição do gráfico.

In [18]:
t_exercicio <= t_alpha

False

><font color = 'darkolivegreen'>O valor de t está dentro da área de **rejeição**, portanto a hipótese nula $(H_0)$ deve ser **rejeitada**. A alegação da empresa não é verdadeira.

### <font color = 'darkolivegreen'>Extras

<font color = 'darkolivegreen'>Considerando o nível de significância $\alpha$ de 5%, qual seriam os valores mínimo e máximo aceitáveis de impurezas?

In [19]:
x = 150 + ((desvio_amostral / np.sqrt(n)) * t_alpha)
x

184.79812657818397

In [20]:
x = 150 - ((desvio_amostral / np.sqrt(n)) * t_alpha)
x

115.20187342181603

><font color = 'darkolivegreen'>Para que a hipótese nula não seja rejeitada, o valores de t mínimo e máximo devem ser 115.20 e 184.80, respectivamente.

In [21]:
t

-3.876893119952081

In [22]:
p_valor = t_student.sf(t, df = 24)
p_valor

0.9996406170303819

In [23]:
p_valor <= significancia

False

### <font color ='orangered'>Aplicando p-valor (t test)</font>

<font color ='orangered'>Utilizando DescrStatsW para apresentar os valores

In [24]:
from statsmodels.stats.weightstats import DescrStatsW

In [25]:
test = DescrStatsW(amostra2)
test.ttest_mean(value=media, alternative='larger')

(array([-3.87689312]), array([0.99964062]), 24.0)

In [26]:
t, p, df = test.ttest_mean(value = media, alternative='larger') # alternative='larger' = unicaudal superior
print('t_value = ', round(t[0],4))
print('p_value = ', round(p[0], 4))
print('G_liberdade = ', df)

t_value =  -3.8769
p_value =  0.9996
G_liberdade =  24.0


><font color = 'Deeppink'>Não podemos rejeitar H0

## <font color = 'Deeppink'>Exercício

<font color = 'Deeppink'>A pizzaria Muito Queijo alega que a quantidade de queijo em suas pizzas tamanho família é de, no mínimo, 350 g. Uma amostra de 35 pizzas tamanho família revelou uma média de 330 g de queijo por pizza. O desvio padrão amostral foi de 80 g.

<font color = 'Deeppink'>Assumindo alfa igual a 5% e população normalmente distribuída, seria possível discordar da alegação da pizzaria? Assinale a alternativa que apresenta a estatística de teste e a decisão correta do teste.

In [27]:
from scipy.stats import norm
import numpy as np

n = 35
media_pop = 350
media_amostral = 330
desvio_amostral = 80
significancia = 0.05
confianca = 1 - significancia

z_alpha = norm.ppf(confianca)
z_alpha

1.6448536269514722

In [28]:
z = (media_amostral - media_pop) / (desvio_amostral / np.sqrt(n))
z

-1.479019945774904

In [29]:
print('z(alpha) =', round(z_alpha, 3))
print('z =', round(z, 3))
if(z <= -z_alpha):
    print('Rejeitar H0')
else:
    print('Aceitar H0')

z(alpha) = 1.645
z = -1.479
Aceitar H0


><font color = 'Deeppink'>Ao nível de confiança de 95%, não podemos rejeitar a hipótese de que as pizzas da pizzaria Muito Queijo têm pelo menos 350 g de queijo.

In [30]:
t_exercicio = (media_amostral - media_pop) / (desvio_amostral / np.sqrt(n))
t_exercicio

-1.479019945774904

In [31]:
grau_de_liberdade = 34
significancia = 0.05
confianca = 1 - significancia

t_alpha = t_student.ppf(confianca, grau_de_liberdade)
t_alpha

1.6909242507706543

In [32]:
p_valor = t_student.sf(t_exercicio, df = 34)
p_valor

0.9258294772641595

## <font color=green>3.4 Testes para Duas Amostras</font>
***

## <font color='red'>Problema</font>


Em nosso dataset temos os rendimento dos chefes de domicílio obtidos da Pesquisa Nacional por Amostra de Domicílios - PNAD no ano de 2015. Um problema bastante conhecido em nosso país diz respeito a desigualdade de renda, principalmente entre homens e mulheres.

Duas amostras aleatórias, uma de **500 homens** e outra com **500 mulheres**, foram selecionadas em nosso dataset. Com o objetivo de comprovar tal desigualdade, **teste a igualdade das médias** entre estas duas amostras com um nível de **significância de 1%**.

In [33]:
df = pd.read_csv('/home/hub/git-pessoal/Aulas_git_Ai2/9 - Estatistica/dados.csv')

### <font color = 'Deeppink'>Criando as amostras aleatórias

In [34]:
amostra_h = df.query('Sexo == 0').sample(n = 500, random_state = 101).Renda
amostra_h

26241     300
65579    1000
58984    4000
65931    5000
25501     300
         ... 
25494     220
1452      600
29454     788
5289     1750
54618    7000
Name: Renda, Length: 500, dtype: int64

In [35]:
amostra_m = df.query('Sexo == 1').sample(n = 500, random_state = 101).Renda
amostra_m

10179     788
43943    1200
75223    6000
33243    1000
5189      788
         ... 
7383     1000
70775     400
56737    2000
35947     200
47913    1600
Name: Renda, Length: 500, dtype: int64

### <font color = 'Deeppink'>Extraindo informações das amostras

In [36]:
n_homens = 500
n_mulheres = 500
signif = 0.01
confidence = 1 - signif

In [37]:
media_h = amostra_h.mean()
media_h

2142.608

In [38]:
media_m = amostra_m.mean()
media_m

1357.528

In [39]:
desv_h = amostra_h.std()
desv_h

2548.0508024998717

In [40]:
desv_m = amostra_m.std()
desv_m

1569.901190748458

#### <font color = 'Deeppink'> **Hipótese nula:** A média das rendas dos homens é menor que a das mulheres ($H_0$: $\mu_1$ <= $\mu_2\$) ao nível de 99% de confiança?</font>

$\mu_1 \Rightarrow$ Média das rendas dos chefes de domicílios do sexo masculino

$\mu_2 \Rightarrow$ Média das rendas dos chefes de domicílios do sexo feminino

$
\begin{cases}
H_0: \mu_1 \leq \mu_2\\
H_1: \mu_1 > \mu_2
\end{cases}
$

ou

$
\begin{cases}
H_0: \mu_1 -\mu_2 \leq 0\\
H_1: \mu_1 -\mu_2 > 0
\end{cases}
$

><font color = 'Deeppink'>Como a hipótese nula será avaliar uma diferença faremos um teste unicaudal e como o valor calculado deve ser menor que o proposto, estamos avaliando o limite superior.

In [41]:
# Limite máximo aceitavel, maior que isso a hipótese nula será rejeitada.
z_alpha = norm.ppf(confidence)
z_alpha

2.3263478740408408

### <font color = 'Deeppink'>Calculando $z$

Cálculo da estatística-teste e verificação desse valor com as áreas de aceitação e rejeição do teste

$$z = \frac{(\bar{x_1} - \bar{x_2})-D_0}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}$$

In [42]:
d = 0 # diferença entre as medias amostrais 

z = ((media_h - media_m) - d) / np.sqrt((desv_h **2 / n_homens) + (desv_m ** 2 / n_mulheres))
z

5.8656200577647555

In [43]:
z >= z_alpha

True

><font color = 'Deeppink'>**Como a hipótese nula foi rejeitada, podemos dizer que a média das rendas entre homens e mulheres não são iguais ao nível de 99% de confiança.**</font>

## <font color = 'Deeppink'>Exercício: Testando uma nova linha de shampoos

<font color = 'Deeppink'>Um fabricante de cosméticos afirma que a adição de um novo composto químico em sua linha de shampoos consegue promover em mais de 2 centímetros o crescimento dos fios de cabelo em um período de 60 dias. Duas amostras de pessoas foram selecionadas e testadas, uma utilizando o shampoo novo (com o composto) e a outra com o shampoo antigo (sem o composto).

<font color = 'Deeppink'>Os resultados (crescimento dos fios de cabelo em centímetros) podem ser verificados na tabela abaixo:

In [104]:
shampoo_Novo = pd.Series([3.4, 4.9, 2.8, 5.5, 3.7, 2.5, 4.3, 4.6, 3.7, 3.4])
shampoo_Antigo = pd.Series([0.3, 1.2, 1.2, 1.7, 1.1, 0.6, 1.2, 1.5, 0.5, 0.7])

<font color = 'Deeppink'>Assumindo um nível de confiança de 95% e considerando que as populações se distribuem como uma normal, podemos acreditar na afirmação do fabricante do shampoo? Assinale a alternativa que apresenta a estatística de teste e a decisão correta do teste.

<font color = 'Deeppink'>Um pouco mais de teoria: como se trata de um problema um pouco diferente do apresentado em nossa aula, vamos esclarecer alguns pontos para ajudar na solução:

<font color = 'Deeppink'>1) Em testes entre duas amostras, quando realizamos a escolha da distribuição amostral adequada (passo 2) e perguntamos se n ≥ 30, temos que considerar que n = n1 + n2, onde n1 é o tamanho da primeira amostra e n2 o tamanho da segunda;

<font color = 'Deeppink'>2) Quando n1 + n2 ≥ 30, utilizamos z (normal), e quando n1 + n2 < 30, σ não for conhecido e as populações forem normalmente distribuídas, utilizamos t (t-Student);</font>

<font color = 'Deeppink'>3) Quando utilizamos a tabela t de Student, em teste de duas amostras, os graus de liberdade são obtidos da seguinte forma: n1 + n2 - 2;

<font color = 'Deeppink'>4) Quando o problema nos pergunta se podemos acreditar na afirmação do fabricante, está nos indicando o que devemos testar, ou seja, a nossa hipótese alternativa (H1), que no caso é:

H1 = u1 - u2 > 2
    
Onde:

μ1 = Crescimento médio dos cabelos com o uso do novo shampoo
    
μ2 = Crescimento médio dos cabelos com o uso do shampoo antigo.
    
5) Em nosso próximo vídeo, utilizaremos o ztest_ind() para solucionar problemas como este. Um teste similar ao ztest_ind(), que utiliza a distribuição t de Student, é o ttest_ind(). Aqui, você será redirecionado para a documentação. Observe que o ttest_ind() retorna a estatística de teste, o p-valor e também os graus de liberdade.

In [105]:
pop_mean = 2.0
pop_mean

2.0

In [106]:
antigo_mean = shampoo_Antigo.mean()
antigo_mean

1.0

In [107]:
novo_mean = shampoo_Novo.mean()
novo_mean

3.88

In [108]:
antigo_std = shampoo_Antigo.std()
antigo_std

0.4546060565661952

In [109]:
novo_std = shampoo_Novo.std()
novo_std

0.9402127418834527

Hipótese-nula: Assumindo um nível de confiança de 95% e considerando que as populações se distribuem como uma normal, podemos acreditar na afirmação do fabricante do shampoo? Assinale a alternativa que apresenta a estatística de teste e a decisão correta do teste.

In [110]:
significancia = 0.05
confianca = 1 - significancia

In [111]:
n_total = 20
n_novo = 10
n_antigo = 10
D_0 = 2

In [116]:
graus_de_liberdade = n_novo + n_antigo - 2

t_alpha = t_student.ppf(confianca, grau_de_liberdade)
print('t =', round(t_alpha, 4))

t = 1.7341


In [115]:
t_exercicio = ((novo_mean - antigo_mean) - D_0) / (np.sqrt((antigo_std ** 2 / n_novo) + (novo_std ** 2 / n_antigo)))
print('t =', round(t_exercicio, 4))

t = 2.6646


In [117]:
if(t_exercicio >= t_alpha):
    print('Rejeitar H0')
else:
    print('Aceitar H0')

Rejeitar H0


><font color = 'Deeppink'>t = 2,6646. Rejeitar H0, ou seja, a alegação do fabricante é verdadeira.

### <font color = 'dodgerblue'>Resolvendo o exercício anterior com DescrStatsW

In [118]:
from statsmodels.stats.weightstats import DescrStatsW, CompareMeans

In [119]:
test_novo = DescrStatsW(shampoo_Novo)
test_antigo = DescrStatsW(shampoo_Antigo)
test_A = test_novo.get_compare(test_antigo)

In [123]:
t, p_valor, df = test_A.ttest_ind(alternative='larger', value=2)

print('t =', round(t, 4))
print('p-valor =', round(p_valor, 4))
print('graus de liberdade =', df)

t = 2.6646
p-valor = 0.0079
graus de liberdade = 18.0


In [122]:
if(p_valor <= significancia):
    print('Rejeitar H0')
else:
    print('Aceitar H0')

Rejeitar H0


>Outra maneira de resolver este problema seria pelo CompareMeans

In [124]:
test_B = CompareMeans(test_novo, test_antigo)

In [125]:
z, p_valor = test_B.ztest_ind(alternative='larger', value=0)
p_valor

1.3836322946823993e-18

In [126]:
p_valor <= significancia

True