### Teste de hipótese para duas amostras

> Sabemos que o teste de hipótese para duas amostras é uma técnica estatística que permite comparar se há diferença significativa entre as médias de duas amostras, tendo como passos básicos na condução desses testes os seguintes parâmetros:

> - Formule a hipótese nula (H0) e a hipótese alternativa (Ha). A hipótese nula é geralmente que as médias das duas amostras são iguais. A hipótese alternativa é geralmente que as médias são diferentes.

> - Escolha um nível de significância (α), que é o valor máximo que você está disposto a aceitar como chance de um erro tipo I (rejeição da hipótese nula quando ela é verdadeira). O valor padrão é geralmente 0,05.

> - Calcule o teste-t (ou uma outra medida apropriada, dependendo da distribuição dos dados) e o p-valor. O p-valor é a probabilidade de obter um valor t tão extremo ou mais extremo do que o valor observado, caso a hipótese nula seja verdadeira.

> - Compare o p-valor com o nível de significância (α). Se o p-valor for menor que α, rejeite a hipótese nula. Caso contrário, não há evidência suficiente para rejeitar a hipótese nula.

> - Conclua o teste interpretando o resultado e indicando se há ou não diferença significativa entre as médias das duas amostras.

> Lembre-se de que um teste de hipótese para duas amostras não prova que as médias são diferentes, mas apenas indica se há ou não evidência suficiente para rejeitar a hipótese nula. Além disso, é importante levar em consideração outros fatores, como a qualidade e representatividade das amostras, para chegar a conclusões adequadas.

## <font color='red'>Exercícios</font>


### Vamos agora colocar em prática o conteúdo que vímos até agora em alguns problemas que poderíamos encontrar em nosso cotidiano.

#### <font color='blue'>Exercício 1</font>

> Crie um exemplo em Python de como realizar um teste T (t-test) para comparar duas amostras de dados para verificar se há diferença significativa entre elas.

In [12]:
import pandas as pd
import numpy as np
from scipy.stats import t as t_student
from scipy import stats

In [13]:
sample1 = np.random.random((10,))
sample1

array([0.06524203, 0.52932765, 0.30623825, 0.17721011, 0.33628157,
       0.83511427, 0.89407114, 0.55492252, 0.92976866, 0.1425082 ])

In [14]:
sample2 = np.random.random((10,))
sample2

array([0.71193623, 0.84622906, 0.88361798, 0.43075782, 0.41788626,
       0.92714865, 0.82916459, 0.80628747, 0.48530297, 0.64039928])

### <font color = 'Deeppink'>A função stats.ttest_ind possui como hipótese nula que duas amostras independentes possuem médias idênticas. Isso significa que faremos um teste bicaudal.

In [15]:
t= stats.ttest_ind(sample1, sample2, equal_var = False)
t

Ttest_indResult(statistic=-1.8567558301606808, pvalue=0.08345816607956968)

### <font color = 'Deeppink'>Supondo um nível de confiança de 95% temos:

In [16]:
confidence = 1 - 0.05
df = 19
t_alpha = t_student.ppf(confidence, df)
t_alpha

1.729132811521367

### <font color = 'deeppink'>Teste de rejeição de t

In [20]:
t[0] <= (-t_alpha/2)

True

### <font color = 'deeppink'>Conclusão: Rejeitamos a hipótese nula de que as médias são idênticas com 95% de confiança.

#### <font color='blue'>Exercício 2</font>

> Baseado nos arrays apresentados abaixo, desenvolva um exemplo em Python de como calcular e plotar a correlação entre essas duas variáveis:
>
> data = {'var1': [1, 2, 3, 4, 5],
>        'var2': [5, 4, 3, 2, 1]}
>

#### <font color='blue'>Exercício 3</font>


> Apresente um exemplo em Python de como realizar um teste de hipótese usando a biblioteca scipy:
>

#### <font color='blue'>Exercício 4</font>

> Um fabricante de farinha afirma que a quantidade média de farinha nas embalagens de seu principal produto é de **500 g**. Um teste de pesagem em **30 embalagens** amostradas ao acaso mostrou um peso médio igual à **485 g**. Estudos anteriores afirmam que a distribuição dos pesos segue uma normal e que o desvio padrão populacional é igual a **20 g**. Considerando um nível de significância igual a **5%**, responda as seguintes questões:

> 1) Qual a hipótese nula a ser testada?
>
> 2) Qual o valor da estatística de teste?
>
> 3) Qual a conclusão do teste?

#### <font color='blue'>Exercício 5</font>

> A empresa SAAE garante ser capaz de realizar o tratamento de esgoto e obter, no máximo, **150 g** de impurezas para cada mil litros de esgoto tratado. Vinte amostras de mil litros de esgoto apresentaram, em média, **230 g** de impurezas e desvio padrão amostral igual a **90 g**.
>
> Assumindo alfa igual a **5%** e população normalmente distribuída, seria possível discordar da empresa SAAE? 
> Apresente o código que atesta o resultado dessa hipótese.

#### <font color='blue'>Exercício 6</font>

> A pizzaria Pizza da Mama alega que a quantidade de queijo em suas pizzas tamanho família é de, no mínimo, **350 g**. Uma amostra de **35 pizzas** tamanho família revelou uma **média de 330 g** de queijo por pizza. O desvio padrão **amostral** foi de 80 g.
>
> Assumindo alfa igual a **5%** e população normalmente distribuída, seria possível discordar da alegação da pizzaria? Assinale a alternativa que apresenta a estatística de teste e a decisão correta do teste.

#### <font color='blue'>Exercício 7</font>


> Baseado nos exemplos já visto, temos em nosso dataset os rendimento dos chefes de domicílio obtidos da Pesquisa Nacional por Amostra de Domicílios - PNAD no ano de 2015. Um problema bastante conhecido em nosso país diz respeito a desigualdade de renda, principalmente entre homens e mulheres.

> Duas amostras aleatórias, uma de **500 homens** e outra com **500 mulheres**, foram selecionadas em nosso dataset. Com o objetivo de comprovar tal desigualdade, **teste a igualdade das médias** entre estas duas amostras com um nível de **significância de 1%**.

#### <font color='blue'>Exercício 8</font>

 
> O número de pontos de um exame de inglês tem sido historicamente ao redor de **80**. Sorteamos **10 estudantes** que fizeram recentemente esse exame e observamos as notas: 65, 74, 78, 86, 59, 84, 75, 72, 81 e 83. 
> Especialistas desconfiam que a média diminuiu e desejam testar essa afirmação através de um teste de hipóteses, com nível de significância de **5%**. Fazendo as suposições necessárias, apresente:

> - Qual seria a conclusão do teste? 
> - Quais suposições serão necessárias para a realização do teste?
> - Qual hipótese iremos apresentar como resultado?

#### <font color='blue'>Exercício 9</font>


> A vida média de uma amostra de **100 lâmpadas** de certa marca é de **1615 horas**. Por similiariadade com outros processos de fabricação, supomos o desvio padrão igual a **120 horas**. 

> Utilizando-se um nível de significância igual a **5%**, desejamos testar se a duração média de todas as lâmpadas dessa marca é igual ou é diferente de **1600 horas**. Qual a conclusão podemos tirar após encontrarmos os resultados?

#### <font color='blue'>Exercício 10</font>

> Em uma análise, um pesquisador está realizando um teste para a média e obteve nível descritivo igual a
0,035. Baseado neste resultado, ele aceitará a hipótese nula para níveis de significância superiores ou inferioes a 0,035? Justifique.