<a href="https://colab.research.google.com/github/JosenildoJunior/StatPyDataScience/blob/main/Testes_de_hip%C3%B3teses.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Estatística com Python: Um Guia para Estudos e Solução de Problemas**

Breve resumo:

O teste de hipóteses é um procedimento estatístico que permite tomar uma decisão entre duas ou mais hipóteses, utilizando os dados observados de um determinado experimento.

Quando utilizar:

- Sempre que se deseja testar uma hipótese sobre o mundo ao nosso redor.
- Sempre que se deseja tomar uma decisão informada com base em dados.

Exemplo:

- Um cientista pode usar um teste de hipóteses para testar a hipótese de que uma nova droga é eficaz no tratamento de uma determinada doença.

Cálculo:

O teste de hipóteses envolve a seguinte sequência de passos:

- Formular as hipóteses nula e alternativa.
- Escolher o nível de significância.
- Calcular o valor-p.
- Tomar uma decisão.

Hipóteses nula e alternativa:

- A hipótese nula é a hipótese que se deseja rejeitar. Ela geralmente afirma que não há diferença entre as populações ou que não há efeito do tratamento.

- A hipótese alternativa é a hipótese que se deseja aceitar se a hipótese nula for rejeitada. Ela geralmente afirma que há diferença entre as populações ou que há efeito do tratamento.

# **Teste de hipóteses Z**

O teste de hipóteses Z é um teste estatístico usado para comparar duas médias de populações. O teste é baseado na distribuição normal, que é uma distribuição de probabilidade contínua que é usada para modelar uma ampla variedade de dados.

O teste de hipóteses Z é realizado da seguinte forma:

- Formula-se uma hipótese nula (H0) e uma hipótese alternativa (H1). A hipótese nula é a hipótese de que as duas médias são iguais. A hipótese alternativa é a hipótese de que as duas médias são diferentes.

- Calcula-se a estatística do teste Z. A estatística do teste Z é uma medida da diferença entre as duas médias, padronizada pela variância da população.

- Calcula-se o valor p. O valor p é a probabilidade de se obter uma estatística do teste Z tão extrema ou mais extrema que a observada, assumindo que a hipótese nula é verdadeira.

- Decide-se se rejeita ou não a hipótese nula. Se o valor p for menor que o nível de significância, rejeita-se a hipótese nula. Se o valor p for maior ou igual ao nível de significância, não se rejeita a hipótese nula.

Para exemplificar esse teste, será necessária a importação de algumas bibliotecas. Dito isso, podemos partir para a importação.

In [1]:
# Manipulação de dados
import pandas as pd

# Álgebra linear
import numpy as np

# Biblioteca para o teste Z
from statsmodels.stats.weightstats import ztest

Agora que já importamos a biblioteca, vamos gerar os dados.

In [2]:
# Gerando dados fictícios
dados_originais = np.array([126. , 129.5, 133. , 133. , 136.5, 136.5, 140. , 140. , 140. ,
                            140. , 143.5, 143.5, 143.5, 143.5, 143.5, 143.5, 147. , 147. ,
                            147. , 147. , 147. , 147. , 147. , 150.5, 150.5, 150.5, 150.5,
                            150.5, 150.5, 150.5, 150.5, 154. , 154. , 154. , 154. , 154. ,
                            154. , 154. , 154. , 154. , 157.5, 157.5, 157.5, 157.5, 157.5,
                            157.5, 157.5, 157.5, 157.5, 157.5, 161. , 161. , 161. , 161. ,
                            161. , 161. , 161. , 161. , 161. , 161. , 164.5, 164.5, 164.5,
                            164.5, 164.5, 164.5, 164.5, 164.5, 164.5, 168. , 168. , 168. ,
                            168. , 168. , 168. , 168. , 168. , 171.5, 171.5, 171.5, 171.5,
                            171.5, 171.5, 171.5, 175. , 175. , 175. , 175. , 175. , 175. ,
                            178.5, 178.5, 178.5, 178.5, 182. , 182. , 185.5, 185.5, 189., 192.5])

# Gerando a segunda base de dados
dados_novos = dados_originais * 1.03

Com os dados gerados, podemos partir para a implementação da função.

Para que a implementação da função seja um sucesso, seguiremos os seguintes passos:

- Passaremos os dados originais.
- Passaremos os novos dados.
- 'value' é o valor da diferença entre as médias populacionais que queremos testar.
- 'alternative' especifica o tipo de teste que queremos executar. No caso, estamos executando um teste unidirecional para a direção maior, pois a média dos novos dados é maior que a média dos dados originais.

Vamos calcular as hipóteses nula (H0) e alternativa (H1). H0 será a média dos dados originais e H1 será a média dos novos dados.

In [3]:
# Calculando o H1
H1_media = dados_novos.mean()

# Calculando o H0
H0_media = dados_originais.mean()

Agora que já temos esses dados, podemos seguir em frente para a aplicação da fórmula.

In [4]:
# Aplicando a função
_, p = ztest(dados_originais, dados_novos, value = H1_media - H0_media, alternative='larger')

# Exibindo o valor de p
print(p)

0.9999993877283934


Como estamos do lado direito da distribuição, é necessário executarmos o seguinte cálculo. Utilizando-o, obtemos o valor, mas ainda seria necessário observar na tabela Z. Sendo assim, podemos seguir o seguinte passo:

In [5]:
# Calculando o valor final de p
p = 1 - p

Agora podemos definir o nível de significância (alpha)

In [6]:
# Definindo o alpha
alpha = 0.05

Agora vamos decidir se rejeitamos ou aceitamos a hipótese nula.

In [7]:
if p < alpha:
  print('Hipótese nula rejeitada: Média dos dados novos é maior que a média dos dados originais')
else:
  print('Não há evidência suficiente para rejeitar a hipótese nula')

Hipótese nula rejeitada: Média dos dados novos é maior que a média dos dados originais
