<a href="https://colab.research.google.com/github/JosenildoJunior/StatPyDataScience/blob/main/Testes_de_hip%C3%B3teses.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Estatística com Python: Um Guia para Estudos e Solução de Problemas**

Breve resumo:

O teste de hipóteses é um procedimento estatístico que permite tomar uma decisão entre duas ou mais hipóteses, utilizando os dados observados de um determinado experimento.

Quando utilizar:

- Sempre que se deseja testar uma hipótese sobre o mundo ao nosso redor.
- Sempre que se deseja tomar uma decisão informada com base em dados.

Exemplo:

- Um cientista pode usar um teste de hipóteses para testar a hipótese de que uma nova droga é eficaz no tratamento de uma determinada doença.

Cálculo:

O teste de hipóteses envolve a seguinte sequência de passos:

- Formular as hipóteses nula e alternativa.
- Escolher o nível de significância.
- Calcular o valor-p.
- Tomar uma decisão.

Hipóteses nula e alternativa:

- A hipótese nula é a hipótese que se deseja rejeitar. Ela geralmente afirma que não há diferença entre as populações ou que não há efeito do tratamento.

- A hipótese alternativa é a hipótese que se deseja aceitar se a hipótese nula for rejeitada. Ela geralmente afirma que há diferença entre as populações ou que há efeito do tratamento.

# **Teste de hipóteses Z**

O teste de hipóteses Z é um teste estatístico usado para comparar duas médias de populações. O teste é baseado na distribuição normal, que é uma distribuição de probabilidade contínua que é usada para modelar uma ampla variedade de dados.

O teste de hipóteses Z é realizado da seguinte forma:

- Formula-se uma hipótese nula (H0) e uma hipótese alternativa (H1). A hipótese nula é a hipótese de que as duas médias são iguais. A hipótese alternativa é a hipótese de que as duas médias são diferentes.

- Calcula-se a estatística do teste Z. A estatística do teste Z é uma medida da diferença entre as duas médias, padronizada pela variância da população.

- Calcula-se o valor p. O valor p é a probabilidade de se obter uma estatística do teste Z tão extrema ou mais extrema que a observada, assumindo que a hipótese nula é verdadeira.

- Decide-se se rejeita ou não a hipótese nula. Se o valor p for menor que o nível de significância, rejeita-se a hipótese nula. Se o valor p for maior ou igual ao nível de significância, não se rejeita a hipótese nula.

Para exemplificar esse teste, será necessária a importação de algumas bibliotecas. Dito isso, podemos partir para a importação.

In [1]:
# Manipulação de dados
import pandas as pd

# Álgebra linear
import numpy as np

# Biblioteca para o teste Z
from statsmodels.stats.weightstats import ztest

Agora que já importamos a biblioteca, vamos gerar os dados.

In [None]:
# Gerando dados fictícios
dados_originais = np.array([126. , 129.5, 133. , 133. , 136.5, 136.5, 140. , 140. , 140. ,
                            140. , 143.5, 143.5, 143.5, 143.5, 143.5, 143.5, 147. , 147. ,
                            147. , 147. , 147. , 147. , 147. , 150.5, 150.5, 150.5, 150.5,
                            150.5, 150.5, 150.5, 150.5, 154. , 154. , 154. , 154. , 154. ,
                            154. , 154. , 154. , 154. , 157.5, 157.5, 157.5, 157.5, 157.5,
                            157.5, 157.5, 157.5, 157.5, 157.5, 161. , 161. , 161. , 161. ,
                            161. , 161. , 161. , 161. , 161. , 161. , 164.5, 164.5, 164.5,
                            164.5, 164.5, 164.5, 164.5, 164.5, 164.5, 168. , 168. , 168. ,
                            168. , 168. , 168. , 168. , 168. , 171.5, 171.5, 171.5, 171.5,
                            171.5, 171.5, 171.5, 175. , 175. , 175. , 175. , 175. , 175. ,
                            178.5, 178.5, 178.5, 178.5, 182. , 182. , 185.5, 185.5, 189., 192.5])

# Gerando a segunda base de dados
dados_novos = dados_originais * 1.03

Com os dados gerados, podemos partir para a implementação da função.

Para que a implementação da função seja um sucesso, seguiremos os seguintes passos:

- Passaremos os dados originais.
- Passaremos os novos dados.
- 'value' é o valor da diferença entre as médias populacionais que queremos testar.
- 'alternative' especifica o tipo de teste que queremos executar. No caso, estamos executando um teste unidirecional para a direção maior, pois a média dos novos dados é maior que a média dos dados originais.

Vamos calcular as hipóteses nula (H0) e alternativa (H1). H0 será a média dos dados originais e H1 será a média dos novos dados.

In [None]:
# Calculando o H1
H1_media = dados_novos.mean()

# Calculando o H0
H0_media = dados_originais.mean()

Agora que já temos esses dados, podemos seguir em frente para a aplicação da fórmula.

In [None]:
# Aplicando a função
_, p = ztest(dados_originais, dados_novos, value = H1_media - H0_media, alternative='larger')

# Exibindo o valor de p
print(p)

0.9999993877283934


Como estamos do lado direito da distribuição, é necessário executarmos o seguinte cálculo. Utilizando-o, obtemos o valor, mas ainda seria necessário observar na tabela Z. Sendo assim, podemos seguir o seguinte passo:

In [None]:
# Calculando o valor final de p
p = 1 - p

Agora podemos definir o nível de significância (alpha)

Importante lembrar que: O valor alpha mais comumente usado é 0,05, que significa que estamos dispostos a correr um risco de 5% de rejeitarmos a hipótese nula quando ela é verdadeira.

In [None]:
# Definindo o alpha
alpha = 0.05

Agora vamos decidir se rejeitamos ou aceitamos a hipótese nula.

In [None]:
if p < alpha:
  print('Hipótese nula rejeitada: Média dos dados novos é maior que a média dos dados originais')
else:
  print('Não há evidência suficiente para rejeitar a hipótese nula')

Hipótese nula rejeitada: Média dos dados novos é maior que a média dos dados originais


Uma vez que obtivemos um valor de p menor que o valor de alpha, podemos concluir que a hipótese nula deve ser rejeitada. Isso significa que a hipótese alternativa deve ser aceita.

## **Exercício**

Testes de hipóteses podem ser realizados usando a estatística Z ou a estatística T da Distribuição T Student. A estatística T é recomendada quando o número de registros é pequeno (até 30 amostras). Abaixo, implemente uma base de dados com as alturas de 9 pessoas.

Depois, siga o seguinte roteiro:

- Crie uma nova variável com alturas de 9 pessoas, porém, com valores diferentes.
- Importe o pacote from scipy.stats import ttest_rel para realizar o teste de hipótese.
- Realize o teste de hipótese para **verificar se as distribuições são ou não diferentes.**

Obtendo os dados

In [6]:
# Dados originais
dados = np.array([149. , 160., 147., 189., 175., 168., 156., 160., 152.])

# Novos dados
novos_dados = dados * 1.02

Agora que temos os dados, precisamos importar a biblioteca. Vamos realizar a importação.

In [7]:
# Importando para distribuição T
from scipy.stats import ttest_rel

Com a biblioteca importada, podemos seguir adiante.

In [14]:
# Aplicando a função
_, p = ttest_rel(dados, novos_dados)

# Exibindo o valor de p
print(p)

4.072922493930298e-10


Essa função retorna o valor de p diretamente, sem a necessidade de realizar o cálculo de 1 - p. Portanto, podemos seguir adiante.

Podemos agora definir o nível de significância (alpha).

In [17]:
# Definindo o alpha
alpha = 0.01

Agora vamos decidir se rejeitamos ou aceitamos a hipótese nula.

In [18]:
if p <= alpha:
  print('Hipótese nula rejeitada')
else:
  print('Hipótese alternativa rejeitada')

Hipótese nula rejeitada


Com base nisso, podemos concluir que as duas bases de dados possuem distribuições diferentes.

# **Teste qui quadrado**

Breve resumo:

O teste qui-quadrado é um teste estatístico usado para comparar frequências observadas e esperadas. Ele é usado para testar hipóteses sobre a distribuição de dados categóricos.

Quando utilizar:

- Sempre que se deseja comparar frequências observadas e esperadas.
- Sempre que se deseja testar hipóteses sobre a distribuição de dados categóricos.

Exemplos:

- Um pesquisador pode usar o teste qui-quadrado para testar a hipótese de que a distribuição de gêneros de uma população é igual à distribuição de gêneros de uma amostra.

Para exemplificar esse teste, vamos começar importando a biblioteca para utilizarmos sua função.

In [20]:
# Biblioteca para o qui quadrado
from scipy.stats import chi2_contingency

Agora vamos gerar os dados que serão utilizados, lembrando que nosso objetivo é *confirmar que há uma diferença estatisticamente significativa entre os dados.*

In [21]:
# Gerando os dados
tabela = np.array([[30, 20], [22, 28]])

Com os dados gerados, podemos agora aplicar a função.

In [22]:
# Aplicando a função
chi2_contingency(tabela)

Chi2ContingencyResult(statistic=1.9631410256410255, pvalue=0.16117778944980238, dof=1, expected_freq=array([[26., 24.],
       [26., 24.]]))

É possível observar que essa função retorna diversos valores, mas o único que nos interessa nesse caso é o p-valor. Portanto, iremos armazenar apenas ele na variável p, seguindo o seguinte exemplo:

In [23]:
# Aplicando a função
_, p, _, _ = chi2_contingency(tabela)

# Exibindo o valor
print(p)

0.16117778944980238


Podemos agora definir o nível de significância (alpha)

In [24]:
# Definindo o alpha
alpha = 0.05

Agora vamos decidir se rejeitamos ou aceitamos a hipótese nula.

In [25]:
if p <= alpha:
  print('Hipótese nula rejeitada')
else:
  print('Hipótese alternativa rejeitada')

Hipótese alternativa rejeitada


Ao rejeitarmos a nossa hipótese alternativa, concluímos que não existe diferença estatisticamente significativa entre as distribuições.

# **Seleção de atributos com testes de hipóteses**

Breve resumo:

A seleção de atributos é uma tarefa de aprendizado de máquina que envolve a identificação dos atributos mais relevantes para um determinado problema. Os testes de hipóteses podem ser usados para selecionar atributos de uma forma que seja objetiva e baseada em dados.

Quando utilizar:

- Sempre que se deseja selecionar atributos para um modelo de aprendizado de máquina.
- Sempre que se deseja selecionar atributos de uma forma que seja objetiva e baseada em dados.

Exemplos:

Um cientista de dados pode usar a seleção de atributos com testes de hipóteses para selecionar os atributos mais relevantes para um modelo de classificação de imagens

Para exemplificação dessa seleção será necessario a importação de algumas bibliotecas

In [26]:
# Manipulação de dados
import pandas as pd

# Álgebra linear
import numpy as np

# Seleção de atributos
from sklearn.feature_selection import SelectFdr
from sklearn.feature_selection import chi2

# Modelo de Machine Learning
from sklearn.naive_bayes import GaussianNB

# Métricas de validação
from sklearn.metrics import accuracy_score

Com todas essas bibliotecas importadas podemos seguir adiante, para a importação dos dados

In [27]:
# Acesso ao drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [30]:
# Importando o dataset
df = pd.read_csv("/content/drive/MyDrive/Estatística para ciência de dados/ad.data", header=None)

In [31]:
# Observando os registros
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,1549,1550,1551,1552,1553,1554,1555,1556,1557,1558
0,125,125,1.0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,ad.
1,57,468,8.2105,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,ad.
2,33,230,6.9696,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,ad.
3,60,468,7.8,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,ad.
4,60,468,7.8,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,ad.


In [None]:
# Observando as dimensões
df.shape

Dividindo o conjunto de dados para estabelecer as variáveis preditoras e a variável de resposta.

In [41]:
# Separando os dados em X e Y

# Variaveis preditoras
X = df.drop(1558, axis = 1)

# Variavel resposta
y = df[1558]

## **Sem seleção**

In [44]:
# Criando o modelo
naive1 = GaussianNB()

# Treinando o modelo
naive1.fit(X, y)

# Realizando as predições
previsoes1 = naive1.predict(X)

# Medindo a ácuracia
accuracy_score(y, previsoes1)

0.7813357731015553