<a href="https://colab.research.google.com/github/jessicafalcundes/estatisticas-com-python-exercicios/blob/master/exercicios_teste_de_hipotese.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Estatística - Teste de Hipóteses

Considerando a base de dados `experimento_teste_ab.csv`, responda as questões abaixo:

1. Qual dos cenários tem a maior taxa de conversão?

In [2]:
import pandas as pd

# Carregar os dados
df = pd.read_csv("experimento_teste_ab.csv")

# Calcular a taxa de conversão para cada cenário
taxa_conversao = df.groupby("Versão_Página")["Conversões"].mean()

# Exibir a maior taxa de conversão
print("Taxa de conversão por cenário:")
print(taxa_conversao)

Taxa de conversão por cenário:
Versão_Página
A    0.105
B    0.125
Name: Conversões, dtype: float64


2. Calcule qual o tamanho da amostra necessária para o desenvolvimento de um teste A/B, seguindo os seguintes critérios:  
   a. O cenário A, da base, como o inicial, que funciona hoje.  
   b. Considere 95% de confiança de que o efeito na conversão não foi aleatório com um nível de significância de 5% (alpha = 0,05).  
   c. Também considere 80% de certeza conseguir capturar o efeito da nova abordagem.  
   d. O aumento para 10% de conversão.

In [3]:
from statsmodels.stats.power import NormalIndPower
from statsmodels.stats.proportion import proportion_effectsize

# Definir os parâmetros do teste
alpha = 0.05  # Nível de significância
power = 0.8  # Poder do teste
p1 = taxa_conversao["A"]  # Taxa de conversão atual
p2 = 0.10  # Nova taxa de conversão desejada
effect_size = proportion_effectsize(p1, p2)

# Calcular tamanho da amostra
analysis = NormalIndPower()
n_amostra = analysis.solve_power(effect_size, alpha=alpha, power=power, alternative="larger")

print(f"Tamanho necessário da amostra para o teste A/B: {int(n_amostra)} visitantes por grupo")

Tamanho necessário da amostra para o teste A/B: 45494 visitantes por grupo


Verifique a base `pacientes.csv`, os dados são fictícios. A base sintetiza uma base de dados de um hospital que trata de pacientes com problemas cardíacos. Considere a base como a população, portanto as estatísticas da população são conhecidas. Responda as perguntas abaixo:

3. Considerando uma amostra de 45 números que representam o index do dataframe:

   índices = ([909, 751, 402, 400, 726, 39, 184, 269, 255, 769, 209, 715, 677, 381, 793, 697, 89, 280, 232, 756, 358, 36, 439, 768, 967, 699, 473, 222, 89, 639, 883, 558, 757, 84, 907, 895, 217, 224, 311, 348, 146, 505, 273, 957, 362])

   Considerando essa amostra, é possível dizer que a idade média das pessoas com problemas cardíacos é maior que 50 anos? Nível de significância igual a 5%.

In [4]:
import pandas as pd
import scipy.stats as stats

# Carregar os dados
df = pd.read_csv("pacientes.csv")

# Definir amostra
indices = [909, 751, 402, 400, 726, 39, 184, 269, 255, 769, 209, 715, 677, 381, 793, 697, 89, 280, 232, 756, 358, 36, 439, 768, 967, 699, 473, 222, 89, 639, 883, 558, 757, 84, 907, 895, 217, 224, 311, 348, 146, 505, 273, 957, 362]
amostra_idade = df.loc[indices, "Idade"]

# Teste t para média maior que 50 anos
t_stat, p_valor = stats.ttest_1samp(amostra_idade, 50)

print(f"Teste T: estatística={t_stat:.4f}, p-valor={p_valor:.4f}")

# Verificar se rejeitamos H0
if p_valor < 0.05:
    print("Rejeitamos H0: A idade média da amostra é estatisticamente maior que 50 anos.")
else:
    print("Não rejeitamos H0: Não há evidências suficientes para afirmar que a idade média da amostra é maior que 50 anos.")

Teste T: estatística=0.0523, p-valor=0.9585
Não rejeitamos H0: Não há evidências suficientes para afirmar que a idade média da amostra é maior que 50 anos.


4. Queremos entender que tipo de amostra estamos lidando se dividirmos os conjuntos em 2, sendo um com pessoas que têm condições de saúde adicionais e o outro com pessoas saudáveis. Seria dependente ou independente?

Resposta: Se as amostras forem de pacientes que compartilham características ou são pareados de alguma maneira, seriam dependentes. Caso contrário, se os grupos forem formados aleatoriamente, são independentes. Aqui, pacientes com condições adicionais de saúde e pacientes saudáveis são grupos independentes.

5. Agora considere um conjunto de pessoas aleatórias que representam o index do dataframe:

   índices = ([690, 894, 67, 201, 364, 19, 60, 319, 588, 643, 855, 623, 530, 174, 105, 693, 6, 462, 973, 607, 811, 346, 354, 966, 943, 372])

   Podemos dizer que a pressão arterial média para pacientes com condições de saúde adicionais é igual à pressão arterial média para pacientes sem condições adicionais de saúde? Considere o nível de significância a 6%.

In [5]:
# Definir nova amostra
indices_aleatorios = [690, 894, 67, 201, 364, 19, 60, 319, 588, 643, 855, 623, 530, 174, 105, 693, 6, 462, 973, 607, 811, 346, 354, 966, 943, 372]
amostra_aleatoria = df.loc[indices_aleatorios]

# Separar grupos
grupo_saude = amostra_aleatoria[amostra_aleatoria["Estado_Saude"] == 0]["Pressao_Arterial"]
grupo_condicoes = amostra_aleatoria[amostra_aleatoria["Estado_Saude"] == 1]["Pressao_Arterial"]

# Teste t para médias
t_stat, p_valor = stats.ttest_ind(grupo_saude, grupo_condicoes)

print(f"Teste T: estatística={t_stat:.4f}, p-valor={p_valor:.4f}")

if p_valor < 0.06:
    print("Rejeitamos H0: A pressão arterial média dos grupos é significativamente diferente.")
else:
    print("Não rejeitamos H0: Não há diferença significativa entre as médias.")

Teste T: estatística=-0.0812, p-valor=0.9359
Não rejeitamos H0: Não há diferença significativa entre as médias.


6. Existe uma diferença significativa na pressão arterial média entre diferentes grupos étnicos nesta população? (Teste ANOVA, alpha é 5%)  
   a. Hipótese Nula (H0): A pressão arterial média é a mesma em todos os grupos étnicos.  
   b. Hipótese Alternativa (H1): Há uma diferença significativa na pressão arterial média entre pelo menos dois grupos étnicos nesta população.

In [6]:
# Filtrar pressão arterial por grupo étnico
grupo_afro = df[df["Etnia"] == 1]["Pressao_Arterial"]
grupo_hispanico = df[df["Etnia"] == 2]["Pressao_Arterial"]
grupo_asiatico = df[df["Etnia"] == 3]["Pressao_Arterial"]
grupo_caucasiano = df[df["Etnia"] == 0]["Pressao_Arterial"]

# Teste ANOVA para comparação das médias
f_stat, p_valor = stats.f_oneway(grupo_afro, grupo_hispanico, grupo_asiatico, grupo_caucasiano)

print(f"Teste ANOVA: estatística F={f_stat:.4f}, p-valor={p_valor:.4f}")

# Interpretação do resultado
if p_valor < 0.05:
    print("Rejeitamos H0: Há uma diferença significativa na pressão arterial média entre pelo menos dois grupos étnicos.")
else:
    print("Não rejeitamos H0: Não há evidências suficientes para afirmar que a pressão arterial média difere entre os grupos étnicos.")

Teste ANOVA: estatística F=0.2325, p-valor=0.8738
Não rejeitamos H0: Não há evidências suficientes para afirmar que a pressão arterial média difere entre os grupos étnicos.


7. Lúcia é uma pesquisadora e tem o objetivo de entender a relação de gênero neste grupo de pacientes. Acredita-se que há uma relação entre o sexo e condições de saúde adicionais. (Teste qui-quadrado)

In [7]:
import pandas as pd
import scipy.stats as stats

# Carregar os dados
df = pd.read_csv("pacientes.csv")

# Criar tabela de contingência
contingencia = pd.crosstab(df["Genero"], df["Estado_Saude"])

# Teste qui-quadrado
chi2_stat, p_valor, _, _ = stats.chi2_contingency(contingencia)

print(f"Teste Qui-Quadrado: estatística={chi2_stat:.4f}, p-valor={p_valor:.4f}")

# Interpretação
if p_valor < 0.05:
    print("Rejeitamos H0: Existe uma associação entre gênero e condição de saúde.")
else:
    print("Não rejeitamos H0: Não há evidências suficientes de associação entre gênero e condição de saúde.")

Teste Qui-Quadrado: estatística=0.0000, p-valor=1.0000
Não rejeitamos H0: Não há evidências suficientes de associação entre gênero e condição de saúde.


8. Existe uma associação entre a idade dos pacientes e sua pressão arterial?  
   a. Hipótese Nula (H0): A pressão arterial é independente da idade  
   b. Hipótese Alternativa (H1): A pressão arterial está associada à idade

In [8]:
# Teste de correlação de Spearman
corr, p_valor = stats.spearmanr(df["Idade"], df["Pressao_Arterial"])

print(f"Correlação de Spearman: coeficiente={corr:.4f}, p-valor={p_valor:.4f}")

# Interpretação
if p_valor < 0.05:
    print("Rejeitamos H0: Existe uma associação significativa entre idade e pressão arterial.")
else:
    print("Não rejeitamos H0: Não há evidências de associação entre idade e pressão arterial.")

Correlação de Spearman: coeficiente=-0.0362, p-valor=0.2530
Não rejeitamos H0: Não há evidências de associação entre idade e pressão arterial.


9. Qual é o intervalo de confiança para a média da pressão arterial entre os pacientes com condições de saúde adicionais? (nível de confiança 95%)

In [9]:
import numpy as np

# Filtrar pacientes com condições de saúde adicionais
pressao_condicoes = df[df["Estado_Saude"] == 1]["Pressao_Arterial"]

# Calcular média e intervalo de confiança
media = np.mean(pressao_condicoes)
intervalo = stats.t.interval(0.95, len(pressao_condicoes)-1, loc=media, scale=stats.sem(pressao_condicoes))

print(f"Intervalo de confiança 95%: ({intervalo[0]:.2f}, {intervalo[1]:.2f})")

Intervalo de confiança 95%: (149.22, 151.02)


10. A distribuição da pressão arterial na população segue uma distribuição normal?  
    a. Hipótese Nula (H0): A distribuição da pressão arterial na população segue uma distribuição normal.  
    b. Hipótese Alternativa (H1): A distribuição da pressão arterial na população não segue uma distribuição normal.

In [10]:
# Teste de Shapiro-Wilk
shapiro_stat, p_valor = stats.shapiro(df["Pressao_Arterial"])

print(f"Teste de Shapiro-Wilk: estatística={shapiro_stat:.4f}, p-valor={p_valor:.4f}")

# Interpretação
if p_valor < 0.05:
    print("Rejeitamos H0: A distribuição da pressão arterial não é normal.")
else:
    print("Não rejeitamos H0: A pressão arterial segue uma distribuição normal.")

Teste de Shapiro-Wilk: estatística=0.9970, p-valor=0.0607
Não rejeitamos H0: A pressão arterial segue uma distribuição normal.
