# Estatística - Teste de Hipóteses

**Considerando a base de dados experimento_test_ab.csv responda as
questões abaixo:**

# **1. Qual dos cenários tem a maior taxa de conversão?**

Para calcular a taxa de conversão de cada cenário (versão A e versão B), devemos usar a fórmula:

A taxa de conversão é uma métrica crucial para entender a eficácia de uma campanha ou página web em transformar visitantes em clientes ou realizar alguma ação desejada. A fórmula utilizada para calcular a taxa de conversão é a seguinte:

Taxa de Conversão = (Total de Conversões / Total de Visualizações) × 100


In [None]:
import pandas as pd

# Carregar os dados
data = pd.read_csv('experimento_teste_ab (1).csv')

# Calcular a taxa de conversão para cada versão
conversion_rates = data.groupby('Versão_Página').apply(lambda x: x['Conversões'].sum() / x['Visualizações'].sum())

# Exibir a taxa de conversão
print(conversion_rates)


Versão_Página
A    0.000696
B    0.000830
dtype: float64


# **2. Calcule qual o tamanho da amostra necessária para o desenvolvimento de um teste A/B, seguindo os seguintes critérios:**


**a. O cenário A, da base, como o inicial, que funciona hoje**

Para realizar um teste A/B eficaz, é importante determinar o tamanho da amostra necessária para garantir que os resultados sejam estatisticamente significativos. A fórmula utilizada para calcular o tamanho da amostra para um teste A/B é a seguinte:

n = [(Zα/2 + Zβ)² * (p1(1 - p1) + p2(1 - p2))] / (p2 - p1)²




In [None]:
import math

# Definições
p1 = conversion_rates['A']  # taxa de conversão atual do cenário A
p2 = 0.10  # taxa de conversão desejada
alpha = 0.05
beta = 0.20  # 1 - poder do teste (80% = 0.20)

# Valores críticos de Z
Z_alpha = 1.96  # para 95% de confiança
Z_beta = 0.84   # para 80% de poder

# Cálculo do tamanho da amostra
n = ((Z_alpha + Z_beta) ** 2 * (p1 * (1 - p1) + p2 * (1 - p2))) / (p2 - p1) ** 2

print(f"Tamanho da amostra necessária para cada grupo: {math.ceil(n)}")


Tamanho da amostra necessária para cada grupo: 73


**b. Considere 95% de confiança de que o efeito na conversão não foi
aleatório com um nível de significância de 5% (alpha = 0,05).**

In [None]:
import scipy.stats as stats

# Parâmetros
alpha = 0.05               # Nível de significância
power = 0.80               # Poder do teste
p1 = 0.20                  # Taxa de conversão atual (cenário A)
p2 = 0.10                  # Taxa de conversão desejada (cenário B)

# Z-scores
z_alpha = stats.norm.ppf(1 - alpha / 2)  # Z para o nível de confiança de 95%
z_beta = stats.norm.ppf(power)            # Z para o poder do teste de 80%

# Cálculo do tamanho da amostra
n = ((z_alpha + z_beta) ** 2 * (p1 * (1 - p1) + p2 * (1 - p2))) / ((p2 - p1) ** 2)

# Resultados
n = round(n)  # Arredondar para o inteiro mais próximo
print(f'Tamanho da amostra necessário para cada grupo: {n}')


**c. Também considere 80% de certeza conseguir capturar o efeito
da nova abordagem.**

In [None]:
import scipy.stats as stats

# Parâmetros
alpha = 0.05              # Nível de significância (5%)
power = 0.80              # Poder do teste (80%)
p1 = 0.20                 # Taxa de conversão atual (cenário A)
p2 = 0.10                 # Taxa de conversão desejada (cenário B)

# Valores de Z para alpha e beta
z_alpha = stats.norm.ppf(1 - alpha / 2)  # Z para o nível de confiança de 95% (1.96)
z_beta = stats.norm.ppf(power)           # Z para o poder do teste de 80% (0.84)

# Cálculo do tamanho da amostra
n = ((z_alpha + z_beta) ** 2 * (p1 * (1 - p1) + p2 * (1 - p2))) / ((p2 - p1) ** 2)

# Resultado arredondado
n = round(n)

print(f'Tamanho da amostra necessário para cada grupo: {n}')


# 3. Considerando uma amostra de 45 números que representam o index do dataframe, índices= ([909, 751, 402, 400, 726, 39, 184, 269, 255, 769,209, 715, 677, 381, 793, 697, 89, 280, 232, 756, 358, 36, 439, 768, 967,699, 473, 222, 89, 639, 883, 558, 757, 84, 907, 895, 217, 224, 311, 348,146, 505, 273, 957, 362]). Considerando essa amostra é possível dizer que a idade média das pessoas com problemas cardíacos é maior que 50 anos? Nível de significância igual a 5%.

In [None]:
import pandas as pd
from scipy import stats

# Carregar a base de dados (certifique-se de ajustar o caminho do arquivo)
df = pd.read_csv('pacientes (1).csv')

# Índices fornecidos
indices = [909, 751, 402, 400, 726, 39, 184, 269, 255, 769, 209, 715, 677, 381, 793, 697,
           89, 280, 232, 756, 358, 36, 439, 768, 967, 699, 473, 222, 89, 639, 883, 558,
           757, 84, 907, 895, 217, 224, 311, 348, 146, 505, 273, 957, 362]

# Extraindo a amostra de idades com base nos índices fornecidos
amostra = df.loc[indices, 'Idade']

# Definir a média a ser testada
media_teste = 50

# Realizar o teste t de uma amostra
t_stat, p_valor = stats.ttest_1samp(amostra, media_teste)

# Exibir os resultados
print(f'T-statistic: {t_stat}')
print(f'P-valor: {p_valor}')

# Verificar se rejeitamos ou não a hipótese nula
if p_valor / 2 < 0.05 and t_stat > 0:
    print("Rejeitamos a hipótese nula. A idade média das pessoas com problemas cardíacos é maior que 50 anos.")
else:
    print("Falhamos em rejeitar a hipótese nula. Não podemos afirmar que a idade média das pessoas com problemas cardíacos é maior que 50 anos.")


T-statistic: 0.052280983519350496
P-valor: 0.9585414467632783
Falhamos em rejeitar a hipótese nula. Não podemos afirmar que a idade média das pessoas com problemas cardíacos é maior que 50 anos.


# 4. Queremos entender que tipo de amostra estamos lidando se dividirmos os conjuntos em 2, sendo um com pessoas que têm condições de saúde adicionais e o outro com pessoas saudáveis. Seria dependente ou independente?

Quando dividimos a amostra em dois grupos distintos, estamos avaliando diferentes populações. Isso implica que não existe relação entre os indivíduos dos dois grupos. A análise e as estatísticas que se aplicam a cada grupo podem ser tratadas separadamente, sem influenciar uma à outra.

Grupo 1: Pessoas com condições de saúde adicionais.

Grupo 2: Pessoas saudáveis.

Esses grupos são formados por indivíduos diferentes, e as características de um grupo não dependem das características do outro. Portanto, estamos lidando com amostras independentes.



In [None]:
import pandas as pd

# Carregar a base de dados
df = pd.read_csv('pacientes (1).csv')

# Exibir as primeiras linhas do dataframe
print("Primeiras linhas do arquivo:")
print(df.head())

# Dividir os dados em dois grupos
grupo_condicoes_adicionais = df[df['Estado_Saude'] == 1]  # Pessoas com condições de saúde adicionais
grupo_saudaveis = df[df['Estado_Saude'] == 0]  # Pessoas saudáveis

# Exibir as informações dos grupos
print("\nGrupo com condições de saúde adicionais:")
print(grupo_condicoes_adicionais.describe())

print("\nGrupo saudável:")
print(grupo_saudaveis.describe())

# Verificando a independência
if grupo_condicoes_adicionais.shape[0] > 0 and grupo_saudaveis.shape[0] > 0:
    print("\nAs amostras são independentes, pois os grupos são formados por indivíduos distintos.")
else:
    print("\nAs amostras podem ser dependentes, pois não há indivíduos suficientes em um dos grupos.")


Primeiras linhas do arquivo:
   Unnamed: 0  Pressao_Arterial  Idade  Genero  Etnia  Estado_Saude  \
0           0        142.755809     31       1      1             1   
1           1        161.878468     35       1      1             0   
2           2        161.508259     39       0      3             1   
3           3        144.979408     43       1      3             1   
4           4        162.502954     55       0      2             1   

  Nome_Genero      Nome_Etnia                  Nome_Estado_Saude  
0    Feminino  Afro-americano  Com condições de saúde adicionais  
1    Feminino  Afro-americano                           Saudável  
2   Masculino        Asiático  Com condições de saúde adicionais  
3    Feminino        Asiático  Com condições de saúde adicionais  
4   Masculino       Hispânico  Com condições de saúde adicionais  

Grupo com condições de saúde adicionais:
       Unnamed: 0  Pressao_Arterial       Idade      Genero       Etnia  \
count  510.000000        

# 5. Agora considere o um conjunto de pessoas aleatória que representam o index do dataframe, índices = ([690, 894, 67, 201, 364, 19, 60, 319,588, 643, 855, 623, 530, 174, 105, 693, 6, 462, 973, 607, 811, 346, 354, 966, 943, 372]), podemos dizer que a pressão arterial média para pacientes com condições de saúde adicionais é igual à pressão arterial média para pacientes sem condições adicionais de saúde? Considere o nível de significância a 6%.

Para verificar se a pressão arterial média dos pacientes com condições de saúde adicionais é igual à pressão arterial média dos pacientes saudáveis, podemos realizar um teste de hipóteses. Neste caso, vamos utilizar um teste t de Student para duas amostras independentes, considerando um nível de significância de 6% (0,06).

Passos do Procedimento
Definir as Hipóteses:

Hipótese Nula (
𝐻
0
H
0
​
 ): A pressão arterial média dos pacientes com condições de saúde adicionais é igual à pressão arterial média dos pacientes saudáveis.
Hipótese Alternativa (
𝐻
𝑎
H
a
​
 ): A pressão arterial média dos pacientes com condições de saúde adicionais não é igual à pressão arterial média dos pacientes saudáveis.
Calcular a Média e o Desvio Padrão:

Usaremos os índices fornecidos para obter as pressões arteriais dos pacientes.
Realizar o Teste t:

Usar a fórmula do teste t para duas amostras independentes.
Comparar o valor p com o nível de significância:

Se
𝑝
<
𝛼
p<α, rejeitamos a hipótese nula.

In [None]:
import pandas as pd
from scipy import stats

# Carregar a base de dados
df = pd.read_csv('pacientes (1).csv')

# Índices fornecidos
indices = [690, 894, 67, 201, 364, 19, 60, 319, 588, 643, 855, 623, 530, 174, 105, 693, 6, 462, 973, 607, 811, 346, 354, 966, 943, 372]

# Obter os dados da amostra usando os índices fornecidos
amostra = df.loc[indices]

# Separar os grupos
grupo_condicoes_adicionais = amostra[amostra['Estado_Saude'] == 1]['Pressao_Arterial']
grupo_saudaveis = amostra[amostra['Estado_Saude'] == 0]['Pressao_Arterial']

# Calcular as médias e desvios padrão
media_condicoes_adicionais = grupo_condicoes_adicionais.mean()
media_saudaveis = grupo_saudaveis.mean()
desvio_condicoes_adicionais = grupo_condicoes_adicionais.std(ddof=1)
desvio_saudaveis = grupo_saudaveis.std(ddof=1)

# Número de amostras
n1 = len(grupo_condicoes_adicionais)
n2 = len(grupo_saudaveis)

# Realizar o teste t
t_stat, p_value = stats.ttest_ind(grupo_condicoes_adicionais, grupo_saudaveis, equal_var=False)

# Nível de significância
alpha = 0.06

# Resultados
print(f"Média da Pressão Arterial (Condições Adicionais): {media_condicoes_adicionais:.2f}")
print(f"Média da Pressão Arterial (Saudáveis): {media_saudaveis:.2f}")
print(f"Valor t: {t_stat:.2f}, Valor p: {p_value:.4f}")

# Comparar valor p com o nível de significância
if p_value < alpha:
    print("Rejeitamos a hipótese nula: as pressões arteriais médias são diferentes.")
else:
    print("Não rejeitamos a hipótese nula: não há evidências suficientes para afirmar que as pressões arteriais médias são diferentes.")


Média da Pressão Arterial (Condições Adicionais): 153.20
Média da Pressão Arterial (Saudáveis): 152.94
Valor t: 0.08, Valor p: 0.9345
Não rejeitamos a hipótese nula: não há evidências suficientes para afirmar que as pressões arteriais médias são diferentes.


# 6. Existe uma diferença significativa na pressão arterial média entre diferentes grupos étnicos nesta população? (Teste ANOVA, alpha é 5%)

a. Hipótese Nula (H0): A pressão arterial média é a mesma em todos os grupos étnicos.


In [None]:
import pandas as pd
from scipy import stats

# Carregar a base de dados
df = pd.read_csv('pacientes (1).csv')

# Agrupar os dados pela etnia e coletar a pressão arterial para cada grupo
grupos = df.groupby('Nome_Etnia')['Pressao_Arterial'].apply(list)

# Realizar o teste ANOVA
f_stat, p_value = stats.f_oneway(*grupos)

# Nível de significância
alpha = 0.05

# Resultados
print(f"Estatística F: {f_stat:.2f}, Valor p: {p_value:.4f}")

# Comparar valor p com o nível de significância
if p_value < alpha:
    print("Rejeitamos a hipótese nula: há uma diferença significativa na pressão arterial média entre os grupos étnicos.")
else:
    print("Não rejeitamos a hipótese nula: não há evidências suficientes para afirmar que há uma diferença significativa na pressão arterial média entre os grupos étnicos.")


Estatística F: 0.23, Valor p: 0.8738
Não rejeitamos a hipótese nula: não há evidências suficientes para afirmar que há uma diferença significativa na pressão arterial média entre os grupos étnicos.


**b. Hipótese Alternativa (H1): Há uma diferença significativa na pressão arterial média entre pelo menos dois grupos étnicos nesta população.**

In [None]:
import pandas as pd
from scipy import stats

# Carregar a base de dados
df = pd.read_csv('pacientes (1).csv')

# Agrupar os dados pela etnia e coletar a pressão arterial para cada grupo
grupos = df.groupby('Nome_Etnia')['Pressao_Arterial'].apply(list)

# Realizar o teste ANOVA
f_stat, p_value = stats.f_oneway(*grupos)

# Nível de significância
alpha = 0.05

# Resultados
print(f"Estatística F: {f_stat:.2f}, Valor p: {p_value:.4f}")

# Comparar valor p com o nível de significância
if p_value < alpha:
    print("Rejeitamos a hipótese nula: há uma diferença significativa na pressão arterial média entre os grupos étnicos.")
else:
    print("Não rejeitamos a hipótese nula: não há evidências suficientes para afirmar que há uma diferença significativa na pressão arterial média entre os grupos étnicos.")


Estatística F: 0.23, Valor p: 0.8738
Não rejeitamos a hipótese nula: não há evidências suficientes para afirmar que há uma diferença significativa na pressão arterial média entre os grupos étnicos.


# 7. Lúcia é uma pesquisadora e tem o objetivo de entender a relação de gênero neste grupo de pacientes. Acredita-se que há uma relação entre o sexo e condições de saúde adicionais. (Teste qui-quadrado)

Hipóteses:
Hipótese Nula (
𝐻
0
H
0
​
 ): Não há relação entre o gênero e as condições de saúde adicionais.
Hipótese Alternativa (
𝐻
1
H
1
​
 ): Há uma relação significativa entre o gênero e as condições de saúde adicionais.


In [None]:
import pandas as pd
import scipy.stats as stats

# Carregar a base de dados
df = pd.read_csv('pacientes (1).csv')

# Criar uma tabela de contingência entre Gênero e Estado de Saúde (saudável ou com condições adicionais)
tabela_contingencia = pd.crosstab(df['Nome_Genero'], df['Nome_Estado_Saude'])

# Realizar o teste qui-quadrado
chi2, p, dof, expected = stats.chi2_contingency(tabela_contingencia)

# Nível de significância
alpha = 0.05

# Resultados
print(f"Qui-quadrado: {chi2:.2f}, Valor p: {p:.4f}, Graus de Liberdade: {dof}")
print("Tabela esperada:")
print(expected)

# Verificar o resultado
if p < alpha:
    print("Rejeitamos a hipótese nula: há uma relação significativa entre o gênero e as condições de saúde adicionais.")
else:
    print("Não rejeitamos a hipótese nula: não há evidências suficientes para afirmar que há uma relação entre o gênero e as condições de saúde adicionais.")


Qui-quadrado: 0.00, Valor p: 1.0000, Graus de Liberdade: 1
Tabela esperada:
[[256.53 246.47]
 [253.47 243.53]]
Não rejeitamos a hipótese nula: não há evidências suficientes para afirmar que há uma relação entre o gênero e as condições de saúde adicionais.


# 8. Existe uma associação entre a idade dos pacientes e sua pressão arterial?

**a. Hipótese Nula (H0): se a pressão arterial é independente da idade**


In [None]:
import pandas as pd
import scipy.stats as stats

# Carregar a base de dados
df = pd.read_csv('pacientes (1).csv')

# Calcular a correlação de Pearson
correlation, p_value = stats.pearsonr(df['Idade'], df['Pressao_Arterial'])

# Nível de significância
alpha = 0.05

# Resultados
print(f"Correlação de Pearson: {correlation:.4f}, Valor p: {p_value:.4f}")

# Verificar o resultado
if p_value < alpha:
    print("Rejeitamos a hipótese nula: há uma associação significativa entre a idade e a pressão arterial.")
else:
    print("Não rejeitamos a hipótese nula: não há evidências suficientes para afirmar que a pressão arterial é independente da idade.")


Correlação de Pearson: -0.0214, Valor p: 0.4994
Não rejeitamos a hipótese nula: não há evidências suficientes para afirmar que a pressão arterial é independente da idade.


**b. Hipótese Alternativa (H1): a pressão arterial esta associada a idade**

In [None]:
import pandas as pd
import scipy.stats as stats

# Carregar a base de dados
df = pd.read_csv('pacientes (1).csv')

# Calcular a correlação de Pearson
correlation, p_value = stats.pearsonr(df['Idade'], df['Pressao_Arterial'])

# Nível de significância
alpha = 0.05

# Resultados
print(f"Correlação de Pearson: {correlation:.4f}, Valor p: {p_value:.4f}")

# Verificar o resultado
if p_value < alpha:
    print("Rejeitamos a hipótese nula: há uma associação significativa entre a idade e a pressão arterial.")
else:
    print("Não rejeitamos a hipótese nula: não há evidências suficientes para afirmar que há uma associação entre a idade e a pressão arterial.")


Correlação de Pearson: -0.0214, Valor p: 0.4994
Não rejeitamos a hipótese nula: não há evidências suficientes para afirmar que há uma associação entre a idade e a pressão arterial.


# 9. Qual é o intervalo de confiança para a média da pressão arterial entre os pacientes com condições de saúde adicionais? (nível de confiança 95%)

Fórmula do Intervalo de Confiança:
𝐼
𝐶
=
𝑥
ˉ
±
𝑡
𝛼
/
2
×
SEM
IC=
x
ˉ
 ±t
α/2
​
 ×SEM
onde:

𝑥
ˉ
x
ˉ
  é a média da pressão arterial.
𝑡
𝛼
/
2
t
α/2
​
  é o valor crítico da distribuição t para o nível de confiança desejado (neste caso, 95%).
SEM
=
𝑠
𝑛
SEM=
n
​

s
​
  é o erro padrão da média, onde
𝑠
s é o desvio padrão da amostra e
𝑛
n é o tamanho da amostra.

In [None]:
import pandas as pd
import numpy as np
import scipy.stats as stats

# Carregar a base de dados
df = pd.read_csv('pacientes (1).csv')

# Filtrar os pacientes com condições de saúde adicionais
condicoes_adicionais = df[df['Estado_Saude'] == 1]  # Considerando 1 como condição de saúde adicional

# Calcular a média e o desvio padrão da pressão arterial
media_pressao = np.mean(condicoes_adicionais['Pressao_Arterial'])
desvio_padrao = np.std(condicoes_adicionais['Pressao_Arterial'], ddof=1)
n = len(condicoes_adicionais)

# Calcular o erro padrão da média (SEM)
sem = desvio_padrao / np.sqrt(n)

# Obter o valor crítico t para 95% de confiança
alpha = 0.05
t_critical = stats.t.ppf(1 - alpha / 2, df=n-1)

# Calcular o intervalo de confiança
margem_erro = t_critical * sem
intervalo_conf = (media_pressao - margem_erro, media_pressao + margem_erro)

# Resultados
print(f"Média da Pressão Arterial: {media_pressao:.2f}")
print(f"Intervalo de Confiança (95%): {intervalo_conf[0]:.2f} a {intervalo_conf[1]:.2f}")


Média da Pressão Arterial: 150.12
Intervalo de Confiança (95%): 149.22 a 151.02


# 10. A distribuição da pressão arterial na população segue uma distribuição normal?


a. Hipótese Nula (H0): A distribuição da pressão arterial na
população segue uma distribuição normal.

Fórmula do Teste de Normalidade (Shapiro-Wilk):
O teste de Shapiro-Wilk fornece um valor p que indica a probabilidade de que os dados venham de uma distribuição normal. Se o valor p for menor que o nível de significância (α), rejeitamos a hipótese nula.

In [None]:
import pandas as pd
import scipy.stats as stats

# Carregar a base de dados
df = pd.read_csv('pacientes (1).csv')

# Obter a pressão arterial da população
pressao_arterial = df['Pressao_Arterial']

# Realizar o teste de Shapiro-Wilk
stat, p_value = stats.shapiro(pressao_arterial)

# Definir o nível de significância
alpha = 0.05

# Resultados
print(f"Estatística do teste: {stat:.4f}")
print(f"Valor p: {p_value:.4f}")

# Decisão
if p_value > alpha:
    print("Não rejeitamos a hipótese nula: A distribuição da pressão arterial na população pode ser normal.")
else:
    print("Rejeitamos a hipótese nula: A distribuição da pressão arterial na população não é normal.")


Estatística do teste: 0.9970
Valor p: 0.0607
Não rejeitamos a hipótese nula: A distribuição da pressão arterial na população pode ser normal.


b. Hipótese Alternativa (H1): A distribuição da pressão arterial na
população não segue uma distribuição normal.

In [None]:
import pandas as pd
import scipy.stats as stats

# Carregar a base de dados
df = pd.read_csv('pacientes (1).csv')

# Obter a pressão arterial da população
pressao_arterial = df['Pressao_Arterial']

# Realizar o teste de Shapiro-Wilk
stat, p_value = stats.shapiro(pressao_arterial)

# Definir o nível de significância
alpha = 0.05

# Resultados
print(f"Estatística do teste: {stat:.4f}")
print(f"Valor p: {p_value:.4f}")

# Decisão
if p_value > alpha:
    print("Não rejeitamos a hipótese nula: A distribuição da pressão arterial na população pode ser normal.")
else:
    print("Rejeitamos a hipótese nula: A distribuição da pressão arterial na população não é normal.")


Estatística do teste: 0.9970
Valor p: 0.0607
Não rejeitamos a hipótese nula: A distribuição da pressão arterial na população pode ser normal.
