<a href="https://colab.research.google.com/github/julianakaroline111/Julianasantos.Womakerscode/blob/main/Estat%C3%ADstica_Teste_de_Hip%C3%B3teses_Juliana_WMC_April.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Exercício 1: Avaliação da Taxa de Conversão entre Cenários

In [8]:
import pandas as pd

# Carregando dados do experimento A/B para análise
experimento_df = pd.read_csv('/experimento_teste_ab.csv')

# Calculando e exibindo a taxa de conversão por versão de página
conversion_rates = experimento_df.groupby('Versão_Página').apply(
    lambda x: x['Conversões'].sum() / x['Visualizações'].sum()
)
print("Análise de Taxa de Conversão por Página:\n", conversion_rates.to_string())

Análise de Taxa de Conversão por Página:
 Versão_Página
A    0.000696
B    0.000830


In [9]:
# Formatação dos resultados de taxa de conversão para exibição em porcentagem
conversion_rates_percent = conversion_rates.apply(lambda x: f"{x * 100:.2f}%")
print("Análise de Taxa de Conversão por Página (em porcentagem):\n", conversion_rates_percent.to_string())

Análise de Taxa de Conversão por Página (em porcentagem):
 Versão_Página
A    0.07%
B    0.08%


Exercício 2: Determinação do Tamanho da Amostra para Teste A/B






In [10]:
import pandas as pd
from statsmodels.stats.power import NormalIndPower
from statsmodels.stats.proportion import proportion_effectsize

# Carregando os dados do experimento para avaliação do cenário de conversão
dados_experimento = pd.read_csv('/experimento_teste_ab.csv')

# Calculando a taxa de conversão atual do cenário A, que é nosso controle
taxa_atual_cenario_A = dados_experimento[dados_experimento['Versão_Página'] == 'A']['Conversões'].sum() / dados_experimento[dados_experimento['Versão_Página'] == 'A']['Visualizações'].sum()

# Definindo a nova meta de taxa de conversão desejada para 10%
meta_taxa_conversao = 0.10

# Calculando o tamanho do efeito necessário para detectar a mudança desejada entre o cenário atual e a nova meta
tamanho_do_efeito = proportion_effectsize(taxa_atual_cenario_A, meta_taxa_conversao)

# Preparando a análise de poder estatístico para determinar o tamanho da amostra
analise_poder = NormalIndPower()

try:
    # Determinando o tamanho da amostra necessário para alcançar os objetivos do teste com 95% de confiança e 80% de poder
    tamanho_amostra_necessario = analise_poder.solve_power(effect_size=tamanho_do_efeito, alpha=0.05, power=0.80, ratio=1.0, alternative='two-sided')
    print(f"Taxa de conversão atual no cenário A: {taxa_atual_cenario_A:.4f}")
    print(f"Tamanho do efeito estimado: {tamanho_do_efeito:.4f}")
    print(f"Tamanho da amostra necessário por grupo para detectar a mudança desejada: {int(tamanho_amostra_necessario)}")
except Exception as erro:
    print(f"Ocorreu um erro ao calcular o tamanho da amostra: {erro}")


Taxa de conversão atual no cenário A: 0.0007
Tamanho do efeito estimado: -0.5907
Tamanho da amostra necessário por grupo para detectar a mudança desejada: 44


Exercício 3: Análise de Idade Média em Pacientes com Problemas Cardíacos


In [11]:
import pandas as pd
from scipy import stats

# Carregando a base de dados de pacientes para análise
dados_pacientes = pd.read_csv('/pacientes.csv')

# Definindo uma lista de índices representativos para estudar um grupo específico de pacientes
indices_selecionados = [909, 751, 402, 400, 726, 39, 184, 269, 255, 769, 209, 715, 677, 381, 793, 697,
                        89, 280, 232, 756, 358, 36, 439, 768, 967, 699, 473, 222, 89, 639, 883, 558, 757,
                        84, 907, 895, 217, 224, 311, 348, 146, 505, 273, 957, 362]

# Extrair as idades dos pacientes usando os índices especificados
amostra_idades = dados_pacientes.loc[indices_selecionados, 'Idade']

# Aplicar teste estatístico t para verificar se a idade média dos pacientes excede 50 anos
t_estatistica, valor_p = stats.ttest_1samp(amostra_idades, 50)

# Apresentar os resultados de uma forma clara e interpretativa
print(f"Análise da Idade dos Pacientes com Problemas Cardíacos:\nEstatística-t = {t_estatistica:.2f}, Valor-p = {valor_p:.4f}")

# Decisão baseada no valor-p e na significância estatística definida
if valor_p < 0.05:
    print("Conclusão: Há evidências estatísticas de que a idade média é significativamente maior que 50 anos.")
else:
    print("Conclusão: As evidências não são suficientes para afirmar que a idade média ultrapassa 50 anos.")


Análise da Idade dos Pacientes com Problemas Cardíacos:
Estatística-t = 0.05, Valor-p = 0.9585
Conclusão: As evidências não são suficientes para afirmar que a idade média ultrapassa 50 anos.


Exercício 4: Análise/Discussão sobre a Independência de Amostras

In [12]:
import pandas as pd

# Carregando a base de dados que representa pacientes de um hospital cardiológico
dados_pacientes = pd.read_csv('/pacientes.csv')

# Criando segmentações no conjunto de dados para análise de condições de saúde
grupo_com_condicoes_adicionais = dados_pacientes[dados_pacientes['Estado_Saude'] == 1]  # Pacientes com condições adicionais
grupo_sem_condicoes_adicionais = dados_pacientes[dados_pacientes['Estado_Saude'] == 0]  # Pacientes sem condições adicionais

# Apresentando a divisão dos dados para transparência na análise
print(f"Total de pacientes com condições adicionais: {len(grupo_com_condicoes_adicionais)}")
print(f"Total de pacientes sem condições adicionais(Saudáveis): {len(grupo_sem_condicoes_adicionais)}")

# Discussão sobre a natureza das amostras
conclusao = "As amostras são independentes, indicando que os indivíduos em um grupo não influenciam, e nem estão relacionados aos indivíduos do outro grupo."
print(conclusao)


Total de pacientes com condições adicionais: 510
Total de pacientes sem condições adicionais(Saudáveis): 490
As amostras são independentes, indicando que os indivíduos em um grupo não influenciam, e nem estão relacionados aos indivíduos do outro grupo.


Exercício 5: Comparação de Pressão Arterial por Condição de Saúde


In [13]:
import pandas as pd
from scipy import stats

# Carregando o conjunto de dados dos pacientes tratados em um contexto cardiológico
dados_pacientes = pd.read_csv('/pacientes.csv')

# Definindo os índices selecionados para uma investigação detalhada
indices_selecionados = [690, 894, 67, 201, 364, 19, 60, 319, 588, 643, 855, 623, 530, 174, 105, 693,
                        6, 462, 973, 607, 811, 346, 354, 966, 943, 372]

# Extração de um subconjunto focal de pacientes com base nos índices escolhidos
subconjunto_pacientes = dados_pacientes.loc[indices_selecionados]

# Segmentação dos pacientes em dois grupos distintos baseados em suas condições de saúde
pacientes_com_adição = subconjunto_pacientes[subconjunto_pacientes['Estado_Saude'] == 1]['Pressao_Arterial']
pacientes_sem_adição = subconjunto_pacientes[subconjunto_pacientes['Estado_Saude'] == 0]['Pressao_Arterial']

# Aplicação de um teste t de duas amostras para avaliar diferenças nas médias da pressão arterial
t_estatistica, p_valor = stats.ttest_ind(pacientes_com_adição, pacientes_sem_adição, equal_var=False)

# Exibição dos resultados com uma interpretação contextualizada
print(f"Análise Comparativa de Pressão Arterial:\nEstatística t = {t_estatistica:.2f}, Valor-p = {p_valor:.4f}")
if p_valor < 0.06:  # Usando um nível de significância de 6%
    print("Conclusão: Existe uma diferença significativa na pressão arterial entre os grupos, indicando um impacto das condições adicionais.")
else:
    print("Conclusão: Não se observa uma diferença significativa na pressão arterial entre os grupos, sugerindo similaridade nas condições.")


Análise Comparativa de Pressão Arterial:
Estatística t = 0.08, Valor-p = 0.9345
Conclusão: Não se observa uma diferença significativa na pressão arterial entre os grupos, sugerindo similaridade nas condições.


Exercício 6: Teste ANOVA para Pressão Arterial entre Grupos Étnicos

In [14]:
import pandas as pd
from scipy import stats

# Carregamento dos dados clínicos dos pacientes
dados_clinicos = pd.read_csv('/pacientes.csv')

# Preparação dos dados para análise ANOVA, focando na pressão arterial dividida por grupos étnicos
pressao_arterial_por_grupo = dados_clinicos.groupby('Etnia')['Pressao_Arterial'].apply(list)

# Lista compreensiva de dados para o teste
dados_para_analise = [grupo for grupo in pressao_arterial_por_grupo]

# Execução do teste ANOVA para explorar diferenças entre grupos étnicos
resultado_anova, p_valor_anova = stats.f_oneway(*dados_para_analise)

# Apresentação dos resultados de maneira personalizada
print(f"Análise de Diferenças Étnicas em Pressão Arterial:\nF-estatística = {resultado_anova:.2f}, Valor-p = {p_valor_anova:.4f}")
if p_valor_anova < 0.05:
    print("Conclusão: Existe variação significativa entre os grupos étnicos, sugerindo influências étnicas na pressão arterial.")
else:
    print("Conclusão: As variações entre grupos étnicos não são estatisticamente significativas, indicando uniformidade na pressão arterial.")


Análise de Diferenças Étnicas em Pressão Arterial:
F-estatística = 0.23, Valor-p = 0.8738
Conclusão: As variações entre grupos étnicos não são estatisticamente significativas, indicando uniformidade na pressão arterial.


Código Personalizado para Correlação de Pearson:


In [15]:
# Análise de associação entre a idade dos pacientes e sua pressão arterial
coeficiente_correlacao, p_valor_correlacao = stats.pearsonr(dados_clinicos['Idade'], dados_clinicos['Pressao_Arterial'])

# Divulgação dos resultados com uma narrativa envolvente
print(f"Relação entre Idade e Pressão Arterial:\nCoeficiente de Correlação = {coeficiente_correlacao:.2f}, Valor-p = {p_valor_correlacao:.4f}")
if p_valor_correlacao < 0.05:
    print("Conclusão: Os dados indicam uma relação estatisticamente significativa entre idade e pressão arterial, refletindo potenciais fatores etários na saúde cardiovascular.")
else:
    print("Conclusão: Não há evidências de uma relação significativa entre idade e pressão arterial, sugerindo independência dessas variáveis.")

Relação entre Idade e Pressão Arterial:
Coeficiente de Correlação = -0.02, Valor-p = 0.4994
Conclusão: Não há evidências de uma relação significativa entre idade e pressão arterial, sugerindo independência dessas variáveis.


Exercício 7: Teste Qui-Quadrado para Relação entre Gênero e Condições de Saúde


In [17]:
import pandas as pd
from scipy.stats import chi2_contingency

# Carregando informações clínicas dos pacientes para uma análise detalhada
dados_clinicos = pd.read_csv('/pacientes.csv')

# Construção de uma tabela de contingência para explorar a relação entre gênero e condições de saúde
tabela_contingencia_genero_saude = pd.crosstab(dados_clinicos['Genero'], dados_clinicos['Estado_Saude'])

# Realizando o teste qui-quadrado para avaliar a independência entre as variáveis 'Genero' e 'Estado_Saude'
chi_quadrado, p_valor_chi, _, _ = chi2_contingency(tabela_contingencia_genero_saude)

# Apresentação dos resultados de forma narrativa e envolvente
print(f"Análise de Associação entre Gênero e Condições de Saúde:\nChi-Quadrado = {chi_quadrado:.2f}, p-Valor = {p_valor_chi:.4f}")
if p_valor_chi < 0.05:
    print("Conclusão: Há uma ligação significativa entre o gênero dos pacientes e a presença de condições de saúde adicionais.")
else:
    print("Conclusão: Os dados não mostram uma relação significativa entre gênero e condições de saúde, sugerindo independência entre essas características.")


Análise de Associação entre Gênero e Condições de Saúde:
Chi-Quadrado = 0.00, p-Valor = 1.0000
Conclusão: Os dados não mostram uma relação significativa entre gênero e condições de saúde, sugerindo independência entre essas características.


Exercício 8: Intervalo de Confiança para Pressão Arterial em Condições Específicas


In [21]:
import pandas as pd
from scipy.stats import t, sem
import numpy as np

# Importando os registros de saúde de um repositório clínico
dados_pacientes = pd.read_csv('/pacientes.csv')

# Seleção de indivíduos com histórico de condições de saúde complexas
grupo_de_risco = dados_pacientes[dados_pacientes['Estado_Saude'] == 1]['Pressao_Arterial']

# Análise exploratória para determinar a média da pressão arterial neste subgrupo
media_pressao = np.mean(grupo_de_risco)
desvio_pressao = np.std(grupo_de_risco, ddof=1)

# Aplicação da técnica estatística para intervalo de confiança de 95%
intervalo_95 = t.interval(confidence=0.95, df=len(grupo_de_risco)-1, loc=media_pressao, scale=sem(grupo_de_risco))

# Comunicando os achados de uma maneira clara e conclusiva
print(f"Média Observada de Pressão Arterial: {media_pressao:.2f} mmHg")
print(f"Intervalo de Confiança a 95%: de {intervalo_95[0]:.2f} mmHg a {intervalo_95[1]:.2f} mmHg")


Média Observada de Pressão Arterial: 150.12 mmHg
Intervalo de Confiança a 95%: de 149.22 mmHg a 151.02 mmHg


Exercício 9: Teste de Normalidade para a Pressão Arterial


In [24]:
import pandas as pd
from scipy.stats import normaltest

# Carregando os dados detalhados de saúde cardiovascular dos pacientes
dados_cardio = pd.read_csv('/pacientes.csv')

# Concentração na variável de interesse, a pressão arterial
pressao_arterial = dados_cardio['Pressao_Arterial']

# Aplicação do teste de normalidade de D'Agostino-Pearson para avaliar a forma da distribuição
estatistica_teste, p_valor = normaltest(pressao_arterial)

# Diálogo explicativo sobre os resultados obtidos
print(f"Análise de Normalidade para Pressão Arterial:\nEstatística de Teste = {estatistica_teste:.2f}, p-Valor = {p_valor:.4f}")
if p_valor < 0.05:
    print("Conclusão: A hipótese nula é rejeitada; a pressão arterial não segue uma distribuição normal.")
else:
    print("Conclusão: Não rejeitamos a hipótese nula; a pressão arterial segue uma distribuição normal.")


Análise de Normalidade para Pressão Arterial:
Estatística de Teste = 6.87, p-Valor = 0.0322
Conclusão: A hipótese nula é rejeitada; a pressão arterial não segue uma distribuição normal.
