<a href="https://colab.research.google.com/github/joaozz21/Teste_de_Hipoteses_Seguranca_de_Medicamentos/blob/main/Teste_de_Hip%C3%B3teses_na_%C3%81rea_da_Sa%C3%BAde_Seguran%C3%A7a_de_Medicamentos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Teste de Hipóteses na Área da Saúde: Segurança de Medicamentos

Uma empresa farmacêutica GlobalMed acabou de concluir um ensaio clínico controlado e randomizado. Para promover a transparência e reprodutibilidade dos resultados do medicamento, a GlobalMed apresentou o conjunto de dados à sua organização, uma entidade sem fins lucrativos especializada em segurança de medicamentos.

O conjunto de dados fornecido continha informações sobre cinco efeitos adversos, dados demográficos, sinais vitais, entre outros. Sua organização está principalmente interessada nas reações adversas ao medicamento. Deseja-se saber se estas reações, caso existam, são estatisticamente significativas. Você foi designado para explorar os dados e responder algumas questões específicas.

O conjunto de dados `drug_safety.csv` foi obtido do [Hbiostat](https://hbiostat.org/data/), cortesia do Departamento de Bioestatística da Universidade Vanderbilt. Ele incluía cinco efeitos adversos: dor de cabeça, dor abdominal, dispepsia, infecção do trato respiratório superior, doença pulmonar obstrutiva crônica (DPOC), além de dados demográficos, sinais vitais e medidas laboratoriais. A proporção entre observações do medicamento e do placebo é de 2 para 1.

Para este projeto, o conjunto de dados foi modificado para refletir a presença e ausência de efeitos adversos `adverse_effects` e o número de efeitos adversos em um único indivíduo `num_effects`.

As colunas no conjunto de dados modificado são:

| Coluna | Descrição |
|--------|-----------|
|`sex` | O gênero do indivíduo |
|`age` | A idade do indivíduo |
|`week` | A semana do teste do medicamento |
|`trx` | Os grupos de tratamento (Medicamento) e controle (Placebo) |
|`wbc` | A contagem de leucócitos |
|`rbc` | A contagem de hemácias |
|`adverse_effects` | A presença de pelo menos um efeito adverso |
|`num_effects` | O número de efeitos adversos experimentados por um único indivíduo |

O conjunto de dados original pode ser encontrado [aqui](https://hbiostat.org/data/repo/safety.rda).

Sua organização solicitou que você explorasse e respondesse algumas questões a partir dos dados coletados. Consulte as instruções do projeto.

In [2]:
# Importando libraries
import numpy as np
import pandas as pd
from statsmodels.stats.proportion import proportions_ztest
from scipy.stats import chi2_contingency
from scipy.stats import ttest_ind
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns

# Carregando o dataset
drug_safety = pd.read_csv('/content/dataset/drug_safety.csv')

# Começando o código...
drug_safety.head()

FileNotFoundError: [Errno 2] No such file or directory: '/content/dataset/drug_safety.csv'

In [None]:
drug_safety.info()

In [None]:
drug_safety.describe()

In [None]:
# Explorando a distribuição dos efeitos adversos por grupo de tratamento
plt.figure(figsize=(10, 6))
sns.countplot(x='adverse_effects', hue='trx', data=drug_safety)
plt.title('Distribuição de Efeitos Adversos por Grupo de Tratamento')
plt.xlabel('Efeitos Adversos')
plt.ylabel('Contagem')
plt.show()

In [None]:
# Explorando a distribuição do número de efeitos adversos por grupo de tratamento
plt.figure(figsize=(10, 6))
sns.countplot(x='num_effects', hue='trx', data=drug_safety)
plt.title('Distribuição do Número de Efeitos Adversos por Grupo de Tratamento')
plt.xlabel('Número de Efeitos Adversos')
plt.ylabel('Contagem')
plt.show()

# **QUESTÃO 1:**
Determine se a proporção de efeitos adversos difere significativamente entre os grupos Medicamento e Placebo, salvando o valor-p como uma variável chamada **two_sample_p_value**.

Uma matriz de contingência serve como uma tabela que organiza sistematicamente os dados em categorias que se cruzam, fornecendo uma representação visual da distribuição combinada de duas variáveis categóricas. Ela se mostra particularmente valiosa ao explorar a inter-relação entre dois fatores qualitativos e investigar como as frequências dentro dessas categorias coincidem.

Nesta representação tabular, cada célula contém a contagem de observações que se enquadram em combinações específicas de categorias de variáveis. A matriz de contingência encontra ampla utilidade em análises estatísticas, notadamente em exames de independência e associação entre variáveis categóricas. Uma aplicação comum é o teste qui-quadrado, que avalia se duas variáveis categóricas exibem independência ou manifestam uma associação estatisticamente significativa.

In [None]:
# Criando uma tabela de contingência
contingency_table = pd.crosstab(drug_safety['trx'], drug_safety['adverse_effects'])

In [None]:
contingency_table

A execução de um teste z para proporções torna-se valiosa quando há necessidade de comparar as proporções de duas amostras e discernir se a diferença observada possui significância estatística. Esta abordagem de teste é comumente empregada quando se lida com variáveis binárias ou categóricas, especialmente quando o objetivo é avaliar se as proporções dessas categorias apresentam uma discrepância significativa entre dois grupos distintos.

In [None]:
# Executing a z proportion test
two_sample_proportions_test = sm.stats.proportions_ztest(contingency_table.iloc[:, 1], contingency_table.sum(axis=1))

In [None]:
# Imprimindo o resultado apenas para checar
two_sample_proportions_test

In [None]:
# Extraindo o p-value do resultado
two_sample_p_value = two_sample_proportions_test[1]

In [None]:
# Imprimindo o p-value como requisitado
print(f"A proporção de efeitos adversos entre o grupo de drogas e placebo com p-value é: {two_sample_p_value}")

## Conclusions:
A high p-value as 0,96 suggests that there's not enough statisticals evidence to reject the null hypothesis that the proportions are equials. For this reason, the observed difference may be due to chance, and there's no significant difference between the groups in terms of proportion of adverse effects with Placebo or Drugs.

# Question 2:
Find out if the number of adverse effects is independent of the treatment and control groups, saving as a variable called **num_effects_p_value** containing a p-value.

Well, to determine if the number of adverse affects is independent of the treatment and control groups. We can use the "CHI-SQUARE" test

In [None]:
# Creating a contingency table between 'trx' (aka treatment) and 'num_effects' (number of adverse effects )
contingency_table_num_effects = pd.crosstab(drug_safety['trx'], drug_safety['num_effects'])

In [None]:
# Checking the results of the table
contingency_table_num_effects

In [None]:
# Executing the CHI-Square tests
chi2, num_effects_p_value, _, _ = chi2_contingency(contingency_table_num_effects)

In [None]:
# Checking the results
print(f"P-value of the independent number of adverse effects from treatments and control groups:{num_effects_p_value}")

## **Conclusions:**

With a p-value of 0,6 -> as this case did not choose the significance level we are going to use 0,05 as the pattern in literature. In this case, there's not enough statistical evidence to reject the null hypothesis. So, we cannot assert a significant association between the number of adverse effects and the treatment control groups.

In other words: this implies that, we can concluded with the simple statistical tests that there's not indication of type of treatment (Drug or Placebo) is linked to a distinct number of adverse effects.

# **Question 3:**

Examine if there is a significant difference between the ages of the Drug and Placebo groups, storing the p-value of your test in a variable called **age_group_effects_p_value**.

In [None]:
# Extracting the age of the drugs group
age_drug = drug_safety[drug_safety['trx'] == 'Drug']['age']
age_drug.head()

In [None]:
# Extracting the age of the placebo group
age_placebo = drug_safety[drug_safety['trx'] == 'Placebo']['age']
age_placebo.head()

# T-Test

For this context, the T-Test can be used to determine if there is a significant difference between the ages of the Drug and Placebo groups. This type of test is useful when we are working with continuous variables such as 'ages' in this question, to compare the means of two independent groups to understand if there's significance statistical difference or not.

In [None]:
# Executing T-test
t_stat, age_group_effects_p_value = ttest_ind(age_drug, age_placebo, nan_policy='omit')

In [None]:
# Checking the results
print(f"P-value for significance between Drug and Placebo groups:{age_group_effects_p_value}")

## Conclusion:

Well,the p-value is o,13 wich is higher than the level of significance that we are using in this case (0,05). So, there's not enough statistical evidence to reject the null hypothesis as well.
We cannot afirm that there's a significative differente between ages of the Drugs and Placebo Groups. We can conclude that each case should be studied as one, since there's not enough evidence to conclude otherwise.