# Teste t Pareado: Comparando Pressão Arterial Antes e Depois de uma Intervenção

Este notebook foi elaborado para uma aula introdutória de testes estatísticos, demonstrando como comparar medidas antes e depois de uma intervenção utilizando o teste t pareado. O exemplo utiliza dados de pressão arterial coletados antes e após uma intervenção em um grupo de indivíduos.

## 1. Importação de Bibliotecas

Vamos começar importando as bibliotecas essenciais para análise de dados, visualização e execução de testes estatísticos: pandas, matplotlib.pyplot e scipy.stats.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

## 2. Carregamento e Visualização dos Dados

Carregue o conjunto de dados de pressão arterial e visualize as primeiras linhas para entender a estrutura dos dados.

In [None]:
# Carregar os dados de pressão arterial
df = pd.read_csv("https://raw.githubusercontent.com/ufrpe-ensino/ia-aulas/refs/heads/master/data/blood_pressure.csv")

# Visualizar as primeiras linhas do DataFrame
df.head()

## 3. Estatísticas Descritivas

Vamos calcular estatísticas descritivas (como média, desvio padrão e quartis) para as colunas de pressão arterial antes e depois da intervenção.

In [None]:
# Estatísticas descritivas para as colunas de interesse
df[['bp_before', 'bp_after']].describe()

## 4. Visualização de Outliers

Utilize boxplots para identificar possíveis outliers nas medidas de pressão arterial antes e depois da intervenção.

In [None]:
# Boxplot para identificar outliers
df[['bp_before', 'bp_after']].plot(kind='box', title='Boxplot da Pressão Arterial Antes e Depois')
plt.ylabel('Pressão Arterial')
plt.show()

## 5. Cálculo e Análise da Diferença das Medidas

Crie uma nova coluna com a diferença entre as pressões antes e depois. Em seguida, visualize a distribuição dessa diferença utilizando um histograma.

In [None]:
# Calcular a diferença entre as pressões antes e depois
df['bp_difference'] = df['bp_before'] - df['bp_after']

# Visualizar a distribuição da diferença
df['bp_difference'].plot(kind='hist', bins=10, title='Histograma da Diferença de Pressão Arterial')
plt.xlabel('Diferença (Antes - Depois)')
plt.show()

## 6. Verificação da Normalidade da Diferença

Antes de aplicar o teste t pareado, é importante verificar se a diferença segue uma distribuição normal. Vamos utilizar o gráfico Q-Q e o teste de Shapiro-Wilk para essa avaliação.

In [None]:
# Gráfico Q-Q para avaliar a normalidade
stats.probplot(df['bp_difference'], plot=plt)
plt.title('Q-Q Plot da Diferença de Pressão Arterial')
plt.show()

In [None]:
# Teste de Shapiro-Wilk para normalidade
stats.shapiro(df['bp_difference'])

### Interpretação

O p-value (0.78) é muito maior que o valor de referência comum (0.05). Portanto, **não rejeitamos a hipótese nula** de que os dados seguem uma distribuição normal.
Ou seja, **a diferença das pressões arteriais antes e depois do tratamento pode ser considerada normalmente distribuída**. Isso permite o uso de testes paramétricos, como o t-test pareado.

## 7. Execução do Teste t Pareado

Agora, vamos realizar o teste t pareado para comparar as médias das pressões arteriais antes e depois da intervenção (2 testes pareados, i.e., "**Pareados: mesmos indivíduos em diferentes situações**")

In [None]:
# Teste t pareado
stats.ttest_rel(df['bp_before'], df['bp_after'])

## 8. Interpretação dos Resultados

O teste t pareado compara as médias das duas condições (antes e depois) para o **mesmo grupo de indivíduos**. 

- **Hipótese nula (H₀):** Não há diferença entre as médias das pressões arteriais antes e depois da intervenção.
- **Hipótese alternativa (H₁):** Existe diferença entre as médias das pressões arteriais antes e depois.

O valor-p obtido indica a probabilidade de observarmos uma diferença igual ou mais extrema que a encontrada, assumindo que a hipótese nula é verdadeira. 

- Se o valor-p for menor que o nível de significância (por exemplo, 0,05), rejeitamos a hipótese nula e concluímos que a intervenção teve efeito significativo.
- Se o valor-p for maior que 0,05, não rejeitamos a hipótese nula.

No nosso caso:

In [None]:
p_value = stats.ttest_rel(df['bp_before'], df['bp_after']).pvalue

# Interpretação do p-valor
if p_value < 0.05:
    print("Rejeitamos a hipótese nula: há diferença significativa entre as pressões arteriais antes e depois.")
else:
    print("Não rejeitamos a hipótese nula: não há diferença significativa entre as pressões arteriais antes e depois.")

# Comparando preços de imóveis:

Verifique se existe diferença para imóveis à venda entre em termos de preço, preço m2 e área entre apartamentos e casas usando testes estatísticos e visualize as distribuições com boxplots.

In [None]:
houses=pd.read_csv("https://raw.githubusercontent.com/ProfLuciano/cd/gh-pages/data/recife.csv",encoding = "ISO-8859-1")

# filtrar os dados para incluir apenas os preços acima de 30.000 (venda)
houses = houses[houses['price'] > 30000]

houses['price_m2'] = houses['price']/houses['area']
houses.head()

In [None]:
houses['type'].value_counts()

## Box plots

In [None]:
import seaborn as sns

plt.figure(figsize=(10, 5))
plt.subplot(1, 2, 1)
sns.boxplot(data=houses, x='type', y='price')
plt.title('Boxplot do Preço por Tipo de Imóvel')
plt.ylabel('Preço')
plt.xlabel('Tipo de Imóvel')

plt.subplot(1, 2, 2)
sns.boxplot(data=houses, x='type', y='price_m2')
plt.title('Boxplot do Preço por m² por Tipo de Imóvel')
plt.ylabel('Preço por m²')
plt.xlabel('Tipo de Imóvel')
plt.tight_layout()

plt.show()

## Identificando o tipo de teste a ser aplicado

![Tabela de tipos de testes de hipótese](https://raw.githubusercontent.com/ufrpe-ensino/ia-aulas/refs/heads/master/assets/images/hypothesis-tests-table.png)

### Verificando normalidade dos dados

O teste de Shapiro-Wilk é utilizado para verificar se uma amostra segue uma distribuição normal. Ele retorna um valor de estatística e um valor-p (p-value). Se o valor-p for maior que 0,05, não rejeitamos a hipótese nula de normalidade, ou seja, os dados podem ser considerados normalmente distribuídos. Se o valor-p for menor que 0,05, rejeitamos a hipótese nula, indicando que os dados não seguem uma distribuição normal.

In [None]:
# 5. Testes de normalidade (Shapiro-Wilk)
print("Normalidade (Shapiro) - Preço Apto:", stats.shapiro(houses[houses['type'] == 'apart']['price']))
print("Normalidade (Shapiro) - Preço Casa:", stats.shapiro(houses[houses['type'] == 'house']['price']))

# qqplot
plt.figure(figsize=(10, 5))
plt.subplot(1, 2, 1)
stats.probplot(houses[houses['type'] == 'apart']['price'], dist="norm", plot=plt)
plt.title('Q-Q Plot - Preço Apto')
plt.subplot(1, 2, 2)
stats.probplot(houses[houses['type'] == 'house']['price'], dist="norm", plot=plt)
plt.title('Q-Q Plot - Preço Casa')
plt.tight_layout()
plt.show()

# verificar a normalidade dos dados
if stats.shapiro(houses['price'])[1] > 0.05:
    print("Os dados seguem uma distribuição normal.")
else:
    print("Os dados não seguem uma distribuição normal.")

Nesse caso, podemos usar o teste de Mann-Whitney para comparar os preços entre os dois tipos de imóveis.

### Aplicando o teste

In [None]:
# Teste de Mann-Whitney U
print("Teste de Mann-Whitney U entre os preços dos tipos de imóveis:")
print(f'pvalue: {stats.mannwhitneyu(houses[houses['type'] == 'apart']['price'], 
                                    houses[houses['type'] == 'house']['price'])[1]}')

# conclusão
if stats.mannwhitneyu(houses[houses['type'] == 'apart']['price'], 
                             houses[houses['type'] == 'house']['price'])[1] < 0.05:
    print("Rejeitamos a hipótese nula: há diferença significativa entre os preços dos tipos de imóveis.")
else:   
    print("Não rejeitamos a hipótese nula: não há diferença significativa entre os preços dos tipos de imóveis.")

In [None]:
# mesmo teste para o preço por m2
print("Teste de Mann-Whitney U entre os preços por m2 dos tipos de imóveis:")
print(f'pvalue: {stats.mannwhitneyu(houses[houses['type'] == 'apart']['price_m2'],
                                    houses[houses['type'] == 'house']['price_m2'])[1]}') 


# conclusão
if stats.mannwhitneyu(houses[houses['type'] == 'apart']['price_m2'], 
                             houses[houses['type'] == 'house']['price_m2'])[1] < 0.05:
    print("Rejeitamos a hipótese nula: há diferença significativa entre os preços por m2 dos tipos de imóveis.")
else:
    print("Não rejeitamos a hipótese nula: não há diferença significativa entre os preços por m2 dos tipos de imóveis.")

# Exercício

Realize a mesma análise comparando dois bairros que possuam um grande número de imóveis nos dados.

In [None]:
# sua resposta