# Introdução à Estatística com SciPy

Este notebook oferece uma introdução a testes estatísticos fundamentais usando a biblioteca `SciPy`. Vamos explorar como aplicar testes de hipóteses para extrair insights de dados.

## Carregando os Dados

Vamos usar o dataset do Titanic novamente.

In [None]:
import pandas as pd
from scipy import stats

df = pd.read_csv('../data/titanic/train.csv')

## Teste T de Amostras Independentes

O Teste T é usado para comparar as médias de dois grupos. Nossa hipótese nula (H0) é que não há diferença significativa entre as médias.

**Pergunta**: A idade média dos sobreviventes é significativamente diferente da idade média dos não sobreviventes?

In [None]:
survived = df[df['Survived'] == 1]['Age'].dropna()
not_survived = df[df['Survived'] == 0]['Age'].dropna()

t_stat, p_value = stats.ttest_ind(survived, not_survived)

print(f'Estatística T: {t_stat:.4f}')
print(f'Valor-p: {p_value:.4f}')

if p_value < 0.05:
    print('Rejeitamos a hipótese nula. Há uma diferença significativa nas idades.')
else:
    print('Não rejeitamos a hipótese nula. Não há diferença significativa nas idades.')

## Teste Qui-Quadrado (Chi-Squared)

O teste Qui-Quadrado é usado para verificar a independência entre duas variáveis categóricas. A hipótese nula (H0) é que as variáveis são independentes.

**Pergunta**: Existe uma associação entre a classe do passageiro (Pclass) e a sobrevivência (Survived)?

In [None]:
contingency_table = pd.crosstab(df['Pclass'], df['Survived'])
chi2, p, dof, expected = stats.chi2_contingency(contingency_table)

print(f'Estatística Qui-Quadrado: {chi2:.4f}')
print(f'Valor-p: {p:.4f}')

if p < 0.05:
    print('Rejeitamos a hipótese nula. Há uma associação entre classe e sobrevivência.')
else:
    print('Não rejeitamos a hipótese nula. Não há associação entre classe e sobrevivência.')

## ANOVA (Análise de Variância)

ANOVA é usada para comparar as médias de três ou mais grupos. A hipótese nula (H0) é que as médias de todos os grupos são iguais.

**Pergunta**: O valor da passagem (Fare) difere significativamente entre as diferentes classes de passageiros (Pclass)?

In [None]:
pclass1 = df[df['Pclass'] == 1]['Fare']
pclass2 = df[df['Pclass'] == 2]['Fare']
pclass3 = df[df['Pclass'] == 3]['Fare']

f_stat, p_value = stats.f_oneway(pclass1, pclass2, pclass3)

print(f'Estatística F: {f_stat:.4f}')
print(f'Valor-p: {p_value:.4f}')

if p_value < 0.05:
    print('Rejeitamos a hipótese nula. Há uma diferença significativa na tarifa entre as classes.')
else:
    print('Não rejeitamos a hipótese nula. Não há diferença significativa na tarifa entre as classes.')