<a href="https://colab.research.google.com/github/tiagopessoalima/TATI/blob/main/Semana_06_(TATI).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Estatística Inferencial**

A estatística inferencial permite tirar conclusões sobre uma população com base em dados de uma amostra. Dois pilares fundamentais são:

* **Testes de Hipótese:** Avaliam a validade de uma afirmação sobre uma população.

* **Intervalos de Confiança:** Estimam um intervalo de valores plausíveis para um parâmetro populacional.

As análises serão conduzidas com o apoio de uma biblioteca amplamente consolidada no ecossistema Python, `scipy`. Utilizaremos um conjunto de dados que contém informações detalhadas sobre moradias no estado da Califórnia.


## **Importar bibliotecas**

In [None]:
import scipy.stats as stats

## **Carregamento dos Dados**


### **Baixar e Extrair o Arquivo**


In [None]:
import tarfile
from urllib.request import urlretrieve
from pathlib import Path

URL = "https://raw.githubusercontent.com/tiagopessoalima/TATI/main/datasets/housing_semana_03.tgz"
DIR = Path("datasets/housing")
TGZ = DIR / "housing.tgz"
CSV = DIR / "housing.csv"

def baixar():
    DIR.mkdir(parents=True, exist_ok=True)
    if not TGZ.is_file():
        urlretrieve(URL, TGZ)

def extrair():
    if TGZ.is_file() and not CSV.is_file():
        with tarfile.open(TGZ) as f:
            f.extractall(path=DIR)

baixar()
extrair()

### **Carregamento do CSV**

In [None]:
import pandas as pd

df = pd.read_csv(DIR / 'housing_semana_03.csv')

## **Testes de Hipóteses**

Testes de hipóteses são procedimentos estatísticos empregados para tomar decisões sobre uma ou mais populações com base em amostras de dados. O processo consiste na formulação de duas hipóteses mutuamente exclusivas: a hipótese nula (H₀), que representa uma afirmação inicial a ser testada, e a hipótese alternativa (H₁ ou Ha), que contrapõe a hipótese nula.

**Conceitos Chave:**

* **Hipótese Nula (H₀)**: Afirmação sobre um parâmetro populacional que se assume verdadeira até que evidências suficientes a contradigam. Frequentemente, é uma hipótese de "nenhuma diferença" ou "nenhum efeito".
* **Hipótese Alternativa (H₁ ou Ha)**: Afirmação que reflete uma possível diferença ou efeito, em oposição à hipótese nula. É o que o pesquisador busca demonstrar.
* **Nível de Significância (α)**: Probabilidade de cometer um Erro Tipo I, ou seja, rejeitar a hipótese nula quando ela é verdadeira. Valores típicos incluem 0.05 e 0.01.
* **Valor-p (p-value)**: Probabilidade de obter um resultado tão extremo quanto, ou mais extremo do que, o observado, assumindo que a hipótese nula seja verdadeira. Caso o valor-p ≤ α, rejeita-se H₀.
* **Erro Tipo I**: Rejeitar a hipótese nula quando ela é verdadeira.
* **Erro Tipo II**: Não rejeitar a hipótese nula quando ela é falsa.


### **Exemplo Prático: Teste t para uma amostra**

**Objetivo**: O objetivo é testar se o valor mediano das casas (`valor_mediano_casas`) na Califórnia difere significativamente de \$200.000.

* **H₀**: A média do valor mediano das casas é igual a \$200.000 (μ = 200.000).
* **H₁**: A média do valor mediano das casas é diferente de \$200.000 (μ ≠ 200.000).

O teste será realizado com um nível de significância de α = 0,05.


In [None]:
# Teste t para uma amostra
valor_hipotetico = 200000
amostra_valores_casas = df['valor_mediano_casas']

# Realizando o teste t
t_statistic, p_value = stats.ttest_1samp(a=amostra_valores_casas, popmean=valor_hipotetico)

print(f"Estatística t: {t_statistic:.4f}")
print(f"Valor-p: {p_value:.4f}")

# Interpretando o resultado
alpha = 0.05
if p_value < alpha:
    print(f"Com um valor-p de {p_value:.4f}, rejeitamos H₀.")
    print(f"Há evidências estatísticas para sugerir que o valor mediano das casas é diferente de ${valor_hipotetico}.")
else:
    print(f"Com um valor-p de {p_value:.4f}, não rejeitamos H₀.")
    print(f"Não há evidências estatísticas suficientes para sugerir que o valor mediano das casas é diferente de ${valor_hipotetico}.")

Estatística t: 8.5354
Valor-p: 0.0000
Com um valor-p de 0.0000, rejeitamos H₀.
Há evidências estatísticas para sugerir que o valor mediano das casas é diferente de $200000.


In [None]:
df['valor_mediano_casas'].mean()

np.float64(206855.81690891474)

O teste estatístico serve para determinar se a diferença entre a média observada (206.000) e o valor hipotético ($200.000) é grande o suficiente para não ser apenas fruto do acaso.