<a href="https://colab.research.google.com/github/tiagopessoalima/TATI/blob/main/Semana_06_(TATI).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Estatística Inferencial**

A estatística inferencial permite tirar conclusões sobre uma população com base em dados de uma amostra. Dois pilares fundamentais são:

* **Testes de Hipótese:** Avaliam a validade de uma afirmação sobre uma população.

* **Intervalos de Confiança:** Estimam um intervalo de valores plausíveis para um parâmetro populacional.


## **Importar bibliotecas**

As análises serão conduzidas com o apoio de uma biblioteca amplamente consolidada no ecossistema Python, `scipy`.

In [1]:
import scipy.stats as stats

## **Testes de Hipótese**

Um teste de hipótese é como um "julgamento" estatístico: você faz uma afirmação sobre a população (por exemplo, "a altura média dos homens é 1,75 m") e usa os dados da amostra para decidir se essa afirmação é razoável ou não.

### **Componentes Principais**

1. **Hipótese Nula (H₀):**
- É a afirmação inicial que assumimos como verdadeira até prova em contrário.
- Exemplo: "A altura média dos homens é 1,75 m" (μ = 1,75).

2. **Hipótese Alternativa (H₁ ou Hₐ):**
- É o que consideramos se os dados mostrarem que H₀ não faz sentido. Pode ser:

  - **Bilateral:** "A média é diferente de 1,75 m" (μ ≠ 1,75).
  - **Unilateral à direita:** "A média é maior que 1,75 m" (μ > 1,75).
  - **Unilateral à esquerda:** "A média é menor que 1,75 m" (μ < 1,75).

3. **Nível de Significância (α):**
- É o limite de risco que aceitamos para rejeitar H₀ por engano.
- Exemplo: α = 0,05 significa 5% de chance de erro. Outros valores comuns são 0,01 (1%) e 0,10 (10%).

4. **Estatística de Teste:**
- Um número calculado a partir da amostra que nos ajuda a tomar a decisão. Depende do tipo de teste (t, Z, etc.).

5. **Valor-p (p-valor):**

- É a probabilidade de observar um resultado tão extremo quanto o da amostra, se H₀ for verdadeira.
- Interpretação simples:
  - Valor-p pequeno (≤ α): Há evidência contra H₀ → rejeitamos H₀.
  - Valor-p grande (> α): Não há evidência contra H₀ → não rejeitamos H₀.


### **Processo de Decisão**

*   Se o **valor-p ≤ α**, rejeitamos H₀. Há evidência estatística suficiente para suportar H₁.
*   Se o **valor-p > α**, não rejeitamos H₀. Não há evidência estatística suficiente para rejeitar H₀.

### **Exemplo Prático**

Imagine que você quer saber se a altura média dos homens em uma cidade é diferente de 1,75 m. Você mede 50 homens, faz um teste estatístico e obtém um valor-p de 0,03. Como 0,03 < 0,05 (α = 5%), você rejeita H₀ e conclui que a média é diferente de 1,75 m.

### **Tipos de Erros**

*   **Erro Tipo I:** Rejeitar H₀ quando ela é, na verdade, verdadeira. A probabilidade de cometer um Erro Tipo I é α.
*   **Erro Tipo II:** Não rejeitar H₀ quando ela é, na verdade, falsa. A probabilidade de cometer um Erro Tipo II é β.

### **Testes Comuns**

* **Teste t:** Utilizado para comparar médias de uma ou duas amostras, especialmente quando o desvio padrão populacional é desconhecido e/ou o tamanho da amostra é pequeno. Exemplos: comparação da média de um grupo com um valor de referência ou entre dois grupos independentes.

* **Teste Z:** Semelhante ao teste t, mas aplicado quando o desvio padrão populacional é conhecido ou quando a amostra é suficientemente grande (graças ao Teorema Central do Limite).

* **ANOVA (Análise de Variância):** Aplicada para comparar as médias de três ou mais grupos independentes, avaliando se pelo menos um grupo difere significativamente dos demais.

* **Teste Qui-Quadrado (χ²):** Usado para analisar relações entre variáveis categóricas (teste de independência) ou verificar se a distribuição observada dos dados difere de uma distribuição teórica esperada (teste de aderência).

### **Exemplo com Código**

Vamos testar se a média de uma amostra de alturas é igual a 1,75 m.

In [2]:
import numpy as np

# Amostra de alturas (em metros)
amostra = np.array([1.70, 1.75, 1.80, 1.65, 1.78, 1.82, 1.68, 1.74, 1.79, 1.81])

# Teste t de uma amostra
resultado = stats.ttest_1samp(amostra, popmean=1.75)
print(f"Estatística t: {resultado.statistic:.2f}")
print(f"Valor-p: {resultado.pvalue:.4f}")

Estatística t: 0.11
Valor-p: 0.9165


📊 Interpretação do Teste t

* A **estatística t = 0,11** mostra que a média da amostra está praticamente igual à média hipotética de **1,75 m**.
* O **valor-p = 0,9165** indica que há **91,65% de chance** de observar essa pequena diferença apenas por acaso.

✅ Conclusão

* A diferença entre as médias é **muito pequena** e pode ser explicada por **variação natural**.
* **Não há evidência estatística para rejeitar a hipótese de que a média da amostra seja 1,75.**


## **Intervalos de Confiança**


Um intervalo de confiança (IC) é uma faixa de valores que provavelmente contém o verdadeiro valor de um parâmetro populacional (como a média ou proporção), calculada a partir da amostra.

### **Componentes Principais**

1. **Estimativa Pontual:**
- O melhor "chute" para o parâmetro, como a média da amostra (𝑥̄).
- Exemplo: Média amostral de 1,76 m.

2. **Margem de Erro:**
- A incerteza em torno da estimativa. Depende do tamanho da amostra, da variabilidade dos dados e do nível de confiança.

3. **Nível de Confiança (1 - α):**
- A probabilidade de que o intervalo contenha o valor real.
- Exemplos:
   * 95% de confiança → α = 0,05
   * 99% de confiança → α = 0,01
   * 90% de confiança → α = 0,10


### **Interpretação**

Um IC de 95% como [1,72 m, 1,78 m] significa que estamos 95% confiantes de que a verdadeira média populacional está entre 1,72 m e 1,78 m. Não é uma garantia absoluta, mas uma medida de confiança baseada nos dados.

### **Exemplo com Código**

Vamos calcular o IC de 95% para a média da mesma amostra.

In [3]:
# Intervalo de confiança de 95%
ic = stats.t.interval(0.95, len(amostra)-1, loc=np.mean(amostra), scale=stats.sem(amostra))
print(f"Intervalo de Confiança 95%: [{ic[0]:.2f}, {ic[1]:.2f}]")

Intervalo de Confiança 95%: [1.71, 1.79]


Isso indica que, com 95% de confiança, a média populacional está entre 1,71 m e 1,80 m.

## **Exercícios**

Cenário: Uma fábrica afirma que suas barras de chocolate têm em média 50g.
Coletamos uma amostra de 15 barras e pesamos:

In [4]:
pesos_barras = np.array([48.5, 51.2, 49.8, 50.5, 49.0, 50.8, 51.5, 48.2, 49.5, 50.1, 50.9, 48.8, 51.0, 49.2, 50.3])

# Hipóteses:
# H₀: A média de peso das barras é 50g (μ = 50)
# H₁: A média de peso das barras é diferente de 50g (μ ≠ 50)

media_populacional_hipotetica = 50

# Nível de significância (α)
alpha = 0.05

print("--- Exemplo 1: Teste t para uma amostra ---")
print(f"Amostra de pesos: {pesos_barras}")
print(f"Média amostral: {np.mean(pesos_barras):.2f}g")
print(f"Hipótese Nula (H₀): μ = {media_populacional_hipotetica}g")
print(f"Hipótese Alternativa (H₁): μ ≠ {media_populacional_hipotetica}g")
print(f"Nível de significância (α): {alpha}")

# Realizando o teste t para uma amostra
# A função ttest_1samp retorna a estatística t e o valor-p
stat_t, valor_p = stats.ttest_1samp(a=pesos_barras, popmean=media_populacional_hipotetica)

print(f"\nEstatística t calculada: {stat_t:.4f}")
print(f"Valor-p calculado: {valor_p:.4f}")

# Tomando a decisão
if valor_p <= alpha:
    print(f"\nDecisão: Rejeitar H₀ (pois valor-p {valor_p:.4f} <= α {alpha})")
    print("Conclusão: Há evidência estatística suficiente para dizer que o peso médio das barras é diferente de 50g.")
else:
    print(f"\nDecisão: Não rejeitar H₀ (pois valor-p {valor_p:.4f} > α {alpha})")
    print("Conclusão: Não há evidência estatística suficiente para dizer que o peso médio das barras é diferente de 50g.")

print("\n" + "="*50 + "\n")

--- Exemplo 1: Teste t para uma amostra ---
Amostra de pesos: [48.5 51.2 49.8 50.5 49.  50.8 51.5 48.2 49.5 50.1 50.9 48.8 51.  49.2
 50.3]
Média amostral: 49.95g
Hipótese Nula (H₀): μ = 50g
Hipótese Alternativa (H₁): μ ≠ 50g
Nível de significância (α): 0.05

Estatística t calculada: -0.1728
Valor-p calculado: 0.8653

Decisão: Não rejeitar H₀ (pois valor-p 0.8653 > α 0.05)
Conclusão: Não há evidência estatística suficiente para dizer que o peso médio das barras é diferente de 50g.




Cenário: Usando a mesma amostra de pesos das barras de chocolate, vamos calcular um intervalo de confiança de 95% para a média populacional do peso.

In [5]:
nivel_confianca = 0.95

print("--- Exemplo 2: Intervalo de Confiança para a Média ---")
print(f"Amostra de pesos: {pesos_barras}")
print(f"Nível de confiança: {nivel_confianca*100}%")

# Calculando os componentes necessários:
media_amostral = np.mean(pesos_barras)
desvio_padrao_amostral = np.std(pesos_barras, ddof=1) # ddof=1 para desvio padrão amostral
tamanho_amostra = len(pesos_barras)
graus_liberdade = tamanho_amostra - 1

# Calculando o intervalo de confiança usando a distribuição t
# stats.t.interval(nível_confiança, graus_liberdade, loc=média_amostral, scale=erro_padrão)
# Erro padrão da média = desvio_padrao_amostral / sqrt(tamanho_amostra)
erro_padrao_media = desvio_padrao_amostral / np.sqrt(tamanho_amostra)

intervalo = stats.t.interval(confidence=nivel_confianca,
                             df=graus_liberdade,
                             loc=media_amostral,
                             scale=erro_padrao_media)

print(f"\nMédia amostral: {media_amostral:.2f}g")
print(f"Desvio padrão amostral: {desvio_padrao_amostral:.2f}g")
print(f"Erro padrão da média: {erro_padrao_media:.4f}")
print(f"Graus de liberdade: {graus_liberdade}")
print(f"\nIntervalo de Confiança ({nivel_confianca*100}%): [{intervalo[0]:.2f}g, {intervalo[1]:.2f}g]")

print("\nInterpretação: Estamos 95% confiantes de que a verdadeira média de peso de todas as barras de chocolate produzidas pela fábrica está entre {:.2f}g e {:.2f}g.".format(intervalo[0], intervalo[1]))

# Verificando a relação com o Teste de Hipótese (Exemplo 1)
if intervalo[0] <= media_populacional_hipotetica <= intervalo[1]:
    print(f"\nComo o valor hipotético ({media_populacional_hipotetica}g) está DENTRO do intervalo de confiança 95%, isso é consistente com a decisão de NÃO REJEITAR H₀ no teste t bilateral com α=0.05.")
else:
    print(f"\nComo o valor hipotético ({media_populacional_hipotetica}g) está FORA do intervalo de confiança 95%, isso é consistente com a decisão de REJEITAR H₀ no teste t bilateral com α=0.05.")

print("\n" + "="*50 + "\n")

--- Exemplo 2: Intervalo de Confiança para a Média ---
Amostra de pesos: [48.5 51.2 49.8 50.5 49.  50.8 51.5 48.2 49.5 50.1 50.9 48.8 51.  49.2
 50.3]
Nível de confiança: 95.0%

Média amostral: 49.95g
Desvio padrão amostral: 1.05g
Erro padrão da média: 0.2701
Graus de liberdade: 14

Intervalo de Confiança (95.0%): [49.37g, 50.53g]

Interpretação: Estamos 95% confiantes de que a verdadeira média de peso de todas as barras de chocolate produzidas pela fábrica está entre 49.37g e 50.53g.

Como o valor hipotético (50g) está DENTRO do intervalo de confiança 95%, isso é consistente com a decisão de NÃO REJEITAR H₀ no teste t bilateral com α=0.05.


