<a href="https://colab.research.google.com/github/tiagopessoalima/TATI/blob/main/Semana_06_(TATI).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Estat√≠stica Inferencial**

A estat√≠stica inferencial permite tirar conclus√µes sobre uma popula√ß√£o com base em dados de uma amostra. Dois pilares fundamentais s√£o:

* **Testes de Hip√≥tese:** Avaliam a validade de uma afirma√ß√£o sobre uma popula√ß√£o.

* **Intervalos de Confian√ßa:** Estimam um intervalo de valores plaus√≠veis para um par√¢metro populacional.


## **Importar bibliotecas**

As an√°lises ser√£o conduzidas com o apoio de uma biblioteca amplamente consolidada no ecossistema Python, `scipy`.

In [1]:
import scipy.stats as stats

## **Testes de Hip√≥tese**

Um teste de hip√≥tese √© como um "julgamento" estat√≠stico: voc√™ faz uma afirma√ß√£o sobre a popula√ß√£o (por exemplo, "a altura m√©dia dos homens √© 1,75 m") e usa os dados da amostra para decidir se essa afirma√ß√£o √© razo√°vel ou n√£o.

### **Componentes Principais**

1. **Hip√≥tese Nula (H‚ÇÄ):**
- √â a afirma√ß√£o inicial que assumimos como verdadeira at√© prova em contr√°rio.
- Exemplo: "A altura m√©dia dos homens √© 1,75 m" (Œº = 1,75).

2. **Hip√≥tese Alternativa (H‚ÇÅ ou H‚Çê):**
- √â o que consideramos se os dados mostrarem que H‚ÇÄ n√£o faz sentido. Pode ser:

  - **Bilateral:** "A m√©dia √© diferente de 1,75 m" (Œº ‚â† 1,75).
  - **Unilateral √† direita:** "A m√©dia √© maior que 1,75 m" (Œº > 1,75).
  - **Unilateral √† esquerda:** "A m√©dia √© menor que 1,75 m" (Œº < 1,75).

3. **N√≠vel de Signific√¢ncia (Œ±):**
- √â o limite de risco que aceitamos para rejeitar H‚ÇÄ por engano.
- Exemplo: Œ± = 0,05 significa 5% de chance de erro. Outros valores comuns s√£o 0,01 (1%) e 0,10 (10%).

4. **Estat√≠stica de Teste:**
- Um n√∫mero calculado a partir da amostra que nos ajuda a tomar a decis√£o. Depende do tipo de teste (t, Z, etc.).

5. **Valor-p (p-valor):**

- √â a probabilidade de observar um resultado t√£o extremo quanto o da amostra, se H‚ÇÄ for verdadeira.
- Interpreta√ß√£o simples:
  - Valor-p pequeno (‚â§ Œ±): H√° evid√™ncia contra H‚ÇÄ ‚Üí rejeitamos H‚ÇÄ.
  - Valor-p grande (> Œ±): N√£o h√° evid√™ncia contra H‚ÇÄ ‚Üí n√£o rejeitamos H‚ÇÄ.


### **Processo de Decis√£o**

*   Se o **valor-p ‚â§ Œ±**, rejeitamos H‚ÇÄ. H√° evid√™ncia estat√≠stica suficiente para suportar H‚ÇÅ.
*   Se o **valor-p > Œ±**, n√£o rejeitamos H‚ÇÄ. N√£o h√° evid√™ncia estat√≠stica suficiente para rejeitar H‚ÇÄ.

### **Exemplo Pr√°tico**

Imagine que voc√™ quer saber se a altura m√©dia dos homens em uma cidade √© diferente de 1,75 m. Voc√™ mede 50 homens, faz um teste estat√≠stico e obt√©m um valor-p de 0,03. Como 0,03 < 0,05 (Œ± = 5%), voc√™ rejeita H‚ÇÄ e conclui que a m√©dia √© diferente de 1,75 m.

### **Tipos de Erros**

*   **Erro Tipo I:** Rejeitar H‚ÇÄ quando ela √©, na verdade, verdadeira. A probabilidade de cometer um Erro Tipo I √© Œ±.
*   **Erro Tipo II:** N√£o rejeitar H‚ÇÄ quando ela √©, na verdade, falsa. A probabilidade de cometer um Erro Tipo II √© Œ≤.

### **Testes Comuns**

* **Teste t:** Utilizado para comparar m√©dias de uma ou duas amostras, especialmente quando o desvio padr√£o populacional √© desconhecido e/ou o tamanho da amostra √© pequeno. Exemplos: compara√ß√£o da m√©dia de um grupo com um valor de refer√™ncia ou entre dois grupos independentes.

* **Teste Z:** Semelhante ao teste t, mas aplicado quando o desvio padr√£o populacional √© conhecido ou quando a amostra √© suficientemente grande (gra√ßas ao Teorema Central do Limite).

* **ANOVA (An√°lise de Vari√¢ncia):** Aplicada para comparar as m√©dias de tr√™s ou mais grupos independentes, avaliando se pelo menos um grupo difere significativamente dos demais.

* **Teste Qui-Quadrado (œá¬≤):** Usado para analisar rela√ß√µes entre vari√°veis categ√≥ricas (teste de independ√™ncia) ou verificar se a distribui√ß√£o observada dos dados difere de uma distribui√ß√£o te√≥rica esperada (teste de ader√™ncia).

### **Exemplo com C√≥digo**

Vamos testar se a m√©dia de uma amostra de alturas √© igual a 1,75 m.

In [2]:
import numpy as np

# Amostra de alturas (em metros)
amostra = np.array([1.70, 1.75, 1.80, 1.65, 1.78, 1.82, 1.68, 1.74, 1.79, 1.81])

# Teste t de uma amostra
resultado = stats.ttest_1samp(amostra, popmean=1.75)
print(f"Estat√≠stica t: {resultado.statistic:.2f}")
print(f"Valor-p: {resultado.pvalue:.4f}")

Estat√≠stica t: 0.11
Valor-p: 0.9165


üìä Interpreta√ß√£o do Teste t

* A **estat√≠stica t = 0,11** mostra que a m√©dia da amostra est√° praticamente igual √† m√©dia hipot√©tica de **1,75 m**.
* O **valor-p = 0,9165** indica que h√° **91,65% de chance** de observar essa pequena diferen√ßa apenas por acaso.

‚úÖ Conclus√£o

* A diferen√ßa entre as m√©dias √© **muito pequena** e pode ser explicada por **varia√ß√£o natural**.
* **N√£o h√° evid√™ncia estat√≠stica para rejeitar a hip√≥tese de que a m√©dia da amostra seja 1,75.**


## **Intervalos de Confian√ßa**


Um intervalo de confian√ßa (IC) √© uma faixa de valores que provavelmente cont√©m o verdadeiro valor de um par√¢metro populacional (como a m√©dia ou propor√ß√£o), calculada a partir da amostra.

### **Componentes Principais**

1. **Estimativa Pontual:**
- O melhor "chute" para o par√¢metro, como a m√©dia da amostra (ùë•ÃÑ).
- Exemplo: M√©dia amostral de 1,76 m.

2. **Margem de Erro:**
- A incerteza em torno da estimativa. Depende do tamanho da amostra, da variabilidade dos dados e do n√≠vel de confian√ßa.

3. **N√≠vel de Confian√ßa (1 - Œ±):**
- A probabilidade de que o intervalo contenha o valor real.
- Exemplos:
   * 95% de confian√ßa ‚Üí Œ± = 0,05
   * 99% de confian√ßa ‚Üí Œ± = 0,01
   * 90% de confian√ßa ‚Üí Œ± = 0,10


### **Interpreta√ß√£o**

Um IC de 95% como [1,72 m, 1,78 m] significa que estamos 95% confiantes de que a verdadeira m√©dia populacional est√° entre 1,72 m e 1,78 m. N√£o √© uma garantia absoluta, mas uma medida de confian√ßa baseada nos dados.

### **Exemplo com C√≥digo**

Vamos calcular o IC de 95% para a m√©dia da mesma amostra.

In [3]:
# Intervalo de confian√ßa de 95%
ic = stats.t.interval(0.95, len(amostra)-1, loc=np.mean(amostra), scale=stats.sem(amostra))
print(f"Intervalo de Confian√ßa 95%: [{ic[0]:.2f}, {ic[1]:.2f}]")

Intervalo de Confian√ßa 95%: [1.71, 1.79]


Isso indica que, com 95% de confian√ßa, a m√©dia populacional est√° entre 1,71 m e 1,80 m.

## **Exerc√≠cios**

Cen√°rio: Uma f√°brica afirma que suas barras de chocolate t√™m em m√©dia 50g.
Coletamos uma amostra de 15 barras e pesamos:

In [4]:
pesos_barras = np.array([48.5, 51.2, 49.8, 50.5, 49.0, 50.8, 51.5, 48.2, 49.5, 50.1, 50.9, 48.8, 51.0, 49.2, 50.3])

# Hip√≥teses:
# H‚ÇÄ: A m√©dia de peso das barras √© 50g (Œº = 50)
# H‚ÇÅ: A m√©dia de peso das barras √© diferente de 50g (Œº ‚â† 50)

media_populacional_hipotetica = 50

# N√≠vel de signific√¢ncia (Œ±)
alpha = 0.05

print("--- Exemplo 1: Teste t para uma amostra ---")
print(f"Amostra de pesos: {pesos_barras}")
print(f"M√©dia amostral: {np.mean(pesos_barras):.2f}g")
print(f"Hip√≥tese Nula (H‚ÇÄ): Œº = {media_populacional_hipotetica}g")
print(f"Hip√≥tese Alternativa (H‚ÇÅ): Œº ‚â† {media_populacional_hipotetica}g")
print(f"N√≠vel de signific√¢ncia (Œ±): {alpha}")

# Realizando o teste t para uma amostra
# A fun√ß√£o ttest_1samp retorna a estat√≠stica t e o valor-p
stat_t, valor_p = stats.ttest_1samp(a=pesos_barras, popmean=media_populacional_hipotetica)

print(f"\nEstat√≠stica t calculada: {stat_t:.4f}")
print(f"Valor-p calculado: {valor_p:.4f}")

# Tomando a decis√£o
if valor_p <= alpha:
    print(f"\nDecis√£o: Rejeitar H‚ÇÄ (pois valor-p {valor_p:.4f} <= Œ± {alpha})")
    print("Conclus√£o: H√° evid√™ncia estat√≠stica suficiente para dizer que o peso m√©dio das barras √© diferente de 50g.")
else:
    print(f"\nDecis√£o: N√£o rejeitar H‚ÇÄ (pois valor-p {valor_p:.4f} > Œ± {alpha})")
    print("Conclus√£o: N√£o h√° evid√™ncia estat√≠stica suficiente para dizer que o peso m√©dio das barras √© diferente de 50g.")

print("\n" + "="*50 + "\n")

--- Exemplo 1: Teste t para uma amostra ---
Amostra de pesos: [48.5 51.2 49.8 50.5 49.  50.8 51.5 48.2 49.5 50.1 50.9 48.8 51.  49.2
 50.3]
M√©dia amostral: 49.95g
Hip√≥tese Nula (H‚ÇÄ): Œº = 50g
Hip√≥tese Alternativa (H‚ÇÅ): Œº ‚â† 50g
N√≠vel de signific√¢ncia (Œ±): 0.05

Estat√≠stica t calculada: -0.1728
Valor-p calculado: 0.8653

Decis√£o: N√£o rejeitar H‚ÇÄ (pois valor-p 0.8653 > Œ± 0.05)
Conclus√£o: N√£o h√° evid√™ncia estat√≠stica suficiente para dizer que o peso m√©dio das barras √© diferente de 50g.




Cen√°rio: Usando a mesma amostra de pesos das barras de chocolate, vamos calcular um intervalo de confian√ßa de 95% para a m√©dia populacional do peso.

In [5]:
nivel_confianca = 0.95

print("--- Exemplo 2: Intervalo de Confian√ßa para a M√©dia ---")
print(f"Amostra de pesos: {pesos_barras}")
print(f"N√≠vel de confian√ßa: {nivel_confianca*100}%")

# Calculando os componentes necess√°rios:
media_amostral = np.mean(pesos_barras)
desvio_padrao_amostral = np.std(pesos_barras, ddof=1) # ddof=1 para desvio padr√£o amostral
tamanho_amostra = len(pesos_barras)
graus_liberdade = tamanho_amostra - 1

# Calculando o intervalo de confian√ßa usando a distribui√ß√£o t
# stats.t.interval(n√≠vel_confian√ßa, graus_liberdade, loc=m√©dia_amostral, scale=erro_padr√£o)
# Erro padr√£o da m√©dia = desvio_padrao_amostral / sqrt(tamanho_amostra)
erro_padrao_media = desvio_padrao_amostral / np.sqrt(tamanho_amostra)

intervalo = stats.t.interval(confidence=nivel_confianca,
                             df=graus_liberdade,
                             loc=media_amostral,
                             scale=erro_padrao_media)

print(f"\nM√©dia amostral: {media_amostral:.2f}g")
print(f"Desvio padr√£o amostral: {desvio_padrao_amostral:.2f}g")
print(f"Erro padr√£o da m√©dia: {erro_padrao_media:.4f}")
print(f"Graus de liberdade: {graus_liberdade}")
print(f"\nIntervalo de Confian√ßa ({nivel_confianca*100}%): [{intervalo[0]:.2f}g, {intervalo[1]:.2f}g]")

print("\nInterpreta√ß√£o: Estamos 95% confiantes de que a verdadeira m√©dia de peso de todas as barras de chocolate produzidas pela f√°brica est√° entre {:.2f}g e {:.2f}g.".format(intervalo[0], intervalo[1]))

# Verificando a rela√ß√£o com o Teste de Hip√≥tese (Exemplo 1)
if intervalo[0] <= media_populacional_hipotetica <= intervalo[1]:
    print(f"\nComo o valor hipot√©tico ({media_populacional_hipotetica}g) est√° DENTRO do intervalo de confian√ßa 95%, isso √© consistente com a decis√£o de N√ÉO REJEITAR H‚ÇÄ no teste t bilateral com Œ±=0.05.")
else:
    print(f"\nComo o valor hipot√©tico ({media_populacional_hipotetica}g) est√° FORA do intervalo de confian√ßa 95%, isso √© consistente com a decis√£o de REJEITAR H‚ÇÄ no teste t bilateral com Œ±=0.05.")

print("\n" + "="*50 + "\n")

--- Exemplo 2: Intervalo de Confian√ßa para a M√©dia ---
Amostra de pesos: [48.5 51.2 49.8 50.5 49.  50.8 51.5 48.2 49.5 50.1 50.9 48.8 51.  49.2
 50.3]
N√≠vel de confian√ßa: 95.0%

M√©dia amostral: 49.95g
Desvio padr√£o amostral: 1.05g
Erro padr√£o da m√©dia: 0.2701
Graus de liberdade: 14

Intervalo de Confian√ßa (95.0%): [49.37g, 50.53g]

Interpreta√ß√£o: Estamos 95% confiantes de que a verdadeira m√©dia de peso de todas as barras de chocolate produzidas pela f√°brica est√° entre 49.37g e 50.53g.

Como o valor hipot√©tico (50g) est√° DENTRO do intervalo de confian√ßa 95%, isso √© consistente com a decis√£o de N√ÉO REJEITAR H‚ÇÄ no teste t bilateral com Œ±=0.05.


