# Aula 24 - Teste de hipóteses para média populacional 

# Variância populacional desconhecida

___
**Preparo Prévio:**
1. Magalhães e Lima (7ª. Edição): Seção 8.3
2. Montgomery. Estatística Aplicada e Probabilidade para Engenheiros: Seção 9.3



**Título completo dos livros:**
* MAGALHÃES, M. N.; DE LIMA, A. C. P. Noções de Probabilidade e Estatística (7a edição). Edusp, 2013.
* MONTGOMERY, D. Estatística Aplicada e Probabilidade para Engenheiros (6a edição). LTC, 2016.


**Hoje:**
1. Expandir o Teste de Hipóteses para média em situações com $\sigma^2$ desconhecida

**Nota:**
O `Jupyter Lab` ainda não suporta *ipywidgets* , que são usados na parte interativa da Simulação 2. Recomenda-se usar este notebook no `Jupyter Notebook`

___

In [1]:
from __future__ import print_function
from ipywidgets import interact, interactive, fixed, interact_manual
import ipywidgets as widgets

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from scipy import stats

# Simulação 1: Variância populacional *vs* Variâncias da amostra


O objetivo desta simulação é comparar os desvios padrão da amostra calculados por  $\hat{\sigma}$ e $s$ como estimadores do desvio padrão da população.


1. Repita 10000 vezes:
    1. Gerar 10 números aleatórios com distribuição $X\sim N(0,1)$
    1. Calcular o desvio padrão usando `std()` e adicionar na lista L1. 
       Aqui, esse comando calcula o desvio padrão pela expressão: 
        $$\hat{\sigma}=\sqrt{\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n}}$$.
    1. Calcular o desvio padrão usando `std(ddof=1)` e adicionar na lista L2.
       Aqui, este segundo comando calcula o desvio padrão amostral pela expressão: 
        $$s=\sqrt{\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n-1}}$$.
        
1. Calcule as médias de L1 e L2. Compare-as. Lembre-se que L1 e L2 pretendem acertar o desvio padrão de $X$. Um dos estimadores é melhor que o outro?

In [None]:
from scipy.stats import norm
import numpy as np

#X ~ Normal sendo E(X)=0 e Var(X)=1
L1 = []
L2 = []
for i in range(10000):
    X = norm.rvs(loc=0, scale=1, size=10) #Executa item A descrito acima
    L1.append(X.std())       #Executa item B
    L2.append(X.std(ddof=1)) #Executa item C
    
print("Desvio padrão 𝜎̂ = ", np.mean(L1))
print("Desvio padrão 𝑠 = ", np.mean(L2))

___
# Simulação 2: t-Student *vs* Normal Padrão

Avalie o formato da distribuição t-Student conforme aumenta o grau de liberdade `graus_lib`.

Entenda em qual situação a t-Student se aproxima da Normal Padrão.

**Dica:** Lembre-se que o grau de liberdade é calculado fazendo tamanho da amostra menos 1, ou seja, $(n-1)$.

In [3]:
#Se não visualizar o pywidgets:
#conda install -c conda-forge ipywidgets

#Função que utiliza o pywidget
@interact(graus_lib = (1, 100, 1))
def f(graus_lib = 1):
    
    #Prints
    fig = plt.figure(figsize=(15,6))
    
    ax1 = fig.add_subplot(121)
    ax2 = fig.add_subplot(122)
    
    #Fit e print da pdf
    x = np.arange(-5, 5, 0.01)
    ax1.plot(x, stats.norm.pdf(x, loc=0, scale=1), color='r')
    ax1.plot(x, stats.t.pdf(x, df=graus_lib, loc=0, scale=1), color='b')
    ax1.legend(['Normal', 't-Student'])
    
    #QQ-Plot
    stats.probplot(stats.t.ppf(np.arange(0.01, 1, 0.01), df=graus_lib), dist=stats.norm, sparams=(0, 1), plot=ax2)
    
    

interactive(children=(IntSlider(value=1, description='graus_lib', min=1), Output()), _dom_classes=('widget-int…

___
# Importantíssimo:

1. A padronização $t=\frac{\bar{X}-\mu}{S/\sqrt{n}}$ apenas tem distribuição *t-student* com $n-1$ graus de liberdade se a variável de interesse X segue uma distribuição Normal exata.
    
    
2. Para estimar a variância populacional $\sigma^2$, utilizamos a variância amostral dada por $s^2=\frac{1}{n-1}\sum^n_{i=1}(x_i-\bar{x})^2$. Note que essa variância divide por $n-1$ e não por $n$. É o que foi discutido na Simulação 1 deste ipynb.

   Para melhor compreensão desse novo estimador, **leia Magalhãoes e Lima, 7a. edição - Capítulo 7 - Exemplo 7.10 descrito na pág. 231**.