 ___
# Atividade: Teste de hipóteses para média populacional μ assumindo variância populacional desconhecida

___

## Aula 21

## Contexto Teórico

**Preparo Prévio:**
1. Magalhães e Lima, seção 8.2. Final. Erro do tipo beta e função poder
1. Magalhães e Lima, seção 8.3. Testes com variância desconhecida
1. Montogmery. Seção 4-4.2 - Erro tipo 2 e tamanho de amostra
1. Montogmery. Seção 4-5 - Inferência com variância desconhecida

**Hoje:**
1. Expandir o Teste de Hipóteses para situações com $\sigma^2$ desconhecida

**Próxima aula:**
1. Magalhães e Lima, seção 7.4. Concentrar-se em intervalo de confiança para média amostra
1. Bootstrapping - https://www.thoughtco.com/example-of-bootstrapping-3126155
1. Bootstrapping - https://www.stat.auckland.ac.nz/~wild/BootAnim/
___

In [2]:
from __future__ import print_function
from ipywidgets import interact, interactive, fixed, interact_manual
import ipywidgets as widgets

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from scipy import stats

# Simulação 1 - Teórico vs Amostral: #

1. Repita 10000 vezes:
    1. Gerar 10 números aleatórios com distribuição $N(0,1)$
    1. Calcular o desvio padrão usando std() e adicionar na lista L1. 
       Aqui, o desvio padrão é calculado pela expressão: 
        $$\hat{\sigma}=\sqrt{\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n}}$$.
    1. Calcular o desvio padrão usando std(ddof=1) e adicionar na lista L2.
       Aqui, o desvio padrão amostral é calculado pela expressão: 
        $$s=\sqrt{\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{(n-1)}}$$.
1. Calcule as médias de L1 e L2. Compare.

In [3]:
#X ~ Normal sendo E(X)=0 e Var(X)=1
L0 = []
L1 = []
L2 = []
for i in range(10000):
    X = stats.norm.rvs(loc=0, scale=1, size=10)
    L0.append(X.mean())
    L1.append(X.std())
    L2.append(X.std(ddof=1))
print(np.mean(L0))
print(np.mean(L1))
print(np.mean(L2))

-0.003550250833764583
0.9220822558622483
0.9719600395169505


___
# Simulação 2 - Normal vs T-Student #

In [4]:
#Se não visualizar o pywidgets:
#conda install -c conda-forge ipywidgets

#Função que utiliza o pywidget
@interact(graus_lib = (1, 100, 1))
def f(graus_lib = 1):
    
    #Prints
    fig = plt.figure(figsize=(15,6))
    
    ax1 = fig.add_subplot(121)
    ax2 = fig.add_subplot(122)
    
    #Fit e print da pdf
    x = np.arange(-5, 5, 0.01)
    ax1.plot(x, stats.norm.pdf(x, loc=0, scale=1), color='r')
    ax1.plot(x, stats.t.pdf(x, df=graus_lib, loc=0, scale=1), color='b')
    ax1.legend(['Normal', 'T-Student'])
    
    #QQ-Plot
    stats.probplot(stats.t.ppf(np.arange(0.01, 1, 0.01), df=graus_lib), dist=stats.norm, sparams=(0, 1), plot=ax2)
    
    

interactive(children=(IntSlider(value=1, description='graus_lib', min=1), Output()), _dom_classes=('widget-int…

___
# Importantíssimo:

1. A padronização $t=\frac{\bar{X}-\mu}{S/\sqrt{n}}$ apenas tem distribuição *t-student* com $n-1$ graus de liberdade se a variável de interesse X segue uma distribuição Normal exata.
    
    
2. Para estimar a variância populacional $\sigma^2$, utilizamos a variância amostral dada por $s^2=\frac{1}{n-1}\sum^n_{i=1}(x_i-\bar{x})^2$. Note que essa variância divide por $n-1$ e não por $n$. É o que foi discutido na Simulação 1 deste ipynb.

   Para melhor compreensão desse novo estimador, **leia Magalhãoes e Lima, 7a. edição - Capítulo 7 - Exemplo 7.10 descrito na pág. 231**.