# Atividade - Teste de hipóteses para média populacional 

## Variância populacional desconhecida

## Aula 20 - Atividade
___

<div id="indice"></div>

## Índice

- [Testes de Hipótese para Média Populacional com Variância Populacional Desconhecida](#th)
    - [Simulação 1: Variância populacional *vs* Variâncias da amostra](#sim1)
        - [Exercício 1](#ex1)
    - [Simulação 2: t-Student *vs* Normal Padrão](#sim2)
        - [Exercício 2](#ex2)
- [Importantíssimo](#importantissimo)
___

In [1]:
from __future__ import print_function
from ipywidgets import interact, interactive, fixed, interact_manual
import ipywidgets as widgets

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from scipy import stats

<div id="th"></div>

# Testes de Hipótese para Média Populacional com Variância Populacional Desconhecida

Na aula anterior vimos como realizar testes de hipótese para média populacional assumindo que a variância é conhecida. Entretanto, na maiora dos casos não temos acesso a essa informação. Nesta atividade vamos entender:

1. Como podemos estimar a variância (e consequentemente o desvio padrão) populacional a partir de uma amostra;
1. Como a estimativa da variância afeta o teste de hipótese realizado.

Para isso vamos realizar duas simulações.

<div id="sim1"></div>

## Simulação 1: Variância populacional *vs* Variâncias da amostra


Vamos realizar uma simulação para entender o comportamento da fórmula do desvio padrão populacional quando aplicada a uma amostra. Como não temos a população inteira, o resultado da aplicação da fórmula será uma estimativa do desvio padrão populacional. Vamos chamar esse estimador de $\hat{\sigma}$. Vamos comparar esse estimador com o estimador $s$, cuja diferença é que o somatório é dividido por $n-1$ ao invés de $n$ (onde $n$ é o tamanho da amostra):

$$\hat{\sigma}=\sqrt{\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n}}$$.

$$s=\sqrt{\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n-1}}$$.

Na simulação vamos assumir que a variável $X$ segue uma distribuição normal com média 0 e variância 1 ($X\sim N(0,1)$). Vamos gerar amostras de tamanho 10 a partir dessa distribuição e então vamos calcular as estimativas para o desvio padrão utilizando os dois estimadores $\hat{\sigma}$ e $s$.

<div id="ex1"></div>

### EXERCÍCIO 1

1. Repita 10000 vezes:
    1. Gere 10 números aleatórios com distribuição $X\sim N(0,1)$
    1. Calcule $\hat{\sigma}$ (dica: a função `std()` já faz essa operação) e adicione o resultado em uma lista L1.
    1. Calcule $s$ (dica: a função `std(ddof=1)` já faz essa operação) e adicione o resultado em uma lista L2.
1. Calcule as médias de L1 e L2. Compare-as. Lembre-se que L1 e L2 pretendem acertar o desvio padrão de $X$, nesse caso, 1. Um dos estimadores é melhor que o outro? Execute a mesma célula algumas vezes. Esse resultado parece consistente?

In [2]:
import scipy.stats as stats

L1 = []
L2 = []

for i in range(1000):
    x = stats.norm.rvs(size=10) # loc=0 e scale=1 e omitidos pq são default!
    L1.append(x.std())
    L2.append(x.std(ddof=1))

In [3]:
print("𝜎̂: {}".format(np.mean(L1)))
print("𝑠: {}".format(np.mean(L2)))

𝜎̂: 0.9194718360987483
𝑠: 0.9692084154830245


O desvio padrão amostral que pondera por n-1 é uma melhor forma de prever o desvio-padrão populacional, dado que com diversas repetições usando _ranges_ diferentes, ele sempre se mostra como uma melhor estimativa.

___

<div id="sim2"></div>

## Simulação 2: t-Student *vs* Normal Padrão

<div id="ex2"></div>

### EXERCÍCIO 2

Explore a simulação abaixo. Nela é apresentada a função de densidade de probabilidade (f.d.p.) da distribuição t-Student com `graus_lib` graus de liberdade. Avalie o formato da distribuição t-Student conforme aumenta o grau de liberdade `graus_lib`.

Após explorar a simulação, responda os itens (a) a (d).

In [4]:
#Se não visualizar o pywidgets:
#conda install -c conda-forge ipywidgets

#Função que utiliza o pywidget
@interact(graus_lib = (1, 100, 1))
def f(graus_lib = 1):
    
    #Prints
    fig = plt.figure(figsize=(15,6))
    
    ax1 = fig.add_subplot(121)
    ax2 = fig.add_subplot(122)
    
    #Fit e print da pdf
    x = np.arange(-5, 5, 0.01)
    ax1.plot(x, stats.norm.pdf(x, loc=0, scale=1), color='r')
    ax1.plot(x, stats.t.pdf(x, df=graus_lib, loc=0, scale=1), color='b')
    ax1.legend(['Normal', 't-Student'])
    
    #QQ-Plot
    stats.probplot(stats.t.ppf(np.arange(0.01, 1, 0.01), df=graus_lib), dist=stats.norm, sparams=(0, 1), plot=ax2)
    
    

interactive(children=(IntSlider(value=1, description='graus_lib', min=1), Output()), _dom_classes=('widget-int…

Responda após observar comportamento da Simulação 2:

a) Em qual situação a t-Student se aproxima da Normal Padrão?

b) O que significa aumentar os graus de liberdade? **Dica:** Lembre-se que o grau de liberdade é calculado fazendo tamanho da amostra menos 1, ou seja, $(n-1)$.

c) Quando formos realizar um teste de hipótese usando t-Student ao invés de uma normal, o que você espera que vai acontecer com os valores críticos da região crítica ou valor-p do teste? Ou seja, para um mesmo nível de significância ($\alpha$), o $\overline{x}_{crítico}$ estará mais próximo da média em qual das duas distribuições?

d) Se $n\rightarrow \infty$ o que você imagina que vai acontecer com a distribuição t-Student?

**a)** Conforme o tamanho da amostra aumenta!

**b)** Aumentar o tamanho da amostra. Erro menos porque eu tenho mais informações da amostra.

**c)** Os valores de x crítico ficarão mais distantes de $\mu$ na distribuição t-Student e a regra de decisão fica mais rigorosa, mantendo o mesmo valor de significância (alpha)! A RC vai pegar menos valores do eixo x e vão ser necessárias mais evidências para rejeitar $H_0$.Esse é o "preço" a pagar por estimar o desvio-padrão por meio de $s$.

**d)** As distribuições se aproximam cada vez mais, pois quanto mais informações eu tenho da amostra mais  eu conheço sobre o verdadeiro valor. 

___

<div id="importantissimo"></div>

# Importantíssimo:

1. A padronização $t=\frac{\bar{X}-\mu}{S/\sqrt{n}}$ apenas tem distribuição *t-student* com $n-1$ graus de liberdade se a variável de interesse X segue uma distribuição Normal exata.
    
    
2. Para estimar a variância populacional $\sigma^2$, utilizamos a variância amostral dada por $s^2=\frac{1}{n-1}\sum^n_{i=1}(x_i-\bar{x})^2$. Note que essa variância divide por $n-1$ e não por $n$. É o que foi discutido na Simulação 1 deste ipynb.

   Para melhor compreensão desse novo estimador, **leia Magalhãoes e Lima, 7a. edição - Capítulo 7 - Exemplo 7.10 descrito na pág. 231**.