# Estimando a Vari√¢ncia Populacional $\sigma^2$ & Distribui√ß√£o t-Student

## Pr√©Aula 25 - Simula√ß√£o

___

<div id="indice"></div>

## √çndice

- [Testes de Hip√≥tese para M√©dia Populacional com Vari√¢ncia Populacional Desconhecida](#th)
    - [Simula√ß√£o 1: Vari√¢ncia populacional *vs* Vari√¢ncias da amostra](#sim1)
        - [Exerc√≠cio 1](#ex1)
    - [Simula√ß√£o 2: t-Student *vs* Normal Padr√£o](#sim2)
        - [Exerc√≠cio 2](#ex2)
- [Important√≠ssimo](#importantissimo)
___

In [None]:
from __future__ import print_function
from ipywidgets import interact, interactive, fixed, interact_manual
import ipywidgets as widgets

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from scipy import stats

<div id="th"></div>

# Testes de Hip√≥tese para M√©dia Populacional com Vari√¢ncia Populacional Desconhecida

Na aula anterior vimos como realizar testes de hip√≥tese para m√©dia populacional assumindo que a vari√¢ncia √© conhecida. Entretanto, na maiora dos casos n√£o temos acesso a essa informa√ß√£o. Nesta atividade vamos entender:

1. Como podemos estimar a vari√¢ncia (e consequentemente o desvio padr√£o) populacional a partir de uma amostra;
1. Como a estimativa da vari√¢ncia afeta o teste de hip√≥tese realizado.

Para isso vamos realizar duas simula√ß√µes.

___
<div id="sim1"></div>

## Simula√ß√£o 1: Vari√¢ncia populacional *vs* Vari√¢ncias da amostra


Vamos realizar uma simula√ß√£o para entender o comportamento da f√≥rmula do desvio padr√£o populacional quando aplicada a uma amostra. Como n√£o temos a popula√ß√£o inteira, o resultado da aplica√ß√£o da f√≥rmula ser√° uma estimativa do desvio padr√£o populacional. Vamos chamar esse estimador de $\hat{\sigma}$. Vamos comparar esse estimador com o estimador $s$, cuja diferen√ßa √© que o somat√≥rio √© dividido por $n-1$ ao inv√©s de $n$ (onde $n$ √© o tamanho da amostra):

$$\hat{\sigma}=\sqrt{\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n}}$$.

$$s=\sqrt{\sum_{i=1}^{n}\frac{(x_i-\bar{x})^2}{n-1}}$$.

Na simula√ß√£o vamos assumir que a vari√°vel $X$ segue uma distribui√ß√£o normal com m√©dia 0 e vari√¢ncia 1 ($X\sim N(0,1)$). Vamos gerar amostras de tamanho 10 a partir dessa distribui√ß√£o e ent√£o vamos calcular as estimativas para o desvio padr√£o utilizando os dois estimadores $\hat{\sigma}$ e $s$.

<div id="ex1"></div>

### EXERC√çCIO 1

1. Repita 10000 vezes:
    1. Gere n=10 n√∫meros aleat√≥rios com distribui√ß√£o $X\sim N(0,1)$
    1. Calcule $\hat{\sigma}$ (dica: a fun√ß√£o `std()` j√° faz essa opera√ß√£o) e adicione o resultado em uma lista L1.
    1. Calcule $s$ (dica: a fun√ß√£o `std(ddof=1)` j√° faz essa opera√ß√£o) e adicione o resultado em uma lista L2.
1. Calcule as m√©dias de L1 e L2. Compare-as. Lembre-se que L1 e L2 pretendem acertar o desvio padr√£o de $X$, nesse caso, 1. Um dos estimadores √© melhor que o outro? Execute a mesma c√©lula algumas vezes. Esse resultado parece consistente?

In [None]:
# ESCREVA SEU C√ìDIGO AQUI

In [None]:
# PROF
from scipy.stats import norm
import numpy as np

In [None]:
# PROF
# X ~ Normal sendo E(X)=0 e Var(X)=1
L1 = []
L2 = []

sigma = 1 # Desvio padr√£o populacional => sigma
n = 10
for i in range(50000):
    X = norm.rvs(loc=0, scale=sigma, size=n) #Executa item A descrito acima
    
    L1.append(np.std(X))         #Executa item B
    L2.append(np.std(X, ddof=1)) #Executa item C
    
print("Desvio padr√£o ùúéÃÇ = ", np.mean(L1))
print("Desvio padr√£o ùë† = ", np.mean(L2)) # E(S^2)=sigma^2 !!! Teorico

___

<div id="sim2"></div>

## Simula√ß√£o 2: t-Student *vs* Normal Padr√£o

Ao substituir $\sigma$ (desvio padr√£o populacional) por $S$ (desvio padr√£o amostral) na padroniza√ß√£o $Z = \frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}$ h√° mais erro envolvido no teste (a imprecis√£o da estimativa de $S$). Assim, a nova padroniza√ß√£o tem uma nova distribui√ß√£o com caudas mais pesadas e uma densidade menor na m√©dia, ou seja,

$$t = \frac{\overline{X}-\mu_0}{S/\sqrt{n}}\sim t_{(n-1)}$$

Dizemos que $t$ segue uma distribui√ß√£o t-Student com $n-1$ graus de liberdade (igual ao denominador do estimador $s$).

<div id="ex2"></div>

### EXERC√çCIO 2

Explore a simula√ß√£o abaixo. Nela √© apresentada a fun√ß√£o de densidade de probabilidade (f.d.p.) da distribui√ß√£o t-Student com `graus_lib` graus de liberdade. Avalie o formato da distribui√ß√£o t-Student conforme aumenta o grau de liberdade `graus_lib`.

Ap√≥s explorar a simula√ß√£o, responda os itens (a) a (d).

In [None]:
#Se n√£o visualizar o pywidgets:
#conda install -c conda-forge ipywidgets

#Fun√ß√£o que utiliza o pywidget
@interact(graus_lib = (1, 100, 1))
def f(graus_lib = 1):
    
    #Prints
    fig = plt.figure(figsize=(15,6))
    
    ax1 = fig.add_subplot(121)
    ax2 = fig.add_subplot(122)
    
    #Fit e print da pdf
    x = np.arange(-5, 5, 0.01)
    ax1.plot(x, stats.norm.pdf(x, loc=0, scale=1), color='r')
    ax1.plot(x, stats.t.pdf(x, df=graus_lib, loc=0, scale=1), color='b')
    ax1.legend(['Normal Padr√£o', 't-Student'])
    
    #QQ-Plot
    stats.probplot(stats.t.ppf(np.arange(0.01, 1, 0.01), df=graus_lib), dist=stats.norm, sparams=(0, 1), plot=ax2)
    
    

Responda ap√≥s observar comportamento da Simula√ß√£o 2:

a) Em qual situa√ß√£o a t-Student se aproxima da Normal Padr√£o?

b) O que significa aumentar os graus de liberdade? **Dica:** Lembre-se que o grau de liberdade √© calculado fazendo tamanho da amostra menos 1, ou seja, $(n-1)$.

c) Quando formos realizar um teste de hip√≥tese usando t-Student ao inv√©s de uma normal, o que voc√™ espera que vai acontecer com os valores cr√≠ticos da regi√£o cr√≠tica ou valor-p do teste? Ou seja, para um mesmo n√≠vel de signific√¢ncia ($\alpha$), o $\overline{x}_{cr√≠tico}$ estar√° mais pr√≥ximo da m√©dia em qual das duas distribui√ß√µes?

d) Se $n\rightarrow \infty$ o que voc√™ imagina que vai acontecer com a distribui√ß√£o t-Student?

In [None]:
# ESCREVA SUAS RESPOSTAS AQUI

___

<div id="importantissimo"></div>

# Important√≠ssimo:

1. A padroniza√ß√£o $t=\frac{\bar{X}-\mu}{S/\sqrt{n}}$ apenas tem distribui√ß√£o *t-student* com $n-1$ graus de liberdade se a vari√°vel de interesse X segue uma distribui√ß√£o Normal exata.
    
    
2. Para estimar a vari√¢ncia populacional $\sigma^2$, utilizamos a vari√¢ncia amostral dada por $s^2=\frac{1}{n-1}\sum^n_{i=1}(x_i-\bar{x})^2$. Note que essa vari√¢ncia divide por $n-1$ e n√£o por $n$. √â o que foi discutido na Simula√ß√£o 1 deste ipynb.

   Para melhor compreens√£o desse novo estimador, **leia Magalh√£oes e Lima, 7a. edi√ß√£o - Cap√≠tulo 7 - Exemplo 7.10 descrito na p√°g. 231**.