O objetivo deste *notebook* é demonstrar por meio de uma simulação porque a fórmula da variância utilizando *N* – 1 no denominador é um estimador não enviesado da variância populacional, enquanto a fórmula utilizando *N* no denominador é um estimador viesado da variância populacional.

**Mas Marquin, como isso será feito?**

Em primeiro lugar, vamos definir uma variável aleatória *X* normalmente distribuída com média 0 e desvio padrão 1, *X* ~ *N*(0, 1). 

O que faremos será o seguinte. Amostraremos um conjunto de indivíduos dessa população e computaremos duas variâncias para a amostra, uma usando *N* – 1 no denominador e outra usando *N* no denominador. Repetiremos esse procedimento 10 mil vezes. Ao final, calcularemos a média das variâncias das mil amostras (uma média separada para cada fórmula da variância). Se a fórmula da variância utilizando *N* – 1 no denominador é um estimador não enviesado da variância populacional, então esperaremos que sua média em amostragens repetidas chegue mais próxima da verdadeira variância populacional do que a média da fórmula usando *N*. 

Para tornar as coisas mais interessantes, acrescentaremos um ingrediente final nesse caldo: Vamos repetir a simulação para diferentes cenários, considerando amostras de 5 a 100 indivíduos, em incrementos de 5 em 5. Para cada cenário (i.e., *N* = 5, *N* = 10, ..., *N* = 100), repetiremos a simulação mil vezes. Em qual percentual de cenários de tamanhos amostrais a fórmula da variância com *N* – 1 no denominador se sairá melhor que a fórmula da variância com *N*?

Vejamos a seguir. =)

In [1]:
# importando biblioteca necessária para a simulação
import numpy as np

In [2]:
mu, sigma = 0, 1 # parâmetros da simulação (M, SD); SD = 1, então variância = 1
n_sims = 10_000 # número de simulações por tamanho amostral

# o contador será incrementado sempre que a média de Var (usando N – 1) se aproximar mais
# da variância populacional do que a média de Var (usando N)
var_n1_wins = 0 

# contador incrementará em uma unidade ao fim de cada 10 mil simulações
count = 0

# comparando o desempenho dos estimadores enviesado (N) e não-enviesado (N - 1) da variância
# com diferentes tamanhos amostrais
for N in range(5, 105, 5): # Ns de 5 a 100 em incrementos de 5 em 5
    var_n = list() # lista de variâncias com N no denominador
    var_n1 = list() # lista de variâncias com N - 1 no denominador
    
    # realizando 10 mil simulações por tamanho amostral
    for simulation in range(n_sims):
        sample = np.random.normal(mu, sigma, N)
        var_n.append(np.var(sample, ddof = 0))
        var_n1.append(np.var(sample, ddof = 1))
    
    print(f"""Tamanho amostral = {N}:
    Variância (N) média: {np.mean(var_n):.3f}; Variância (N - 1) média: {np.mean(var_n1):.3f}\n""")
    
    # se variância (N - 1) se aproxima em média mais da variância populacional que variância (N)
    if abs(np.mean(var_n1) - sigma ** 2) < abs(np.mean(var_n) - sigma ** 2):
        var_n1_wins += 1
    
    count += 1

print(f"A fórmula da variância (N - 1) estimou melhor a variância populacional em {var_n1_wins / count * 100}% das vezes.")
print(f"A fórmula da variância (N) estimou melhor a variância populacional em {(count - var_n1_wins) / count * 100}% das vezes.")

Tamanho amostral = 5:
    Variância (N) média: 0.789; Variância (N - 1) média: 0.986

Tamanho amostral = 10:
    Variância (N) média: 0.892; Variância (N - 1) média: 0.992

Tamanho amostral = 15:
    Variância (N) média: 0.936; Variância (N - 1) média: 1.003

Tamanho amostral = 20:
    Variância (N) média: 0.949; Variância (N - 1) média: 0.999

Tamanho amostral = 25:
    Variância (N) média: 0.960; Variância (N - 1) média: 1.000

Tamanho amostral = 30:
    Variância (N) média: 0.967; Variância (N - 1) média: 1.001

Tamanho amostral = 35:
    Variância (N) média: 0.970; Variância (N - 1) média: 0.999

Tamanho amostral = 40:
    Variância (N) média: 0.975; Variância (N - 1) média: 1.000

Tamanho amostral = 45:
    Variância (N) média: 0.980; Variância (N - 1) média: 1.003

Tamanho amostral = 50:
    Variância (N) média: 0.980; Variância (N - 1) média: 1.000

Tamanho amostral = 55:
    Variância (N) média: 0.982; Variância (N - 1) média: 1.000

Tamanho amostral = 60:
    Variância (N) méd