# Variância e desvio-padrão

&rarr; Objetivo: Compreender como os dados estão espalhados em torno da média.

## Definição do Desvio Quadrático Total ($DQ$)

$DQ = \sum_{i=1}^{n}(x_{i} - \bar{x})^2$, onde:

- $x_i$ = elemento do conjunto;
- $\bar{x}$ = média do conjunto

## Variância ($S^2$)

Variância é o **desvio quadrático médio** e para calcularmos ela devemos considerar 
se:

1. Dispomos de todos os dados que temos interesse em analisar, ou seja, toda a
   **população**; 
2. Os dados fornecidos correspondem apenas a uma **amostra** dos dados totais de
   interesse;
3. Distinguir se os dados estão ou não agrupados.

### Dados Não Agrupados

#### População

$
S^2 = \frac{1}{n} * \sum_{i=1}^{n}(x_{i} - \bar{x})^2 
= \frac{1}{n} * (\sum_{i=1}^{n}(x_{i})^2 - \frac{(\sum_{i=1}^{n}x_i)^2}{n})
$

Obs: podemos tanto fazer o cálculo da média dos dados para usar a primeira formula
quanto podemos fazer o cálculo apenas utilizando o quadrado soma dos dados e o
tamanho do conjunto.

#### Amostra

$
S^2 = \frac{1}{n - 1} * \sum_{i=1}^{n}(x_{i} - \bar{x})^2 
= \frac{1}{n - 1} * (\sum_{i=1}^{n}(x_{i})^2 - \frac{(\sum_{i=1}^{n}x_i)^2}{n})
$

Exemplo: Considere a seguinte amostra de dados: 1, 3, 5, 7 e 9. Determine o valor da
variância

In [8]:
dados = list(range(1,10,2))
n = len(dados)
media = sum(dados) / n
desvio_quadratico_total = sum([(media - dado)**2 for dado in dados])

variancia_amostra = (desvio_quadratico_total) / (n - 1)

print(variancia_amostra)

10.0


In [10]:
dados = list(range(1,10,2))
dados_quadrado = [dado**2 for dado in dados]
n = len(dados)

variancia_amostra = (sum(dados_quadrado) - ((sum(dados))**2 / n)) / (n - 1)

print(variancia_amostra)

10.0


### Dados Agrupados

Quando os dados estão **dispostos em distribuição de frequência**, levam em 
consideração o **ponto médio** da classe e a **frequência absoluta**. Tecnicamente,
supõe-se que o ponto médio de cada classe é um bom representante dos dados de cada
classe.

Seja:

- $f_i$ = frequência absoluta da classe;
- $\bar{x}$ = ponto médio da classe. 

#### População

$
S^2 = \frac{1}{n}\times\sum_{i=1}^{n}f_{i}(x_i - \bar{x})^2
= \frac{1}{n}\times[\sum_{i=1}^{n}x_{i}^2f_{i} - \frac{(\sum_{i=1}^{n}x_{i}f_{i})^2}{n}]
$

#### Amostra

$
S^2 = \frac{1}{n - 1}\times\sum_{i=1}^{n}f_{i}(x_i - \bar{x})^2
= \frac{1}{n - 1}\times[\sum_{i=1}^{n}x_{i}^2f_{i} - \frac{(\sum_{i=1}^{n}x_{i}f_{i})^2}{n}]
$

Exemplo: Considere os dados sobre o peso (em kg) de uma amostra de 
recém-nascidos de certa maternidade dispostos na distribuição de frequência
a seguir e calcule a média.

| Classe    | Frequência Absoluta ($F_i$) |
| --------- | --------------------------- |
| 2.0 ⊢ 2.5 | 2                           |
| 2.5 ⊢ 3.0 | 4                           |
| 3.0 ⊢ 3.5 | 7                           |
| 3.5 ⊢ 4.0 | 5                           |
| 4.0 ⊢ 4.5 | 5                           |
| 4.5 ⊢ 5.0 | 7                           |
| Soma      | 30                          |

In [42]:
tabela = {
 (2.0, 2.5): 2,
 (2.5, 3.0): 4,
 (3.0, 3.5): 7,
 (3.5, 4.0): 5,
 (4.0, 4.5): 5,
 (4.5, 5.0): 7,
}

n = sum([frequencias for frequencias in tabela.values()])
ponto_medio = lambda limite_inferior, limite_superior: (limite_superior + limite_inferior) / 2
media = sum([ponto_medio(li,ls)*freq for (li,ls), freq in tabela.items()]) / n
somatorio = sum([((media - ponto_medio(li,ls))**2)*freq for (li,ls), freq in tabela.items()])

variancia_amostra = somatorio / (n - 1)

print(f"media = {round(media, 2)}")
print(f"variancia = {round(variancia_amostra, 3)}")

media = 3.72
variancia = 0.637


## Desvio Padrão ($S$)

O desvio-padrão é uma medida de variabilidade dos dados em torno da média e é
definido como sendo a raiz quadrada da variância (isso serve para deixar os
dados e a medida na mesma unidade).

### Dados Agrupados

$
S = \sqrt{\frac{1}{n - 1}\times\sum_{i=1}^{n}f_{i}(x_i - \bar{x})^2}
= \sqrt{\frac{1}{n - 1}\times[\sum_{i=1}^{n}x_{i}^2f_{i} - \frac{(\sum_{i=1}^{n}x_{i}f_{i})^2}{n}]}
= \sqrt{S^2}
$

Continuando com o exemplo do peso dos recém-nascidos:

In [46]:
desvio_padrao = variancia_amostra ** 0.5

print(f"media = {round(media, 2)}")
print(f"variancia = {round(variancia_amostra, 3)}")
print(f"desvio padrao = {round(desvio_padrao, 3)}")
print('\n')
print(f'Conclusão: O peso médio dos recém nascidos é de {round(media, 2)}kg e, dentro da amostra, esse peso normalmente varia entre {round(media - desvio_padrao, 2)}kg e {round(media + desvio_padrao, 2)}kg')

media = 3.72
variancia = 0.637
desvio padrao = 0.798


Conclusão: O peso médio dos recém nascidos é de 3.72kg e, dentro da amostra, esse peso normalmente varia entre 2.92kg e 4.51kg
