# Medidas de variação

As medidas de variação ou dispersão, servem para indicar o quanto os dados se apresentam dispersos em torno da região central. Elas caracterizam o grau de variação existente em um conjunto de valores.

- <a href='#s1'>Amplitude</a>
- <a href='#s2'>Variância e Desvio Padrão</a>
- <a href='#s3'>Interpretando o desvio padrão</a>
- <a href='#s4'>Coeficiente de variação</a>

In [5]:
import numpy as np
import pandas as pd

Quase nunca uma única medida é suficiente para descrever de modo satisfatório um conjunto de dados.

Vamos pensar em um caso de dois alunos, Mario e Luigi, onde cada um fez 6 provas ao longo do ano. Vamos analisar suas notas:

- Mario: {6 6 6 6 6 6} 
- Luigi: {3 9 4 8 2 10}

In [10]:
notas_mario = np.array([6, 6, 6, 6, 6, 6])
print('Média notas do Mário:', np.mean(notas_mario), '\n')

notas_luigi = np.array([3, 9, 4, 8, 2, 10])
print('Média notas de Luigi:', np.mean(notas_luigi))

Média notas do Mário: 6.0 

Média notas de Luigi: 6.0


Repare que ambos possuem a mesma média de notas, 6. Mas ao olhar para as notas do Mário, ele foi muito regular, tirando a mesma nota em todas as provas. Ao olhar para as notas do Luigi, vemos uma maior variação das notas. 

Em certas análises, entender essa variação é muito importante. 

Até mesmo nesse exemplo, o professor poderia se questionar porque um aluno sempre tira a mesma nota nas provas, e outro, tem um desempenho menos regular.

<a id='s1'></a>

---

### Amplitude

A amplitude de um conjunto de dados é a diferença entre os valores máximo e mínimo. Para encontrar a amplitude, os dados devem ser quantitativos.

`Amplitude = valor máximo - valor mínimo`

In [4]:
alturas = pd.read_csv('dados/alturas_frequencias.csv', delimiter=';')
alturas

Unnamed: 0,altura,frequencia,frequencia_acumulada
0,160,2,2
1,161,1,3
2,162,1,4
3,163,1,5
4,164,2,7
5,165,5,12
6,166,2,14
7,167,4,18
8,168,4,22
9,169,1,23


In [11]:
amp = alturas['altura'].max() - alturas['altura'].min()

print("Amplitude das alturas é de: {} - {} = {}".format(
    alturas['altura'].max(), alturas['altura'].min(), amp)
)

Amplitude das alturas é de: 180 - 160 = 20


Outro jeito de ver o maior e menor valor e fazer cálculo de cabeça simples:

In [12]:
alturas.describe()['altura'] # aqui podemos ver o maior e menor valor

count     21.000000
mean     170.000000
std        6.204837
min      160.000000
25%      165.000000
50%      170.000000
75%      175.000000
max      180.000000
Name: altura, dtype: float64

Voltando no exemplo dos alunos Mário e Luigi

In [15]:
amplitude_notas_mario = notas_mario.max() - notas_mario.min()

print('Amplitude das notas do Mário: {}'.format(amplitude_notas_mario))

Amplitude das notas do Mário: 0


In [16]:
amplitude_notas_luigi = notas_luigi.max() - notas_luigi.min()

print('Amplitude das notas do Luigi: {}'.format(amplitude_notas_luigi))

Amplitude das notas do Luigi: 8


<a id='s2'></a>

---

### Variância e Desvio Padrão

Como uma medida de variação, a amplitude tem a vantagem de ser fácil de calcular. Sua desvantagem, entretanto, é que ela usa somente dois valores do conjunto de dados. Duas medidas de variação que usam todos os valores do conjunto de dados são a *variância* e o *desvio padrão*. Porém, antes de aprendermos essas medidas, precisamos entender o que chamamos **desvio** de um valor no conjunto de dados.

#### Desvio

O desvio de um valor x é a diferença entre o valor e a média do conjunto de dados.

- Primeiro calculamos a média dos valores
- em seguida vamos subtrair cada valor pela média 
- A soma do resultados destes valores será sempre zero.

Vamos pegar as notas do Luigi, onde já sabemos que a média é `6`.

Notas Luigi, x|x - media
-|-|
2|2 - 6 = -4
3|3 - 6 = -3
4|4 - 6 = -2
8|8 - 6 = 2
9|9 - 6 = 3
10|10 - 6 = 4
-|-|
|0|


#### Variância

Como a soma dos desvios é zero, não faz muito sentido usar esse valor para alguma coisa. Para resolver essa treta, o jeito é elevar cada valor obtido ao quadrado, e somá-los no final. Essa soma dos quadrados, é a variância populacional.

Notas Luigi, x|x - media| (x - media)² 
-|-|-|
2|2 - 6 = -4| 16
3|3 - 6 = -3| 9
4|4 - 6 = -2| 4
8|8 - 6 = 2| 4
9|9 - 6 = 3| 9
10|10 - 6 = 4| 16
-|-|-|
|0| 58 |

O resultado da variância, será a soma dos quadrados pela média:

`58 / 6 = 9,6` 

In [27]:
np.var(notas_luigi, ddof=0)

9.666666666666666

Como uma medida de variação, uma desvantagem da variância é que sua unidade de medida é diferente da unidade de medida do conjunto de dados. Aqui as notas acabam ficando ao quadrado. E, claro, também há um jeito de resolver isso, pegando a variância e fazer sua raíz quadrada, e ao fazer isso, estamos obtendo o resultado do **desvio padrão**.

#### Desvio padrão

- O desvio padrão mede a variação dos dados com relação à média e tem a mesma unidade de medida que o conjunto de dados.
- O desvio padrão é sempre maior ou igual a 0. Quando variância = 0, o conjunto de dados não apresenta variação (todos os elementos têm o mesmo valor)
- À medida que os valores se afastam da média (isto é, estão mais dispersos), o valor da variâcia aumenta.

Recuperando a variância das provas do Luigi, temos:

`raíz quadrada da variância: 9,6 = 3,1`

In [28]:
np.std(notas_luigi)

3.1091263510296048

E agora vamos comparar com o desvio padrão das notas do Mário

In [29]:
np.std(notas_mario)

0.0

Deu zero!

Como a média das notas foi 6, e todas as notas foram 6, não há distância entre as notas e a média, por isso zero. Já no caso do Luigi, o desvio padrão nos mostra a tal irregularidade que notamos lá no início. Sendo assim, por mais que ambos os estudantes tenham tido a mesma média, seus desempenhos, ou se preferir, a forma como chegaram a tais médias, foram diferentes.

<a id='s3'></a>

---

### Interpretando o desvio padrão

Ao interpretar o desvio padrão de um conjunto de dados, lembre-se de que ele é uma medida que indica o quanto, em média, os valores se desviam da média desse conjunto. Quanto mais espalhados estiverem os valores, maior será o desvio padrão.

Muitos conjuntos de dados da vida real têm distribuições que são aproximadamente simétricas e em forma de sino.

Valores de dados que se encontram a mais ou menos dois desvios padrão da média são considerados incomuns, enquanto aqueles que se encontram a mais de três desvios padrão da média são muito incomuns. Valores incomuns e muito incomuns (os outliers) têm uma influência maior no desvio padrão do que aqueles que estão mais próximos da média.

Valor, x|Desvio, (x - media)| Quadrados, (x - media)² 
-|-|-|
1|1 - 4 = -3| 9
3|3 - 4 = -1| 1
5|5 - 4 = 1| 1
7|7 - 4 = 3| 9
-|-|-|
|0| 20 |

A Regra Empírica pode ajudá-lo a ver quão valioso é o desvio padrão como uma medida de variação.

<div style="text-align:center"><img src="dados/dist_simetrica.jpeg" width="550" /></div>

#### Regra Empírica (ou Regra 68-95-99,7)

Para conjuntos de dados com distribuições que são aproximadamente simétricas e com forma de sino, o desvio padrão tem estas características:

1. Cerca de 68% dos dados encontram-se dentro do intervalo de ± 1 desvio padrão em relação à média.
2. Cerca de 95% dos dados encontram-se dentro do intervalo de ± 2 desvios padrão em relação à média.
3. Cerca de 99,7% dos dados encontram-se dentro do intervalo de ± 3 desvios padrão em relação à média

<a id='s4'></a>

---

### Coeficiente de variação

Para comparar a variação em conjuntos de dados diferentes, podemos usar o desvio padrão quando os elementos dos conjuntos têm a mesma unidade de medida e suas médias são aproximadamente iguais. Para conjuntos de dados com unidades de medida diferentes ou médias diferentes, usa-se o coeficiente de variação.

O coeficiente de variação definido por: `CV = (variancia / x) * 100`, mede a dispersão em termos relativos, ou seja, descreve o desvio padrão como uma percentagem da média.

Por vezes é conveniente exprimir a variabilidade em termos relativos, isto porque, por exemplo, um desvio padrão de 10 pode ser insignificante se a média é 10.000 mas altamente significativo para um conjunto de dados onde a média é 100.

O coeficiente de variação é adimensional (não tem unidade de medida), tornando-se útil quando queremos comparar a variabilidade de observações com diferentes unidades de medidas.

O exemplo abaixo, mostra as alturas (em polegadas) e pesos (em libras) populacionais dos jogadores de um time de basquete.

In [34]:
ex_alturas = np.array([72, 74, 68, 76, 74, 69, 72, 79, 70,69 ,77, 73])

ex_pesos = np.array([180, 168, 225, 201, 189, 192, 197, 162, 174, 171, 185, 210])

In [38]:
cv_altura = np.std(ex_alturas) / np.mean(ex_alturas) * 100

print('O coeficiente de variação das alturas é de %.2f %%' % cv_altura)

O coeficiente de variação das alturas é de 4.53 %


In [39]:
cv_peso = np.std(ex_pesos) / np.mean(ex_pesos) * 100

print('O coeficiente de variação dos pesos é de %.2f %%' % cv_peso)

O coeficiente de variação dos pesos é de 9.42 %


**Resposta**: Os pesos (9,4%) são mais variáveis que as alturas (4,5%).

---

### Referências

https://stackoverflow.com/questions/41204400/what-is-the-difference-between-numpy-var-and-statistics-variance-in-python