# Medidas de dispersão

As medidas de dispersão avaliam o grau de variabilidade ou dispersão dos valores de um conjunto de dados. Essas medidas nos proporcionarão um conhecimento mais completo do fenômeno a ser analisado, permitindo estabelecer comparação entre fenômenos de mesma natureza e mostrando até que ponto os valores se distribuem acima ou abaixo da tendência central. A finalidade é encontrar um valor que resuma a variabilidade desse conjunto de dados.

- *Amplitude*: indica a diferença entre o maior e o menor valor em um conjunto de dados.
- *Variância*: mede o quão distantes os valores individuais estão da média dos dados.
- *Desvio-padrão*: utilizada para expressar a dispersão dos dados em termos da unidade de medida original dos dados.
- *Coeficiente de variação*: usado para comparar a dispersão entre conjuntos de dados que possuem médias diferentes ou escalas de medida diferentes.

## Dados

In [5]:
from matplotlib import pyplot as plt
import seaborn as sns
import pandas as pd

In [6]:
df = pd.read_csv('../data/covid_cidades.csv', sep=',')
df.head()

Unnamed: 0,date,state,city,confirmed,deaths,estimated_population_2019,confirmed_per_100k_inhabitants,death_rate
0,2020-12-29,AP,Amapá,956,6,9109.0,10406.00849,0.0063
1,2020-12-29,AP,Calçoene,1436,7,11117.0,12701.22059,0.0049
2,2020-12-29,AP,Cutias,741,2,5983.0,12145.54991,0.0027
3,2020-12-29,AP,Ferreira Gomes,930,5,7780.0,11673.15175,0.0054
4,2020-12-29,AP,Itaubal,345,0,5503.0,6142.06872,0.0


## Amplitude
Esta medida é obtida pela simples diferença entre o valor máximo e o valor mínimo. Ela leva em conta apenas os valores extremos do conjunto de dados.

Sejam $x_{(1)}, ..., x_{(n)}$ os dados ordenados, ou seja, $x_{(1)} = min(x_{(1)}, ..., x_{(n)})$ e $x_{(n)} = max(x_{(1)}, ..., x_{(n)})$. A amplitude é dada por:

$$A = x_{(n)} - x_{(1)}$$

In [11]:
A = df['confirmed'].max() - df['confirmed'].min()
A

395846

## Variância
Esta medida nos diz o quão dispersos ou diferentes os valores de um conjunto de dados estão em relação à média. Quanto maior a variância, maior a dispersão dos valores em relação à média; quanto menor a variância, menor a dispersão dos valores em relação à média. Em outras palavras, a variância nos dá uma ideia de quão "espalhados" os dados estão ao redor da média. A variância é dada por:

$$s^{2} = \frac{\sum \limits _{i=1} ^{n} (x_{i} - \bar{x})^{2}}{n}$$

E a variância amostral é definida por:

$$s^{2} = \frac{\sum \limits _{i=1} ^{n} (x_{i} - \bar{x})^{2}}{n-1}$$


In [14]:
df['confirmed'].var()

61323246.210570626

## Desvio padrão
Se a variável original $X$ está em ’unidades’, a variância está em ’unidades$^2$' e o desvio padrão está em ’unidades’. O desvio padrão é dado por:

$$s = \sqrt{s^{2}} = \sqrt{\frac{\sum \limits _{i=1} ^{n} (x_{i} - \bar{x})^2}{n}}$$

E o desvio padrão amostral é definido por:

$$s = \sqrt{s^{2}} = \sqrt{\frac{\sum \limits _{i=1} ^{n} (x_{i} - \bar{x})^2}{n-1}}$$





In [15]:
df['confirmed'].std()

7830.9160518147955

## Coeficiente de variação
O coeficiente de variação é uma medida de dispersão relativa que elimina o efeito da magnitude dos dados e exprime a variabilidade em relação à média. É um medida relativa de dispersão, útil para a comparação relativa do grau de concentração em torno da média de séries distintas. Se o C.V. for muito alto (superior a 50%), há a indicação de que a média é pouco representativa, enquanto que, quanto mais próximo de zero for o C.V., mais representativa é a média. O coeficiente de variação é definido por:

$$CV = \frac{s}{\bar{x}} \times 100\%$$

In [19]:
cv = (df['confirmed'].std() / df['confirmed'].mean()) * 100
cv

579.8344043783313

## Medidas de assimetria

* Distribuição *Simétrica*: $\bar{x} = \tilde{x} = Mo$
* Distribuição *Assimétrica à direita*: $\bar{x} > \tilde{x} > Mo$
* Distribuição *Assimétrica à esquerda*: $\bar{x} < \tilde{x} < Mo$

**Medidas de Curtose**
- *Coeficiente de curtose*: descreve a forma da distribuição dos dados em relação à sua concentração na região central e à presença de caudas pesadas ou leves.

**Medidas de associação**
- *Covariância*: quantifica a relação linear bruta entre duas variáveis.
- *Coeficiente de correlação de Pearson*: quantifica a força e a direção da relação linear entre duas variáveis.
- *Coeficiente de correlação de Spearman*: quantifica a relação monotônica entre duas variáveis. (não pressupõe uma relação linear entre as variáveis)