# Medidores de dispersão

Medidas que se propõe a indicar o grau de aleatoriedade de determinado conjunto de dados, o termo dispersão indica o grau de afastamento de um conjunto de **variáveis numéricas** em relação a sua media.

In [2]:
import numpy as np
import matplotlib.pyplot as plt

## Variância

O desvio médio absoluto de uma amostra e representado por: $$DAM =  \frac{\sum_{i=1}^n |x_i - \bar x|}{n}$$

Esse medidor da a distância média de cada número em relação a média da amostra. No calculo  da **variância**, no entanto, torna-se necessário e mais conveniente elevar ao quadrado cada desvio buscando retornar valores não negativos e para amplificar o efeito do medidor, sendo assim:


<p align="center">
Populacional
</p>

$$\sigma^2 =  \frac{\sum_{i=1}^n |x_i - \bar x| ^ 2}{N}$$ 

<p align="center">
Amostral
</p>

$$ S^2 =  \frac{\sum_{i=1}^n |x_i - \bar x| ^ 2}{n - 1}$$

Para os dados de tempo de navegação para uma determinada missao cumprida pelo **turtlebot3** utilizando o algoritmo **A***. Foi calculado o tempo em segundos que o **turtlebot3** levava para sair de um ponto inicial ate um ponto final.

In [5]:
# Dados de navegação da missão em segundos
astar = (
    23.2, 27.4, 26.0, 23.0, 28.2, 26.1,
    26.6, 25.9, 24.5, 41.9, 22.9, 26.9,
    24.2, 24.4, 26.1, 22.8, 23.2, 28.4,
    26.0, 23.3, 23.5, 30.1, 22.8, 25.3,
    23.4, 24.9, 25.3, 25.2, 23.5, 33.2
)

# Calculo da variância
sample = np.var(astar, ddof = 1)
pop = np.var(astar, ddof = 0)

print('\x1b[31m Variância dos dados: Pop/sample > {}|{} \x1b[0m'.format(round(pop, 2), round(sample, 2)))

[31m Variância dos dados: Pop/sample > 14.24|14.73 [0m


## Desvio padrão 

A variância tem uma desvantagem, e difícil interpretar o resultado numérico em termos práticos, uma variância de 14.73 significa uma grande dispersão? A unidade de medida da variância representa o quadrado da unidade de medida da variável **x**, e mais conveniente calcular o **desvio padrão** que é a raiz quadrada da **variância**, retornando a variavel **x**:

<p align="center">
Populacional
</p>

$$\sigma =  \sqrt\frac{\sum_{i=1}^n |x_i - \bar x| ^ 2}{N}$$

<p align="center">
Amostral
</p>

$$ S =  \sqrt\frac{\sum_{i=1}^n |x_i - \bar x| ^ 2}{n - 1}$$

In [7]:
# Calculo do desvio padrão
print('\x1b[31m Desvio padrão dos dados: {} \x1b[0m'.format(round(np.std(astar), 2)))

[31m Desvio padrão dos dados: 3.77 [0m


**3.77 segundos de tempo de navegação representa uma medida mais intuitiva quanto a dispersão dos dados de navegação da missão.**

## Comparando dispersão entre amostras

### Coeficiente de variação

Suponhamos que seja necessário comparar a dispersão de duas amostras correspondentes ao preço de pizzas em duas cidades que utilizam moedas diferentes. O [desvio padrão](#desvio-padrao) retorna um valor **x** referente a unidade de medida da moeda de cada cidade, se tornando inviável comparar as duas amostras, dessa forma, é conveniente utilizar o coeficiente de variação:

$$CV = \frac{S}{\bar X}$$


A seguir um exemplo da comparação utilizando o coeficiente de variação do preço de pizzas em cidades que utilizam dólar e pesos.

In [14]:
# Preço das pizzas
dollar_price = (1, 2, 3, 3, 5, 6, 7, 8, 9, 11)
pesos_price = (18.81, 37.62, 56.43, 56.43, 94.05, 112.86, 131.67, 150.48, 169.29, 206.91)
# Medias
media_dollar = np.mean(dollar_price)
media_pesos = np.mean(pesos_price)
# Desvio padrão
std_dollar = np.std(dollar_price, ddof = 1)
std_pesos = np.std(pesos_price, ddof = 1)

# Coeficiente de varição
print(
    '\x1b[31m Desvio padrão dos preços em dólar > $ {}\x1b[0m'.format(round(std_dollar, 2)),
    '\x1b[31m Desvio padrão dos preços em pesos > MXN {}\x1b[0m'.format(round(std_pesos, 2)),
    '\x1b[31m Coeficiente de variação {}\x1b[0m'.format(round(std_dollar / media_dollar, 2)),
    '\x1b[31m Coeficinte de variação {} \x1b[0m'.format(round(std_pesos / media_pesos, 2)),
    sep = "\n"
)

[31m Desvio padrão dos preços em dólar > $ 3.27[0m
[31m Desvio padrão dos preços em pesos > MXN 61.59[0m
[31m Coeficiente de variação 0.6[0m
[31m Coeficinte de variação 0.6 [0m
