# 1.3.  Medidas de Dispersão

Created on September 03 2022

@author: Rogerio Chaves

E-mail: chaves.rogerio@outlook.com

As medidas de dispersão (ou variabilidade) são medidas que buscam representar a dispersão dos dados em relação a média. A importância dessas medidas é que ao observar-se um conjunto de dados  por somente a medida de posição, podemos perder informações importantes de como esses dados estão distribuídos (diferentes conjuntos de dados de uma variável podem ter um mesmo valor de média). (BUSSAB e MORETTIN, 2004)

Além disso, quando calculamos a dispersão da observação em relação a media podemos ter problemas devido as observações que estão acima ou abaixo da média, positivos e negativos respectivamente, que em uma soma causaria dano na observação da dispersão dos dados (anulação em parte ou em todo do desvio de uma observação com outra). Por esse motivo, a soma dos desvios não é uma boa medida de dispersão. (BUSSAB e MORETTIN, 2004)

## Dados não agrupados

Por exemplo, dado o conjunto de dados a seguir,

<center>10, 70, 20, 40, 50, 60, 70, 80, 10, 90</center>

Vamos calcular a média,

<center>$  \bar {x}  = \frac{ x_{1} + x_{2} + ... + x_{n} }{ n } $</center>

<center>$  \bar {x}  = \frac{ 10 + 70 + 20 + 40 + 50 + 60 + 70 + 80 + 10 + 90 }{ 10 } $</center>

<center>$  \bar {x}  = \frac{ 500 }{ 10 } = 50 $</center>

Dado a média, vamos calcular o desvio de cada observação em relação a média,

$ x_{1} - \bar{x} = 10 – 50 = -40 $

$ x_{2} - \bar{x} = 70 – 50 = 20 $

$ x_{3} - \bar{x} = 20 – 50 = -30 $

$ x_{4} - \bar{x} = 40 – 50 = -10 $

$ x_{5} - \bar{x} = 50 – 50 = 0 $

$ x_{6} - \bar{x} = 60 – 50 = 10 $

$ x_{7} - \bar{x} = 70 – 50 = 20 $

$ x_{8} - \bar{x} = 80 – 50 = 30 $

$ x_{9} - \bar{x} = 10 – 50 = -40 $

$ x_{10} - \bar{x} = 90 – 50 = 40 $

Que resulta em,

<center>-40, 20, -30, -10, 0, 10, 20, 30, -40, 40</center>

Ao observarmos os valores dos desvios de cada observação em relação a média, vemos que, conforme dito anteriormente, a soma dos valores negativos com os positivos causaria dano a observação da dispersão, o que ocasionaria em uma medida não muito boa. Assim, para resolver esse problema calculamos em termos desvio médio absoluto ou em termos da média dos quadrados dos desvios, chamados de <b>desvio médio</b> e <b>variância</b> respectivamente.

### Desvio Médio

<center> 
    $ dm(x)  = \frac{ | x_{1} -  \bar x  |  + | x_{2} - \bar x |  + ... + | x_{n} - \bar x |  }{ n } = \frac{\sum_{ i=1 }^{ n } | x_{i} - \bar x |}{ n }$ </center>
    
Por exemplo, dado o seguinte conjunto vamos calcular o desvio médio.
<center>9.5, 10, 8, 7.5, 8.2</center>

Vamos iniciar com o cálculo da média do conjunto de dados.

<center> $  \bar {x}  = \frac{ x_{1} + x_{2} + ... + x_{n} }{ n } $ </center>

<center> $  \bar{x}  = \frac{ 9.5 + 10 + 8 + 7.5 + 8.2 }{ 5 } = \frac{ 43,2 }{ 5 } = 8.64 $ </center>

Agora que temos a média vamos calcular o desvio médio.

<center> $ dm(x)  = \frac{ | 9.5 -  8.64  |  + | 10 - 8.64 |  + | 8 - 8.64 | + | 7.5 - 8.64 | + | 8.2 - 8.64 | }{ 5}$ </center>

<center> $ dm(x)  = \frac{ | 0.86  |  + | 1.36 |  + | - 0.64 | + | -1.14 | + | -0.44 | }{ 5 }$ </center>

<center> $ dm(x)  = \frac{ 0.86 + 1.36 + 0.64 + 1.14 + 0.44  }{ 5 } =\frac{ 4.44 }{ 5 } = 0.888 $ </center>

In [9]:
def media_aritmetica(valores):
    soma = 0
    n = len(valores)
    
    for i in range(0,n):
        soma += valores[i]
        
    media = soma / n
    
    return media

In [10]:
def desvio_medio(valores):
    media = media_aritmetica(valores)
    n = len(valores)
    dm = 0
    
    for valor in valores:
        desvio = abs(valor - media)
        dm += desvio
        
    dm = dm / n
    return dm

In [11]:
valores = [9.5, 10, 8, 7.5, 8.2]
dm = desvio_medio(valores)

print(f'Desvio médio: {dm:}')

Desvio médio: 0.8880000000000002


### Variância

<center> 
    $ var(x)  = \frac{ ( x_{1} -  \bar x  )^{2}  + (x_{2} - \bar x)^{2}  + ... + (x_{n} - \bar x)^{2}  }{ n } = 
    \frac{\sum_{ i=1 }^{ n }{(x_{i} - \bar x)^2}}{ n } $ </center>
    
Dado o mesmo conjunto de dados do exemplo anterior vamos calcular a variância.

<center> $ var(x)  = \frac{ ( 9.5 -  8.64  )^{2}  + (10 - 8.64)^{2}  + (8 - 8.64)^{2} + (7.5 - 8.64)^{2} + (8.2 - 8.64)^{2}  }{5}$ </center>

<center> $ var(x)  = \frac{ ( 0.86  )^{2}  + (1.36)^{2}  + (-0.64)^{2} + (-1.14)^{2} + (-0.44)^{2}  }{ 5 } $ </center>

<center> $ var(x)  = \frac{ 0.7396  + 1.8496  + 0.4096 + 1.2996 + 0.1936  }{ 5 } = \frac{ 4.492 }{ 5 } = 0.8984 $ </center>

In [12]:
def variancia(valores):
    media = media_aritmetica(valores)
    n = len(valores)
    variancia = 0
    
    for valor in valores:
        desvio = (valor - media)** 2
        variancia += desvio
        
    variancia = variancia / n
    
    return variancia

In [13]:
var = variancia(valores)

print(f'Variância: {var}')

Variância: 0.8984


### Desvio Padrão

Além disso, temos a medida de <b>desvio padrão</b>, que obtemos a partir da raiz quadrada da variância

<center> $ dp(x)  = \sqrt( var(x) ) $ </center>

<center> $ dp(x)  = \sqrt{ \frac{ ( x_{1} -  \bar x  )^{2}  + (x_{2} - \bar x)^{2}  + ... + (x_{n} - \bar x)^{2}  }{ n }} = \sqrt{ \frac{\sum_{ i=1 }^{ n }{ (x_{i} - \bar x)^²}}{ n } } $ </center>

Para o exemplo do conjunto de dados acima vamos calcular o desvio padrão.

<center> $ dp(x)  = \sqrt{ 0.8984 } \approx 0.9478  $ </center>

In [14]:
def desvio_padrao(valores):
    return variancia(valores) ** (1/2)

In [15]:
dp = desvio_padrao(valores)

print(f'Desvio padrão: {dp}')

Desvio padrão: 0.9478396488858228


## Referências:

BUSSAB, Wilton de O.; MORETTIN, Pedro A. Estatística Básica. 5ª edição. São Paulo: Editora Saraiva, 2004.