# 3. Medidas de Dispersão
<hr></hr>

As **medidas de dispersão** quantificam a dispersão, a variabilidade do conjunto de dados. Ajudam a compreender o quão dispersos os valores estão das medidas de tendência central(por exemplo a média).

## Variância

A **variância** é uma medida que indica o quanto os valores variam em torno da média. Valores maiores indicam uma maior dispersão dos valores.

A fórmula para calcular a variância é dada por:


## $ \sigma^2 = \frac{\sum \limits _{i=1} ^{n} (X_{i} - \mu)^2}{n} $

In [1]:
# Criando uma função que calcula a média:
def media_aritmetica(valores):
    soma = 0
    n = len(valores)
    
    for i in range(0,n):
        soma += valores[i]
    
    media = soma / n
    
    return media

In [2]:
def variancia(valores):
    media = media_aritmetica(valores)
    n = len(valores)
    variancia = 0
    
    for valor in valores:
        desvio = (valor - media)** 2
        variancia += desvio
        
    variancia = variancia / n
    
    return variancia

In [3]:
valores = [9.5, 10, 8, 7.5, 8.2]
variancia = variancia(valores)

print(variancia)

0.8984


**Obs:** Como a função `.var()` do Pandas nos dá o valor da variância da amostra, ou seja, $ \hat {\sigma}^2 = \frac{\sum \limits _{i=1} ^{n} (X_{i} - \bar{X})^2}{n-1} $, precisamos multiplicar a variância por $ \frac{(n-1)}{n} $

In [4]:
# Utilizando o pandas:

import pandas as pd

valores = [9.5, 10, 8, 7.5, 8.2]
valores = pd.DataFrame(valores, columns=['Valores'])
n = len(valores)
print(round(valores['Valores'].var()*((n-1)/n),4))

0.8984


## Desvio Padrão

O **desvio padrão** é a raiz quadrada da variância e também mede a dispersão dos valores
em um conjunto de dados. Ele é expresso na mesma unidade de medida dos valores originais, o
que o torna mais fácil de interpretar em comparação com a variância. Um desvio padrão menor
indica que os valores estão mais próximos da média.

A fórmula para calcular o desvio padrão é dada por:

## $ \sigma = \sqrt\frac{\sum \limits _{i=1} ^{n} (X_{i} - \mu)^2}{n} $

In [5]:
def desvio_padrao(val):
    
    if len(val) < 2:
            raise ValueError("A lista de valores deve conter pelo menos dois elementos para calcular o desvio padrão.")

    # Calcula a média dos valores
    medi= sum(val) / len(val)

    # Calcula a soma dos quadrados das diferenças entre cada valor e a média
    soma_quadrados_diferencas = sum((x - medi) ** 2 for x in val)

    # Divide a soma pelo número de elementos menos 1 e tira a raiz quadrada
    desvio_padrao = (soma_quadrados_diferencas / (len(val))) ** 0.5

    return desvio_padrao

In [6]:
valores = [9.5, 10, 8, 7.5, 8.2]

dp = desvio_padrao(valores)

print(dp)

0.9478396488858228


**Obs:** Como a função `.std()` do Pandas nos dá o valor da variância da amostra, ou seja, $ \hat\sigma = \sqrt\frac{\sum \limits _{i=1} ^{n} (X_{i} - \bar{X})^2}{n-1} $, precisamos multiplicar a variância por $ \frac{(n-1)}{n}(0.5)$

In [7]:
# Utilizando o pandas:

import pandas as pd

n = len(valores)
valores = pd.DataFrame(valores, columns=['Valores'])
v = valores['Valores'].std()
print(v*((n-1)/n)**0.5)

0.947839648885823


## Desvio Médio Absoluto

O **desvio médio absoluto** é a média do valor absoluto dos desvios da média. Para calcular essa medida tomamos os desvios, colocamos em valores absolutos, somamos todos e dividimos pelo número de observações. Ao utilizar valores absolutos a soma dos desvios não será zero.

A fórmula para calcular o desvio médio absoluto é dada por:

## $DM = \frac{\sum \limits _{i=1} ^{n} |X_{i} - \bar{X}|}{n} $

In [8]:
# Criando uma função que calcula a média:
def media_aritmetica(valores):
    soma = 0
    n = len(valores)
    
    for i in range(0,n):
        soma += valores[i]
    
    media = soma / n
    
    return media

In [9]:
# Criando uma função que calcula o desvio medio absoluto:

def desvio_medio(valores):
    media = media_aritmetica(valores)
    n = len(valores)
    dm = 0
    
    for valor in valores:
        desvio = abs(valor - media)
        dm += desvio
        
    dm = dm / n
    return dm

In [10]:
valores = [9.5, 10, 8, 7.5, 8.2]
dm = desvio_medio(valores)

print(dm)

0.8880000000000002


In [11]:
# utilizando o pandas:

import pandas as pd

valores = pd.DataFrame(valores, columns=['Valores'])

# print(valores['Valores'].mad()) # Função mad() será removida em futuras versões
print((valores['Valores'] - valores['Valores'].mean()).abs().mean())

0.8880000000000002


## Referências:

BUSSAB, Wilton de O.; MORETTIN, Pedro A. Estatística Básica. 5ª edição. São Paulo: Editora Saraiva. 2004.