Medidas de Dispersão:
    São medidas que vão ajudar a calcular o quão variados estão os nossos dados. 
    As medidas de dispersão mais comuns são a Variância, desvio padrão e coeficiente de variação.


Vamos mais uma vez utilizar os dados do preço do BigMac de Julho de 2022:

In [1]:
import pandas

In [2]:
df = pandas.read_csv('BigmacPriceJuly2022.csv')

In [3]:
df.head()


Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
0,2022-07-01,ARS,Argentina,590.0,129,4.57
1,2022-07-01,AUD,Australia,6.7,1,6.7
2,2022-07-01,EUR,Austria,4.35,1,4.35
3,2022-07-01,AZN,Azerbaijan,4.7,1,4.7
4,2022-07-01,BHD,Bahrain,1.6,1,1.6


Descrição Das Colunas:
- Date: Data do registro;
- currency_code: Código ISO 4217 internacional da moeda do país;
- local_price: Preço do Big Mac na moeda local
- dolla_ex: Tava de conversão do dólar americano para a moeda local;
- dollar_price: Preço do Big Mac em dólares americados;

VARIÂNCIA:
    É uma medida de dispersão que nos ajuda a entender o quão longe da média os dados estão.
    Na prática, a variância é a média do quadrado das distâncias entre cada observação e a média.

Porque precisamos elevar ao quadrado?
    Queremos medir a distância entre cada observação e a média, mas pode ser que alguma observação seja menor do que a média. Nesse caso, somente fazer a diferença entre a observação e a média daria um valor negativo, e acabaria se anulando com as outras distâncias.

In [5]:
lista_exemplo_variancia = [1, 2, 3, 4, 5]

In [7]:
def media(lista):
    return sum(lista)/len(lista)

In [8]:
media(lista_exemplo_variancia)

3.0

In [9]:
(1-3) + (2-3) + (3-3) + (4-3) + (5-3)

0

Nesse exemplo, todas as distâncias se anulariam e diríamos que os dados não tem variação alguma, o que não é verdade.

Quando elevamos um número ao quadrado, o resultado é sempre positivo e por isso elevamos as diferenças ao quadrado no caso da variância.

In [10]:
(1-3)**2 + (2-3)**2 + (3-3)**2 + (4-3)**2 + (5-3)**2

10

Implementação da fórmula da variância amostral:

In [13]:
def variancia_amostral(lista):
    media_lista = media(lista)
    tamanho_lista = len(lista)

    lista_distancias_quadradas = []
    for observacao in lista:
        distancia_quadrada = (observacao - media_lista) ** 2
        lista_distancias_quadradas.append(distancia_quadrada)

    variancia = sum(lista_distancias_quadradas)/tamanho_lista
    return variancia

In [14]:
variancia_amostral(lista_exemplo_variancia)

2.0

Podemos usar um pacote pronto para calcular a variância, não é necessário implementar toda vez:

In [15]:
import numpy as np

In [16]:
np.var(lista_exemplo_variancia)

2.0

Também podemos calcular a variância com Pandas:

In [20]:
df['dollar_price'].var()

1.8311856107660458

Assim como a média, a variância é facilmente influênciada por valores extremos.

Lista equilibrada:

In [21]:
lista_alturas_1 = [1.67, 1.72, 1.70, 1.69, 1.74, 1.71]

In [22]:
media(lista_alturas_1)

1.705

In [23]:
np.var(lista_alturas_1)

0.0004916666666666675

_______________________________________________________________________________________________________________________

Desvio Padrão:
    No cálculo da variância, elevamos as diferenças ao quadrado para que as distâncias sejam positivas. Entretanto, ao fazer isso, a variância acaba ficando numa escala diferente dos dados, porque está em uma escala quadrática. Por isso, utilizamos o desvio padrão, que nada mais é que a raiz quadrada da variância.
    

In [25]:
df['dollar_price'].std()

1.3532130692415167

Este é o desvio padrão do preço do BigMac em dólares no mundo.

Podemos usar um pacote pronto para calcular o desvio padrão:

In [27]:
np.std(lista_exemplo_variancia)

1.4142135623730951

Como o desvio padrão é a raiz quadrada da variância, ele também vai, assim como a média, ser facilmente influenciado por valores extremos.


_____________________________________________________________________________________________________________________________

Coeficiente de Variação:
    Com o desvio padrão, temos uma medida de dispersão na mesma escala dos nossos dados. Entretanto, como saber se os dados são muito variados ou pouco? Como saber se o nosso desvio padrão é pequeno ou grande? Para isso, temos o Coeficiente de Variação.
    Usado para descrever o nível de variabilidade dentro de uma população, independentemente dos valores absolutos das observações.
    CV = S\M x 100    (S: Desvio-padrão; M: Média da amostra) Habitualmente, o CV é apresentado sob a forma de percentagem.

Cálculo do Coeficiente de Variação do preço do BigMac em dólares:

In [33]:
coeficiente_variacao_bigmac = 100 * df['dollar_price'].std()/df['dollar_price'].mean()
coeficiente_variacao_bigmac

33.800148027441985

Os dados são bastante dispersos! > 30%