In [1]:
#Medidas de dispersão são medidas estatísticos utilizadas para identificar o grau de variabilidade de um conjunto de dados.
#As medidas de dispersão mais comuns são a variância, desvio padrão e coeficiente de variação.
#Vamos continuar usando os dados do preço do Big Mac de Julho de 2022.
import pandas as pd

In [3]:
df = pd.read_csv('BigmacPriceJuly2022.csv')
df.head()


Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
0,2022-07-01,ARS,Argentina,590.0,129,4.57
1,2022-07-01,AUD,Australia,6.7,1,6.7
2,2022-07-01,EUR,Austria,4.35,1,4.35
3,2022-07-01,AZN,Azerbaijan,4.7,1,4.7
4,2022-07-01,BHD,Bahrain,1.6,1,1.6


In [10]:
df.dtypes

date              object
currency_code     object
name              object
local_price      float64
dollar_ex          int64
dollar_price     float64
dtype: object

In [11]:
df['date'] = pd.to_datetime(df['date'])

In [12]:
df.dtypes

date             datetime64[ns]
currency_code            object
name                     object
local_price             float64
dollar_ex                 int64
dollar_price            float64
dtype: object

In [7]:
df.describe()

Unnamed: 0,local_price,dollar_ex,dollar_price
count,70.0,70.0,70.0
mean,3793.318143,1042.428571,4.003571
std,17915.281337,4462.135648,1.353213
min,1.3,1.0,1.3
25%,4.6625,1.0,3.0
50%,16.84,4.0,3.905
75%,93.5,27.75,4.6875
max,130000.0,25600.0,7.1


In [13]:
#A variância é uma medida de dispersão que nos ajuda a entender o quão longe da média os dados estão.
#Na prática, a variância é a média do quadrado das distâncias entre cada observação e a média.
#Queremos medir a distância entre cada observação e a média, mas pode ser que alguma observação seja menor do que a média! Nesse caso, somente fazer a diferença entre a observação e a média daria um valor negativo, e acabaria se anulando com as outras distâncias.
lista_exemplo_variancia = [1 , 2, 3 , 4, 5]

In [14]:
def media(lista):
    return sum(lista)/len(lista)
media(lista_exemplo_variancia)

3.0

In [15]:
#fórmula da variância amostral.
def variancia_amostral(lista):
    media_lista = media(lista)
    tamanho_lista = len(lista)
    
    lista_distancias_quadradas = []
    for observacao in lista:
        distancia_quadrada = (observacao - media_lista) ** 2
        lista_distancias_quadradas.append(distancia_quadrada)
    
    variancia = sum(lista_distancias_quadradas)/tamanho_lista
    
    return variancia

In [16]:
variancia_amostral(lista_exemplo_variancia)

2.0

In [17]:
#Calcular a variância com pandas
df['dollar_price'].var()

1.8311856107660458

In [18]:
#Assim como a média, a variância é facilmente influenciada por valores extremos!
lista_alturas_1 = [1.67, 1.72, 1.70, 1.69, 1.74, 1.71]
media(lista_alturas_1)

1.705

In [20]:
import numpy as np
np.var(lista_alturas_1)

0.0004916666666666675

In [21]:
#Lista mais espaçada.
lista_alturas_2 = [1.60, 1.66, 1.72, 1.69, 1.78, 1.77]

media(lista_alturas_2)

1.7033333333333334

In [22]:
np.var(lista_alturas_2)

0.0038888888888888883

In [23]:
#Lista com uma altura bem menor do que as outras.
lista_alturas_3 = [1.20, 1.72, 1.70, 1.69, 1.74, 1.71]

media(lista_alturas_3)

1.6266666666666667

In [24]:
np.var(lista_alturas_3)

0.03665555555555556

In [25]:
#Desvio Padrão
#No cálculo da variância, elevamos as diferenças ao quadrado para que as distaâncias sejam positivas. Entretanto, ao fazer isso, a variância acaba ficando numa escala diferente dos dados, porque está em uma escala quadrática. Por isso, utilizamos o desvio padrão, que nada mais é do que a raiz quadrada da variância.
#Desvio Padrão
#desvio padrão com pandas.
df['dollar_price'].std()

1.3532130692415167

In [26]:
#Esse é o desvio padrão do preço do Big Mac no mundo, em dólares.
#Podemos usar um pacote pronto para calcular o desvio padrão.
np.std(lista_exemplo_variancia)

1.4142135623730951

In [27]:
#Como o desvio padrão é a raiz quadrada da variância, ele também vai, assim como a média, ser facilmente influenciada por valores extremos

In [28]:
#Coeficiente de Variação
#Com o desvio padrão, temos uma medida de dispersão na mesma escala dos nossos dados. Entretanto, como saber se os dados são muito variados ou pouco? Como saber se o nosso desvio padrão é pequeno ou grande? Para isso, temos o Coeficiente de Variação!.
#O coeficiente de variação é o quociente entre o desvio padrão e a média e, já que multiplicamos por 100, ele vira uma porcentagem. Quanto maior essa porcentagem, podemos dizer que mais distantes da média os dados estão e, consequentemente, mais variados os dados estão.
#Vamos calcular o coeficiente de variação do preço do Big Mac em dólares.
coeficiente_variacao_big_mac = 100 * df['dollar_price'].std()/df['dollar_price'].mean()
coeficiente_variacao_big_mac

33.800148027441985

In [30]:
#Os dados são bastante dispersos!