# **Medidas de Posição, Dispersão e Forma**

A estatística descritiva sintetiza as características principais em um conjunto de dados por meio de tabela de frequências, gráficos e medidas-resumo, permitindo a melhor compreensão do comportamento dos dados.


In [14]:
import pandas as pd
import numpy as np

Para este estudo trabalharemos com o dataset de preços de um produto anotados de vários sites.

In [3]:
df = pd.read_csv('https://raw.githubusercontent.com/vitormarx/ciencia-de-dados/main/datasets/preco.csv', delimiter=';')
df.head()

Unnamed: 0,Preço ($)
0,189
1,195
2,199
3,189
4,197


## **Medidas de Posição**

Essas medidas fornecem valores que caracterizam o comportamento de uma série de dados. São subdivididas em medidas de tendência central e medidas separatistas.

### **Média**

É a soma dos valores (Xi) contidos na variável dividido pela quantidade total de observações

<img src='http://3.bp.blogspot.com/-52OD2MrW6s8/Tl14LPKjwLI/AAAAAAAAABs/WGyot-sp2NA/s1600/media-aritmetica.png'></img>

In [5]:
media = np.mean(df)
print(f'média dos preços: R$ {media:.2f}')

média dos preços: R$ 190.77


### **Mediana**

É o elemento central da distribuição da variável, considerando que  variável esteja com seus n valores organizados de forma crescente.

<img src='https://tse2.mm.bing.net/th?id=OIP.FPk5lT9w2G72B-zZhefX1gHaEO&pid=Api&P=0&h=180'></img> Se n for par

<img src='https://informeglobal.com/wp-content/uploads/2019/11/mediana-para-datos-no-agrupados-impares.png'></img> Se n for ímpar

In [13]:
mediana = np.median(df)
print(f'mediana dos preços: R$ {mediana}')

mediana dos preços: R$ 189.0


### **Moda**

É o valor que aparece com maior frequência nas observações de uma variável. É possível que não exista a moda de uma variável

In [18]:
unique, counts = np.unique(df, return_counts=True)
max_count = np.max(counts)
moda_indices = np.where(counts == max_count)[0]
moda = unique[moda_indices][0]
print(f'Moda de preços: R$ {moda:.2f}')

Moda de preços: R$ 199.00


### **Percentis**

São os elementos da distribuição da variável que dividem as observações em cem partes iguais, considerando que as variáveis estejam com seus valores organizados de forma crescente.

<img src='https://tse3.mm.bing.net/th?id=OIP.I5vRBWtTskit62zBLh6GjgAAAA&pid=Api&P=0&h=180'></img>

In [20]:
# calculando o 44 percentil
percentil = np.percentile(df, 44)
print(f'44 percentil: R$ {percentil:.2f}')

44 percentil: R$ 189.00


### **Quartis**

São os elementos da distribuição das variáveis que dividem as observações em 4 partes iguais, considerando que a variável esteja organizada de forma crescente.

1. 1 Quartil: 25% das observações são menores do que o valor x
2. 2 Quartil: mediana
3. 3 Quartil: 25% das observações são maiores que o valor x

<img src='https://3.bp.blogspot.com/-8EdILVYkWQU/V8QL093hbjI/AAAAAAAAGOw/hL18HcHuJ7IkziSyvCjk_rvhR0LWUhbwgCLcB/s1600/F%25C3%25B3rmulas%2BUbicaci%25C3%25B3n%2Bde%2BCuartiles.png'></img>

In [23]:
q1 = np.percentile(df,25)
q2 = np.percentile(df,50)
q3 = np.percentile(df,75)

print(f'1 Quartil de preço: R$ {q1:.2f}')
print(f'2 Quartil de preço: R$ {q2:.2f}')
print(f'3 Quartil de preço: R$ {q3:.2f}')

1 Quartil de preço: R$ 179.00
2 Quartil de preço: R$ 189.00
3 Quartil de preço: R$ 199.00


# **Medidas de dispersão**

Medidas de dispersão ou variabilidade são usadas para caracterizar a dispersão ou variabilidade dos dados.

## **Amplitude**

Apresenta a diferença entre o maior e o menor valor da variável

<img src='http://2.bp.blogspot.com/-4SWRVSQMDCg/UDoQRZTz39I/AAAAAAAAAGc/G8ZfmBziJZ0/s1600/Amplitude+total.jpg'></img>

In [24]:
amplitude = np.max(df) - np.min(df)
print(f'amplitude de preços: R$ {amplitude:.2f}')

amplitude de preços: R$ 90.00


## **Variância**

Mostra a dispersão de uma variável em torno de sua média. Não é muito explicativa, já que depende de um acúmulo de desvios de média.

<img src='https://lh4.googleusercontent.com/BzBtk53WNMUwM0i40awfQ7yN7OUl2e7BKBUcvo0aaePjs6jrbQbM4EswZQxrvQgMndCnOjSFU2SDY-3SS8OkhRbJRQ9wMT_sEaTY8keouvaVEr_De1OH2bcAJlLRls7W4uE0SP1k'></img>

In [39]:
variancia = np.var(df.values, ddof=1)
print(f'variância de preços: R$ {variancia:.2f}')

variância de preços: R$ 244.02


## **Desvio-padrão**

É a medida derivada da variância, tornanndo mais simples a interpretação da dispersão em torno da média

<img src='https://lh6.googleusercontent.com/3ZKVi4Qa3xQ9lC5gfzn90Nl8wCJFR5qaXWdVBShLTHHvPsrZ0tRewceikw6xoHRIf6PTj4t0kgfBM5BJumak_mFxA17KDPfMY8TD518FathSuO33AHfAZoGj2lh6XQ'></img>

In [38]:
desvio = np.std(df.values)
print(f'desvio-padrão de preços: R$ {desvio:.2f}')

desvio-padrão de preços: R$ 15.54


# Medidas de Forma

São medidas que caracterizam a forma da distribuição dos elementos da população amostrados em torno da média

## **Medidas de Assimetria (Skewness)**

Referem-se a forma da curva de uma distribuição de frequências. Para uma curva ou distribuição de frequências simétrica, a média, moda e mediana são iguais. Já no caso de assimetria, a média distancia-se da moda e a mediana situa-se numa posição intermediária.

<img src='https://3.bp.blogspot.com/-urfLd1Jy_vc/WIVTrI3AXoI/AAAAAAAAK5c/ppTKiRw9OUwS3TQjy7pGueYClIUSKPn9wCLcB/s1600/Imagem2.jpg'></img>

Além disso, o cálculo do coeficiente de Fisher (g1) pode determinar a assimetria da distribuição:

<img src='https://tse3.explicit.bing.net/th?id=OIP.0OGDTeks-yC_jZMMn5y9GQAAAA&pid=Api&P=0&h=180'></img>

* g1 = 0: distribuição simétrica
* g1 > 0: distribuição assimétrica à direita
* g1 < 0: distribuição assimétrica à esquerda 

In [52]:
n = len(df)
m3 = 0
for i in df.values:
    m3 = m3 +  np.sum((i-media)**3)/n

g1 = ((n**2) * m3)/((n-1)*(n-2)*(desvio**3))

print(f'coeficiente de Fisher: {g1:.3f}')

coeficiente de Fisher: 0.091


## **Curtosis**

Mede o achatamento da curva de distribuição. É possível observar se as curvas têm menor dispersão ou maior, em torno da média.

<img src='https://maestrovirtuale.com/wp-content/uploads/2020/05/curtosis.jpg'></img>

O coeficiente de curtose é calculado por:

<img src='http://1.bp.blogspot.com/-FFvJPE-unL0/UEP-_Jga5MI/AAAAAAAAANE/i7WRVFRyoks/s1600/Curtose+-+coeficiente.jpg'></img>

In [53]:
curtose = (q3-q1)/(2*(np.percentile(df,90) - np.percentile(df,10)))
print(f'coeficiente de curtose: {curtose:.3f}')

coeficiente de curtose: 0.250


In [54]:
# tabela de resumo
print(f'media: {media:.2f}')
print(f'mediana: {mediana:.2f}')
print(f'moda: {moda:.2f}')
print(f'1 Quartil: {q1:.2f}')
print(f'2 Quartil: {q2:.2f}')
print(f'2 Quartil: {q3:.2f}')
print(f'amplitude: {amplitude:.2f}')
print(f'variância: {variancia:.2f}')
print(f'desvio-padrão: {desvio:.2f}')
print(f'coeficiente de Fisher: {coeficiente_fisher:.3f}')
print(f'coeficiente de curtose: {curtose:.3f}')

media: 190.77
mediana: 189.00
moda: 199.00
1 Quartil: 179.00
2 Quartil: 189.00
2 Quartil: 199.00
amplitude: 90.00
variância: 244.02
desvio-padrão: 15.54
coeficiente de Fisher: 0.342
coeficiente de curtose: 0.250
