Medidas de Forma

**Medidas de forma** são estatísticas que descrevem a distribuição dos dados. As principais medidas de forma são a **assimetria** e a **curtose**.

A **assimetria** mede a distribuição dos dados em relação à média. Um conjunto de dados é simétrico se, quando você traça um histograma dos dados, ele parece o mesmo à esquerda e à direita do pico. Se o conjunto de dados não é simétrico, então ele é assimétrico. Se a cauda do histograma se estende mais para a direita, é positivamente assimétrico. Se se estende mais para a esquerda, é negativamente assimétrico.

A **curtose** mede o "achatamento" ou "pontuação" de uma distribuição. Uma distribuição com curtose positiva é chamada de leptocúrtica, que tem um pico mais alto e caudas mais pesadas. Uma distribuição com curtose negativa é chamada de platicúrtica, que tem um pico mais baixo e caudas mais leves.

### Exemplo prático das medidas de forma

**Assimetria:** Se temos as notas de um aluno em cinco provas: 8, 9, 7, 10, e 8. Ao traçar um histograma das notas, podemos ver que a distribuição é simétrica, pois as notas estão igualmente distribuídas em torno da média.

**Curtose:** Se temos uma lista de idades de cinco pessoas: 23, 25, 30, 35, e 40 anos. Ao traçar um histograma das idades, podemos ver que a distribuição é lepto urtica, pois a maioria das idades está próxima da média, resultando em um pico mais alto.

In [16]:
import pandas as pd

dic_medidas = {'idade': [22,10,33,14], 'altura': [2.2,2.34,0.5,0.7]}
df_medidas = pd.DataFrame.from_dict(dic_medidas)
df_medidas

Unnamed: 0,idade,altura
0,22,2.2
1,10,2.34
2,33,0.5
3,14,0.7


In [22]:
# Assimetria - Idade
print("Assimetria positiva:", df_medidas['idade'].skew(), "Calda direita mais longa")

Assimetria positiva: 0.7794036481376936 Calda direita mais longa


In [23]:
# Assimetria - Altura
print("Assimetria negativa:", df_medidas['altura'].skew(), "Calda esquerda mais longa")

Assimetria negativa: -0.01870360154101551 Calda esquerda mais longa


In [24]:
# Curtose - Idade

df_medidas['idade'].kurtosis()

-0.603963349669721

In [25]:
# Curtose - Altura

df_medidas['altura'].kurtosis()

-5.686087473450467

In [26]:
# Obter medidas estatisticas

df_medidas['idade'].describe()

count     4.000000
mean     19.750000
std      10.144785
min      10.000000
25%      13.000000
50%      18.000000
75%      24.750000
max      33.000000
Name: idade, dtype: float64