# Medidas de variabilidade

As **medidas** de variabilidade respondem uma pergunta fundamental em análise de dados: "Os dados estão concentrados ou espalhados?"

Essas medidas descrevem a dispersão, ou seja, o quanto os valores se afastam uns dos outros e da média. Enquanto as medidas de centralidade (média, mediana e a moda) dizem onde está o centro, as medidas de variabilidade dizem o quão longe os valores estão desse centro.

## Exemplo:

2 turmas distintas têm media de nota 7. Porém, as notas da turma A variam de 6.8 a 7.2. Já as notas da turma B variam entre 0 e 10. Ou seja, são diferentes apenas da mesma média.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("wine_quality_red.csv", delimiter=';')
print(df.head())

col = 'alcohol'

# Amplitude
# É a diferença entre o maior e menor valor. Ela serve para dar uma visão rápida da "largura" dos dados. Identifica o "espaço total" que os valores ocupam. Também podemos dizer que mede a distância entre os extremos.
# Quando a amplitude é alta, os dados estão mais espalhados. Quando a amplitude é baixa, os dados estão mais concentrados
# Utilizada em controle de qualidade, por exemplo.
amplitude = df[col].max() - df[col].min()


# Variância
# Mede o quanto os dados se afastam da média. Ela está na unidade AO QUADRADO. Com a variância medimos o nível global de dispersão dos dados. Muito util em estatística, machine learning e probabilidade.
# Variância alta significa dados muito espalhados. Variância baixa significa dados concentrados.
variancia = df[col].var()


# Desvio padrão
# Raiz quadrada da variância. É a medida mais interpretável da dispersão, pois usa a mesma unidade da variável original. É mais fácil de interpretar pois mantém a unidade do dado original.
# Mede a distância média típica dos valores em relação à média. Podemos interpretar da seguinte maneira:
# Desvio Padrão Baixo: os dados são parecidos entre si
# Desvio Padrão Alto: Existe muita variação
# O desvio padrão é muito utilizado no mercado financeiro, análise de desempenho e em estatística descritiva em geral.
desvio = df[col].std()


# Quartis
# Quartis dividem os dados ordenados em 4 partes iguais:
# Q1 -> 25% dos dados
# Q2 -> 50% (mediana)
# Q3 -> 75% dos dados

# Com os quartis podemos ver como os dados se dividem em regiões. Indica assimetria e concentração dos valores.
# Q1 baixo e Q3 alto significam que os dados estão bem espalhados. Q1 e Q3 próximos significa que os dados estão mais concentrados.
quartis = df[col].quantile([0.25, 0.50, 0.75])


# IQR (Intervalo Interquartílico)
# O IQR mede a distribuição dos 50% centrais dos dados. É uma medida de dispersão mais robusta (pouco afetada por outliers). É a base para detectar valores atípicos.
# IQR grande -> dados bem variados
# IQR pequeno -> dados mais concentrados.
iqr = quartis.loc[0.75] - quartis.loc[0.25]


# Detecção de outliers pelo método do IQR
# Usamos o método abaixo para identificar valores extremamente fora do padrão esperado. Valores fora desses limites são considerados outliers estatísticos. Não significa que o valor está errado - apenas que é raro. Abaixo estão as fórmulas clássicas

limite_inferior = quartis.loc[0.25] - 1.5 * iqr
limite_superior = quartis.loc[0.75] + 1.5 * iqr

# Abaixo encontramos os valores que estão fora desse intervalo
outliers = df[(df[col] < limite_inferior) | (df[col] > limite_superior)]

print("===== Medidas de Variabilidade =====")
print(f"Mínimo: {df[col].min()}")
print(f"Máximo: {df[col].max()}")
print(f"Amplitude: {amplitude:.2f}.")
print(f"Variância: {variancia:.2f}.")
print(f"Desvio Padrão: {desvio:.2f}.")

print(f"\nQuartis:")
print(quartis)

print(f"\nIntervalo Interquartílico(IQR): {iqr:.2f}.")

print("\n===== Outliers =====")
print(f"Limite Inferior: {limite_inferior:.2f}.")
print(f"Limite Superior: {limite_superior:.2f}.")
print(f"Número de outliers encontrados: {len(outliers)}.")


# VISUALIZAÇÃO

## Boxplot com outliers destacados
plt.figure(figsize=(10, 5))
sns.boxplot(x=df[col])
plt.title("Graduação alcoólica com outliers")
plt.xlabel(col)
plt.show()

## Histograma - Onde veremos a distribuição
plt.figure(figsize=(10, 5))
sns.histplot(df[col], kde=True)
plt.title(f"Distribuição da variável '{col}'")
plt.xlabel(col)
plt.ylabel("Frequência")
plt.show()