In [1]:
import pandas as pd

In [None]:
pd.__version__

### Definindo os Dados

In [3]:
dict_metrics = {"idade": [15, 18, 25, 26, 40, 40, 58, 60],
                 "altura_cm": [160, 165, 149, 168, 172, 174, 174, 178]}

In [None]:
type(dict_metrics)

In [5]:
df = pd.DataFrame(dict_metrics)

In [None]:
df

### Medidas de Posição
- Média: Soma de todos os valores dividida pelo número e valores. É a medida mais comum de tendência central. Pode ser sensível a valores extremos.
- Mediana: É o valor do meio quando os dados estão ordenados. Não sofre por valores extremos. É útil em destribuições assimétricas.
- Moda: É o valor que ocorre com maior frequência. É útil em dados categóricos ou quando deseja-se indetificar valores com maior frequência

In [None]:
# -------------------------
# Média
# -------------------------
# Soma de todos os valores dividida pela quantidade de observações
media_idade = df["idade"].mean()
media_altura = df["altura_cm"].mean()

print(f"Média de Idade: {media_idade}")
print(f"Média de Altura (cm): {media_altura}")

In [None]:
# -------------------------
# Mediana
# -------------------------
# Valor central dos dados ordenados
# Menos afetada por valores extremos
mediana_idade = df["idade"].median()
mediana_altura = df["altura_cm"].median()

print(f"Mediana de Idade: {mediana_idade}")
print(f"Mediana de Altura (cm): {mediana_altura}")

In [None]:
# -------------------------
# Moda
# -------------------------
# Valor que ocorre com maior frequência
# Pode retornar mais de um valor
moda_idade = df["idade"].mode()
moda_altura = df["altura_cm"].mode()

print(f"Moda de Idade: {moda_idade.values}")
print(f"Moda de Altura (cm): {moda_altura.values}")


### Medidas de Dispersão

 As medidas de dispersão indicam o quanto os dados variam em relação à média, ajudando a entender a consistência ou variabilidade dos valores.

#### Principais medidas:
 - Variância: distância média dos valores em relação à média
 - Desvio Padrão: raiz da variância (mesma unidade dos dados)
 - Coeficiente de Variação: dispersão relativa em porcentagem


In [None]:
# -------------------------
# Variância
# -------------------------
# Mede o quanto os valores estão afastados da média
variancia_idade = df["idade"].var()
variancia_altura_cm = df["altura_cm"].var()

print(f"Variância de Idade: {variancia_idade}")
print(f"Variância de Altura (cm): {variancia_altura_cm}")

In [None]:
# -------------------------
# Desvio Padrão
# -------------------------
# Expressa a dispersão dos dados na mesma unidade da variável
desvio_padrao_idade = df["idade"].std()
desvio_padrao_altura_cm = df["altura_cm"].std()

print(f"Desvio Padrão de Idade: {desvio_padrao_idade}")
print(f"Desvio Padrão de Altura (cm): {desvio_padrao_altura_cm}")

In [None]:
# -------------------------
# Coeficiente de Variação
# -------------------------
# Indica a variabilidade relativa dos dados em relação à média
# Muito útil para comparar dispersão entre variáveis diferentes
coeficiente_variacao_idade = (desvio_padrao_idade / df["idade"].mean()) * 100
coeficiente_variacao_altura_cm = (desvio_padrao_altura_cm / df["altura_cm"].mean()) * 100

print(f"Coeficiente de Variação de Idade (%): {coeficiente_variacao_idade}")
print(f"Coeficiente de Variação de Altura (%): {coeficiente_variacao_altura_cm}")

### Medidas de Forma (Distribuição dos Dados)
As medidas de forma descrevem o comportamento da distribuição dos dados, indicando assimetria e concentração em torno da média.
- Assimetria (Skewness): Indica o grau e direção da distorção da distribuição em relação à média. Se positiva, indica a cauda direita da distribuição mais longa, já o oposto indica a cauda esquerda mais longa.
- Curtose (Kurtosis): Mede o pico ou "pontuação da distribuição. uma curtose alta indica uma distribuição mais concentrada, já o oposto indica uma distribuição mais achatada.

In [None]:
df

In [None]:
# -------------------------
# Assimetria
# -------------------------
# Mede o grau e a direção da distorção da distribuição
# Assimetria > 0  → cauda direita mais longa
# Assimetria < 0  → cauda esquerda mais longa

assimetria_idade = df["idade"].skew()
assimetria_altura_cm = df["altura_cm"].skew()

print(f"Assimetria de idade: {assimetria_idade}")
print(f"Assimetria de altura (cm): {assimetria_altura_cm}")

In [None]:
# -------------------------
# Curtose
# -------------------------
# Mede o grau de concentração dos dados em torno da média
# Curtose > 0  → distribuição mais concentrada (leptocúrtica)
# Curtose < 0  → distribuição mais achatada (platicúrtica)

kurtosis_idade = df["idade"].kurtosis()
kurtosis_altura_cm = df["altura_cm"].kurtosis()

print(f"Curtose de idade: {kurtosis_idade}")
print(f"Curtose de altura (cm): {kurtosis_altura_cm}")

### Correlação
A correlação mede o grau de relacionamento entre duas variáveis, indicando se elas tendem a aumentar ou diminuir juntas (correlação positiva),
se uma tende a aumentar enquanto a outra diminui (correlação negativa) ou se não existe relação clara entre elas.

A análise de correlação é amplamente utilizada para:
- entender relações entre variáveis
- identificar padrões nos dados
- auxiliar na seleção de variáveis para modelos analíticos


### Índices de Correlação
- **Coeficiente de Pearson**: mede a relação linear entre duas variáveis contínuas. Assume distribuição aproximadamente normal e é sensível a outliers.
- **Coeficiente de Spearman**: mede a relação monotônica entre duas variáveis, baseada na ordem (rank) dos dados. É indicado quando não há relação linear clara, quando existem outliers ou quando os dados são ordinais.

De forma geral:
- Pearson é mais adequado para relações lineares entre variáveis contínuas.
- Spearman é mais robusto para relações não lineares, ordinais ou com presença de outliers.

In [None]:
# Correlação geral do DataFrame (visão exploratória)
df.corr(method="pearson")

In [None]:
# Correlação direta entre idade e altura (Pearson)
df["idade"].corr(df["altura_cm"], method="pearson")

In [None]:
df["idade"].corr(df["altura_cm"], method="spearman")

In [None]:
# Spearman (forma manual)
corr_spearman_manual = (
    df["idade"].rank()
      .corr(df["altura_cm"].rank(), method="pearson")
)

corr_spearman_manual


### Histograma

O histograma é utilizado para visualizar a **distribuição dos dados**.
Ele mostra com que frequência os valores aparecem em determinados intervalos (bins).

É útil para:
- identificar assimetria na distribuição
- observar concentração de valores
- detectar possíveis outliers

In [None]:
df["idade"].hist()

In [None]:
df["altura_cm"].hist()

### Box Plot

O box plot resume a distribuição dos dados usando:
- mínimo
- primeiro quartil (Q1)
- mediana
- terceiro quartil (Q3)
- máximo

Ele é muito útil para identificar **outliers** e comparar dispersão entre variáveis.


In [None]:
df["idade"].plot.box()

In [None]:
df["altura_cm"].plot.box()

### Gráfico de Dispersão (Scatter Plot)

O gráfico de dispersão é usado para analisar a **relação entre duas variáveis numéricas**.
Cada ponto representa uma observação do conjunto de dados.

É muito utilizado para:
- identificar correlação positiva ou negativa
- visualizar padrões ou tendências
- apoiar análises de correlação

In [None]:
df.plot.scatter(x="idade", y="altura_cm")