# Country Clustering — EDA, K-Means, Hierárquico e K-Medóides

**Objetivo:** cumprir as Partes 1–4 do trabalho usando o dataset do Kaggle *Unsupervised Learning on Country Data*.  
Coloque o arquivo `data/Country-data.csv` antes de executar.

In [None]:
# ===== Parte 1 — Infraestrutura: checagens do ambiente =====
import sys, platform, numpy, pandas, sklearn, scipy, matplotlib, seaborn
print("Platform:", platform.platform())
print("Python:", sys.version)
print("numpy:", numpy.__version__)
print("pandas:", pandas.__version__)
print("scikit-learn:", sklearn.__version__)
print("scipy:", scipy.__version__)
print("matplotlib:", matplotlib.__version__)
print("seaborn:", seaborn.__version__)

## Parte 2 — Carregamento e EDA

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

DATA_PATH = Path("../data/Country-data.csv").resolve()
df = pd.read_csv(DATA_PATH)
df.head()

In [None]:
# Informações gerais
display(df.info())
display(df.describe(include='all').T)

# Quantidade de países
num_countries = df['country'].nunique() if 'country' in df.columns else df.shape[0]
print("Quantidade de países no dataset:", num_countries)

In [None]:
# Verificar valores ausentes
df_nulls = df.isna().sum().sort_values(ascending=False)
df_nulls

### Faixa dinâmica (range) das variáveis numéricas

In [None]:
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
ranges = pd.DataFrame({
    'min': df[numeric_cols].min(),
    'max': df[numeric_cols].max(),
    'range': df[numeric_cols].max() - df[numeric_cols].min(),
    'std': df[numeric_cols].std()
}).sort_values('range', ascending=False)
ranges

In [None]:
# Visualizações rápidas de distribuição
_ = df[numeric_cols].hist(bins=15, figsize=(14, 10))
plt.tight_layout()
plt.show()

**Análise inicial:**  
- As variáveis possuem escalas/dinâmicas muito diferentes (ver a coluna `range`).  
- Antes de clusterizar, **padronize/normalize** as features (ex.: `StandardScaler`) para que cada variável contribua de forma equilibrada.
- Trate valores faltantes/outliers se necessário.

## Pré-processamento (Parte 2)
- Remover coluna de identificador (`country`) para modelagem, mantendo-a à parte.
- Preencher eventuais *NaNs* (se existirem) — aqui optamos por `median`.
- Padronizar com `StandardScaler`.

In [None]:
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

id_col = 'country' if 'country' in df.columns else None
X_raw = df.drop(columns=[id_col]) if id_col else df.copy()

imputer = SimpleImputer(strategy='median')
X_imputed = imputer.fit_transform(X_raw)

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_imputed)

countries = df[id_col].values if id_col else np.arange(df.shape[0])
X_scaled[:3], countries[:3]

## Parte 3 — Clusterização (K=3)
### 3.1 K-Means

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import numpy as np

k = 3
kmeans = KMeans(n_clusters=k, n_init=30, random_state=42)
labels_km = kmeans.fit_predict(X_scaled)
sil_km = silhouette_score(X_scaled, labels_km)
print("Silhouette (K-Means, k=3):", round(sil_km, 4))

In [None]:
# País representativo de cada cluster = país mais próximo ao centróide
from numpy.linalg import norm

centroids = kmeans.cluster_centers_
repr_countries = []
for i in range(k):
    idxs = np.where(labels_km == i)[0]
    dists = [norm(X_scaled[j] - centroids[i]) for j in idxs]
    j_min = idxs[int(np.argmin(dists))]
    repr_countries.append((i, countries[j_min], float(np.min(dists)), len(idxs)))

repr_countries

In [None]:
# Distribuição das dimensões em cada cluster (médias padronizadas)
import pandas as pd
cluster_profiles = (
    pd.DataFrame(X_scaled, columns=[c for c in X_raw.columns])
    .assign(cluster=labels_km)
    .groupby('cluster').mean()
)
cluster_sizes = pd.Series(labels_km).value_counts().sort_index()
display(cluster_sizes.rename("cluster_size"))
display(cluster_profiles.style.background_gradient(cmap="coolwarm"))

**Interpretação (K-Means):**  
- Use a tabela de **médias padronizadas** para entender quais variáveis estão acima/abaixo da média por cluster.
- O **país representativo** de cada cluster é mostrado pela lista `repr_countries`.

### 3.2 Clusterização Hierárquica

In [None]:
from scipy.cluster.hierarchy import linkage, dendrogram, fcluster
import matplotlib.pyplot as plt

Z = linkage(X_scaled, method='ward')
plt.figure(figsize=(12, 5))
dendrogram(Z, labels=countries, leaf_rotation=90, leaf_font_size=8, color_threshold=None)
plt.title("Dendrograma (Ward)")
plt.tight_layout()
plt.show()

# Cortar em k=3 clusters para comparar
labels_hc = fcluster(Z, t=3, criterion='maxclust') - 1  # rótulos 0..2

In [None]:
# Comparação simples entre K-Means e Hierárquico
import pandas as pd
comp = pd.DataFrame({
    'country': countries,
    'kmeans': labels_km,
    'hierarchical': labels_hc
})
comp.head(10)

**Comparação — semelhanças & diferenças:**  
- Analise a (des)concordância de rótulos por país.  
- Em geral, Ward + padronização tende a se alinhar ao K-Means quando os grupos são esféricos/compactos.  
- Divergências podem indicar formatos de cluster não-esféricos ou sensibilidade à inicialização do K-Means.

## Parte 4 — Algoritmos

### 4.1 Passos do K-Means (até convergência)
1. **Inicialização:** escolher `k` centróides iniciais (aleatórios ou k-means++).  
2. **Atribuição:** atribuir cada ponto ao centróide mais próximo.  
3. **Atualização:** recalcular cada centróide como a média dos pontos do seu cluster.  
4. **Convergência:** repetir 2–3 até que os centróides mudem abaixo de um limite mínimo ou atinja `max_iter`.

### 4.2 Versão com **Medóide** (baricentro substituído pelo ponto real mais próximo)
- Em cada iteração, após formar os clusters, o **representante** de cada cluster passa a ser o **medóide** (amostra real mais próxima ao *centro* do cluster).  
- Isso reduz sensibilidade a *outliers* (em relação ao centróide média), aproximando-se do **K-Medóides**.

In [None]:
# Exemplo didático: rodar K-Medóides (PAM) usando a implementação do diretório src
import sys, os
sys.path.append(os.path.abspath("../src"))
from kmedoids import KMedoids

kmed = KMedoids(n_clusters=3, max_iter=100, metric='euclidean', random_state=42).fit(X_scaled)
labels_kmed = kmed.labels_
medoid_indices = kmed.medoid_indices_
kmed.inertia_, medoid_indices, countries[medoid_indices]

### 4.3 Por que o K-Means é sensível a *outliers*?
- O centróide é a **média** dos pontos do cluster, e a média é **puxada** por valores extremos.  
- Um único *outlier* pode deslocar fortemente o centróide e alterar a fronteira de decisão dos clusters.

### 4.4 Por que o **DBSCAN** é mais robusto a *outliers*?
- DBSCAN baseia-se em **densidade**: pontos em regiões esparsas (baixa densidade) são **rotulados como ruído** e **não forçam** a criação/posição de clusters.  
- Não precisa do número de clusters a priori e consegue encontrar **formas arbitrárias** de clusters, ignorando *outliers* como ruído.