# Notebook: Clustering com K-Means, DBSCAN, Hier√°rquico e Detec√ß√£o de Anomalias

## Altere o c√≥digo abaixo para: realizar um loop para diferentes valores de K para a inst√¢ncia do algoritmo KMeans

In [None]:
### Se√ß√£o 1: Explorando o n√∫mero de clusters no K-Means

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import numpy as np

# Gerar dados com 4 clusters
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.6, random_state=0)

### üîç Atividade Investigativa:
# Execute o K-Means com m√∫ltiplos valores de k = 3, 4, 5 e 6.
# Para cada valor de k:
# - Visualize os resultados
# - Marque visualmente os centr√≥ides
# - Observe se h√° pontos mal agrupados ou clusters desbalanceados
# - Anote suas observa√ß√µes e hip√≥teses

k=1

kmeans = KMeans(n_clusters=k, random_state=0).fit(X)
plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_, cmap='viridis')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')
plt.title(f'K-Means com {k} clusters')
plt.show()

### Exerc√≠cio:
# Responda em grupo ou individualmente:
# - Qual valor de k gerou agrupamentos mais coerentes? Por qu√™?
# - Em qual caso voc√™ viu mais pontos mal alocados?
# - Como voc√™ escolheria um valor de k se n√£o soubesse os r√≥tulos verdadeiros?


### üåÄ In√©rcia (KMeans)
Defini√ß√£o:
A in√©rcia mede o qu√£o perto os pontos est√£o dos seus respectivos centroides no KMeans. √â a soma das dist√¢ncias quadradas entre os pontos e o centro do seu cluster.

Interpreta√ß√£o:

Quanto menor a in√©rcia, mais compactos s√£o os clusters.

N√£o √© uma m√©trica absoluta de "qualidade", mas ajuda a comparar modelos com diferentes n√∫meros de clusters (k).

Usamos ela no m√©todo do cotovelo para escolher o melhor valor de k.



### üß© √çndice de Silhueta (Silhouette Score)
Defini√ß√£o:
O √≠ndice de silhueta mede o qu√£o bem cada ponto est√° agrupado em compara√ß√£o com outros clusters.
 
Valores:

Varia de -1 a 1:

Pr√≥ximo de 1 ‚Üí ponto bem agrupado.

Pr√≥ximo de 0 ‚Üí ponto na fronteira entre clusters.

Pr√≥ximo de -1 ‚Üí ponto provavelmente no cluster errado.

Uso:

Avaliar a qualidade geral dos agrupamentos.

Comparar diferentes algoritmos ou valores de k mesmo com formas de cluster irregulares.

## Novamente aqui, selecione m√∫ltiplos valores de K (2 a 10)

In [None]:
### Se√ß√£o 2: Escolha do melhor K com In√©rcia e Silhouette

from sklearn.metrics import silhouette_score

inertias = []
silhouettes = []

k=2

# Avaliar v√°rios valores de K
model = KMeans(n_clusters=k, random_state=0).fit(X)
inertias.append(model.inertia_)
silhouettes.append(silhouette_score(X, model.labels_))

# Visualizar curvas
plt.plot(ks, inertias, marker='o')
plt.title('In√©rcia vs. K')
plt.xlabel('K')
plt.ylabel('In√©rcia')
plt.show()

plt.plot(ks, silhouettes, marker='o')
plt.title('Silhouette Score vs. K')
plt.xlabel('K')
plt.ylabel('Silhouette')
plt.show()

### Exerc√≠cio:
# - Identifique o melhor valor de K com base nos gr√°ficos.
# - Justifique sua escolha com base na varia√ß√£o da in√©rcia e do Silhouette Score.

### Tempo estimado: 10 minutos




### üñºÔ∏è Compress√£o de Imagem com K-Means
ü§î O que √©?
A compress√£o de imagem com K-Means √© uma t√©cnica que reduz o n√∫mero de cores distintas em uma imagem, mantendo a apar√™ncia visual parecida. Isso √© feito agrupando cores semelhantes e substituindo todas as cores de um grupo pela cor m√©dia (centr√≥ide).

‚öôÔ∏è Como funciona?
Cada pixel da imagem √© representado como um vetor RGB (ex: [255, 0, 0] para vermelho).

Aplicamos o K-Means nesses vetores de cores para encontrar k clusters de cores.

Cada pixel √© ent√£o substitu√≠do pela cor do centr√≥ide do cluster ao qual ele pertence.

Resultado: uma imagem visualmente semelhante, mas com menos cores ‚Üí menor tamanho em disco.

### üìâ Por que isso √© √∫til?
Compress√£o sem perder muito a qualidade visual: √∫til em web, dispositivos m√≥veis e jogos.

Redu√ß√£o de uso de mem√≥ria e largura de banda.

Ajuda em tarefas de pr√©-processamento de imagem, removendo ru√≠do de cor.

Aplic√°vel a estiliza√ß√£o de imagens e efeitos art√≠sticos (tipo p√¥ster com 5 cores).



In [None]:
### Se√ß√£o 3: Compress√£o de imagem com K-Means

from skimage import io

# Carregar imagem de exemplo
img = io.imread('pesQJS8.jpeg') / 255
img_data = img.reshape(-1, 3)

# Aplicar K-Means para quantiza√ß√£o de cores
kmeans_img = KMeans(n_clusters=3, random_state=0).fit(img_data)
new_colors = kmeans_img.cluster_centers_[kmeans_img.labels_]
compressed_img = new_colors.reshape(img.shape)

plt.imshow(compressed_img)
plt.title('Imagem com cores reduzidas (K=8)')
plt.axis('off')
plt.show()

### Exerc√≠cio:
# - Teste com 4, 8 e 16 cores.
# - Compare visualmente as compress√µes.
# - O que se perde? O que se mant√©m?



## DBSCAN

### 1. eps (epsilon)
O que √©: o raio de vizinhan√ßa em torno de cada ponto.

Como funciona: para cada ponto P, o algoritmo conta quantos outros pontos est√£o a uma dist√¢ncia ‚â§ eps de P.

Impacto pr√°tico:

eps muito pequeno ‚Üí poucos (ou nenhum) vizinhos dentro do raio ‚Üí muitos pontos ser√£o marcados como ru√≠do (outliers).

eps muito grande ‚Üí as regi√µes densas se fundem e pode acabar com apenas um cluster gigante.

Como escolher:

Calcule para cada ponto a dist√¢ncia at√© seu k-√©simo vizinho mais pr√≥ximo (k = min_samples).

Ordene essas dist√¢ncias em ordem decrescente e trace o k-distance plot.

Procure o ‚Äújoelho‚Äù (inflex√£o) do gr√°fico ‚Äî aquele valor de dist√¢ncia costuma ser um bom eps.

### 2. min_samples
O que √©: o n√∫mero m√≠nimo de pontos dentro do raio eps para que um ponto seja considerado um ponto de n√∫cleo (core point).

Como funciona:

Se um ponto P tiver pelo menos min_samples (incluindo ele mesmo) dentro de sua vizinhan√ßa eps, P √© n√∫cleo.

Pontos vizinhos de um n√∫cleo podem ser ‚Äúalcan√ßados‚Äù e fazem parte do mesmo cluster.

Pontos sem vizinhos suficientes e que n√£o fazem parte da vizinhan√ßa de nenhum n√∫cleo tornam-se ru√≠do.

Impacto pr√°tico:

min_samples baixo (ex: 2 ou 3) ‚Üí clusters sens√≠veis a pequenas aglomera√ß√µes; pode criar muitos clusters pequenos.

min_samples alto ‚Üí requer regi√µes bem densas para formar cluster; aumenta a chance de classificar pontos como ru√≠do.

Como escolher:

Regra pr√°tica: min_samples ‚âà D + 1, onde D √© o n√∫mero de dimens√µes dos seus dados.

Em geral, valores entre 4 e 10 costumam funcionar bem para dados em 2‚Äì3 dimens√µes.

Sempre valide visualmente (ou com m√©tricas) e teste alguns valores.

In [None]:
### Se√ß√£o 4: Clustering com DBSCAN (agrupamento por densidade)

from sklearn.datasets import make_moons
from sklearn.cluster import DBSCAN

# Gerar dados em forma de lua
X_moons, _ = make_moons(n_samples=300, noise=0.05, random_state=0)

# Aplicar DBSCAN
# eps: raio de vizinhan√ßa, min_samples: m√≠nimo de pontos por grupo denso
db = DBSCAN(eps=0.2, min_samples=5).fit(X_moons)

# Visualizar clusters encontrados
plt.scatter(X_moons[:, 0], X_moons[:, 1], c=db.labels_, cmap='rainbow')
plt.title('Clustering com DBSCAN')
plt.show()

### Exerc√≠cio:
# - Altere os par√¢metros eps e min_samples.
# - Observe como os clusters e outliers mudam.
# - Quais valores parecem razo√°veis? Como saber?



In [None]:
### Se√ß√£o 5: Clustering Hier√°rquico

from sklearn.datasets import make_blobs
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.cluster import AgglomerativeClustering

# Gerar dados
X_hier, _ = make_blobs(n_samples=200, centers=4, cluster_std=0.7, random_state=42)

# Dendrograma
linkage_matrix = linkage(X_hier, method='ward')
plt.figure(figsize=(10, 5))
dendrogram(linkage_matrix)
plt.title('Dendrograma')
plt.xlabel('Amostras')
plt.ylabel('Dist√¢ncia')
plt.show()

# Clustering aglomerativo
agg = AgglomerativeClustering(n_clusters=4).fit(X_hier)
plt.scatter(X_hier[:, 0], X_hier[:, 1], c=agg.labels_, cmap='tab10')
plt.title('Agrupamento Hier√°rquico')
plt.show()

### Exerc√≠cio:
# - O que o dendrograma mostra?
# - Como voc√™ decidiria o n√∫mero de clusters com base no dendrograma?
# - Compare o resultado com o K-Means


## üìå Detec√ß√£o de Anomalias
### üí° O que s√£o anomalias?
Anomalias (ou outliers) s√£o pontos que se comportam de forma significativamente diferente do padr√£o geral dos dados. Detect√°-los √© essencial em aplica√ß√µes como:

Fraudes financeiras

Falhas em sensores ou m√°quinas

Comportamentos incomuns de usu√°rios (cyberseguran√ßa, churn etc.)

Dados corrompidos

### üß† Como detectar anomalias com K-Means?
O K-Means assume que cada cluster tem uma forma esf√©rica em torno de seu centr√≥ide. Uma ideia simples de anomalia:

Calcule a dist√¢ncia de cada ponto ao centro do cluster a que pertence.

Defina um limite (threshold) com base em percentis, como os 5% mais distantes.

Os pontos al√©m desse limite s√£o considerados anomalias.

‚û°Ô∏è Intui√ß√£o: se um ponto est√° muito longe do seu centr√≥ide, ele √© "estranho" em rela√ß√£o ao grupo.

### üß† Como detectar anomalias com DBSCAN?
O DBSCAN (agrupamento por densidade) j√° faz isso naturalmente:

Ele rotula automaticamente como outliers os pontos que n√£o t√™m vizinhos suficientes dentro de uma certa dist√¢ncia (eps).

Esses pontos recebem o r√≥tulo -1 (ru√≠do).

‚û°Ô∏è Intui√ß√£o: se um ponto est√° isolado, n√£o faz parte de nenhuma regi√£o densa, ent√£o √© uma anomalia.

In [None]:
### Se√ß√£o 6: Detec√ß√£o de anomalias com K-Means

from sklearn.metrics import pairwise_distances_argmin_min

# Calcular dist√¢ncias para centros mais pr√≥ximos
closest, distances = pairwise_distances_argmin_min(X, kmeans.cluster_centers_)

# Definir limite como os 5% mais distantes
threshold = np.percentile(distances, 95)
anomalies = distances > threshold

# Visualizar anomalias
plt.scatter(X[:, 0], X[:, 1], c='lightgray')
plt.scatter(X[anomalies, 0], X[anomalies, 1], color='red')
plt.title('Anomalias detectadas (top 5% mais distantes dos centros)')
plt.show()

### Exerc√≠cio:
# - Mude o threshold (ex: 90%, 99%).
# - Compare a quantidade de anomalias.
# - Em quais situa√ß√µes isso seria √∫til no mundo real?

In [None]:
### Desafio final:
# - Escolha um dataset real do UCI (ex: Wine, Breast Cancer, Mall Customers)
# - Aplique K-Means, DBSCAN e Hier√°rquico
# - Compare os agrupamentos e visualize com PCA
# - Proponha uma estrat√©gia de detec√ß√£o de anomalias