
<h1 style="text-align: center;">CIÊNCIA DE DADOS</h1>
<h1 style="text-align: center;">Roteiro de Atividade Prática</h1>
<br>
<br>

Nome: ______________________________________________________________________________________      

Turma: ______________


**Componente:** Aprendizagem de Máquina
<br>
**Unidade Curricular:** Modelos, Algoritmos e Estimadores
<br>
**Tema da Semana:** Hierarchical Clustering
<br>


# Aula 1:  Introdução ao Hierarchical Clustering

## Tarefa
- Executem o código abaixo.

- Se as bibliotecas não tiverem instaladas, instale-as.

- Acompanhem as instruções.

- Observem a execução e discutam com seus colegas e professor sobre os clusters criados e a localização dos centróides.


# Como Ler um Dendrograma
## Etapa 1: Importação das Bibliotecas
### Primeiro, importamos as bibliotecas necessárias para a construção do dendrograma.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.cluster.hierarchy import dendrogram, linkage, fcluster
from sklearn.datasets import make_blobs
from sklearn.preprocessing import StandardScaler

print("Bibliotecas importadas com sucesso!")


## Etapa 2: Gerando Dados Simulados
### Aqui criamos um conjunto de dados com 50 pontos e 4 grupos distintos.


In [None]:


X, _ = make_blobs(n_samples=50, centers=4, cluster_std=1.5, random_state=42)
print("Conjunto de dados gerado com sucesso!")


## Etapa 3: Normalização dos Dados
### Para garantir que os dados estejam na mesma escala, aplicamos a normalização.


In [None]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print("Dados normalizados!")



## Etapa 4: Criando o Dendrograma
### O dendrograma é uma árvore hierárquica que nos permite visualizar a fusão de clusters.


In [None]:
Z = linkage(X_scaled, method='ward')

print("O dendrograma mostra a relação hierárquica entre os clusters.")
print("- O eixo X representa os pontos de dados (P1, P2, etc.).")
print("- O eixo Y representa a distância (ou dissimilaridade) entre os clusters.")
print("- Linhas horizontais indicam quando os clusters foram unidos.")
print("- Linhas verticais mostram o nível da hierarquia. Quanto maior a linha, mais distantes estavam os clusters antes de se unirem.")


##  Etapa 5: Plotando o Dendrograma

In [None]:
plt.figure(figsize=(12, 6))
plt.title("Dendrograma - Como Interpretar")
dendrogram(Z, labels=[f'P{i+1}' for i in range(len(X_scaled))])
plt.axhline(y=4.5, color='b', linestyle='--', label="Ponto de Corte Alto (y = 4.5)")
plt.axhline(y=1.8, color='r', linestyle='--', label="Ponto de Corte Médio (y = 1.8)")
plt.axhline(y=1.0, color='g', linestyle='--', label="Ponto de Corte Baixo (y = 1.0)")
plt.legend()
plt.xlabel("Pontos de Dados")
plt.ylabel("Distância (Dissimilaridade)")
plt.show()

print("Como definir o número de clusters?")
print("- Olhe para os pontos de corte: As linhas azul (y = 4.5), vermelha (y = 1.8) e verde (y = 1.0) indicam diferentes cortes.")
print("- Conte quantas linhas verticais cruzam cada uma dessas linhas para ver como o número de clusters muda.")
print("- Neste exemplo:")
print("  - y = 4.5 resulta em aproximadamente 3 clusters.")
print("  - y = 1.8 resulta em aproximadamente 4 clusters.")
print("  - y = 1.0 resulta em aproximadamente 8 clusters.")


## Etapa 6: Criando os Clusters
### Aqui usamos os critérios de corte definidos anteriormente para segmentar os dados em clusters.


In [None]:
y_cut_high = 4.5
y_cut_mid = 1.8
y_cut_low = 1.0

grupos_high = fcluster(Z, y_cut_high, criterion='distance')
grupos_mid = fcluster(Z, y_cut_mid, criterion='distance')
grupos_low = fcluster(Z, y_cut_low, criterion='distance')

print(f"Clusters formados com y = 4.5: {len(np.unique(grupos_high))}")
print(f"Clusters formados com y = 1.8: {len(np.unique(grupos_mid))}")
print(f"Clusters formados com y = 1.0: {len(np.unique(grupos_low))}")


## Etapa 7: Visualizando os Clusters
### Agora, plotamos os pontos em gráficos de dispersão coloridos por cluster.


In [None]:
fig, axes = plt.subplots(1, 3, figsize=(18, 6))

sns.scatterplot(x=X_scaled[:, 0], y=X_scaled[:, 1], hue=grupos_high, palette="deep", ax=axes[0])
axes[0].set_title("Clusters com y = 4.5")
axes[0].set_xlabel("Característica 1")
axes[0].set_ylabel("Característica 2")

sns.scatterplot(x=X_scaled[:, 0], y=X_scaled[:, 1], hue=grupos_mid, palette="deep", ax=axes[1])
axes[1].set_title("Clusters com y = 1.8")
axes[1].set_xlabel("Característica 1")
axes[1].set_ylabel("Característica 2")

sns.scatterplot(x=X_scaled[:, 0], y=X_scaled[:, 1], hue=grupos_low, palette="deep", ax=axes[2])
axes[2].set_title("Clusters com y = 1.0")
axes[2].set_xlabel("Característica 1")
axes[2].set_ylabel("Característica 2")

plt.show()

print("Explicação Visual:")
print("- Se cortarmos o dendrograma mais alto (ex: y = 4.5), teremos menos clusters .")
print("- Se cortarmos no meio (ex: y = 1.8), teremos um número moderado de clusters .")
print("- Se cortarmos mais baixo (ex: y = 1.0), teremos mais clusters .")
print("- A decisão final depende do objetivo da análise.")

