<a href="https://colab.research.google.com/github/flavio-mota/si-rna-ag-2025/blob/main/SOM/SOM_exercicios_praticos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# üß† Explorando o SOM com Diferentes Conjuntos de Dados

Neste notebook, voc√™ vai praticar o uso dos **Mapas Auto-Organiz√°veis (SOM)** em diferentes conjuntos de dados.

O objetivo √© compreender como o SOM se adapta a diferentes distribui√ß√µes de dados e analisar:

- ‚úÖ A **preserva√ß√£o topol√≥gica** (formas e vizinhan√ßas)
- ‚úÖ A **separa√ß√£o entre clusters**
- ‚úÖ O efeito de **par√¢metros** como tamanho do mapa, `sigma` e `learning_rate`.

Voc√™ realizar√° **4 exerc√≠cios**, observando a estrutura dos dados antes e depois do aprendizado.


## üì¶ Instala√ß√£o e Importa√ß√£o de Bibliotecas

In [None]:

!pip install minisom matplotlib scikit-learn tqdm --quiet
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
from sklearn.datasets import load_iris, load_wine, make_moons, make_blobs
from minisom import MiniSom
from tqdm.notebook import tqdm


## ‚öôÔ∏è Fun√ß√µes Auxiliares
Essas fun√ß√µes ser√£o usadas em todos os exerc√≠cios para evitar repeti√ß√µes.

In [None]:

def preparar_dados(X):
    """Normaliza os dados entre 0 e 1."""
    scaler = MinMaxScaler()
    return scaler.fit_transform(X)

def treinar_som(X_scaled, map_size=(15,15), sigma=1.0, lr=0.5, iterations=2000):
    """Cria, inicializa e treina o SOM."""
    som = MiniSom(x=map_size[0], y=map_size[1], input_len=X_scaled.shape[1], sigma=sigma, learning_rate=lr)
    som.random_weights_init(X_scaled)
    som.train_random(X_scaled, iterations)
    return som

def plotar_u_matrix(som, X_scaled, y=None, titulo="U-Matrix"):
    """Exibe a U-Matrix e marca os pontos sobre o mapa, com legenda opcional."""
    plt.figure(figsize=(7,7))
    plt.pcolor(som.distance_map().T, cmap='bone_r')
    plt.colorbar(label='Dist√¢ncia m√©dia')

    if y is not None:
        markers = ['o','s','D','^','x','P']
        colors = ['C0','C1','C2','C3','C4','C5']
        classes = np.unique(y)
        legend_handles = []  # lista para armazenar marcadores de legenda

        for i, x in enumerate(X_scaled):
            w = som.winner(x)
            marker = markers[y[i] % len(markers)]
            color = colors[y[i] % len(colors)]
            plt.plot(w[0]+0.5, w[1]+0.5, marker,
                     markerfacecolor='None',
                     markeredgecolor=color,
                     markersize=10, markeredgewidth=2)

        # cria a legenda (somente se houver r√≥tulos)
        for c in classes:
            legend_handles.append(
                plt.Line2D([0], [0], marker=markers[c % len(markers)],
                           color='w', label=f"Classe {c}",
                           markerfacecolor='None',
                           markeredgecolor=colors[c % len(colors)],
                           markersize=10, markeredgewidth=2)
            )

        plt.legend(handles=legend_handles, title="Classes", loc='upper right',
                   bbox_to_anchor=(1.5, 1.0))

    plt.title(titulo)
    plt.show()


## üç∑ Exerc√≠cio 1 ‚Äì Dataset *Wine*

**Objetivo:** Observar como o SOM organiza dados cont√≠nuos e correlacionados (13 atributos).

**Instru√ß√µes:**
- Teste tamanhos de mapa `10√ó10`, `15√ó15` e `20√ó20`.
- Analise se a **U-Matrix** reflete as 3 classes de vinho.
- Use `sigma=1.5`, `learning_rate=0.4`.


In [None]:

data = load_wine()
X_scaled = preparar_dados(data.data)
y = data.target
tamanho_mapa = (15,15)

som = treinar_som(X_scaled, map_size=tamanho_mapa, sigma=1.5, lr=0.4, iterations=2000)
plotar_u_matrix(som, X_scaled, y, f"U-Matrix ‚Äì Wine Dataset {tamanho_mapa}")



## üåô Exerc√≠cio 2 ‚Äì Dataset *Moons* (estruturas n√£o lineares em 2D)

**Objetivo:** Visualizar a **preserva√ß√£o topol√≥gica** no formato curvo das duas ‚Äúluas‚Äù.

**Instru√ß√µes:**
- Gere os dados com `make_moons(n_samples=500, noise=0.05)`.
- Teste `sigma = 0.5`, `1.0` e `2.0`.
- Veja se o SOM mant√©m o formato das luas.
- Use `map_size=(20,20)`, `learning_rate=0.3`, `iterations=1500`.


In [None]:

X, y = make_moons(n_samples=500, noise=0.05, random_state=42)

plt.figure(figsize=(6,6))
plt.scatter(X[:,0], X[:,1], c=y, cmap='coolwarm', edgecolor='k')
plt.title("Distribui√ß√£o Original ‚Äì Moons Dataset")
plt.xlabel("Atributo 1")
plt.ylabel("Atributo 2")
plt.show()

X_scaled = preparar_dados(X)
som = treinar_som(X_scaled, map_size=(20,20), sigma=1.0, lr=0.3, iterations=1500)
plotar_u_matrix(som, X_scaled, y, "U-Matrix ‚Äì Moons Dataset (20x20)")



## üîµ Exerc√≠cio 3 ‚Äì Dataset *Blobs* (clusters bem separados em 2D)

**Objetivo:** Verificar a separa√ß√£o clara dos clusters no SOM.

**Instru√ß√µes:**
- Gere os dados com `make_blobs(n_samples=500, centers=4, cluster_std=0.5)`.
- Teste tamanhos de mapa `10√ó10`, `15√ó15`, `25√ó25`.
- Compare a clareza das fronteiras entre clusters.
- Use `sigma=1.0`, `learning_rate=0.5`.


In [None]:

X, y = make_blobs(n_samples=500, centers=4, cluster_std=0.5, random_state=42)

plt.figure(figsize=(6,6))
plt.scatter(X[:,0], X[:,1], c=y, cmap='tab10', edgecolor='k')
plt.title("Distribui√ß√£o Original ‚Äì Blobs Dataset")
plt.xlabel("Atributo 1")
plt.ylabel("Atributo 2")
plt.show()
tamanho_mapa = (15,15)
X_scaled = preparar_dados(X)
som = treinar_som(X_scaled, map_size=tamanho_mapa, sigma=1.0, lr=0.5, iterations=1000)
plotar_u_matrix(som, X_scaled, y, f"U-Matrix ‚Äì Blobs Dataset {tamanho_mapa}")



## üå∏ Exerc√≠cio 4 ‚Äì Dataset *Iris* (comparativo de par√¢metros)

**Objetivo:** Analisar o efeito de `sigma` e `learning_rate` na separa√ß√£o de classes.

**Instru√ß√µes:**
- Teste `sigma` em `[0.5, 1.5, 3.0]` e `learning_rate` em `[0.1, 0.3, 0.7]`.
- Observe se valores altos tornam o mapa mais suave ou borrado.
- Veja quais esp√©cies ficam mais separadas.


In [None]:

data = load_iris()
X_scaled = preparar_dados(data.data)
y = data.target

som = treinar_som(X_scaled, map_size=(12,12), sigma=1.5, lr=0.3, iterations=1500)
plotar_u_matrix(som, X_scaled, y, "U-Matrix ‚Äì Iris Dataset (Comparativo de Par√¢metros)")



## üß© Reflex√£o Final

- Em quais datasets o SOM preservou melhor a topologia original?  
- O aumento do tamanho do mapa sempre melhora o resultado?  
- Como `sigma` e `learning_rate` influenciaram a defini√ß√£o dos clusters?  
- Que tipo de dado real se beneficiaria dessa propriedade topol√≥gica?
