In [None]:
# A2 - Aprenentatge No Supervisat
# GEI (2024-25) - Pràctica 2

# Aquest notebook conté l'aplicació de sis tècniques d'aprenentatge no supervisat
# sobre dos conjunts de dades: un sintètic i un de real. L'objectiu és visualitzar i
# comparar les estructures subjacents dels patrons sense utilitzar la classe durant
# l'entrenament, tot i que es fa servir per a la visualització dels resultats.

# ==========================
# 1. Importació de llibreries
# ==========================
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from sklearn.cluster import KMeans
from sklearn.metrics import adjusted_rand_score
from scipy.cluster.hierarchy import dendrogram, linkage
from minisom import MiniSom
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.optimizers import Adam

sns.set(style="whitegrid")

# ======================
# 2. Lectura de les dades
# ======================
# Llegim els dos conjunts de dades i mostrem les primeres files
synthetic = pd.read_csv("A2-synthetic.txt")
real = pd.read_csv("A2-real.txt", sep=';')

print("\nDades sintètiques:")
print(synthetic.head())
print("\nDades reals:")
print(real.head())

# ==============================
# 3. Pre-processament de les dades
# ==============================
# Objectiu: normalitzar les característiques i separar variables auxiliars (classe, localització)

# --- Synthetic ---
X_syn = synthetic.drop(columns=['class'])
y_syn = synthetic['class']
scaler_syn = StandardScaler()
X_syn_scaled = scaler_syn.fit_transform(X_syn)

# --- Real ---
X_real = real.drop(columns=['Class', 'Location'])
y_real = real['Class']
loc_real = real['Location']
scaler_real = StandardScaler()
X_real_scaled = scaler_real.fit_transform(X_real)

# ==================
# 4. PCA
# ==================
# Objectiu: Reduir la dimensionalitat de les dades i observar si els patrons es separen segons la classe.
# També es genera un scree plot per veure la variància acumulada.

def aplicar_pca(X, y, titol):
    pca = PCA(n_components=2)
    X_pca = pca.fit_transform(X)

    plt.figure(figsize=(8,6))
    sns.scatterplot(x=X_pca[:,0], y=X_pca[:,1], hue=y, palette="Set1", legend='full')
    plt.title(f"Projecció PCA - {titol}")
    plt.xlabel("PC1")
    plt.ylabel("PC2")
    plt.legend()
    plt.show()

    plt.figure(figsize=(6,4))
    plt.plot(np.cumsum(pca.explained_variance_ratio_), marker='o')
    plt.title(f"Scree Plot - {titol}")
    plt.xlabel("Nombre de components")
    plt.ylabel("Variància acumulada")
    plt.grid(True)
    plt.show()

    return X_pca

pca_syn = aplicar_pca(X_syn_scaled, y_syn, "Synthetic")
pca_real = aplicar_pca(X_real_scaled, y_real, "Real")

# ==================
# 5. t-SNE
# ==================
# Objectiu: Explorar la separació no lineal entre patrons mitjançant t-SNE amb diferents valors de perplexitat.

def aplicar_tsne(X, y, titol, perplexity=30):
    tsne = TSNE(n_components=2, perplexity=perplexity, random_state=42)
    X_tsne = tsne.fit_transform(X)
    plt.figure(figsize=(8,6))
    sns.scatterplot(x=X_tsne[:,0], y=X_tsne[:,1], hue=y, palette="Set1")
    plt.title(f"t-SNE - {titol} (perplexity={perplexity})")
    plt.show()

aplicar_tsne(X_syn_scaled, y_syn, "Synthetic", perplexity=20)
aplicar_tsne(X_real_scaled, y_real, "Real", perplexity=30)

# ==================
# 6. K-Means
# ==================
# Objectiu: Aplicar clustering per k-means provant diversos valors de k i visualitzar la separació resultant.

for k in range(2, 6):
    kmeans = KMeans(n_clusters=k, random_state=42)
    labels = kmeans.fit_predict(X_real_scaled)
    plt.figure(figsize=(8,6))
    sns.scatterplot(x=pca_real[:,0], y=pca_real[:,1], hue=labels, palette="tab10")
    plt.title(f"K-Means (k={k}) sobre dades real amb PCA")
    plt.xlabel("PC1")
    plt.ylabel("PC2")
    plt.show()

# ==================
# 7. AHC (Clustering Jeràrquic)
# ==================
# Objectiu: Construir dendrograma amb mètodes UPGMA i Complete linkage per visualitzar relacions entre patrons.

def aplicar_ahc(X, y, titol, method):
    linkage_matrix = linkage(X, method=method)
    plt.figure(figsize=(10, 6))
    dendrogram(linkage_matrix, labels=y.to_numpy(), leaf_rotation=90)
    plt.title(f"Dendrograma ({method}) - {titol}")
    plt.show()

aplicar_ahc(X_real_scaled, y_real, "Real", method="average")
aplicar_ahc(X_real_scaled, y_real, "Real", method="complete")

# ==================
# 8. Autoencoder
# ==================
# Objectiu: Reduir les dades a 2D usant una xarxa neuronal autoencoder per explorar estructura interna.

def entrenar_autoencoder(X, y, titol):
    input_dim = X.shape[1]
    input_layer = Input(shape=(input_dim,))
    encoded = Dense(8, activation='relu')(input_layer)
    bottleneck = Dense(2, activation='linear')(encoded)
    decoded = Dense(8, activation='relu')(bottleneck)
    output_layer = Dense(input_dim, activation='linear')(decoded)

    autoencoder = Model(inputs=input_layer, outputs=output_layer)
    encoder = Model(inputs=input_layer, outputs=bottleneck)
    autoencoder.compile(optimizer=Adam(learning_rate=0.01), loss='mse')
    autoencoder.fit(X, X, epochs=100, batch_size=16, verbose=0)

    X_encoded = encoder.predict(X)
    plt.figure(figsize=(8,6))
    sns.scatterplot(x=X_encoded[:,0], y=X_encoded[:,1], hue=y, palette="Set1")
    plt.title(f"Autoencoder - {titol}")
    plt.show()

entrenar_autoencoder(X_syn_scaled, y_syn, "Synthetic")
entrenar_autoencoder(X_real_scaled, y_real, "Real")

# ==================
# 9. SOM
# ==================
# Objectiu: Visualitzar els patrons usant Self-Organizing Maps amb una topologia definida i >=100 neurones.

som = MiniSom(x=10, y=10, input_len=X_real_scaled.shape[1], sigma=1.0, learning_rate=0.5)
som.random_weights_init(X_real_scaled)
som.train_random(X_real_scaled, 1000)

# Visualitzem la U-Matrix
plt.figure(figsize=(8, 8))
plt.pcolor(som.distance_map().T, cmap='bone_r')
plt.colorbar()
plt.title("SOM - U-Matrix")
plt.show()
