# Ejemplos de Algoritmos de Machine Learning No Supervisado

Este notebook contiene ejemplos breves y didácticos de entrenamiento y evaluación para varios algoritmos no supervisados de `scikit-learn`. Los datos utilizados provienen del archivo `penguins_subset.csv`.


## 1. Importar Librerías y Cargar Datos

In [None]:
# ! pip install umap-learn mlxtend

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans, DBSCAN, AgglomerativeClustering
from sklearn.mixture import GaussianMixture
from sklearn.decomposition import PCA, NMF
from sklearn.manifold import TSNE
from sklearn.metrics import silhouette_score
from mlxtend.frequent_patterns import apriori, association_rules
import umap

# Cargar datos
df = pd.read_csv("../data/penguins/penguins.csv")



In [None]:
df.dropna(inplace=True)
df.isna().sum()

In [None]:
# Seleccionar características numéricas y eliminar valores nulos
X = df[['Flipper Length (mm)', 'Body Mass (g)']].dropna()

# Escalar datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

## 2. K-Means

- Agrupa datos en k clústeres basados en la distancia euclidiana.

In [None]:
# Entrenar K-Means
kmeans = KMeans(n_clusters=3, random_state=42)
df['Cluster_KMeans'] = kmeans.fit_predict(X_scaled)

# Evaluación: Inercia y Silhouette Score
print(f"Inercia: {kmeans.inertia_}")
print(f"Silhouette Score: {silhouette_score(X_scaled, df['Cluster_KMeans'])}")

# Visualización
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=df['Cluster_KMeans'], cmap='viridis')
plt.title("K-Means Clustering")
plt.show()

## 3. DBSCAN
- Clustering basado en densidad que identifica regiones densas de puntos.

In [None]:
# Entrenar DBSCAN
dbscan = DBSCAN(eps=0.5, min_samples=5)
df['Cluster_DBSCAN'] = dbscan.fit_predict(X_scaled)

# Evaluación: Contar puntos en cada clúster
print(df['Cluster_DBSCAN'].value_counts())

# Visualización
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=df['Cluster_DBSCAN'], cmap='viridis')
plt.title("DBSCAN Clustering")
plt.show()

## 4. Hierarchical Clustering
- Agrupa datos en una jerarquía de clústeres mediante un enfoque aglomerativo.

In [None]:
# Entrenar clustering jerárquico
agg_clustering = AgglomerativeClustering(n_clusters=3)
df['Cluster_Agg'] = agg_clustering.fit_predict(X_scaled)

# Evaluación: Silhouette Score
print(f"Silhouette Score: {silhouette_score(X_scaled, df['Cluster_Agg'])}")

# Visualización
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=df['Cluster_Agg'], cmap='viridis')
plt.title("Hierarchical Clustering")
plt.show()

## 5. Gaussian Mixture Model (GMM)
- Modelo probabilístico que asume que los datos son generados por una mezcla de distribuciones gaussianas.

In [None]:
# Entrenar GMM
gmm = GaussianMixture(n_components=3, random_state=42)
df['Cluster_GMM'] = gmm.fit_predict(X_scaled)

# Evaluación: Log-verosimilitud
print(f"Log-verosimilitud: {gmm.score(X_scaled)}")

# Visualización
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=df['Cluster_GMM'], cmap='viridis')
plt.title("Gaussian Mixture Model")
plt.show()

## 6. Apriori (Association)
- Algoritmo de asociación que identifica conjuntos de elementos frecuentes en transacciones.

In [None]:
# Crear datos de ejemplo (compras de productos)
data = {'Producto': ['Manzana', 'Banana', 'Leche', 'Pan', 'Manzana', 'Banana', 'Leche'],
        'Transacción': [1, 1, 1, 2, 2, 3, 3]}
basket = pd.DataFrame(data).pivot_table(index='Transacción', columns='Producto', aggfunc=len, fill_value=0)

# Entrenar Apriori
frequent_itemsets = apriori(basket, min_support=0.5, use_colnames=True)
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1.0)

# Mostrar reglas de asociación
print(rules[['antecedents', 'consequents', 'support', 'confidence']])

## 7. Principal Component Analysis (PCA)
- Técnica de reducción de dimensionalidad que transforma los datos en componentes principales ortogonales.

In [None]:
# Entrenar PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# Evaluación: Varianza explicada
print(f"Varianza explicada: {pca.explained_variance_ratio_}")

# Visualización
plt.scatter(X_pca[:, 0], X_pca[:, 1])
plt.title("PCA")
plt.show()

## 8. t-SNE
- Técnica de reducción de dimensionalidad no lineal para visualización de datos complejos.

In [None]:
# Entrenar t-SNE
tsne = TSNE(n_components=2, random_state=42)
X_tsne = tsne.fit_transform(X_scaled)

# Visualización
plt.scatter(X_tsne[:, 0], X_tsne[:, 1])
plt.title("t-SNE")
plt.show()

## 9. UMAP
- Técnica de reducción de dimensionalidad similar a t-SNE pero más rápida y escalable.

In [None]:
# Entrenar UMAP
umap_model = umap.UMAP(n_components=2, random_state=42)
X_umap = umap_model.fit_transform(X_scaled)

# Visualización
plt.scatter(X_umap[:, 0], X_umap[:, 1])
plt.title("UMAP")
plt.show()

## 10. Non-Negative Matrix Factorization (NMF)
- Descompone una matriz en factores no negativos para extraer patrones interpretables.

In [None]:
# Los valores deben estar entre 0-1
X_scaled = np.abs(X_scaled)

# Entrenar NMF
nmf = NMF(n_components=2, random_state=42)
W = nmf.fit_transform(X_scaled)

# Evaluación: Reconstrucción de los datos
H = nmf.components_
print(f"Error de reconstrucción: {((X_scaled - W @ H) ** 2).mean()}")

# Visualización
plt.scatter(W[:, 0], W[:, 1])
plt.title("NMF")
plt.show()