# 🌺 Aprendizaje Supervisado vs No Supervisado - Dataset Iris

## 🎯 Objetivos del Ejercicio:
- Experimentar la diferencia entre aprendizaje supervisado (clasificación) y no supervisado (agrupamiento)
- Aplicar Regresión Logística y SVM para clasificación supervisada
- Utilizar K-Means para clustering no supervisado
- Comparar y visualizar los resultados de ambos enfoques

---

## 📦 Parte 1: Importar Librerías y Cargar Datos

In [None]:
# Importar librerías necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.cluster import KMeans
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
import warnings
warnings.filterwarnings('ignore')

# Configurar estilo de gráficos
plt.style.use('default')
sns.set_palette("husl")

print("📚 Ejercicio: Aprendizaje Supervisado vs No Supervisado")
print("🌺 Dataset: Iris")
print("=" * 60)

In [None]:
# Cargar el dataset Iris
iris = datasets.load_iris()
X = iris.data  # Características (sepal length, sepal width, petal length, petal width)
y = iris.target  # Etiquetas (especies: setosa, versicolor, virginica)

# Crear DataFrame para mejor visualización
feature_names = iris.feature_names
target_names = iris.target_names

df = pd.DataFrame(X, columns=feature_names)
df['species'] = y
df['species_name'] = df['species'].map({0: 'setosa', 1: 'versicolor', 2: 'virginica'})

print("📊 Información del Dataset:")
print(f"• Número de muestras: {X.shape[0]}")
print(f"• Número de características: {X.shape[1]}")
print(f"• Clases: {list(target_names)}")
print(f"• Características: {list(feature_names)}")

print("\n📋 Primeras 5 filas del dataset:")
df.head()

In [None]:
# Estadísticas descriptivas
print("📈 Estadísticas descriptivas:")
df.describe()

## 🔍 Análisis Exploratorio de Datos

In [None]:
# Crear subplots para visualización exploratoria
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('Análisis Exploratorio del Dataset Iris', fontsize=16, fontweight='bold')

# 1. Distribución de especies
species_counts = df['species_name'].value_counts()
axes[0,0].pie(species_counts.values, labels=species_counts.index, autopct='%1.1f%%', startangle=90)
axes[0,0].set_title('Distribución de Especies')

# 2. Sepal Length vs Width
axes[0,1].scatter(df['sepal length (cm)'], df['sepal width (cm)'], c=df['species'], cmap='viridis', alpha=0.7)
axes[0,1].set_xlabel('Sepal Length (cm)')
axes[0,1].set_ylabel('Sepal Width (cm)')
axes[0,1].set_title('Sepal Length vs Width')

# 3. Petal Length vs Width
axes[1,0].scatter(df['petal length (cm)'], df['petal width (cm)'], c=df['species'], cmap='viridis', alpha=0.7)
axes[1,0].set_xlabel('Petal Length (cm)')
axes[1,0].set_ylabel('Petal Width (cm)')
axes[1,0].set_title('Petal Length vs Width')

# 4. Boxplot de petal length por especie
df.boxplot(column='petal length (cm)', by='species_name', ax=axes[1,1])
axes[1,1].set_title('Petal Length por Especie')
axes[1,1].set_xlabel('Especie')

plt.tight_layout()
plt.show()

In [None]:
# Matriz de correlación
plt.figure(figsize=(10, 8))
correlation_matrix = df[feature_names].corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, square=True)
plt.title('Matriz de Correlación de Características')
plt.show()

## 🎯 Parte 2: Aprendizaje Supervisado

En esta sección aplicaremos dos algoritmos de clasificación supervisada:
1. **Regresión Logística**: Modelo lineal para clasificación
2. **Support Vector Machine (SVM)**: Modelo no lineal con kernel RBF

In [None]:
# Dividir datos en entrenamiento y prueba y estandarizacion de escala
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

print(f"📊 División de datos:")
print(f"• Datos de entrenamiento: {X_train.shape[0]} muestras")
print(f"• Datos de prueba: {X_test.shape[0]} muestras")

# Estandarizar las características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("\n✅ Datos estandarizados para mejor rendimiento de los algoritmos")

### 🔸 Modelo 1: Regresión Logística

In [None]:
# Entrenar modelo de Regresión Logística
log_reg = LogisticRegression(random_state=42, max_iter=200)
log_reg.fit(X_train_scaled, y_train)

# Predicciones
y_pred_log = log_reg.predict(X_test_scaled)

# Evaluar modelo
accuracy_log = accuracy_score(y_test, y_pred_log)
print(f"📈 Precisión Regresión Logística: {accuracy_log:.4f} ({accuracy_log*100:.2f}%)")

print("\n📋 Reporte de Clasificación - Regresión Logística:")
print(classification_report(y_test, y_pred_log, target_names=target_names))

### 🔸 Modelo 2: Support Vector Machine (SVM)

In [None]:
# Entrenar modelo SVM
svm_model = SVC(kernel='rbf', random_state=42)
svm_model.fit(X_train_scaled, y_train)

# Predicciones
y_pred_svm = svm_model.predict(X_test_scaled)

# Evaluar modelo
accuracy_svm = accuracy_score(y_test, y_pred_svm)
print(f"📈 Precisión SVM: {accuracy_svm:.4f} ({accuracy_svm*100:.2f}%)")

print("\n📋 Reporte de Clasificación - SVM:")
print(classification_report(y_test, y_pred_svm, target_names=target_names))

In [None]:
# Visualizar matrices de confusión
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Matriz de confusión - Regresión Logística
cm_log = confusion_matrix(y_test, y_pred_log)
sns.heatmap(cm_log, annot=True, fmt='d', cmap='Blues',
            xticklabels=target_names, yticklabels=target_names, ax=axes[0])
axes[0].set_title(f'Matriz de Confusión - Regresión Logística\nPrecisión: {accuracy_log:.4f}')
axes[0].set_ylabel('Etiqueta Real')
axes[0].set_xlabel('Predicción')

# Matriz de confusión - SVM
cm_svm = confusion_matrix(y_test, y_pred_svm)
sns.heatmap(cm_svm, annot=True, fmt='d', cmap='Greens',
            xticklabels=target_names, yticklabels=target_names, ax=axes[1])
axes[1].set_title(f'Matriz de Confusión - SVM\nPrecisión: {accuracy_svm:.4f}')
axes[1].set_ylabel('Etiqueta Real')
axes[1].set_xlabel('Predicción')

plt.tight_layout()
plt.show()

## 🎲 Parte 3: Aprendizaje No Supervisado - K-Means

Ahora aplicaremos clustering K-Means **sin usar las etiquetas de especies**. El algoritmo intentará encontrar 3 grupos naturales en los datos.

In [None]:
# Aplicar K-Means con k=3 (sabemos que hay 3 especies, pero el algoritmo no)
kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
clusters_pred = kmeans.fit_predict(X)

print(f"🎯 Clusters encontrados: {len(set(clusters_pred))}")
print(f"📍 Centroides de los clusters:")
for i, centroid in enumerate(kmeans.cluster_centers_):
    print(f"   Cluster {i}: [{centroid[0]:.2f}, {centroid[1]:.2f}, {centroid[2]:.2f}, {centroid[3]:.2f}]")

# Añadir clusters al DataFrame
df['cluster'] = clusters_pred

print("\n📊 Distribución de clusters:")
cluster_counts = pd.Series(clusters_pred).value_counts().sort_index()
for cluster, count in cluster_counts.items():
    print(f"   Cluster {cluster}: {count} muestras")

In [None]:
# Evaluación del clustering
# Crear tabla de contingencia para comparar clusters vs especies reales
contingency_table = pd.crosstab(df['species_name'], df['cluster'], margins=True)
print("📋 Tabla de Contingencia (Especies Reales vs Clusters):")
print(contingency_table)

# Calcular "pureza" de los clusters Un valor alto significa que los clusters se alinean bastante bien con las especies reales.
# Un valor bajo significa que los clusters mezclan varias especies.
def calculate_purity(contingency_table):
    # Excluir la fila y columna de totales
    ct_without_totals = contingency_table.iloc[:-1, :-1]
    cluster_max_counts = ct_without_totals.max(axis=0)  # Máximo por cluster
    total_samples = ct_without_totals.sum().sum()
    purity = cluster_max_counts.sum() / total_samples
    return purity

purity = calculate_purity(contingency_table)
print(f"\n📈 Pureza del clustering: {purity:.4f} ({purity*100:.2f}%)")

## 📊 Parte 4: Visualización y Comparación de Resultados

Usaremos PCA para reducir la dimensionalidad y visualizar los resultados en 2D.

In [None]:
# Reducir dimensionalidad con PCA para visualización
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print(f"📉 PCA - Varianza explicada total: {pca.explained_variance_ratio_.sum():.4f}")
print(f"   • Componente 1: {pca.explained_variance_ratio_[0]:.4f}")
print(f"   • Componente 2: {pca.explained_variance_ratio_[1]:.4f}")

In [None]:
# Crear visualización comparativa
fig, axes = plt.subplots(1, 3, figsize=(20, 6))

# 1. Especies reales
scatter1 = axes[0].scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='viridis', alpha=0.7, s=50)
axes[0].set_title('Especies Reales\n(Datos con Etiquetas)', fontsize=14, fontweight='bold')
axes[0].set_xlabel(f'PC1 ({pca.explained_variance_ratio_[0]:.2%} varianza)')
axes[0].set_ylabel(f'PC2 ({pca.explained_variance_ratio_[1]:.2%} varianza)')
axes[0].grid(True, alpha=0.3)

# Añadir leyenda para especies
species_colors = plt.cm.viridis(np.linspace(0, 1, 3))
for i, (species, color) in enumerate(zip(target_names, species_colors)):
    axes[0].scatter([], [], c=[color], label=species, s=50)
axes[0].legend(title='Especies')

# 2. Clusters K-Means
scatter2 = axes[1].scatter(X_pca[:, 0], X_pca[:, 1], c=clusters_pred, cmap='plasma', alpha=0.7, s=50)
axes[1].set_title('Clusters K-Means\n(Aprendizaje No Supervisado)', fontsize=14, fontweight='bold')
axes[1].set_xlabel(f'PC1 ({pca.explained_variance_ratio_[0]:.2%} varianza)')
axes[1].set_ylabel(f'PC2 ({pca.explained_variance_ratio_[1]:.2%} varianza)')
axes[1].grid(True, alpha=0.3)

# Marcar centroides
centroids_pca = pca.transform(kmeans.cluster_centers_)
axes[1].scatter(centroids_pca[:, 0], centroids_pca[:, 1],
               marker='x', s=200, linewidths=3, color='red', label='Centroides')
axes[1].legend()

# 3. Comparación (coincidencias vs diferencias)
combined_colors = np.array(['red' if y[i] != clusters_pred[i] else 'green'
                           for i in range(len(y))])
scatter3 = axes[2].scatter(X_pca[:, 0], X_pca[:, 1], c=combined_colors, alpha=0.7, s=50)
axes[2].set_title('Comparación\n(Verde: Coinciden, Rojo: Difieren)', fontsize=14, fontweight='bold')
axes[2].set_xlabel(f'PC1 ({pca.explained_variance_ratio_[0]:.2%} varianza)')
axes[2].set_ylabel(f'PC2 ({pca.explained_variance_ratio_[1]:.2%} varianza)')
axes[2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 📋 Resumen y Conclusiones

In [None]:
print("=" * 60)
print("📋 RESUMEN DE RESULTADOS")
print("=" * 60)

print("🎯 APRENDIZAJE SUPERVISADO:")
print(f"   • Regresión Logística: {accuracy_log:.4f} ({accuracy_log*100:.2f}% precisión)")
print(f"   • SVM: {accuracy_svm:.4f} ({accuracy_svm*100:.2f}% precisión)")

print(f"\n🎲 APRENDIZAJE NO SUPERVISADO:")
print(f"   • K-Means: {purity:.4f} ({purity*100:.2f}% pureza)")

print(f"\n🔍 ANÁLISIS COMPARATIVO:")

# Contar coincidencias exactas entre especies reales y clusters
matches = sum(1 for i in range(len(y)) if y[i] == clusters_pred[i])
match_percentage = matches / len(y)

print(f"   • Coincidencias directas: {matches}/{len(y)} ({match_percentage*100:.2f}%)")

# Análisis por especie
print(f"\n📊 ANÁLISIS DETALLADO POR ESPECIE/CLUSTER:")
for species_idx, species_name in enumerate(target_names):
    species_mask = y == species_idx
    dominant_cluster = pd.Series(clusters_pred[species_mask]).mode()[0]
    cluster_purity = (clusters_pred[species_mask] == dominant_cluster).mean()
    print(f"   • {species_name}: principalmente en cluster {dominant_cluster} ({cluster_purity*100:.1f}% pureza)")

print(f"\n💡 CONCLUSIONES:")
print(f"   1. El aprendizaje SUPERVISADO logra {max(accuracy_log, accuracy_svm)*100:.1f}% de precisión")
print(f"   2. El aprendizaje NO SUPERVISADO logra {purity*100:.1f}% de pureza")
print(f"   3. K-Means identifica patrones naturales en los datos sin usar etiquetas")
print(f"   4. Los clusters coinciden parcialmente con las especies reales")
print(f"   5. Ambos enfoques son útiles según el contexto del problema")

print("\n🎉 ¡Ejercicio completado! 🎉")
print("=" * 60)

---

## 📝 Notas Finales

1. **Aprendizaje Supervisado**:
   - Utiliza etiquetas conocidas para entrenar el modelo
   - Logra alta precisión cuando hay datos etiquetados disponibles
   - Regresión Logística y SVM mostraron excelente rendimiento

2. **Aprendizaje No Supervisado**:
   - No requiere etiquetas, encuentra patrones ocultos
   - K-Means identificó grupos que corresponden parcialmente a las especies reales
   - Útil para explorar datos cuando no conocemos las categorías

3. **Comparación**:
   - El supervisado es más preciso cuando tenemos etiquetas
   - El no supervisado es valioso para descubrir estructuras desconocidas
   - Ambos enfoques son complementarios según el problema

---