<a href="https://colab.research.google.com/github/andres-merino/AprendizajeAutomaticoInicial-05-N0105/blob/main/2-Notebooks/07-Normalizacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<table style="border: none; border-collapse: collapse;">
    <tr>
        <td style="width: 20%; vertical-align: middle; padding-right: 10px;">
            <img src="https://i.imgur.com/nt7hloA.png" width="100">
        </td>
        <td style="width: 2px; text-align: center;">
            <font color="#0030A1" size="7">|</font><br>
            <font color="#0030A1" size="7">|</font>
        </td>
        <td>
            <p style="font-variant: small-caps;"><font color="#0030A1" size="5">
                <b>Escuela de Ciencias Físicas y Matemática</b>
            </font> </p>
            <p style="font-variant: small-caps;"><font color="#0030A1" size="4">
                Aprendizaje Automático Inicial &bull; Algoritmo k-Nearest Neighbors
            </font></p>
            <p style="font-style: oblique;"><font color="#0030A1" size="3">
                Andrés Merino &bull; 2024-02
            </font></p>
        </td>  
    </tr>
</table>

---
## <font color='264CC7'> Introducción </font>

Este notebook es una guía introductoria sobre la importancia de la normalización y escalado de datos en el análisis de agrupamiento con K-Means.

Los paquetes necesarios son:

In [None]:
import matplotlib.pyplot as plt  # Visualización de datos  
from sklearn.datasets import make_blobs  # Generación de datos sintéticos  
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler, Normalizer  # Métodos de escalado  
from sklearn.cluster import KMeans  # Algoritmo de agrupamiento K-Means  

---
## <font color='264CC7'> Ejemplo </font>

En el siguiente código, se generan datos sintéticos y se aplican diferentes técnicas de escalado (`StandardScaler`, `MinMaxScaler`, `RobustScaler`, `Normalizer`) para analizar su impacto en el algoritmo de clustering K-Means.

In [None]:
# Generar datos sintéticos
X, _ = make_blobs(n_samples=100, centers=2, cluster_std=5, random_state=42)
X[:, 1] *= 2  # Aumentar varianza en la segunda característica
X += 5  # Desplazar datos

Dividimos los datos en los conjuntos de entrenamiento y prueba.

In [None]:
# Aplicar K-Means
labels = KMeans(n_clusters=2, random_state=42).fit_predict(X)

# Definir escaladores
scalers = {
    "Original Data": None,
    "StandardScaler": StandardScaler(),
    "MinMaxScaler": MinMaxScaler(),
    "RobustScaler": RobustScaler(),
    "Normalizer": Normalizer()
}

# Crear figuras
fig, axes = plt.subplots(2, 3, figsize=(12, 8))
axes = axes.ravel()

for i, (name, scaler) in enumerate(scalers.items()):
    X_scaled = scaler.fit_transform(X) if scaler else X
    ejeX, ejeY = ((-3, 4), (-3, 4)) if scaler else ((-10, 20), (-10, 50))
    axes[i].scatter(X_scaled[:, 0], X_scaled[:, 1], c=labels, cmap="bwr", alpha=0.6)
    axes[i].set_title(name)
    axes[i].set_xlim(ejeX)
    axes[i].set_ylim(ejeY)

plt.tight_layout()
plt.show()

---
## <font color='264CC7'> Ejemplo práctico </font>
