# Demo KMeasns

By Jean Carlo Alvarez

# Importar librerias

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn.cluster import KMeans
import warnings
warnings.filterwarnings('ignore')
from sklearn.decomposition import PCA

**pandas:**
 Biblioteca para manipulación y análisis de datos estructurados como leer y escribir datos, limpiar, filtrar, agregar y transformar conjuntos de datos


**numpy:**

Biblioteca para realizar operaciones matemáticas y manipulación de matrices y arreglos multidimensionales

**matplotlib.pyplot:**

Biblioteca para visualización de datos mediante gráficos

**sklearn.preprocessing:**

Módulo de scikit-learn para preprocesar datos antes de modelarlos

**sklearn.cluster.KMeans:**
Algoritmo de clustering basado en particiones para agrupar datos

Parámetros que pueden ser importantes:
- n_clusters: Número de grupos que deseas formar
- random_state: Asegura reproducibilidad de los resultados

**warnings.filterwarnings('ignore'):**
Instrucción para ignorar ciertos mensajes de advertencia

**sklearn.decomposition.PCA:**

Algoritmo para reducción de dimensionalidad utilizando la técnica de Análisis de Componentes Principales

Parámetro importante:

- n_components: Número de componentes principales a conservar

# Cargar Datos

In [None]:
df = df = pd.read_csv('./Wholesale_customers_data.csv')
df=df.dropna()
df.sample(10)

**pd.read_csv('./Wholesale_customers_data.csv'):**

Carga un archivo CSV ubicado en el directorio actual (./) y lo convierte en un dataframe de pandas llamado df

**df.dropna():**

Elimina cualquier fila que contenga valores nulos (NaN) en el dataframe

**df.sample(10):**

Devuelve una muestra aleatoria de 10 filas del dataframe

# Datos de muestra

In [None]:
indices=[230,310,21]
df = df.drop(['Region','Channel'],axis=1)
muestra = pd.DataFrame(df.loc[indices],columns=df.keys()).reset_index(drop=True)
df=df.drop(indices,axis=0)

**indices = [230, 310, 21]**

Crea una lista de índices específicos (230, 310, 21) que se usarán  para seleccionar y manipular ciertas filas del dataframe

**df.drop(['Region', 'Channel'], axis=1)**

Elimina las columnas Region y Channel del dataframe

- axis=1: Indica que se está operando sobre columnas (en lugar de filas que sería axis=0)

**muestra = pd.DataFrame(df.loc[indices], columns=df.keys()).reset_index(drop=True)**

- **df.loc[indices]:** Selecciona las filas con los índices especificados en la lista indices (230, 310, 21) del dataframe

- **columns=df.keys():** Asegura que las columnas en el nuevo dataframe muestra correspondan a los nombres de las columnas del dataframe

- **.reset_index(drop=True):** Restablece los índices del nuevo dataframe, eliminando los índices originales y creando un nuevo índice que comienza en 0

**df = df.drop(indices, axis=0)**

Elimina las filas cuyos índices corresponden a la lista indices (230, 310, 21) del dataframe

- axis=0: Indica que la operación se realiza sobre las filas

# Procesamiento de Datos

In [None]:
df_escalada= preprocessing.Normalizer().fit_transform(df)
muestra_escalada= preprocessing.Normalizer().fit_transform(muestra)

**df_escalada = preprocessing.Normalizer().fit_transform(df)**

**muestra_escalada= preprocessing.Normalizer().fit_transform(muestra)**


- **preprocessing.Normalizer():**
Normaliza los datos fila por fila de modo que cada fila tenga una norma igual a 1

Esto significa que los valores de cada fila se escalan proporcionalmente al dividirlos por la raíz cuadrada de la suma de los cuadrados de los valores de esa fila

Es útil cuando las características de cada fila necesitan estar en una escala comparable sin perder la proporción relativa entre ellas

- **fit_transform(df):**
Ajusta el normalizador (fit) usando el dataframe df  o el de muestra y lo transforma  para devolver una nueva matriz normalizada

# Analisis

In [None]:
x= df_escalada.copy()

**x = df_escalada.copy()**
.
**.copy():** Crea una copia independiente del arreglo df_escalada

Esto significa que cualquier modificación posterior en x no afectará a df_escalada ni viceversa.

**Por qué se usa .copy()?**

- Evitar efectos colaterales:
Si asignaras x = df_escalada sin usar .copy() ambas variables apuntarían al mismo objeto en memoria. Cambiar x cambiaría automáticamente df_escalada

- Asegurar independencia de datos:
.copy() garantiza que las dos variables sean independientes.

## Encontra el valor k optimo usanddo la tecnica del CODO

In [None]:
inercia=[]
for i in range(1,20):
    algoritmo= KMeans(n_clusters=i,init= 'k-means++',max_iter=300,n_init=10)
    algoritmo.fit(x)
    inercia.append(algoritmo.inertia_)

**inercia = []**

Se crea una lista vacía llamada inercia para almacenar los valores de inercia calculados para diferentes números de clusters (n_clusters)

**for i in range(1, 20):**
Inicia un bucle que va desde i = 1 hasta i = 19 donde
i representa el número de clusters que se probarán para el algoritmo K-Means

**algoritmo = KMeans(n_clusters=i, init='k-means++', max_iter=300, n_init=10)**

Se crea una instancia del modelo de clustering K-Means

**Parametros:**

- **n_clusters=i:**
Número de clusters a formar. Este valor cambia en cada iteración del bucle

- **init='k-means++':**
Método de inicialización inteligente para los centroides iniciales, que acelera la convergencia

- **max_iter=300:**
Máximo número de iteraciones que realizará el algoritmo para ajustar los centroides

- **n_init=10:**
Número de veces que el algoritmo se ejecutará con diferentes inicializaciones. Retorna la mejor solución (mínima inercia) de todas las ejecuciones

**Valores posibles para init**

**1-'k-means++' (Por defecto):**
Este método selecciona los centroides iniciales de manera inteligente para acelerar la convergencia del algoritmo

El primer centroide se elige aleatoriamente. Luego, los siguientes centroides se seleccionan maximizando la distancia al centroide más cercano ya seleccionado

**Ventajas:**
- Reduce el riesgo de converger a un mínimo local deficiente
- Mejora la velocidad de convergencia en comparación con una inicialización completamente aleatoria

**Cuándo usarlo:**
Siempre que no tengas una razón específica para usar un método diferente

**2-'random':**
Selecciona los centroides iniciales de manera completamente aleatoria

**Ventajas:**
Simple y rápido

**Desventajas:**

- Puede dar lugar a soluciones de menor calidad (clusters subóptimos).
- Aumenta el riesgo de converger a un mínimo local

**Cuándo usarlo:**
Para comparar resultados con otros métodos o en problemas pequeños donde la inicialización no tiene un gran impacto

**3-Matriz de inicialización personalizada (array-like o matriz NumPy):**


Permite especificar manualmente las posiciones iniciales de los centroides.
Debes proporcionar una matriz de dimensiones (n_clusters, n_features) donde:

- n_clusters es el número de clusters deseados
- n_features es el número de características (columnas) en los datos

**Ventajas:**
Permite personalización completa si tienes conocimiento previo sobre la ubicación probable de los clusters

**Desventajas:**
Riesgo de convergencia a un mínimo local si los centroides iniciales son mal seleccionados

**Cuándo usarlo:**
Si ya conoces o tienes una hipótesis sobre las posiciones iniciales de los clusters

**4-Otros métodos personalizados (usando inicializadores propios):**

Si necesitas un método específico para inicializar los centroides, puedes escribir tu propio inicializador y usarlo


**algoritmo.fit(x)**

Ajusta el modelo K-Means a los datos normalizados x para el número de clusters i
Los centroides y las asignaciones de puntos a clusters se calculan en esta etapa

**inercia.append(algoritmo.inertia_)**

- algoritmo.inertia_:
Es la suma de las distancias cuadradas entre cada punto y el centroide de su cluster asignado

La inercia mide qué tan compactos están los clusters. Valores más bajos indican clusters más compactos y definidos

Este valor se añade a la lista inercia

**Resultado esperado**

La lista inercia contendrá 19 valores correspondientes a la inercia para 1 hasta 19 clusters

**Uso típico: Método del codo**

La inercia se utiliza para determinar el número óptimo de clusters mediante el método del codo:

- Se grafica el número de clusters (n_clusters) contra la inercia
- El "codo" del gráfico indica el punto en el que añadir más clusters ya no reduce significativamente la inercia



## Graficamos para observar el codo

In [None]:
plt.figure(figsize=(10,6))
plt.title('Metodo del Codo')
plt.xlabel('No de cluster')
plt.ylabel('Inercia')
plt.plot(list(range(1,20)),inercia, marker='o')
plt.show()

**plt.figure(figsize=(10,6))**

Crea una figura de tamaño personalizado con dimensiones de 10 unidades de ancho y 6 unidades de alto Esto controla el tamaño del gráfico que se va a mostrar

**plt.title('Metodo del Codo')**

Añade un título al gráfico: 'Metodo del Codo'

**plt.xlabel('No de cluster')**

Establece la etiqueta del eje x (horizontal) como 'No de cluster'.
Representa el número de clusters utilizados en el algoritmo K-Means (de 1 a 19 en este caso)

**plt.ylabel('Inercia')**
Establece la etiqueta del eje y (vertical) como 'Inercia'
La inercia representa la suma de las distancias cuadradas de los puntos a sus centroides asignados

**plt.plot(list(range(1,20)), inercia, marker='o')**

- **list(range(1,20)):** Genera una lista de números del 1 al 19 (número de clusters probados)

- **inercia:** Lista de valores de inercia calculados previamente para cada número de clusters

- **marker='o':** Dibuja un marcador circular en cada punto del gráfico, facilitando la identificación de los puntos de interés

- **plt.plot:** Traza una línea conectando los punto

**plt.show()**
Muestra el gráfico en pantalla

**Resultado esperado**
Un gráfico llamado "Método del Codo" que muestra:

- Eje X: Número de clusters (1 a 19)
- Eje Y: Valores de inercia calculados para cada número de clusters

**Forma esperada:**

La inercia disminuye rápidamente al principio y luego empieza a estabilizarse.
El "codo" del gráfico (el punto donde la reducción de inercia comienza a ser menos pronunciada) indica el número óptimo de clusters

**Uso del gráfico**

El método del codo sugiere que:

- El punto óptimo es donde añadir más clusters deja de reducir significativamente la inercia
- Busca el punto donde el gráfico cambia de una pendiente pronunciada a una más plana

## Aplicacion KMeans

In [None]:
algoritmo= KMeans(n_clusters=6,init='k-means++',max_iter=300,n_init=10)

Creamos una instancia del modelo KMeans con parámetros específicos

- **n_clusters=6**
Define el número de clusters (o grupos) que el algoritmo formará.
Valor: En este caso, se especifica que se quieren 6 clusters

 **Cómo afecta el resultado:**
Este valor debe seleccionarse basándose en análisis previos, como el método del codo, para encontrar el número óptimo de clusters

- **init='k-means++'**
Especifica el método de inicialización de los centroides

 Valor por defecto: 'k-means++'

 Significado:
 Selecciona los centroides iniciales de forma inteligente, distribuyéndolos para minimizar la convergencia a mínimos locales

 Mejora la velocidad y precisión del modelo.

**Otras opciones posibles:**

**'random':** Inicializa los centroides aleatoriamente

**Matriz personalizada:** Puedes pasar una matriz NumPy con los valores iniciales de los centroides

**max_iter=300**
 Define el número máximo de iteraciones que el algoritmo realizará para ajustar los centroides.

 Valor por defecto: 300

 Significado:
Si el algoritmo no converge antes de las 300 iteraciones, detendrá el proceso y devolverá los centroides más cercanos al resultado óptimo

Cuándo modificar este valor:
En conjuntos de datos muy grandes o complejos, podrías aumentar este valor si el algoritmo no converge


**n_init=10**
Especifica el número de veces que el algoritmo se ejecutará con diferentes inicializaciones

Valor por defecto: 10

Significado:
El algoritmo se ejecutará 10 veces con diferentes posiciones iniciales de los centroides.
Devuelve la mejor solución (menor inercia) entre las ejecuciones.
Cuándo modificar este valor:
Para mejorar la estabilidad de los resultados en datos muy complejos, puedes aumentar este valor.


**Resultado esperado**

Se crea un modelo de KMeans con 6 clusters, utilizando la inicialización 'k-means++', con un límite de 300 iteraciones por ejecución y probando 10 inicializaciones diferentes
Este modelo aún no se ha ajustado a los datos; solo se ha configurado

In [None]:
algoritmo.fit(x)

El método fit aplica el algoritmo K-Means al conjunto de datos x para encontrar los centroides y asignar clusters

El modelo iterará para minimizar la inercia (la suma de las distancias cuadradas de cada punto al centroide más cercano)

In [None]:
centroides,etiquetas= algoritmo.cluster_centers_,algoritmo.labels_

Se extraen los resultados del modelo KMeans después de haber ajustado el algoritmo con algoritmo.fit(x)

**centroides = algoritmo.cluster_centers_**


- **algoritmo.cluster_centers_** contiene las coordenadas de los centroides finales para cada cluster

  - Cada fila representa un cluster y cada columna representa una característica (feature) de los datos.

   - Forma de la matriz:

        Dimensiones: (n_clusters, n_features), donde:

        - n_clusters es el número de clusters (en este caso, 6)
        - n_features es el número de columnas (características) en x

   - Uso práctico:

Los centroides representan el punto central (promedio) de cada cluster en el espacio de las características.
Puedes analizarlos para comprender las características promedio de cada grupo




## Verificamos los datos de muestra

In [None]:
muestra_prediccion= algoritmo.predict(muestra_escalada)
for i, pred in enumerate(muestra_prediccion):
    print('Muestra',i,' se encuentra en el cluster: ',pred)

Se utiliza el modelo KMeans ajustado para predecir a qué cluster pertenecen las muestras previamente seleccionadas y escaladas (muestra_escalada)

**muestra_prediccion = algoritmo.predict(muestra_escalada)**

**algoritmo.predict(muestra_escalada):**
Calcula el cluster al que pertenece cada fila de muestra_escalada

Asigna cada fila al cluster cuyo centroide esté más cercano (utilizando la distancia euclidiana)

**Resultado:**
muestra_prediccion es un arreglo con las etiquetas de los clusters para cada fila en muestra_escalada

 **for i, pred in enumerate(muestra_prediccion):**

Inicia un bucle que recorre las predicciones en muestra_prediccion

**enumerate(muestra_prediccion):**

Proporciona tanto el índice (i) como el valor de la predicción (pred) para cada fila en muestra_escalada

**print('Muestra', i, 'se encuentra en el cluster: ', pred)**

Imprime en la consola el índice de la muestra (i) y el cluster al que pertenece (pred)

**Propósito de este código**

Verificar en qué cluster caen las filas seleccionadas de muestra después de aplicar la normalización y el modelo ajustado

**Esto es útil para:**
- Validar el modelo: ¿Tiene sentido que estas muestras estén en esos clusters?
- Interpretar los clusters: Analizar las características de las muestras en relación con el cluster asignado



## Graficamos los cluster

**Aplicamos PCA ** esto para reducir las dimensiones y sea mas sencillo graficar los datos

In [None]:
modelo_pca = PCA(n_components=2)
modelo_pca.fit(x)
pca=modelo_pca.transform(x)

**modelo_pca = PCA(n_components=2)**
Se crea un modelo de PCA (Análisis de Componentes Principales) para reducir la dimensionalidad de los datos

- n_components=2:
Indica que el objetivo es reducir los datos a 2 dimensiones principales (dos componentes)

Los componentes principales son combinaciones lineales de las características originales que maximizan la varianza en los datos

**modelo_pca.fit(x)**
Ajusta el modelo PCA a los datos x

Durante el ajuste:

Calcula las direcciones (vectores propios) y magnitudes (valores propios) de máxima varianza en los datos

Las direcciones representan los nuevos ejes principales

Los valores propios determinan cuánta varianza explica cada componente

Resultado del ajuste:

El modelo ahora tiene información sobre las dos principales direcciones de variación en los datos

**pca = modelo_pca.transform(x)**
Transforma los datos originales x a las nuevas 2 dimensiones principales identificadas por el modelo PCA

Cada fila en pca será una proyección de la fila correspondiente en x sobre los dos nuevos ejes principales

Resultado:

pca es un nuevo arreglo NumPy con forma (n_samples, 2), donde:
- n_samples es el número de filas en los datos originales x.
- 2 son las dos componentes principales seleccionadas



In [None]:
centroides_pca=modelo_pca.transform(centroides)

Se proyectan las coordenadas de los centroides de los clusters al espacio de las dos componentes principales obtenido previamente con el modelo PCA

**modelo_pca.transform(centroides)**

Toma las coordenadas de los centroides originales (que tienen la misma dimensionalidad que los datos iniciales) y los transforma al espacio reducido de las dos componentes principales

Al igual que se proyectaron los datos originales (x) en el espacio PCA, ahora se proyectan los centroides

**Resultado:**

centroides_pca es una matriz con las coordenadas de los centroides en el espacio de las dos componentes principales

Forma de la matriz:

Si hay n_clusters clusters (por ejemplo, 6) y trabajamos con n_components=2:
Dimensiones: (n_clusters, n_components)

**¿Por qué proyectar los centroides?**

- Visualización:

  Permite graficar los centroides junto con los datos proyectados en 2D (espacio PCA)
  Ayuda a entender cómo se distribuyen los clusters y si los centroides están bien ubicados.

- Análisis:

  Ver la relación entre los centroides y los puntos de datos en el espacio reducido
  Identificar qué tan bien separadas están las áreas de influencia de cada cluster

In [None]:
colores=['blue','red','green','orange','gray','brown']
colores_cluster=[colores[etiquetas[i]] for i in range(len(pca))]

**colores = ['blue', 'red', 'green', 'orange', 'gray', 'brown']**

Se define una lista llamada colores que contiene los colores que se usarán para representar los diferentes clusters

Cada índice de esta lista corresponde al número del cluster
- Cluster 0 → 'blue'
- Cluster 1 → 'red'
- Cluster 2 → 'green'
- Y así sucesivamente

**colores_cluster = [colores[etiquetas[i]] for i in range(len(pca))]**

Se utiliza una comprensión de listas para asignar un color a cada punto en el espacio PCA, basándose en las etiquetas (etiquetas) de los clusters



- **range(len(pca)):** Genera un rango desde 0 hasta el número de puntos en pca (es decir, el número de filas en los datos proyectados)

- **etiquetas[i]:** Recupera la etiqueta del cluster asignado al punto i (un número entre 0 y 5 en este caso)

- **colores[etiquetas[i]]:** Asigna el color correspondiente al cluster de acuerdo con la lista colores

El resultado es una lista llamada colores_cluster, donde cada elemento es el color asignado al punto correspondiente

**Resultado:**

colores_cluster es una lista de colores, con la misma longitud que pca.
Cada color corresponde al cluster al que pertenece el punto


In [None]:
plt.scatter(pca[:,0],pca[:,1],c=colores_cluster,marker='o',alpha=0.5)
plt.scatter(centroides_pca[:,0],centroides_pca[:,1],marker='x',s=100,linewidths=3,c=colores)

Crea una visualización donde se representan los puntos del espacio reducido por PCA junto con los centroides de los clusters

**plt.scatter(pca[:,0],pca[:,1],c=colores_cluster,marker='o',alpha=0.5)**

- pca[:, 0]:
Coordenadas de los puntos proyectados en el primer componente principal

- pca[:, 1]:
Coordenadas de los puntos proyectados en el segundo componente principal

- c=colores_cluster:
Especifica los colores de los puntos, asignados previamente en la lista colores_cluster según los clusters

- marker='o':
El marcador para los puntos es un círculo

- alpha=0.5:
Define la transparencia de los puntos (50%), permitiendo que los clusters densos sean más fáciles de visualizar


**plt.scatter(centroides_pca[:,0],centroides_pca[:,1],marker='x',s=100,linewidths=3,c=colores)**

- centroides_pca[:, 0]:
Coordenadas de los centroides proyectados en el primer componente principal

- centroides_pca[:, 1]:
Coordenadas de los centroides proyectados en el segundo componente principal

- marker='x':
El marcador para los centroides es una "X"

- s=100:
Ajusta el tamaño de los marcadores de los centroides

- linewidths=3:
Define el grosor de las líneas que forman la "X"

- c=colores:
Usa la lista colores para asignar colores a los centroides (uno por cluster)

**Qué esperar del gráfico?**

- Puntos proyectados (pca):
Los datos estarán distribuidos en dos dimensiones principales, con colores que representan el cluster al que pertenecen

Los puntos se mostrarán con transparencia, permitiendo observar la densidad de los clusters

- Centroides (centroides_pca):

Los centroides aparecerán como grandes "X" en el gráfico, marcando el centro de cada cluster en el espacio PCA

In [None]:
xvector=modelo_pca.components_[0] * max(pca[:,0])
yvector=modelo_pca.components_[1] * max(pca[:,1])
columnas=df.columns

Este código se utiliza para extraer y graficar las contribuciones de las características originales en el espacio reducido por PCA


**modelo_pca.components_[0]**
Accede a los pesos (cargas principales) del primer componente principal.
Cada valor en este vector indica qué tan importante es cada característica original para este componente

**max(pca[:, 0])**

Encuentra el valor máximo de la primera dimensión del espacio PCA (el primer componente principal)

Se utiliza para escalar los vectores y hacerlos proporcionales al rango de los datos proyectados

**Resultado (xvector):**

Representa las contribuciones de las características originales proyectadas sobre el primer componente principal.
Escalado para que sea comparable en el espacio PCA

**modelo_pca.components_[1]**
Accede a los pesos (cargas principales) del segundo componente principal.
Cada valor indica la importancia de cada característica original en este componente

**max(pca[:, 1])**

Encuentra el valor máximo en la segunda dimensión del espacio PCA (el segundo componente principal)

Esto permite escalar los vectores para que se ajusten al rango de los datos proyectados

**Resultado (yvector):**
Representa las contribuciones de las características originales proyectadas sobre el segundo componente principal
También está escalado para ser comparable en el espacio PCA

**columnas = df.columns**

- Extrae los nombres de las columnas del DataFrame original (df)
- Esto es útil para etiquetar las contribuciones de las características originales en el gráfico o para interpretar los resultados

**¿Qué representan xvector y yvector?**

Son los vectores que indican la influencia de las características originales en el espacio reducido por PCA:

- xvector: Contribuciones al primer componente principal
- yvector: Contribuciones al segundo componente principal

Estos vectores son importantes para entender qué características originales explican la varianza en los datos proyectados en cada componente principal


In [None]:
for i in range(len(columnas)):
    plt.arrow(0,0,xvector[i],yvector[i],color='black',width = 0.0005,head_width=0.02,alpha=0.75)
    plt.text(xvector[i],yvector[i],list(columnas)[i],color='black')

plt.show()

**for i in range(len(columnas)):**

- Recorre todas las características originales (las columnas del DataFrame df)
- Cada característica tiene un vector correspondiente en xvector y yvector

**plt.arrow(0, 0, xvector[i], yvector[i], color='black', width=0.0005, head_width=0.02, alpha=0.75):**

**plt.arrow(x, y, dx, dy):**
Dibuja una flecha que comienza en (0, 0) y termina en (xvector[i], yvector[i])

La flecha indica la dirección y magnitud de la contribución de una característica en el espacio PCA

Parámetros:

- color='black': Define el color de la flecha
- width=0.0005: Establece el grosor del cuerpo de la flecha
- head_width=0.02: Establece el tamaño de la punta de la flecha
- alpha=0.75: Define la transparencia de la flecha (75% opacidad)

**plt.text(xvector[i], yvector[i], list(columnas)[i], color='black'):**

Dibuja el nombre de la característica en el gráfico, cerca del extremo del vector correspondiente

Parámetros:

- (xvector[i], yvector[i]): Posición donde se coloca el texto

- list(columnas)[i]: Nombre de la característica extraído de la lista columnas

**plt.show()**

Muestra el gráfico completo con todas las flechas y etiquetas superpuestas

**Resultado esperado**

El gráfico muestra:

Flechas:

- Cada flecha representa la contribución de una característica original en el espacio reducido por PCA

- La longitud de la flecha indica la magnitud de la contribución

- La dirección indica cómo la característica afecta cada uno de los componentes principales

Etiquetas:

- Cada flecha tiene el nombre de la característica original en su extremo

Centro del gráfico:

Todas las flechas parten del origen (0, 0)
