# CLUSTERING

Una forma útil de analizar la información es identificar grupos de datos que comparten atributos similares. Por ejemplo, tu empresa puede desear examinar un segmento de clientes que compran en la misma época del año y discernir qué factores influyen en su comportamiento de compra.

Al comprender un grupo particular de clientes, puedes tomar decisiones sobre qué productos recomendar a grupos de clientes mediante promociones y ofertas personalizadas. Fuera de la investigación de mercado, la agrupación se puede aplicar a varios otros escenarios, incluyendo el reconocimiento de patrones, la detección de fraudes y el procesamiento de imágenes.

El análisis de agrupación cae bajo la categoría tanto de aprendizaje supervisado como de aprendizaje no supervisado. Como técnica de aprendizaje supervisado, la agrupación se utiliza para clasificar nuevos puntos de datos en grupos existentes a través de k-Nearest Neighbors (k-NN), y como técnica de aprendizaje no supervisado, la agrupación se aplica para identificar grupos discretos de puntos de datos mediante el agrupamiento k-means. Aunque existen otras formas de técnicas de agrupamiento, estos dos algoritmos suelen ser los más populares tanto en aprendizaje automático como en minería de datos.

#### k-Nearest Neighbors

El algoritmo de clustering más simple es k-Nearest Neighbors (k-NN); una técnica de aprendizaje supervisado utilizada para clasificar nuevos puntos de datos en función de la relación con los puntos de datos cercanos.

k-NN es similar a un sistema de votación o un concurso de popularidad. Imagina que eres el nuevo en la escuela y eliges un grupo de compañeros de clase para socializar basado en los cinco compañeros más cercanos a ti. Entre los cinco compañeros, tres son frikis, uno es un skater y uno es un deportista. Según k-NN, elegirías pasar el rato con los frikis basándote en su ventaja numérica. Veamos otro ejemplo.

![image.png](attachment:image.png)

Figure 1: An example of k-NN clustering used to predict the class of a new data point

Como se ve en la Figura 1, el gráfico de dispersión nos permite calcular la distancia entre cualquier par de puntos de datos. Los puntos de datos en el gráfico de dispersión ya han sido categorizados en dos grupos. A continuación, se agrega un nuevo punto de datos cuya clase es desconocida al gráfico. Podemos predecir la categoría del nuevo punto de datos basándonos en su relación con los puntos de datos existentes.

Sin embargo, primero debemos establecer "k" para determinar cuántos puntos de datos queremos nominar para clasificar el nuevo punto de datos. Si establecemos k en 3, k-NN solo analizará la relación del nuevo punto de datos con los tres puntos de datos (vecinos) más cercanos. El resultado de seleccionar los tres vecinos más cercanos devuelve dos puntos de datos de la Clase B y un punto de datos de la Clase A. Definido por k (3), la predicción del modelo para determinar la categoría del nuevo punto de datos es Clase B, ya que devuelve dos de los tres vecinos más cercanos.

El número de vecinos elegidos, definido por k, es crucial para determinar los resultados. En la Figura 1, puedes ver que la clasificación cambiará dependiendo de si k se establece en "3" o "7". Por lo tanto, se recomienda probar numerosas combinaciones de k para encontrar el mejor ajuste y evitar establecer k demasiado bajo o demasiado alto. Establecer k en un número impar también ayudará a eliminar la posibilidad de un estancamiento estadístico y un resultado inválido.

El número predeterminado de vecinos es cinco al usar Scikit-learn. Aunque generalmente es una técnica muy precisa y simple de aprender, almacenar un conjunto de datos completo y calcular la distancia entre cada nuevo punto de datos y todos los puntos de datos existentes pone una gran carga en los recursos informáticos. Por lo tanto, generalmente no se recomienda k-NN para su uso con conjuntos de datos grandes.

Otro posible inconveniente es que puede ser difícil aplicar k-NN a datos de alta dimensionalidad (3-D y 4-D) con múltiples características. Medir múltiples distancias entre puntos de datos en un espacio tridimensional o tetradimensional es exigente en los recursos informáticos y también complicado para realizar una clasificación precisa. Reducir el número total de dimensiones, a través de un algoritmo de reducción de dimensiones descendente como el Análisis de Componentes Principales (PCA) o fusionando variables, es una estrategia común para simplificar y preparar un conjunto de datos para el análisis de k-NN.

#### k-Means Clustering

Como un popular algoritmo de aprendizaje no supervisado, el clustering k-means intenta dividir los datos en k grupos discretos y es efectivo para descubrir patrones básicos en los datos. Ejemplos de agrupaciones potenciales incluyen especies animales, clientes con características similares y segmentación del mercado inmobiliario. El algoritmo de clustering k-means funciona primero dividiendo los datos en k número de grupos, con k representando el número de grupos que deseas crear. Si eliges dividir tu conjunto de datos en tres grupos, entonces k, por ejemplo, se establece en 3.

![image.png](attachment:image.png)

Figure 2: Comparison of original data and clustered data using k-means

En la Figura 2, podemos ver que los datos originales (sin agrupar) se han transformado en tres grupos (k es 3). Si configuráramos k en 4, se derivaría un grupo adicional del conjunto de datos para producir cuatro grupos.

¿Cómo separa k-means clustering los puntos de datos? El primer paso es examinar los datos no agrupados en el gráfico de dispersión y seleccionar manualmente un centroide para cada grupo k. Ese centroide luego forma el epicentro de un grupo individual. Los centroides pueden elegirse al azar, lo que significa que puedes nominar cualquier punto de datos en el gráfico de dispersión para actuar como centroide. Sin embargo, puedes ahorrar tiempo eligiendo centroides dispersos en el gráfico de dispersión y no directamente adyacentes entre sí. En otras palabras, comienza a adivinar dónde crees que podrían estar ubicados los centroides para cada grupo. Los puntos de datos restantes en el gráfico de dispersión se asignan al centroide más cercano midiendo la distancia euclidiana.

$$d=\sqrt{(x_2 - x_1)^2+(y_2 - y_1)^2}$$

![image.png](attachment:image.png)

Figure 3: Calculating Euclidean distance

Each data point can be assigned to only one cluster and each cluster is
discrete. This means that there is no overlap between clusters and no case of
nesting a cluster inside another cluster. Also, all data points, including
anomalies, are assigned to a centroid irrespective of how they impact the final
shape of the cluster. However, due to the statistical force that pulls all nearby
data points to a central point, your clusters will generally form an elliptical or
spherical shape.



![image-2.png](attachment:image-2.png)

Figure 4: Example of an ellipse cluster

Una vez que todos los puntos de datos hayan sido asignados a un centroide, el siguiente paso es calcular el valor medio de todos los puntos de datos para cada cluster, lo cual se puede hacer calculando los valores promedio de x e y de todos los puntos de datos en ese cluster.

Luego, toma el valor medio de los puntos de datos en cada cluster y utiliza esos valores de x e y para actualizar las coordenadas de tus centroides. Esto probablemente resultará en un cambio en la ubicación de tus centroides. Sin embargo, el número total de clusters permanecerá igual. No estás creando nuevos clusters, sino actualizando su posición en el gráfico de dispersión. Como en una partida de sillas musicales, los puntos de datos restantes luego se moverán hacia el centroide más cercano para formar k clusters.

Si algún punto de datos en el gráfico de dispersión cambia de cluster con el cambio de centroides, se repite el paso anterior. Esto significa, nuevamente, calcular el valor medio promedio del cluster y actualizar los valores de x e y de cada centroide para reflejar las coordenadas promedio de los puntos de datos en ese cluster.

Una vez que llegues a un punto en el que los puntos de datos ya no cambien de cluster después de una actualización en las coordenadas del centroide, el algoritmo está completo, y tienes tu conjunto final de clusters. Los siguientes diagramas desglosan el proceso algorítmico completo.

![image.png](attachment:image.png)

Figure 5: Sample data points are plotted on a scatterplot

![image.png](attachment:image.png)

Figure 6: Two data points are nominated as centroids

![image.png](attachment:image.png)

Figure 7: Two clusters are formed after calculating the Euclidean distance of the remaining data points to the centroids.

![image.png](attachment:image.png)

Figure 8: The centroid coordinates for each cluster are updated to reflect the cluster’s mean value. As one data point has switched from the right cluster to the left cluster, the
centroids of both clusters are recalculated.

![image.png](attachment:image.png)

Figure 9: Two final clusters are produced based on the updated centroids for each cluster

#### Setting k

Al establecer k, es importante encontrar el número adecuado de clusters. En general, a medida que k aumenta, los clusters se vuelven más pequeños y la varianza disminuye. Sin embargo, la desventaja es que los clusters vecinos se vuelven menos distintos entre sí a medida que k aumenta. Si estableces k en el mismo número de puntos de datos en tu conjunto de datos, cada punto de datos se convertirá automáticamente en un cluster independiente. Por el contrario, si estableces k en 1, entonces todos los puntos de datos se considerarán homogéneos y producirán solo un cluster. No hace falta decir que establecer k en cualquiera de los extremos no proporcionará ninguna información útil para analizar.

![image.png](attachment:image.png)

Figure 10: A scree plot

Para optimizar k, puede recurrir a un gráfico de scree como guía. Un gráfico de scree muestra el grado de dispersión (varianza) dentro de un cluster a medida que aumenta el número total de clusters. Los gráficos de scree son famosos por su característico "codo", que refleja varios quiebres pronunciados en la curva del gráfico.

Un gráfico de scree compara la Suma del Error Cuadrado (SSE) para cada variación del número total de clusters. SSE se calcula como la suma de las distancias cuadradas entre el centroide y los otros puntos dentro del cluster. En resumen, SSE disminuye a medida que se forman más clusters.

Esto plantea la pregunta de cuál es el número óptimo de clusters. En general, deberías optar por una solución de clusters donde SSE disminuya drásticamente a la izquierda en el gráfico de scree, pero antes de llegar a un punto de cambio insignificante con las variaciones de clusters a su derecha. Por ejemplo, en la Figura 10, hay poco impacto en SSE para seis o más clusters. Esto resultaría en clusters que serían pequeños y difíciles de distinguir.

En este gráfico de scree, dos o tres clusters parecen ser una solución ideal. Hay un quiebre significativo a la izquierda de estas dos variaciones de clusters debido a una caída pronunciada en SSE. Mientras tanto, todavía hay cierto cambio en SSE con la solución a su derecha. Esto asegurará que estas dos soluciones de clusters sean distintas y tengan un impacto en la clasificación de datos.

Un enfoque más simple y no matemático para establecer k es aplicar el conocimiento del dominio. Por ejemplo, si estoy analizando datos sobre visitantes al sitio web de un importante proveedor de tecnología de la información, podría querer establecer k en 2. ¿Por qué dos clusters? Porque ya sé que probablemente habrá una discrepancia importante en el comportamiento de gasto entre los visitantes recurrentes y los nuevos visitantes. Los visitantes por primera vez rara vez compran productos y servicios de TI a nivel empresarial, ya que estos clientes normalmente pasan por un proceso de investigación y evaluación largo antes de que se apruebe la adquisición.

Por lo tanto, puedo usar el clustering de k-means para crear dos clusters y probar mi hipótesis. Después de crear dos clusters, puedo querer examinar uno de los dos clusters más a fondo, ya sea aplicando otra técnica o nuevamente usando k-means. Por ejemplo, podría querer dividir a los usuarios recurrentes en dos clusters (usando k-means) para probar mi hipótesis de que los usuarios móviles y los usuarios de escritorio producen dos grupos de datos diferentes. Nuevamente, aplicando el conocimiento del dominio, sé que es poco común que las grandes empresas realicen compras importantes en un dispositivo móvil. Sin embargo, deseo crear un modelo de aprendizaje automático para probar esta suposición.

Si, por otro lado, estoy analizando una página de producto para un artículo de bajo costo, como un nombre de dominio de $4.99, es menos probable que los nuevos visitantes y los visitantes recurrentes produzcan dos clusters claros. Como el artículo es de bajo valor, es menos probable que los nuevos usuarios deliberen antes de realizar una compra.

En cambio, podría elegir establecer k en 3 basado en mis tres principales generadores de clientes potenciales: tráfico orgánico, tráfico pago y marketing por correo electrónico. Estas tres fuentes de clientes potenciales probablemente producirán tres clusters discretos basados en el hecho de que:

a) El tráfico orgánico generalmente consiste en clientes nuevos y recurrentes con una fuerte intención de comprar en mi sitio web (a través de preselección, por ejemplo, boca a boca, experiencia previa del cliente).
b) El tráfico pago se dirige a nuevos clientes que normalmente llegan al sitio web con un nivel de confianza más bajo que el tráfico orgánico, incluidos los clientes potenciales que hacen clic en el anuncio pago por error.
c) El marketing por correo electrónico llega a los clientes existentes que ya tienen experiencia comprando en el sitio web y han establecido cuentas de usuario. Este es un ejemplo de conocimiento del dominio basado en mi propia ocupación, pero entiende que la efectividad del "conocimiento del dominio" disminuye drásticamente más allá de un bajo número de clusters k. En otras palabras, el conocimiento del dominio