# Capítulo 7

* Aprendizaje No Supervisado
* Análisis de Componentes Principales
* Un Ejemplo Sencillo
* Cálculo de las Componentes Principales
* Interpretación de las Componentes Principales
* Análisis de Correspondencia
* Lecturas Adicionales
* Agrupamiento K-Means
* Un Ejemplo Sencillo
* Algoritmo K-Means
* Interpretación de los Clusters
* Selección del Número de Clusters
* Agrupamiento Jerárquico
* Un Ejemplo Sencillo
* El Dendrograma
* El Algoritmo Aglomerativo
* Medidas de Disimilitud
* Agrupamiento Basado en Modelos
* Distribución Normal Multivariante
* Mezclas de Normales
* Selección del Número de Clusters
* Lecturas Adicionales
* Escalamiento y Variables Categóricas
* Escalamiento de las Variables
* Variables Dominantes
* Datos Categóricos y Distancia de Gower
* Problemas con la Agrupación de Datos Mixtos
* Resumen
  
# Aprendizaje No Supervisado

El término aprendizaje no supervisado se refiere a métodos estadísticos que extraen significado de los datos sin entrenar un modelo en datos etiquetados (datos donde se conoce un resultado de interés). En los Capítulos 4 a 6, el objetivo es construir un modelo (conjunto de reglas) para predecir una variable de respuesta a partir de un conjunto de variables predictoras. Esto es aprendizaje supervisado. En contraste, el aprendizaje no supervisado también construye un modelo de los datos, pero no distingue entre una variable de respuesta y variables predictoras.

El aprendizaje no supervisado se puede utilizar para lograr diferentes objetivos. En algunos casos, se puede utilizar para crear una regla predictiva en ausencia de una respuesta etiquetada. Los métodos de agrupación se pueden utilizar para identificar grupos significativos de datos. Por ejemplo, utilizando los clics web y los datos demográficos de un usuario en un sitio web, podríamos agrupar diferentes tipos de usuarios. El sitio web podría entonces personalizarse para estos diferentes tipos.

En otros casos, el objetivo puede ser reducir la dimensión de los datos a un conjunto más manejable de variables. Este conjunto reducido luego se podría utilizar como entrada en un modelo predictivo, como regresión o clasificación. Por ejemplo, podemos tener miles de sensores para monitorear un proceso industrial. Al reducir los datos a un conjunto más pequeño de características, podemos construir un modelo más potente e interpretable para predecir el fallo del proceso que podría construirse incluyendo flujos de datos de miles de sensores.

Finalmente, el aprendizaje no supervisado se puede ver como una extensión del análisis exploratorio de datos (ver Capítulo 1) a situaciones en las que te enfrentas a un gran número de variables y registros. El objetivo es obtener información sobre un conjunto de datos y cómo se relacionan las diferentes variables entre sí. Las técnicas no supervisadas te permiten filtrar y analizar estas variables y descubrir relaciones.

### Aprendizaje y predicción no supervisados

El aprendizaje no supervisado puede desempeñar un papel importante en la predicción, tanto para problemas de regresión como de clasificación. En algunos casos, queremos predecir una categoría en ausencia de cualquier dato etiquetado. Por ejemplo, podríamos querer predecir el tipo de vegetación en un área a partir de un conjunto de datos sensoriales satelitales. Dado que no tenemos una variable de respuesta para entrenar un modelo, la agrupación nos brinda una forma de identificar patrones comunes y categorizar las regiones.

La agrupación es una herramienta especialmente importante para el "problema de inicio en frío". En este tipo de problema, como lanzar una nueva campaña de marketing o identificar posibles nuevos tipos de fraude o correo no deseado, inicialmente es posible que no tengamos ninguna respuesta para entrenar un modelo. Con el tiempo, a medida que se recopilan datos, podemos aprender más sobre el sistema y construir un modelo predictivo tradicional. Pero la agrupación nos ayuda a iniciar el proceso de aprendizaje más rápidamente al identificar segmentos de población.

El aprendizaje no supervisado también es importante como un bloque de construcción para técnicas de regresión y clasificación. Con big data, si una subpoblación pequeña no está bien representada en la población general, es posible que el modelo entrenado no funcione bien para esa subpoblación. Con la agrupación, es posible identificar y etiquetar subpoblaciones. Luego, se pueden ajustar modelos separados a las diferentes subpoblaciones. Alternativamente, la subpoblación puede representarse con su propia característica, lo que obliga al modelo general a considerar explícitamente la identidad de la subpoblación como un predictor.

# Análisis de Componentes Principales
A menudo, las variables varían juntas (covarían), y parte de la variación en una variable en realidad se duplica por la variación en otra (por ejemplo, los gastos en restaurantes y las propinas). El análisis de componentes principales (PCA) es una técnica para descubrir la forma en que las variables numéricas covarían.

**Nota:**

Esta y las secciones posteriores de este capítulo © 2020 Datastats, LLC, Peter Bruce, Andrew Bruce y Peter Gedeck; se utilizan con permiso.

### Términos clave para el Análisis de Componentes Principales:

- Componente principal: Una combinación lineal de las variables predictoras.

- Cargas: Los pesos que transforman los predictores en los componentes.

Sinónimo: Pesos.

- Screeplot: Un gráfico de las varianzas de los componentes, que muestra la importancia relativa de los componentes, ya sea como varianza explicada o como proporción de varianza explicada.

La idea en el Análisis de Componentes Principales (PCA) es combinar múltiples variables predictoras numéricas en un conjunto más pequeño de variables, que son combinaciones lineales ponderadas del conjunto original. Este conjunto más pequeño de variables, los componentes principales, "explica" la mayor parte de la variabilidad del conjunto completo de variables, reduciendo así la dimensión de los datos. Los pesos utilizados para formar los componentes principales revelan las contribuciones relativas de las variables originales a los nuevos componentes principales.
PCA fue propuesto por primera vez por Karl Pearson. En lo que quizás fue el primer artículo sobre aprendizaje no supervisado, Pearson reconoció que en muchos problemas hay variabilidad en las variables predictoras, por lo que desarrolló PCA como una técnica para modelar esta variabilidad. PCA puede ser visto como la versión no supervisada del análisis discriminante lineal; consulte "Análisis Discriminante" en la página 201.

# Un Ejemplo Simple
Para dos variables, $X_1$ y $X_2$, hay dos componentes principales $Zi (i= 1$ o $2)$:
$$Zi = wi, _1X_1 + wi, _2X_2$$
Los pesos $( w_i, _1$, $w_i, _2)$ son conocidos como las cargas de los componentes. Estos transforman las variables originales en los componentes principales. El primer componente principal, $Z_1$, es la combinación lineal que mejor explica la variación total. El segundo componente principal, $Z_2$, es ortogonal al primero y explica tanto como puede de la variación restante. (Si hubiera componentes adicionales, cada uno adicional sería ortogonal a los demás).

**Nota:**

También es común calcular los componentes principales sobre desviaciones de las medias de las variables predictoras, en lugar de sobre los valores mismos.

Puedes calcular los componentes principales en R utilizando la función princomp. Lo siguiente realiza un PCA en los retornos de precios de las acciones para Chevron (CVX) y ExxonMobil (XOM):

En Python, podemos utilizar la implementación de scikit-learn `sklearn.decomposition.PCA`:

Los pesos para CVX y XOM para el primer componente principal son -0.747 y -0.665, y para el segundo componente principal son 0.665 y -0.747. ¿Cómo interpretar esto? El primer componente principal es esencialmente un promedio de CVX y XOM, reflejando la correlación entre las dos empresas energéticas. El segundo componente principal mide cuándo los precios de las acciones de CVX y XOM divergen.

Es instructivo graficar los componentes principales con los datos. Aquí creamos una visualización en R.

El siguiente código crea una visualización similar en Python:

El resultado se muestra en la Figura 7-1.

![Captura de pantalla 2024-02-11 114847.png](attachment:37cf50a3-8133-430f-9693-72e64b92dc68.png)

**Figura 7-1.** Los componentes principales para los retornos de acciones de Chevron (CVX) y ExxonMobil (XOM).

Las líneas punteadas muestran la dirección de los dos componentes principales: el primero está a lo largo del eje largo de la elipse, y el segundo está a lo largo del eje corto. Puedes observar que la mayoría de la variabilidad en los retornos de las dos acciones está explicada por el primer componente principal. Esto tiene sentido ya que los precios de las acciones de energía tienden a moverse en grupo.

**Nota:**

Los pesos para el primer componente principal son ambos negativos, pero invertir el signo de todos los pesos no cambia el componente principal. Por ejemplo, usar pesos de 0.747 y 0.665 para el primer componente principal es equivalente a los pesos negativos, al igual que una línea infinita definida por el origen y 1,1 es la misma que una definida por el origen y -1,-1.

# Calcular los Componentes Principales

Ir de dos variables a más variables es directo. Para el primer componente, simplemente incluya las variables predictoras adicionales en la combinación lineal, asignando pesos que optimicen la recopilación de la covariación de todas las variables predictoras en este primer componente principal (la covarianza es el término estadístico; consulte "Matriz de Covarianza" en la página 202). El cálculo de los componentes principales es un método estadístico clásico, que se basa en la matriz de correlación de los datos o en la matriz de covarianza, y se ejecuta rápidamente, sin depender de la iteración. Como se mencionó anteriormente, el análisis de componentes principales funciona solo con variables numéricas, no con variables categóricas. El proceso completo se puede describir de la siguiente manera:
1. Al crear el primer componente principal, el PCA llega a la combinación lineal de variables predictoras que maximiza el porcentaje de varianza total explicada.
2. Esta combinación lineal se convierte en el primer "nuevo" predictor, Z1.
3. PCA repite este proceso, utilizando las mismas variables con diferentes pesos, para crear un segundo nuevo predictor, Z2. La ponderación se realiza de tal manera que Z1 y Z2 estén descorrelacionados.
4. El proceso continúa hasta que tenga tantas variables nuevas, o componentes, Zi como variables originales Xi.
5. Elija retener tantos componentes como sea necesario para dar cuenta de la mayor parte de la varianza.
6. El resultado hasta ahora es un conjunto de pesos para cada componente. El paso final es convertir los datos originales en nuevos puntajes de componentes principales aplicando los pesos a los valores originales. Estos nuevos puntajes luego se pueden usar como el conjunto reducido de variables predictoras.

# Interpretando Componentes Principales

La naturaleza de los componentes principales a menudo revela información sobre la estructura de los datos. Hay un par de visualizaciones estándar para ayudarlo a obtener información sobre los componentes principales. Uno de estos métodos es un screeplot para visualizar la importancia relativa de los componentes principales (el nombre deriva del parecido del gráfico con una pendiente de escombros; aquí, el eje y es el valor propio). El siguiente código en R muestra un ejemplo para algunas de las principales empresas en el S&P 500:

La información para crear un gráfico de cargas a partir del resultado de scikit-learn está disponible en `explained_variance_`. Aquí, la convertimos en un marco de datos de pandas y la usamos para hacer un gráfico de barras:

Como se ve en la Figura 7-2, la varianza del primer componente principal es bastante grande (como suele ser el caso), pero los otros principales componentes son significativos.

![Captura de pantalla 2024-02-11 115056.png](attachment:7c6c82f6-076b-47ac-8358-7f895632adae.png)

**Figura 7-2.** Un screeplot para un PCA de las principales acciones del S&P 500

Puede ser especialmente revelador graficar los pesos de los principales componentes. Una forma de hacer esto en R es utilizar la función gather del paquete tidyr en conjunto con ggplot:

Aquí está el código para crear la misma visualización en Python:

Las cargas para los cinco componentes principales se muestran en la Figura 7-3. Las cargas para el primer componente principal tienen el mismo signo: esto es típico para datos en los que todas las columnas comparten un factor común (en este caso, la tendencia general del mercado de valores). El segundo componente captura los cambios de precios de las acciones de energía en comparación con las otras acciones. El tercer componente es principalmente un contraste en los movimientos de Apple y CostCo. El cuarto componente contrasta los movimientos de Schlumberger (SLB) con las otras acciones de energía. Finalmente, el quinto componente está dominado principalmente por empresas financieras.

![Captura de pantalla 2024-02-11 115219.png](attachment:5d6ebe16-0a91-407c-85f5-4d5d13e87a8c.png)

**Figura 7-3.** Las cargas para los cinco principales componentes principales de los retornos de precios de las acciones

### ¿Cuántos Componentes Elegir?

Si tu objetivo es reducir la dimensión de los datos, debes decidir cuántos componentes principales seleccionar. El enfoque más común es utilizar una regla ad hoc para seleccionar los componentes que explican "la mayoría" de la varianza. Puedes hacer esto visualmente a través del screeplot, como, por ejemplo, en la Figura 7-2. Alternativamente, podrías seleccionar los principales componentes de manera que la varianza acumulativa supere un umbral, como el 80%. Además, puedes inspeccionar las cargas para determinar si el componente tiene una interpretación intuitiva. La validación cruzada proporciona un método más formal para seleccionar el número de componentes significativos (consulte "Validación Cruzada" en la página 155 para más detalles).

# Análisis de Correspondencias

El Análisis de Componentes Principales (PCA) no puede utilizarse para datos categóricos; sin embargo, una técnica relacionada es el análisis de correspondencias. El objetivo es reconocer asociaciones entre categorías o entre características categóricas. Las similitudes entre el análisis de correspondencias y el análisis de componentes principales son principalmente en el fondo, la álgebra matricial para el escalado de dimensiones. El análisis de correspondencias se utiliza principalmente para el análisis gráfico de datos categóricos de baja dimensión y no se utiliza de la misma manera que PCA para la reducción de dimensiones como un paso preparatorio con grandes conjuntos de datos.

La entrada se puede ver como una tabla, con filas que representan una variable y columnas otra, y las celdas representan recuentos de registros. La salida (después de algo de álgebra de matrices) es un biplot, un gráfico de dispersión con ejes escalados (y con porcentajes que indican cuánta varianza se explica por esa dimensión). El significado de las unidades en los ejes no está intuitivamente conectado a los datos originales, y el valor principal del gráfico de dispersión es ilustrar gráficamente variables que están asociadas entre sí (por proximidad en el gráfico).

Existen varias paqueterías para el análisis de correspondencias en R. Aquí, usamos el paquete 'ca':

En Python, podemos usar el paquete prince, que implementa el análisis de correspondencias utilizando la API de scikit-learn:

![Captura de pantalla 2024-02-11 115418.png](attachment:696586ed-2575-4d19-8b7d-753961bdee47.png)

**Figura 7-4.** Representación gráfica de un análisis de correspondencias de datos de tareas domésticas

### Ideas Clave
- Los componentes principales son combinaciones lineales de las variables predictoras (solo datos numéricos).
- Los componentes principales se calculan de manera que se minimice la correlación entre los componentes, reduciendo la redundancia.
- Un número limitado de componentes típicamente explicará la mayor parte de la varianza en la variable de resultado.
- El conjunto limitado de componentes principales luego se puede utilizar en lugar de los predictores originales (más numerosos), reduciendo la dimensionalidad.
- Una técnica superficialmente similar para datos categóricos es el análisis de correspondencias, pero no es útil en un contexto de big data.

### Lecturas Recomendadas

Para obtener una mirada detallada sobre el uso de la validación cruzada en componentes principales, consulta el artículo de Rasmus Bro, K. Kjeldahl, A.K. Smilde y Henk A. L. Kiers, "Cross-Validation of Component Models: A Critical Look at Current Methods", publicado en Analytical and Bioanalytical Chemistry 390, no. 5 (2008).

# Agrupación de K-medias

El agrupamiento K-Means es una técnica para dividir los datos en diferentes grupos, donde los registros en cada grupo son similares entre sí. El objetivo del agrupamiento es identificar grupos significativos y significativos de datos. Los grupos pueden ser utilizados directamente, analizados en más profundidad o pasados como una característica o un resultado a un modelo de regresión o clasificación predictiva. K-means fue el primer método de agrupamiento en ser desarrollado; aún se utiliza ampliamente, gracias a la relativa simplicidad del algoritmo y su capacidad para escalar a conjuntos de datos grandes.

### Términos clave para el agrupamiento K-Means:

- Cluster: Un grupo de registros que son similares.
- Media del cluster: El vector de medias de variables para los registros en un cluster.
- K: El número de clusters.

K-means divide los datos en K clusters minimizando la suma de las distancias al cuadrado de cada registro respecto a la media de su cluster asignado. Esto se conoce como la suma de cuadrados dentro del cluster o SS dentro del cluster. K-means no garantiza que los clusters tendrán el mismo tamaño, pero encuentra los clusters que están mejor separados.

### Normalización

Es típico normalizar (estandarizar) variables continuas restando la media y dividiendo por la desviación estándar. De lo contrario, las variables con una escala grande dominarán el proceso de agrupamiento (ver "Estandarización (Normalización, puntuaciones z)" en la página 243).

# Un Ejemplo Sencillo
Comencemos considerando un conjunto de datos con $n$ registros y solo dos variables, x e y. Supongamos que queremos dividir los datos en $K = 4 clusters$. Esto significa asignar cada registro $xi$, $yi$ a un cluster $k$. Dada una asignación de $nk$ registros al cluster $k$, el centro del cluster $xk$, $yk$ es la media de los puntos en el cluster:
$$\bar{x}_k = \frac{1}{n_k} \sum_{i \in \text{Cluster } k} x_i$$

$$\bar{y}_k = \frac{1}{n_k} \sum_{i \in \text{Cluster } k} y_i$$

### Media del Cluster
En el agrupamiento de registros con múltiples variables (el caso típico), el término "media del cluster" no se refiere a un solo número, sino al vector de medias de las variables.

La suma de cuadrados dentro de un cluster se da por:

$$SS_k = \sum_{i \in \text{Cluster } k} (x_i - \bar{x}_k)^2 + (y_i - \bar{y}_k)^2$$ 

K-means encuentra la asignación de registros que minimiza la suma de cuadrados dentro del cluster a través de los cuatro clusters $SS_1 + SS_2 + SS_3 + SS_4$:

 $$\sum_{k=1}^{4} SS_k$$ 

Un uso típico del agrupamiento es localizar clusters naturales y separados en los datos. Otra aplicación es dividir los datos en un número predeterminado de grupos separados, donde el agrupamiento se utiliza para garantizar que los grupos sean lo más diferentes posible entre sí.

Por ejemplo, supongamos que queremos dividir los retornos diarios de acciones en cuatro grupos. El agrupamiento K-means se puede utilizar para separar los datos en las mejores agrupaciones. Es importante destacar que los retornos diarios de las acciones se informan de manera estandarizada, por lo que no necesitamos normalizar los datos. En R, el agrupamiento K-means se puede realizar utilizando la función kmeans. Por ejemplo, lo siguiente encuentra cuatro clusters basados en dos variables: los retornos diarios de acciones para ExxonMobil (XOM) y Chevron (CVX).

Utilizamos el método sklearn.cluster.KMeans de scikit-learn en Python:

La asignación de cluster para cada registro se devuelve como el componente del cluster (R).

En scikit-learn, las etiquetas de los clusters están disponibles en el campo labels_:

Los primeros seis registros están asignados a los clusters 1 o 2. Las medias de los clusters también se devuelven (R):

En scikit-learn, los centros de los clusters están disponibles en el campo cluster_centers_:

Los clusters 1 y 3 representan mercados "a la baja", mientras que los clusters 2 y 4 representan mercados "al alza".

Dado que el algoritmo K-means utiliza puntos de inicio aleatorios, los resultados pueden diferir entre ejecuciones posteriores e implementaciones diferentes del método. En general, debes verificar que las fluctuaciones no sean demasiado grandes.

En este ejemplo, con solo dos variables, es sencillo visualizar los clusters y sus medias:

La función de gráfico de dispersión de seaborn facilita la coloración (hue) y el estilo (style) de los puntos según una propiedad:

El gráfico resultante, mostrado en la Figura 7-5, muestra las asignaciones de los clusters y las medias de los clusters. Ten en cuenta que K-means asignará registros a clusters, incluso si esos clusters no están bien separados (lo cual puede ser útil si necesitas dividir los registros de manera óptima en grupos).

![Captura de pantalla 2024-02-11 120434.png](attachment:3ded6a6e-9b3f-4c52-9eea-9911365c9ba6.png)

**Figura 7-5.** Los clusters de K-means aplicados a los retornos diarios de acciones para ExxonMobil y Chevron (los centros de los clusters están resaltados con símbolos negros)

# Algoritmo K-Means

En general, K-means se puede aplicar a un conjunto de datos con p variables \( X_1, \ldots, X_p \). Si bien la solución exacta para K-means es computacionalmente muy difícil, los algoritmos heurísticos proporcionan una forma eficiente de calcular una solución óptima local.

El algoritmo comienza con un K especificado por el usuario y un conjunto inicial de medias de cluster, luego itera los siguientes pasos:
1. Asigna cada registro a la media de cluster más cercana medida por la distancia al cuadrado.
2. Calcula las nuevas medias de cluster basadas en la asignación de registros.

El algoritmo converge cuando la asignación de registros a clusters no cambia. Para la primera iteración, necesitas especificar un conjunto inicial de medias de cluster. Usualmente, haces esto asignando aleatoriamente cada registro a uno de los K clusters y luego encontrando las medias de esos clusters.

Dado que este algoritmo no garantiza encontrar la mejor solución posible, se recomienda ejecutar el algoritmo varias veces utilizando muestras aleatorias diferentes para inicializarlo. Cuando se utilizan más de un conjunto de iteraciones, el resultado de K-means se da por la iteración que tiene la suma de cuadrados dentro del cluster más baja.

El parámetro `nstart` de la función kmeans en R te permite especificar el número de intentos aleatorios a probar. Por ejemplo, el siguiente código ejecuta K-means para encontrar 5 clusters usando 10 medias de cluster iniciales diferentes:

La función automáticamente devuelve la mejor solución de los 10 puntos iniciales diferentes. Puedes usar el argumento `iter.max` para establecer el número máximo de iteraciones permitidas para el algoritmo en cada punto inicial aleatorio.

El algoritmo de scikit-learn se repite 10 veces por defecto (n_init). El argumento `max_iter` (por defecto 300) se puede utilizar para controlar el número de iteraciones:

# Interpretación de los Clusters

Una parte importante del análisis de clusters puede involucrar la interpretación de los clusters. Los dos resultados más importantes de kmeans son los tamaños de los clusters y las medias de los clusters. Para el ejemplo en la subsección anterior, los tamaños de los clusters resultantes se obtienen mediante este comando en R:

En Python, podemos usar la clase `Counter` del módulo `collections` de la biblioteca estándar para obtener esta información. Debido a diferencias en la implementación y la aleatoriedad inherente del algoritmo, los resultados variarán:

Los tamaños de los clusters son relativamente equilibrados. Los clusters desequilibrados pueden resultar de valores atípicos distantes, o de grupos de registros muy distintos del resto de los datos, ambos pueden requerir una inspección adicional.

Puedes graficar los centros de los clusters utilizando la función gather junto con ggplot:

El código para crear esta visualización en Python es similar a lo que usamos para PCA:

El gráfico resultante se muestra en la Figura 7-6 y revela la naturaleza de cada cluster. Por ejemplo, los clusters 4 y 5 corresponden a días en los que el mercado está a la baja y al alza, respectivamente. Los clusters 2 y 3 se caracterizan por días de mercado al alza para acciones de consumo y días de mercado a la baja para acciones de energía, respectivamente. Finalmente, el cluster 1 captura los días en los que las acciones de energía estaban al alza y las de consumo estaban a la baja.

![Captura de pantalla 2024-02-11 120733.png](attachment:e0b7b75f-052d-4844-bb5d-62893ff80576.png)

**Figura 7-6.** Las medias de las variables en cada cluster ("medias de los clusters")

### Análisis de Clusters versus PCA
El gráfico de las medias de los clusters es similar en espíritu a mirar las cargas para el análisis de componentes principales (PCA); ver "Interpretando Componentes Principales" en la página 289. Una distinción importante es que, a diferencia de PCA, el signo de las medias de los clusters tiene un significado. PCA identifica direcciones principales de variación, mientras que el análisis de clusters encuentra grupos de registros ubicados cerca uno del otro.

# Selección del Número de Clusters
El algoritmo K-means requiere que especifiques el número de clusters K. A veces, el número de clusters está determinado por la aplicación. Por ejemplo, una empresa que gestiona una fuerza de ventas podría querer agrupar a los clientes en "personas" para enfocar y guiar las llamadas de ventas. En tal caso, consideraciones gerenciales dictarían el número de segmentos de clientes deseados; por ejemplo, dos no podría diferenciar útilmente a los clientes, mientras que ocho podrían ser demasiados para gestionar.

En ausencia de un número de clusters dictado por consideraciones prácticas o gerenciales, se podría usar un enfoque estadístico. No hay un método estándar único para encontrar el "mejor" número de clusters.

Un enfoque común, llamado método del codo, es identificar cuándo el conjunto de clusters explica "la mayor parte" de la varianza en los datos. Agregar nuevos clusters más allá de este conjunto contribuye relativamente poco a la varianza explicada. El codo es el punto donde la varianza explicada acumulativa se aplana después de aumentar abruptamente, de ahí el nombre del método.

La Figura 7-7 muestra el porcentaje acumulado de varianza explicada para los datos predeterminados para el número de clusters que varía de 2 a 15. ¿Dónde está el codo en este ejemplo? No hay un candidato obvio, ya que el aumento incremental en la varianza explicada disminuye gradualmente. Esto es bastante típico en datos que no tienen clusters bien definidos. Este es quizás un inconveniente del método del codo, pero revela la naturaleza de los datos.

![Captura de pantalla 2024-02-11 120843.png](attachment:a9a0e268-eb2d-4813-abc5-68e91eaae74b.png)

**Figura 7-7.** El método del codo aplicado a los datos de acciones

En R, la función kmeans no proporciona un comando único para aplicar el método del codo, pero se puede aplicar fácilmente a partir de la salida de kmeans como se muestra aquí:

Para el resultado de KMeans, obtenemos esta información de la propiedad inertia_. Después de convertirlo en un DataFrame de pandas, podemos usar su método plot para crear el gráfico:

Al evaluar cuántos clusters retener, quizás la prueba más importante sea esta: ¿qué tan probable es que los clusters se repliquen en nuevos datos? ¿Son los clusters interpretables y se relacionan con una característica general de los datos, o simplemente reflejan una instancia específica? Puedes evaluar esto, en parte, utilizando la validación cruzada; consulta "Validación Cruzada" en la página 155.

En general, no hay una regla única que guíe de manera confiable cuántos clusters producir.

**Nota:**

Existen varios métodos más formales para determinar el número de clusters basados en teoría estadística o de la información. Por ejemplo, Robert Tibshirani, Guenther Walther y Trevor Hastie proponen una "estadística de brecha" basada en teoría estadística para identificar el codo. Para la mayoría de las aplicaciones, un enfoque teórico probablemente no sea necesario, ni siquiera apropiado.

### Ideas Clave
- El número de clusters deseados, K, es elegido por el usuario.
- El algoritmo desarrolla clusters asignando iterativamente registros al centro de cluster más cercano hasta que las asignaciones de clusters no cambian.
- Consideraciones prácticas generalmente dominan la elección de K; no hay un número óptimo de clusters determinado estadísticamente.

# Clustering Jerárquico
El clustering jerárquico es una alternativa a K-means que puede generar clusters muy diferentes. El clustering jerárquico permite al usuario visualizar el efecto de especificar diferentes números de clusters. Es más sensible para descubrir grupos o registros atípicos o aberrantes. El clustering jerárquico también se presta a una visualización gráfica intuitiva, lo que facilita la interpretación de los clusters.

### Términos Clave para Clustering Jerárquico
- Dendrograma:
Una representación visual de los registros y la jerarquía de clusters a los que pertenecen.

- Distancia:
Una medida de qué tan cerca está un registro de otro.

- Disimilitud:
Una medida de qué tan cerca está un cluster de otro.

La flexibilidad del clustering jerárquico tiene un costo, y el clustering jerárquico no escala bien a conjuntos de datos grandes con millones de registros. Incluso para conjuntos de datos de tamaño moderado con solo decenas de miles de registros, el clustering jerárquico puede requerir recursos computacionales intensivos. De hecho, la mayoría de las aplicaciones de clustering jerárquico se centran en conjuntos de datos relativamente pequeños.

# Un Ejemplo Sencillo
El clustering jerárquico funciona en un conjunto de datos con n registros y p variables y se basa en dos bloques básicos:
- Una métrica de distancia $di,_j$ para medir la distancia entre dos registros $i$ y $j$.
- Una métrica de disimilitud $D_A$, $B$ para medir la diferencia entre dos clusters $A$ y $B$ basada en las distancias $di,_j$ entre los miembros de cada cluster.
Para aplicaciones que involucran datos numéricos, la elección más importante es la métrica de disimilitud. El clustering jerárquico comienza estableciendo cada registro como su propio cluster y itera para combinar los clusters menos disímiles.
En R, la función hclust se puede utilizar para realizar clustering jerárquico. Una gran diferencia con hclust en comparación con kmeans es que opera en las distancias entre pares $di,_j$ en lugar de los datos en sí. Puedes calcular estas distancias usando la función dist. Por ejemplo, lo siguiente aplica clustering jerárquico a los rendimientos de acciones para un conjunto de empresas:

Los algoritmos de clustering agruparán los registros (filas) de un marco de datos. Dado que queremos agrupar las empresas, necesitamos transponer (t) el marco de datos y colocar las acciones a lo largo de las filas y las fechas a lo largo de las columnas.
El paquete scipy ofrece varios métodos diferentes para el clustering jerárquico en el módulo scipy.cluster.hierarchy. Aquí usamos la función linkage con el método "complete":

# El Dendrograma
El clustering jerárquico se presta a una representación gráfica natural como un árbol, denominado dendrograma. El nombre proviene de las palabras griegas dendro (árbol) y gramma (dibujo). En R, puedes producir fácilmente esto usando el comando plot:

Podemos usar el método dendrogram para trazar el resultado de la función de enlace en Python:

El resultado se muestra en la Figura 7-8 (nota que ahora estamos trazando empresas que son similares entre sí, no días). Las hojas del árbol corresponden a los registros. La longitud de la rama en el árbol indica el grado de disimilitud entre los clusters correspondientes. Los rendimientos de Google y Amazon son bastante disimilares entre sí y a los rendimientos de las otras acciones. Las acciones de petróleo (SLB, CVX, XOM, COP) están en su propio cluster, Apple (AAPL) está sola, y el resto son similares entre sí.

![Captura de pantalla 2024-02-11 121419.png](attachment:0bcebdfc-4ee2-4665-a309-abe84d7180e8.png)

**Figura 7-8.** Un dendrograma de acciones

A diferencia de K-means, no es necesario especificar previamente el número de clusters. Gráficamente, puedes identificar diferentes números de clusters con una línea horizontal que se desliza hacia arriba o hacia abajo; un cluster se define dondequiera que la línea horizontal intersecte las líneas verticales. Para extraer un número específico de clusters, puedes usar la función cutree:

En Python, logras lo mismo con el método fcluster:

El número de clusters a extraer se establece en 4, y puedes ver que Google y Amazon pertenecen cada uno a su propio cluster. Las acciones de petróleo pertenecen todas a otro cluster. Las acciones restantes están en el cuarto cluster.

# El algoritmo aglomerativo

El algoritmo principal para el agrupamiento jerárquico es el algoritmo aglomerativo, que fusiona iterativamente clusters similares. El algoritmo aglomerativo comienza con cada registro constituyendo su propio cluster de un solo registro y luego construye clusters cada vez más grandes. El primer paso es calcular las distancias entre todos los pares de registros.

Para cada par de registros $(x_1, x_2, ..., x_p)$ e $(y_1, y_2, ..., y_p)$, medimos la distancia entre los dos registros, $d_x, _y$, utilizando una métrica de distancia (ver "Métricas de distancia" en la página 241). Por ejemplo, podemos usar la distancia euclidiana:

$$d (x, y) = (x1 - y1)^2 + (x2 - y2)^2 + ... + (xp - yp)^2$$

Ahora pasamos a la distancia entre clusters. Consideremos dos clusters A y B, cada uno con un conjunto distintivo de registros, $A = a1, a2, ..., am y B = b1, b2, ..., bq$. Podemos medir la disimilitud entre los clusters $DA$, $B$ utilizando las distancias entre los miembros de $A$ y los miembros de $B$.

Una medida de disimilitud es el método de enlace completo, que es la distancia máxima entre todos los pares de registros entre $A$ y $B$:

$$D (A, B) = max d(ai, b_j) \text{ para todos los pares } i, j$$

Esto define la disimilitud como la mayor diferencia entre todos los pares.

Los principales pasos del algoritmo aglomerativo son:

1. Crear un conjunto inicial de clusters con cada cluster consistiendo en un solo registro para todos los registros en los datos.
2. Calcular la disimilitud $D(Ck, Cℓ)$ entre todos los pares de clusters $k$, $ℓ$.
3. Fusionar los dos clusters $Ck$ y $Cℓ$ que son menos disímiles según se mide por $D(Ck, Cℓ)$.
4. Si tenemos más de un cluster restante, volver al paso 2. De lo contrario, hemos terminado.

# Medidas de disimilitud
Hay cuatro medidas comunes de disimilitud: enlace completo, enlace simple, enlace promedio y varianza mínima. Estas (junto con otras medidas) son compatibles con la mayoría del software de agrupamiento jerárquico, incluyendo hclust y linkage. El método de enlace completo definido anteriormente tiende a producir clusters con miembros que son similares. El método de enlace simple es la distancia mínima entre los registros en dos clusters:

$$D(A, B) = \min d(a_i, b_j) \text{ para todos los pares } i, j $$

Este es un método "codicioso" y produce clusters que pueden contener elementos bastante dispares. El método de enlace promedio es el promedio de todos los pares de distancias y representa un compromiso entre los métodos de enlace simple y completo. Finalmente, el método de varianza mínima, también conocido como método de Ward, es similar a K-means ya que minimiza la suma de cuadrados dentro del cluster (ver "Clustering K-Means" en la página 294).

La Figura 7-9 aplica el agrupamiento jerárquico utilizando las cuatro medidas a los rendimientos de las acciones de ExxonMobil y Chevron. Para cada medida, se retienen cuatro clusters.

![Captura de pantalla 2024-02-11 122222.png](attachment:0e2a8b27-c1a1-4c20-ac90-18d32999ec1e.png)

**Figura 7-9.** Una comparación de medidas de disimilitud aplicadas a datos de acciones

Los resultados son notablemente diferentes: la medida de enlace único asigna casi todos los puntos a un solo grupo. Excepto el método de mínima varianza (R: Ward.D; Python: ward), todas las medidas terminan con al menos un grupo con solo unos pocos puntos atípicos. El método de mínima varianza es el más similar al clúster de K-medias; compárese con la Figura 7-5.

### Ideas Clave
- El agrupamiento jerárquico comienza con cada registro en su propio clúster.
- Progresivamente, los clústeres se unen a clústeres cercanos hasta que todos los registros pertenecen a un solo clúster (el algoritmo aglomerativo).
- El historial de aglomeración se conserva y se representa gráficamente, y el usuario (sin especificar el número de clústeres de antemano) puede visualizar el número y la estructura de clústeres en diferentes etapas.
- Las distancias inter-clúster se calculan de diferentes maneras, todas basadas en el conjunto de todas las distancias entre registros.

# Agrupamiento Basado en Modelos
Los métodos de agrupamiento como el agrupamiento jerárquico y K-means se basan en heurísticas y se centran principalmente en encontrar clústeres cuyos miembros estén cerca unos de otros, según se mida directamente con los datos (no hay un modelo de probabilidad involucrado). En los últimos 20 años, se ha dedicado un esfuerzo significativo al desarrollo de métodos de agrupamiento basados en modelos.
Adrian Raftery y otros investigadores de la Universidad de Washington realizaron contribuciones críticas al agrupamiento basado en modelos, que incluyen tanto teoría como software. Las técnicas se basan en la teoría estadística y proporcionan formas más rigurosas de determinar la naturaleza y el número de clústeres. Podrían utilizarse, por ejemplo, en casos donde pueda haber un grupo de registros que sean similares entre sí pero no necesariamente cercanos entre sí (por ejemplo, acciones tecnológicas con alta varianza de rendimientos), y otro grupo de registros que sean similares y también cercanos (por ejemplo, acciones de servicios públicos con baja varianza).

# Distribución Normal Multivariada
Los métodos de agrupamiento basados en modelos más ampliamente utilizados se basan en la distribución normal multivariada. La distribución normal multivariada es una generalización de la distribución normal a un conjunto de p variables $(X_1, X_2, \ldots, X_p)$. La distribución está definida por un conjunto de medias $(\mu = \mu_1, \mu_2, \ldots, \mu_p)$ y una matriz de covarianza $(\Sigma)$. La matriz de covarianza es una medida de cómo se correlacionan las variables entre sí (consulte "Matriz de Covarianza" en la página 202 para obtener detalles sobre la covarianza). La matriz de covarianza $(\Sigma)$ consta de $p$ varianzas $(\sigma_1^2, \sigma_2^2, \ldots, \sigma_p^2$ y covarianzas $\sigma_{i,j}$ para todos los pares de variables $i \neq j$. Con las variables colocadas a lo largo de las filas y duplicadas a lo largo de las columnas, la matriz se ve así:

$$
\Sigma = 
\begin{pmatrix}
\sigma_1^2 & \sigma_{1,2} & \ldots & \sigma_{1,p} \\
\sigma_{2,1} & \sigma_2^2 & \ldots & \sigma_{2,p} \\
\vdots & \vdots & \ddots & \vdots \\
\sigma_{p,1} & \sigma_{p,2} & \ldots & \sigma_p^2 \\
\end{pmatrix}
$$

Tenga en cuenta que la matriz de covarianza es simétrica alrededor de la diagonal de la esquina superior izquierda a la esquina inferior derecha. Dado que \(\sigma_{i,j} = \sigma_{j,i}\), solo hay \(p \times \frac{p-1}{2}\) términos de covarianza. En total, la matriz de covarianza tiene \(p \times \frac{p-1}{2} + p\) parámetros. La distribución se denota por:

$$X_1, X_2, \ldots, X_p \sim \mathcal{N}_p(\mu, \Sigma)$$

Esta es una forma simbólica de decir que las variables están todas distribuidas normalmente, y la distribución general está completamente descrita por el vector de medias de las variables y la matriz de covarianza.

La Figura 7-10 muestra los contornos de probabilidad para una distribución normal multivariada para dos variables $X$ e $Y$ (por ejemplo, el contorno de probabilidad 0.5 contiene el 50% de la distribución).

Las medias son $(\mu_x = 0.5)$ y $(\mu_y = -0.5)$, y la matriz de covarianza es:

$$
\Sigma = 
\begin{pmatrix}
1 & 1 \\
1 & 2 \\
\end{pmatrix}
$$

Dado que la covarianza $(\sigma_{xy})$ es positiva, $X$ e $Y$ están correlacionadas positivamente.

![Captura de pantalla 2024-02-11 122832.png](attachment:bd62e79c-41aa-477d-8fbc-91b2486822ea.png)

**Figura 7-10.** Contornos de probabilidad para una distribución normal bidimensional.

# Mezclas de Normales

La idea clave detrás de la agrupación basada en modelos es que se asume que cada registro está distribuido como una de las $K$ distribuciones normales multivariadas, donde $K$ es el número de agrupaciones. Cada distribución tiene una media $μ$ y una matriz de covarianza $Σ$ diferentes. Por ejemplo, si tienes dos variables, $X$ e $Y$, entonces cada fila $Xi$, $Yi$ se modela como si hubiera sido muestreada de una de las K distribuciones normales multivariadas $N(μ1, Σ1), N(μ2, Σ2), ..., N(μK, ΣK)$.

R tiene un paquete muy completo para la agrupación basada en modelos llamado mclust, desarrollado originalmente por Chris Fraley y Adrian Raftery. Con este paquete, podemos aplicar la agrupación basada en modelos a los datos de rendimiento de acciones que previamente analizamos utilizando K-means y agrupación jerárquica.

scikit-learn tiene la clase sklearn.mixture.GaussianMixture para la agrupación basada en modelos:

Si ejecutas este código, notarás que la computación lleva significativamente más tiempo que otros procedimientos. Extrayendo las asignaciones de grupos usando la función predict, podemos visualizar los grupos:

Aquí tienes el código en Python para crear una figura similar:

El gráfico resultante se muestra en la Figura 7-11. Hay dos grupos: uno en el centro de los datos y otro en el borde exterior de los datos. Esto es muy diferente de los grupos obtenidos usando K-means (Figura 7-5) y la agrupación jerárquica (Figura 7-9), que encuentran grupos compactos.

![Captura de pantalla 2024-02-11 123121.png](attachment:6a382ace-2900-4132-a6af-867b0a65b874.png)

**Figura 7-11.** Se obtienen dos grupos para los datos de rendimiento de acciones usando mclust.

Puedes extraer los parámetros de las distribuciones normales usando la función summary:

En Python, puedes obtener esta información de las propiedades means_ y covariances_ del resultado:

Las distribuciones tienen medias y correlaciones similares, pero la segunda distribución tiene varianzas y covarianzas mucho más grandes. Debido a la aleatoriedad del algoritmo, los resultados pueden variar ligeramente entre diferentes ejecuciones.

Los grupos de mclust pueden parecer sorprendentes, pero de hecho, ilustran la naturaleza estadística del método. El objetivo de la agrupación basada en modelos es encontrar el conjunto de distribuciones normales multivariadas que mejor se ajusten. Los datos de las acciones parecen tener una forma normal: ver los contornos de la Figura 7-10. De hecho, sin embargo, los rendimientos de las acciones tienen una distribución con colas más largas que una distribución normal. Para manejar esto, mclust ajusta una distribución a la mayor parte de los datos pero luego ajusta una segunda distribución con una varianza mayor.

# Selección del número de agrupaciones

A diferencia de K-means y la agrupación jerárquica, mclust selecciona automáticamente el número de agrupaciones en R (en este caso, dos). Lo hace eligiendo el número de agrupaciones para el cual el Criterio de Información Bayesiana (BIC, por sus siglas en inglés) tiene el valor más grande (el BIC es similar al AIC; ver "Selección de modelos y regresión paso a paso" en la página 156). El BIC funciona seleccionando el modelo que mejor se ajusta con una penalización por el número de parámetros en el modelo. En el caso de la agrupación basada en modelos, agregar más agrupaciones siempre mejorará el ajuste a expensas de introducir parámetros adicionales en el modelo.

**Nota:**

Es importante tener en cuenta que en la mayoría de los casos, el BIC se minimiza. Los autores del paquete mclust decidieron definir el BIC con el signo opuesto para facilitar la interpretación de los gráficos.

mclust ajusta 14 modelos diferentes con un número creciente de componentes y elige automáticamente un modelo óptimo. Puedes graficar los valores de BIC de estos modelos utilizando una función en mclust:

El número de agrupaciones, o el número de diferentes modelos normales multivariados (componentes), se muestra en el eje x (ver Figura 7-12).

![Captura de pantalla 2024-02-11 123339.png](attachment:5ec2207d-0c25-4b33-91e2-9b0f5fb067ad.png)

**Figura 7-12.** Valores de BIC para 14 modelos de los datos de rendimiento de acciones con un número creciente de componentes.

La implementación de GaussianMixture, por otro lado, no probará varias combinaciones. Como se muestra aquí, es sencillo ejecutar múltiples combinaciones usando Python. Esta implementación define el BIC como es habitual. Por lo tanto, el valor de BIC calculado será positivo y necesitaremos minimizarlo.

Con el argumento warm_start, el cálculo reutilizará la información del ajuste anterior. Esto acelerará la convergencia de los cálculos posteriores.

Este gráfico es similar al gráfico de codo utilizado para identificar el número de agrupaciones a elegir para K-means, excepto que el valor que se está trazando es BIC en lugar del porcentaje de varianza explicado (ver Figura 7-7). Una gran diferencia es que en lugar de una línea, mclust muestra 14 líneas diferentes. Esto se debe a que mclust en realidad ajusta 14 modelos diferentes para cada tamaño de agrupación, y finalmente elige el modelo que mejor se ajusta. GaussianMixture implementa menos enfoques, por lo que el número de líneas será solo cuatro.

¿Por qué mclust ajusta tantos modelos para determinar el mejor conjunto de normales multivariadas? Es porque hay diferentes formas de parametrizar la matriz de covarianza Σ para ajustar un modelo. En su mayor parte, no necesitas preocuparte por los detalles de los modelos y simplemente puedes usar el modelo elegido por mclust. En este ejemplo, según BIC, tres modelos diferentes (llamados VEE, VEV y VVE) dan el mejor ajuste usando dos componentes.

**Nota:**

La agrupación basada en modelos es un área de estudio rica y en rápido desarrollo, y la cobertura en este texto abarca solo una pequeña parte del campo. De hecho, el archivo de ayuda de mclust tiene actualmente 154 páginas. Navegar por los matices de la agrupación basada en modelos probablemente requiera más esfuerzo del necesario para la mayoría de los problemas encontrados por los científicos de datos.

Las técnicas de agrupación basada en modelos tienen algunas limitaciones. Los métodos requieren un supuesto subyacente de un modelo para los datos, y los resultados de los grupos dependen mucho de ese supuesto. Los requisitos de cálculo son más altos incluso que la agrupación jerárquica, lo que dificulta escalar a datos grandes. Finalmente, el algoritmo es más sofisticado y menos accesible que el de otros métodos.

### Ideas Clave:
- Se asume que los grupos provienen de diferentes procesos generadores de datos con diferentes distribuciones de probabilidad.
- Se ajustan diferentes modelos, asumiendo diferentes números de distribuciones (típicamente normales).
- El método elige el modelo (y el número asociado de grupos) que se ajusta bien a los datos sin utilizar demasiados parámetros (es decir, evitando el sobreajuste).

### Lecturas Recomendada

Para obtener más detalles sobre la agrupación basada en modelos, consulta la documentación de mclust y GaussianMixture.

# Escalar Variables y Variables Categóricas

Las técnicas de aprendizaje no supervisado generalmente requieren que los datos estén escalados adecuadamente. Esto difiere de muchas de las técnicas de regresión y clasificación en las que el escalado no es importante (una excepción es K-Nearest Neighbors; ver "K-Nearest Neighbors" en la página 238).

### Términos Clave para Escalar Datos:
- Escalado: Comprimir o expandir datos, generalmente para llevar múltiples variables a la misma escala.
- Normalización: Un método de escalado, que consiste en restar la media y dividir por la desviación estándar.
  Sinónimo: Estandarización.
- Distancia de Gower: Un algoritmo de escalado aplicado a datos numéricos y categóricos mixtos para llevar todas las variables a un rango de 0 a 1.

Por ejemplo, con los datos de préstamos personales, las variables tienen unidades y magnitudes ampliamente diferentes. Algunas variables tienen valores relativamente pequeños (por ejemplo, el número de años empleados), mientras que otras tienen valores muy grandes (por ejemplo, el monto del préstamo en dólares). Si los datos no están escalados, entonces el PCA, K-means y otros métodos de agrupación serán dominados por las variables con valores grandes e ignorarán las variables con valores pequeños.

Los datos categóricos pueden plantear un problema especial para algunos procedimientos de agrupación. Al igual que con K-Nearest Neighbors, las variables de factor no ordenadas suelen convertirse en un conjunto de variables binarias (0/1) utilizando la codificación one hot (ver "Codificador One Hot" en la página 242). No solo es probable que las variables binarias estén en una escala diferente de otros datos, sino que el hecho de que las variables binarias tengan solo dos valores puede resultar problemático con técnicas como PCA y K-means.

# Escalar las Variables
Las variables con escalas y unidades muy diferentes deben normalizarse adecuadamente antes de aplicar un procedimiento de agrupación. Por ejemplo, apliquemos kmeans a un conjunto de datos de incumplimientos de préstamos sin normalización:

Aquí tienes el código Python correspondiente:

Las variables annual_inc y revol_bal dominan los grupos, y los grupos tienen tamaños muy diferentes. El Grupo 1 tiene solo 52 miembros con un ingreso comparativamente alto y un saldo de crédito rotativo.

Un enfoque común para escalar las variables es convertirlas en puntuaciones z restando la media y dividiendo por la desviación estándar. Esto se denomina estandarización o normalización (ver "Estandarización (Normalización, Puntuaciones z)" en la página 243 para obtener más información sobre el uso de puntuaciones z):

$$z = (x - x) / s$$

Veamos qué sucede con los grupos cuando se aplica kmeans a los datos normalizados:

En Python, podemos usar StandardScaler de scikit-learn. El método inverse_transform permite convertir los centros de los grupos de vuelta a la escala original:

Los tamaños de los grupos están más equilibrados y los grupos no están dominados por annual_inc y revol_bal, revelando una estructura más interesante en los datos. Ten en cuenta que los centros se escalan nuevamente a las unidades originales en el código anterior. Si los hubiéramos dejado sin escalar, los valores resultantes estarían en términos de puntuaciones z y, por lo tanto, serían menos interpretables.

**Nota:**

El escalado también es importante para PCA. Utilizar las puntuaciones z es equivalente a utilizar la matriz de correlación (ver "Correlación" en la página 30) en lugar de la matriz de covarianza en el cálculo de los componentes principales. El software para calcular PCA generalmente tiene una opción para usar la matriz de correlación (en R, la función princomp tiene el argumento cor).

# Variables Dominantes

Incluso en casos donde las variables se miden en la misma escala y reflejan con precisión la importancia relativa (por ejemplo, movimientos de precios de acciones), a veces puede ser útil volver a escalar las variables.

Supongamos que agregamos Google (GOOGL) y Amazon (AMZN) al análisis en "Interpretación de Componentes Principales" en la página 289. Veamos cómo se hace esto en R a continuación:

En Python, obtenemos el gráfico de sedimentación de la siguiente manera:

El gráfico de sedimentación muestra las varianzas de los componentes principales principales. En este caso, el gráfico de sedimentación en la Figura 7-13 revela que las varianzas de los primeros y segundos componentes son mucho más grandes que las demás. Esto suele indicar que una o dos variables dominan las cargas. Este es, de hecho, el caso en este ejemplo:

En Python, utilizamos lo siguiente:

Los dos primeros componentes principales están casi completamente dominados por GOOGL y AMZN. Esto se debe a que los movimientos de precios de las acciones de GOOGL y AMZN dominan la variabilidad.

Para manejar esta situación, puedes incluirlos tal como están, volver a escalar las variables (ver "Escalar las Variables" en la página 319) o excluir las variables dominantes del análisis y manejarlas por separado. No hay un enfoque "correcto", y el tratamiento depende de la aplicación.

![Captura de pantalla 2024-02-11 123919.png](attachment:941ec2af-f2a2-457d-b35d-0ef08289a4fa.png)

**Figura 7-13.** Un gráfico de sedimentación para un PCA de las principales acciones del S&P 500, incluyendo GOOGL y AMZN

# Datos Categóricos y Distancia de Gower

En el caso de datos categóricos, debes convertirlos a datos numéricos, ya sea por clasificación (para un factor ordenado) o mediante codificación como un conjunto de variables binarias (dummy). Si los datos consisten en variables continuas y binarias mixtas, generalmente querrás escalar las variables para que los rangos sean similares; ver "Escalar las Variables" en la página 319. Un método popular es utilizar la distancia de Gower.

La idea básica detrás de la distancia de Gower es aplicar una métrica de distancia diferente a cada variable según el tipo de datos:
- Para variables numéricas y factores ordenados, la distancia se calcula como el valor absoluto de la diferencia entre dos registros (distancia de Manhattan).
- Para variables categóricas, la distancia es 1 si las categorías entre dos registros son diferentes, y la distancia es 0 si las categorías son iguales.

La distancia de Gower se calcula de la siguiente manera:
1. Calcular la distancia di,j para todos los pares de variables i y j para cada registro.
2. Escalar cada par di,j para que el mínimo sea 0 y el máximo sea 1.
3. Sumar las distancias escaladas en pares entre variables, utilizando un promedio simple o ponderado, para crear la matriz de distancias.

Para ilustrar la distancia de Gower, tomemos algunas filas de los datos de préstamos en R:

La función `daisy` en el paquete `cluster` en R se puede utilizar para calcular la distancia de Gower.

En el momento de escribir esto, la distancia de Gower no está disponible en ninguno de los paquetes populares de Python. Sin embargo, hay actividades en curso para incluirla en scikit-learn. Actualizaremos el código fuente correspondiente una vez que se publique la implementación.

Todas las distancias están entre 0 y 1. El par de registros con la mayor distancia es 2 y 3: ninguno tiene los mismos valores para home y purpose, y tienen niveles muy diferentes de dti (deuda-ingresos) y payment_inc_ratio. Los registros 3 y 5 tienen la distancia más pequeña porque comparten los mismos valores para home y purpose.

Puedes pasar la matriz de distancia de Gower calculada desde `daisy` a `hclust` para realizar una agrupación jerárquica (ver "Agrupación Jerárquica" en la página 304):

El dendrograma resultante se muestra en la Figura 7-14. Los registros individuales no son distinguibles en el eje x, pero podemos cortar el dendrograma horizontalmente en 0.5 y examinar los registros en uno de los subárboles con este código:

Este subárbol consiste enteramente de propietarios con un propósito de préstamo etiquetado como "consolidación de deudas". Si bien la separación estricta no es cierta para todos los subárboles, esto ilustra que las variables categóricas tienden a agruparse juntas en los clusters.

![Captura de pantalla 2024-02-11 124110.png](attachment:134001d6-2137-4c3a-abfc-237458714bf0.png)

**Figura 7-14.** Un dendrograma de hclust aplicado a una muestra de datos de incumplimiento de préstamos con tipos de variables mixtas

# Problemas con la Agrupación de Datos Mixtos
K-means y PCA son más apropiados para variables continuas. Para conjuntos de datos más pequeños, es mejor usar agrupación jerárquica con la distancia de Gower. En principio, no hay razón por la cual K-means no se pueda aplicar a datos binarios o categóricos. Normalmente, utilizarías la representación "one hot encoder" (ver "Codificador One Hot" en la página 242) para convertir los datos categóricos en valores numéricos. Sin embargo, en la práctica, usar K-means y PCA con datos binarios puede ser difícil.

Si se utilizan las puntuaciones z estándar, las variables binarias dominarán la definición de los grupos. Esto se debe a que las variables 0/1 toman solo dos valores, y K-means puede obtener una suma de cuadrados dentro del grupo pequeña asignando todos los registros con un 0 o 1 a un solo grupo. Por ejemplo, aplicar kmeans a datos de incumplimiento de préstamos que incluyen variables de factor home y pub_rec_zero, mostradas aquí en R:

En Python:

Los cuatro primeros grupos son esencialmente representaciones de los diferentes niveles de las variables de factor. Para evitar este comportamiento, podrías escalar las variables binarias para que tengan una varianza más pequeña que otras variables. Alternativamente, para conjuntos de datos muy grandes, podrías aplicar la agrupación a diferentes subconjuntos de datos que toman valores categóricos específicos. Por ejemplo, podrías aplicar la agrupación por separado a aquellos préstamos otorgados a alguien que tiene una hipoteca, es propietario de una casa o alquila.

### Ideas Clave:
- Las variables medidas en diferentes escalas deben transformarse a escalas similares para que su impacto en los algoritmos no esté determinado principalmente por su escala.
- Un método común de escalado es la normalización (estandarización): restar la media y dividir por la desviación estándar.
- Otro método es la distancia de Gower, que escala todas las variables al rango de 0 a 1 (a menudo se usa con datos numéricos y categóricos mixtos).

# Resumen:

Para la reducción de la dimensionalidad de datos numéricos, las principales herramientas son el análisis de componentes principales o la agrupación K-means. Ambos requieren atención al escalado adecuado de los datos para garantizar una reducción de datos significativa.

Para la agrupación con datos altamente estructurados en los que los grupos están bien separados, es probable que todos los métodos produzcan un resultado similar. Cada método ofrece sus propias ventajas. K-means escala muy bien a conjuntos de datos muy grandes y es fácil de entender. La agrupación jerárquica se puede aplicar a tipos de datos mixtos, numéricos y categóricos, y se presta a una visualización intuitiva (el dendrograma). La agrupación basada en modelos se basa en la teoría estadística y proporciona un enfoque más riguroso en comparación con los métodos heurísticos.

Para conjuntos de datos muy grandes, sin embargo, K-means es el principal método utilizado.

Con datos ruidosos, como los datos de préstamos y acciones (y gran parte de los datos que enfrentará un científico de datos), la elección es más clara. K-means, la agrupación jerárquica y especialmente la agrupación basada en modelos producen soluciones muy diferentes. ¿Cómo debería proceder un científico de datos? Desafortunadamente, no hay una regla general simple para guiar la elección. En última instancia, el método utilizado dependerá del tamaño de los datos y el objetivo de la aplicación.