### Clusters no Jer√°rquicos

Una liga internacional de **e-sports** quiere segmentar a sus equipos profesionales para dise√±ar programas de entrenamiento personalizados, estrategias de balanceo competitivo (emparejamientos, divisiones, etc.) y estrategias de contenido y retransmisi√≥n en plataformas de streaming.

Para ello se ha recopilado informaci√≥n de **$18$ equipos profesionales** de un mismo videojuego competitivo. Las variables disponibles son:

+ `Equipo`: identificador del equipo.

+ `Win_rate`: porcentaje de partidas ganadas en la √∫ltima temporada (%).

+ `KDA`: ratio medio de bajas/asistencias frente a muertes (Kill/Death/Assist ratio).

+ `Control_obj`: porcentaje de control de objetivos clave del mapa (torres, dragones, puntos de captura, etc.) (%).

+ `Entreno_horas`: horas medias de entrenamiento en equipo por semana.

El **objetivo** es aplicar t√©cnicas de clustering no jer√°rquico para identificar perfiles de equipos (por ejemplo, equipos hiperentrenados, equipos muy eficientes en objetivos, equipos dependientes del ‚Äúearly game‚Äù, etc.). La base de datos se resume en la siguiente tabla:

| Equipo  | Win_rate | KDA  | Control_obj | Entreno_horas |
| ------- | -------- | ---- | ----------- | ------------- |
| Team_01 | 69.6     | 3.93 | 66.0        | 31            |
| Team_02 | 66.5     | 4.21 | 49.9        | 30            |
| Team_03 | 54.7     | 2.43 | 71.2        | 18            |
| Team_04 | 49.1     | 3.69 | 63.4        | 24            |
| Team_05 | 57.9     | 4.20 | 30.1        | 32            |
| Team_06 | 54.2     | 3.55 | 54.7        | 24            |
| Team_07 | 67.4     | 2.92 | 73.4        | 37            |
| Team_08 | 50.6     | 1.80 | 42.2        | 18            |
| Team_09 | 56.7     | 2.80 | 46.3        | 32            |
| Team_10 | 60.4     | 3.33 | 73.5        | 25            |
| Team_11 | 71.8     | 4.24 | 39.6        | 32            |
| Team_12 | 57.7     | 4.40 | 58.4        | 21            |
| Team_13 | 49.9     | 2.93 | 41.9        | 40            |
| Team_14 | 66.5     | 4.10 | 78.4        | 34            |
| Team_15 | 61.6     | 2.28 | 70.2        | 32            |
| Team_16 | 48.8     | 3.92 | 52.4        | 33            |
| Team_17 | 71.8     | 3.15 | 34.0        | 24            |
| Team_18 | 74.4     | 1.54 | 46.0        | 29            |

Realizar los siguientes apartados:

1. Crear la base de datos a partir de dicha informaci√≥n y realizar el an√°lisis exploratorio.
2. Realizar el an√°lisis de la existencia de relaci√≥n y semejanza entre las variables.
3. Calcular la matriz de proximidad utilizando la distancia euclidiana.
4. Estimar e interpretar los modelos de clustering no jer√°rquicos considerando los cuatro m√©todos.
5. Calcular el n√∫mero de cl√∫sters √≥ptimos para cada uno de los cuatro m√©todos a partir de los tres criterios vistos.

<div style="background-color:#5DADE2"><b>Apartado 1</b></div>

In [None]:
# Crear el data frame con los datos indicados
wdata <- data.frame(
  Equipo = paste0("Team_", sprintf("%02d", 1:18)),
  Win_rate = c(69.6, 66.5, 54.7, 49.1, 57.9, 54.2, 67.4, 50.6, 56.7,
               60.4, 71.8, 57.7, 49.9, 66.5, 61.6, 48.8, 71.8, 74.4),
  KDA = c(3.93, 4.21, 2.43, 3.69, 4.20, 3.55, 2.92, 1.80, 2.80,
          3.33, 4.24, 4.40, 2.93, 4.10, 2.28, 3.92, 3.15, 1.54),
  Control_obj = c(66.0, 49.9, 71.2, 63.4, 30.1, 54.7, 73.4, 42.2, 46.3,
                  73.5, 39.6, 58.4, 41.9, 78.4, 70.2, 52.4, 34.0, 46.0),
  Entreno_horas = c(31, 30, 18, 24, 32, 24, 37, 18, 32,
                    25, 32, 21, 40, 34, 32, 33, 24, 29)
)

wdata


In [None]:
# Realizamos el an√°lisis exploratorio de las variables utilizadas
summary(wdata)

In [None]:
# Cargar librer√≠a necesaria para kurtosis
if(!require(moments, quietly = TRUE)){
  install.packages("moments", repos = "https://cloud.r-project.org")
  library(moments)
}

# Desviaci√≥n est√°ndar de todas las variables num√©ricas
sapply(wdata, sd, na.rm = TRUE)

In [None]:
# Curtosis de todas las variables num√©ricas
sapply(wdata[sapply(wdata, is.numeric)], kurtosis, na.rm = TRUE)


**<u>Interpretaci√≥n resultados</u>.-**

La base de datos contiene informaci√≥n de **18 equipos profesionales de e-sports** y cinco variables de las cuales cuatro cuantitativas que describen su rendimiento competitivo y su volumen de entrenamiento, sin presencia de valores at√≠picos ni registros an√≥malos. A continuaci√≥n se interpretan los estad√≠sticos descriptivos de cada variable en su contexto.

**Equipo** act√∫a como identificador √∫nico, con 18 equipos diferentes incluidos en el an√°lisis.

**Win_rate** recoge el porcentaje de victorias de cada equipo durante la √∫ltima temporada. Presenta valores entre 48.8 % y 74.4 %, con una media aproximada del 60.5 % y una mediana ligeramente menor (59.15 %). La desviaci√≥n est√°ndar (~ 8.51 pp) indica una dispersi√≥n moderada: existen diferencias apreciables entre equipos m√°s y menos consistentes. Su curtosis (~ 1.69) sugiere una distribuci√≥n con valores concentrados en un rango relativamente homog√©neo. En t√©rminos competitivos, los equipos muestran variabilidad en desempe√±o, aunque sin extremos de dominio absoluto ni bajo rendimiento cr√≠tico.

**KDA** mide el equilibrio entre eliminaciones/asistencias y muertes. Se sit√∫a entre 1.54 y 4.40, con media de 3.30 y mediana de 3.44, lo que apunta a una distribuci√≥n bastante sim√©trica. La desviaci√≥n est√°ndar (~ 0.88) refleja diferencias moderadas en eficiencia durante las partidas. La curtosis (~ 2.19) indica que la distribuci√≥n es ligeramente platic√∫rtica, sin colas pesadas. En t√©rminos de juego, los equipos muestran distintos estilos y niveles de eficacia mec√°nica, pero sin valores extremadamente bajos ni excepcionalmente altos.

**Control_obj**, porcentaje de control de objetivos del mapa, presenta el rango m√°s amplio del conjunto (30.1 %‚Äì78.4 %). La media (55.1 %) y la mediana (53.55 %) sugieren un desempe√±o medio-alto en la mayor√≠a de equipos. Sin embargo, la desviaci√≥n est√°ndar (~ 14.85) evidencia alta heterogeneidad: algunos equipos dominan con claridad los objetivos, mientras que otros tienen dificultades para competir en esta faceta t√°ctica. Su curtosis (~ 1.77) confirma la ausencia de colas marcadas y apunta a una distribuci√≥n m√°s aplanada que la normal.

Por √∫ltimo, **Entreno_horas**, las horas semanales de entrenamiento conjunto, oscila entre 18 y 40 h. La media (28.7 h) y la mediana (30.5 h) indican que la mayor√≠a de equipos se sit√∫an alrededor de las 30 h semanales. La desviaci√≥n est√°ndar (~ 6.24 h) revela diferencias notables en la carga de trabajo, posiblemente asociadas a filosof√≠as de entrenamiento o disponibilidad de recursos. Su curtosis (~ 2.22) muestra de nuevo una distribuci√≥n relativamente plana sin valores extremos.

En conjunto, las variables presentan **variabilidad moderada y ausencia de valores extremos**, lo que indica un comportamiento estad√≠stico estable en el que todos los equipos se sit√∫an en rangos razonables de rendimiento y dedicaci√≥n. Esto proporciona una base adecuada para aplicar m√©todos de clustering, ya que las diferencias observadas pueden ayudar a identificar perfiles competitivos diferenciados sin verse distorsionados por outliers.


In [None]:
# Seleccionar solo las variables num√©ricas
numeric_vars <- wdata[, sapply(wdata, is.numeric)]

# ---------- BOXPLOTS AUTOM√ÅTICOS ----------
par(mfrow = c(2, ceiling(ncol(numeric_vars)/2)))
for(i in 1:ncol(numeric_vars)){
  boxplot(numeric_vars[, i], main = colnames(numeric_vars)[i])
}

# ---------- HISTOGRAMAS AUTOM√ÅTICOS ----------
par(mfrow = c(2, ceiling(ncol(numeric_vars)/2)))
for(i in 1:ncol(numeric_vars)){
  hist(numeric_vars[, i], main = colnames(numeric_vars)[i], xlab = "")
}

# Volver a la configuraci√≥n normal
par(mfrow = c(1,1))


**<u>Interpretaci√≥n resultados</u>.‚Äì**

Los boxplots y los histogramas permiten comparar la **distribuci√≥n**, **variabilidad** y **diferencias estructurales** entre las cuatro variables num√©ricas: *Win_rate*, *KDA*, *Control_obj* y *Entreno_horas*. A continuaci√≥n se presenta un an√°lisis comparativo conjunto.

**Comparaci√≥n de dispersi√≥n y variabilidad**

A partir de los **boxplots**, se observa que ninguna variable presenta valores at√≠picos visibles, lo que indica estabilidad en las observaciones. Sin embargo, las variables difieren en su grado de dispersi√≥n:

- **Win_rate** y **Control_obj** son las m√©tricas con **mayor variabilidad**. Los rangos son amplios y abarcan equipos con rendimientos bajos hasta equipos significativamente fuertes. Esto refleja heterogeneidad competitiva, tanto en victorias como en control de objetivos.
- **KDA** y **Entreno_horas** muestran **menor dispersi√≥n**, con valores m√°s concentrados en intervalos estrechos. Esto sugiere comportamientos m√°s homog√©neos entre equipos en la eficiencia individual (KDA) y en el volumen semanal de entrenamiento.

**Comparaci√≥n de la forma de las distribuciones**

Los **histogramas** permiten contrastar c√≥mo se distribuye la informaci√≥n dentro de cada variable:

- **Win_rate** presenta una distribuci√≥n relativamente uniforme, sin acumulaciones muy marcadas, lo que indica variedad equilibrada en rendimiento general.
- **KDA** muestra una ligera tendencia hacia valores medios-altos, lo que sugiere que la mayor√≠a de equipos mantienen ratios de eficiencia razonablemente altos.
- **Control_obj** exhibe dos zonas destacadas: un grupo de equipos con control moderado y otro con valores altos, reflejando diferencias estrat√©gicas en la toma de objetivos.
- **Entreno_horas** tiene una distribuci√≥n algo sesgada hacia valores medios y altos, indicando que la mayor√≠a de equipos entrenan entre 25 y 35 horas semanales, con pocos en los extremos.

 **Conclusi√≥n**

Las cuatro variables difieren significativamente en su estructura interna. Mientras que *Win_rate* y *Control_obj* presentan mayor heterogeneidad indicando diferencias claras en nivel competitivo y control estrat√©gico del mapa variables como *KDA* y *Entreno_horas* son m√°s homog√©neas, lo que sugiere pr√°cticas y niveles de eficiencia m√°s similares entre los equipos. Esta comparaci√≥n evidencia que la competitividad no est√° determinada solo por la pr√°ctica o la eficiencia individual, sino por diferencias estructurales m√°s amplias entre equipos.


Para el an√°lisis posterior es necesario normalizar las variables num√©ricas.

In [None]:
# Seleccionar solo variables num√©ricas
num_vars <- wdata[, sapply(wdata, is.numeric)]

# Tipificar (escalado est√°ndar)
datos <- as.data.frame(scale(num_vars, center = TRUE, scale = TRUE))

# Si quieres mantener tambi√©n el nombre del municipio:
datos <- cbind(Equipo = wdata$Equipo,
                           datos)

datos


<div style="background-color:#5DADE2"><b>Apartado 2</b></div>

In [None]:
# Obtenemos informaci√≥n gr√°fica sobre la relaci√≥n de las variables
# Instalamos la librer√≠a GGally
install.packages("GGally")
install.packages("dplyr")

In [None]:
# Cargamos la librer√≠a
library(GGally)
library(dplyr)

In [None]:
# Seleccionar solo variables num√©ricas
datos_est <- datos %>% select(where(is.numeric))

# ggpairs solo con columnas num√©ricas
ggpairs(datos_est) +
  theme_minimal()


**<u>Interpretaci√≥n resultados</u>.-**  
La matriz de gr√°ficos permite analizar la estructura de relaci√≥n entre las variables estandarizadas vinculadas al rendimiento y comportamiento del jugador: *Win_rate*, *KDA*, *Control_obj* y *Entreno_horas*. En t√©rminos generales, **las correlaciones son muy bajas**, lo que indica que las variables aportan informaci√≥n bastante independiente entre s√≠ y, por tanto, pueden resultar √∫tiles en procesos de clustering sin riesgo de redundancia excesiva.

En primer lugar, la relaci√≥n entre **Entreno_horas y Win_rate** muestra la correlaci√≥n m√°s destacada (~ 0.21), aunque sigue siendo d√©bil. Esta tendencia sugiere que **un mayor tiempo de entrenamiento podr√≠a asociarse ligeramente con un mayor porcentaje de victorias**, pero la dispersi√≥n observada revela que no existe un patr√≥n lineal claro. Del mismo modo, la correlaci√≥n entre **Entreno_horas y KDA** (~ 0.19) apunta a que un mayor volumen de pr√°ctica podr√≠a asociarse con un desempe√±o algo m√°s eficiente en t√©rminos de bajas y asistencias, aunque de forma modesta.

Por otro lado, las variables **KDA** y **Win_rate** presentan una correlaci√≥n pr√°cticamente nula, lo cual indica que **tener buenos valores de KDA no garantiza necesariamente un mayor porcentaje de victorias**, probablemente por factores estrat√©gicos o por el rol desempe√±ado dentro del equipo. De igual modo, **Control_obj** no muestra relaciones lineales evidentes con ninguna de las otras m√©tricas (todas cercanas a 0), lo que sugiere que el dominio sobre objetivos del mapa depende de din√°micas distintas a las captadas por las otras variables.

En conjunto, la matriz indica que el conjunto de variables **no est√° fuertemente correlacionado**, lo cual es favorable para el an√°lisis de cl√∫steres, ya que cada una aporta una dimensi√≥n distinta del rendimiento o comportamiento del jugador. Esto permitir√° que los m√©todos de agrupamiento (jer√°rquicos o no jer√°rquicos) detecten perfiles diferenciados basados en m√∫ltiples facetas del desempe√±o sin que ninguna variable domine excesivamente a las dem√°s.


In [None]:
# Funci√≥n para obtener p-valores de cor.test
p_matrix <- function(df){
  vars <- colnames(df)
  n <- length(vars)
  M <- matrix(NA, n, n, dimnames = list(vars, vars))

  for(i in 1:n){
    for(j in 1:n){
      M[i,j] <- cor.test(df[[i]], df[[j]])$p.value
    }
  }
  return(M)
}

# Obtener matriz de p-valores
p_values_table <- p_matrix(datos_est)

# Mostrar la tabla
p_values_table

En un an√°lisis de correlaci√≥n, evaluamos si la relaci√≥n observada entre dos variables podr√≠a explicarse simplemente por azar. Para ello se plantea un contraste de hip√≥tesis:

- **Hip√≥tesis nula ($H_0$)**:
No existe correlaci√≥n real entre las dos variables.
Matem√°ticamente:

$$ùêª_0: ùúå=0$$

- **Hip√≥tesis alternativa ($H_1$)**:
S√≠ existe correlaci√≥n entre las dos variables (puede ser positiva o negativa).
Matem√°ticamente:
$$ùêª_1: ùúå‚â†0$$


El p-valor indica la probabilidad de obtener una correlaci√≥n igual o m√°s extrema que la observada, asumiendo que la hip√≥tesis nula es cierta.

Un **p-valor peque√±o (habitualmente p < 0.05**) sugiere que ser√≠a **muy improbable obtener esa correlaci√≥n por azar**, por lo que se **rechaza $H_0$** y se concluye que existe una correlaci√≥n significativa.

Un **p-valor grande** implica que los datos observados son compatibles con ausencia de correlaci√≥n, por lo que **no se puede rechazar $H_0$**.

En este caso todos son valores ampliamente superiores a 0.05 lo que indica que sus correlaciones son nulas.

<div style="background-color:#5DADE2"><b>Apartado 3</b></div>

Ahora se calcular√° la matriz de proximidad o matriz de distancias entre las observaciones.

Se usar√° la funci√≥n `dist()` para construir una matriz de distancias, que pertenece a la librer√≠a `base`. Se usar√° de la siguinete forma `dist(x, method = "euclidean")`, donde:

+ **x**: es el data num√©rico que contiene las observaciones y las variables.

+ **method**: indica el tipo de distancia que se desea calcular, en este caso se usar√° exclusivamnete:
  - "euclidean" (distancia euclidiana, por defecto)  

La funci√≥n devolver√° un objeto de clase `dist`, que almacena la matriz de distancias.




In [None]:
# Calculamos la matriz de distancias empleando la distancia euclidiana
datos_dist = dist(datos_est, method = "euclidean")

In [None]:
# Mostramos la estructura de la matriz de distancias
str(datos_dist)

In [None]:
# Mostramos las primeras seis filas de la matriz de distancias
matrix_dist = as.matrix(datos_dist)[1:6, 1:6]
head(matrix_dist)

In [None]:
# Instalamos la librer√≠a factoextra
install.packages("factoextra")

In [None]:
# Cargamos la librer√≠a factoextra
library(factoextra)

In [None]:
# Representamos mediante escalas de color la distancia entre todas las observaciones para ver
# si detectamos grupos de observaciones
suppressWarnings(
  fviz_dist(datos_dist, show_labels = TRUE)
)

**<u>Interpretaci√≥n resultados</u>.-**   La distancia usada es la **distancia euclidiana** la cuantifica **cu√°n diferentes son dos observaciones** midiendo la longitud del segmento que las une en un espacio multidimensional.

Si cada observaci√≥n viene dada por $p$ variables, la distancia entre dos individuos $x = (x_1,\dots,x_p)$ e $y = (y_1,\dots,y_p)$ se calcula como:

$$
d_{\text{euclidiana}}(x,y)
= \sqrt{(x_1 - y_1)^2 + \cdots + (x_p - y_p)^2 }.
$$

‚Äì **Cuanto menor es la distancia**, m√°s parecidas son las observaciones.  
‚Äì **Cuanto mayor es la distancia**, m√°s diferentes son.  

El mapa de distancias muestra la matriz de proximidad entre los 18 equipos tras tipificar las variables y calcular la **distancia euclidiana** entre cada par de ellos. Cada celda representa la distancia entre dos equipos:  
‚Äì Tonos **rojizos** ‚Üí distancias bajas ‚Üí equipos **muy similares**.  
‚Äì Tonos **azulados** ‚Üí distancias altas ‚Üí equipos **muy diferentes**.

La diagonal principal aparece en rojo intenso, como es natural, ya que la distancia de cada equipo consigo mismo es cero.

Al analizar el patr√≥n global, aparecen **zonas rojizas bien definidas** (especialmente hacia el centro del mapa, en la zona superior izquierda y la inferior derecha), lo que indica **bloques de equipos muy parecidos entre s√≠**, probablemente compartiendo niveles similares de win rate, horas de entrenamiento, control sobre los objetivos y ratios bajas/asistencias. Estos bloques sugieren la presencia de **cl√∫steres naturales y compactos**, que posteriormente deber√≠an emerger con claridad en algoritmos no jer√°rquicos.

Por otro lado, se observan **manchas azul oscuro** localizadas, especialmente en la parte inferior derecha y tambi√©n en ala parte superior izquierda. Estas zonas se√±alan equipos que son **marcadamente distintos** al resto, ya sea por su desempe√±o u horas de entrenamiento. Es probable que estos equipos act√∫en como **observaciones aisladas** dentro del clustering o formen grupos muy reducidos.

Finalmente, combinando las √°reas rojizas continuas con las zonas azuladas dispersas, el mapa sugiere la existencia de **entre dos y cuatro grupos** de equipos con perfiles diferenciados, lo cual respalda la pertinencia de avanzar hacia un an√°lisis de cl√∫ster no jer√°rquico.


<div style="background-color:#5DADE2"><b>Apartado 4</b></div>

A diferencia de los m√©todos jer√°rquicos, que construyen una secuencia completa de particiones anidadas, los enfoques no jer√°rquicos generan directamente una √∫nica partici√≥n del conjunto, lo que exige especificar o estimar par√°metros clave como el n√∫mero de grupos, la densidad m√≠nima o la forma de los clusters. Esta caracter√≠stica los hace computacionalmente eficientes y particularmente adecuados para bases de datos de tama√±o medio o grande.

En este estudio se considerar√°n **cuatro familias de m√©todos no jer√°rquicos**, cada una basada en un principio estructural diferente y capaz de capturar distintos tipos de patrones en los datos. Los **m√©todos basados en particiones** buscan la mejor asignaci√≥n de observaciones a k clusters optimizando una funci√≥n de distancia; los **m√©todos basados en densidad** detectan regiones densas y permiten descubrir grupos con formas arbitrarias; los **m√©todos basados en modelos** suponen que los datos provienen de una mezcla de distribuciones probabil√≠sticas y asignan probabilidades de pertenencia a cada cluster; y los **m√©todos basados en grafos** utilizan relaciones de similitud para identificar comunidades en estructuras complejas que no necesariamente siguen m√©tricas eucl√≠deas.

Cada uno de estos enfoques ser√° estimado e interpretado de manera individual, analizando c√≥mo particionan los datos, qu√© tipo de estructura capturan y bajo qu√© supuestos operan. Este conjunto de m√©todos permite obtener una visi√≥n completa y comparada de la organizaci√≥n interna del conjunto de datos, destacando similitudes y diferencias entre estrategias basadas en geometr√≠a, densidad, probabilidad o conectividad.


El algoritmo **k-means** es uno de los m√©todos de *clustering* m√°s utilizados debido a su eficiencia y simplicidad. Su objetivo es particionar un conjunto de datos en **k grupos no solapados**, de forma que cada observaci√≥n pertenezca al cluster cuyo centro (o **centroide**) est√© m√°s pr√≥ximo seg√∫n una m√©trica de distancia,en este caso la **distancia euclidiana**.
El proceso es iterativo: primero asigna cada observaci√≥n al centroide m√°s cercano y despu√©s recalcula los centroides como la media de las observaciones asignadas. Este procedimiento se repite hasta que las asignaciones dejan de cambiar o se alcanza el n√∫mero m√°ximo de iteraciones. .

Su soluci√≥n depende fuertemente de los valores iniciales de los centroides y puede converger a m√≠nimos locales. Por ello es habitual ejecutar varias inicializaciones aleatorias y seleccionar la mejor soluci√≥n.


Para estimar un modelo k-means en R se utiliza la funci√≥n **`kmeans()`** de la librer√≠a *base*. Su sintaxis general es:

`kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = "Hartigan-Wong")`

Los principales argumentos son:

- **`x`**: *data.frame* con **variables num√©ricas** sobre las que se realizar√° el clustering en este caso ser√≠a datos_est.
- **`centers`**: n√∫mero de clusters **k** o bien un conjunto de centroides iniciales.
- **`nstart`**: n√∫mero de distintas **inicializaciones aleatorias** a probar para evitar soluciones en m√≠nimos locales ya comentada.
- **`iter.max`**: n√∫mero m√°ximo de iteraciones permitidas del algoritmo.
- **`algorithm`**: versi√≥n del algoritmo de optimizaci√≥n; por defecto `"Hartigan-Wong"` que es el m√°s habitual y eficiente.



In [None]:
# Fijamos semilla para reproducibilidad
set.seed(123)

In [None]:
# Constru√≠mos el cl√∫ster no jer√°rquico con m√©todo k-means y distancia euclidiana
NHC_kmeans = kmeans(datos_est, centers = 4, nstart = 25, iter.max = 100, algorithm = "Hartigan-Wong")

In [None]:
# Constatamos la clase del objeto
class(NHC_kmeans)

In [None]:
# Informaci√≥n obtenida del cl√∫ster no jer√°rquico con m√©todo k-means y distancia euclidiana
str(NHC_kmeans)

El objeto contiene $9$ elementos los cuales se explicar√°n a continuaci√≥n:

El elemento `cluster` es un vector de longitud igual al n√∫mero de observaciones del conjunto de datos (18 en este caso). Cada posici√≥n contiene el **n√∫mero de cl√∫ster asignado** a la observaci√≥n correspondiente (el primer elemento estar√≠a en el cluster n√∫mero 4 junto al 7, 14 y 15). En k-means, esta asignaci√≥n es el resultado final del algoritmo tras iterar entre asignar puntos al centroide m√°s cercano y recalcular dichos centroides.


In [None]:
# N√∫mero de cl√∫ster asignado a cada uno de los clientes
NHC_kmeans$cluster

El componente `centers` es una matriz de dimensi√≥n **k √ó p** donde `k` es el n√∫mero de cl√∫steres y `p` el n√∫mero de variables empleadas. Cada fila contiene el **centroide** del cl√∫ster, expresado como la **media de cada variable dentro del grupo**.

En k-means el centroide tiene un significado completamente geom√©trico: es el **promedio de las observaciones asignadas** al cl√∫ster en el espacio estandarizado. Esto contrasta con el clustering jer√°rquico, donde la noci√≥n de centroide depende del m√©todo de enlace. Analizar estos valores permite comprender el "perfil medio" de cada grupo.


In [None]:
# Informaci√≥n sobre los centroides de cada cl√∫ster
NHC_kmeans$centers

El elemento `totss` representa la **suma de cuadrados total** respecto a la media global del dataset. Es una medida de la **variabilidad total** de los datos antes de agrupar. Este valor no depende del n√∫mero de cl√∫steres `k` y sirve como referencia del total de variaci√≥n presente.


In [None]:
# Informaci√≥n sobre la suma de cuadrados total
NHC_kmeans$totss

Este componente es un vector de longitud **k**, donde cada elemento mide la **suma de cuadrados intra‚Äìcl√∫ster** del grupo correspondiente. Representa la **compactaci√≥n interna** del cl√∫ster: valores bajos indican que las observaciones del grupo est√°n muy pr√≥ximas entre s√≠, mientras que valores altos reflejan alta dispersi√≥n.

En este caso el clusters 4 ser√≠a el m√°s compacto y el 3 ser√≠a el que posee m√°s dispersi√≥n.


In [None]:
# Informaci√≥n sobre la suma de cuadrados intra-cl√∫ster de cada cl√∫ster
NHC_kmeans$withinss

`tot.withinss` es la suma total de todas las `withinss`. Cuantifica la **variabilidad que queda dentro de los cl√∫steres** tras realizar la partici√≥n. Es precisamente el valor que se usa para construir el **m√©todo del codo**, comparando c√≥mo disminuye esta magnitud cuando se aumenta el n√∫mero de cl√∫steres.

Una buena elecci√≥n de `k` se refleja en valores relativamente bajos de `tot.withinss`, pero sin caer en aumentos exagerados de complejidad (a√±adir m√°s cl√∫steres de los necesarios).

In [None]:
# Informaci√≥n sobre el total de la suma de cuadrados intra-cl√∫ster
NHC_kmeans$tot.withinss

El valor `betweenss` representa la **variabilidad explicada por la separaci√≥n entre los cl√∫steres**, es decir, por la distancia entre sus centroides. Te√≥ricamente cumple que:

$$\text{totss} \approx \text{tot.withinss} + \text{betweenss}.$$

Cuanto mayor sea `betweenss` en proporci√≥n al total, mejor **separados** est√°n los grupos y m√°s estructura est√° captando el modelo. Por tanto, un clustering de buena calidad presenta `betweenss` alto y `tot.withinss` bajo.



In [None]:
# Informaci√≥n sobre la suma de cuadrados entre c√∫steres
NHC_kmeans$betweenss

El componente `size` es un vector de longitud **k** que indica el **n√∫mero de observaciones en cada cl√∫ster**. Revisar estos tama√±os es crucial, ya que cl√∫steres extremadamente peque√±os pueden sugerir:

- presencia de **outliers** agrupados,  
- un cl√∫ster poco estable,  
- o una mala elecci√≥n de `k`.

Cl√∫steres m√°s equilibrados suelen indicar una partici√≥n m√°s robusta.

In [None]:
# Informaci√≥n sobre el no. de observaciones en cada cl√∫ster
NHC_kmeans$size

El valor `iter` indica cu√°ntas **iteraciones** necesit√≥ el algoritmo k-means para converger. El algoritmo se detiene cuando las asignaciones no cambian o cuando se alcanza el m√°ximo de iteraciones permitido.

Un n√∫mero reducido de iteraciones suele implicar que los grupos han sido identificados con claridad desde el inicio. Por el contrario, muchas iteraciones pueden sugerir geometr√≠a m√°s compleja o que los centroides iniciales estaban mal posicionados.

En este caso 2 ieraciones es un valor muy bajo.

In [None]:
# Informaci√≥n sobre el no. de iteraciones del algoritmo
NHC_kmeans$iter

Finalmente, `ifault` es un **c√≥digo de estado** que informa sobre posibles problemas durante la ejecuci√≥n. El valor `0` implica que **la convergencia ha sido correcta**, sin errores num√©ricos como en este caso. Cualquier otro valor indicar√≠a problemas como: falta de convergencia, centroides vac√≠os o errores en la inicializaci√≥n.

Este componente permite garantizar que la soluci√≥n obtenida es fiable antes de interpretarla.


In [None]:
# Informaci√≥n sobre la convergencia del algoritmo
NHC_kmeans$ifault

El m√©todo **DBSCAN (Density-Based Spatial Clustering of Applications with Noise)** es uno de los algoritmos m√°s utilizados para detectar **grupos de formas arbitrarias** y **manejar autom√°ticamente el ruido**. A diferencia de K-means, no requiere fijar el n√∫mero de cl√∫steres y basa su funcionamiento en la idea de **densidad local** alrededor de cada punto. Esto lo convierte en una herramienta muy √∫til cuando los grupos no son esf√©ricos o cuando existen observaciones at√≠picas.

El algoritmo parte de dos par√°metros clave:  
- un **radio de vecindad** llamado $\epsilon$ (`eps`),  
- un **m√≠nimo de puntos** dentro de ese radio denominado `minPts`.

A partir de estos par√°metros, DBSCAN clasifica cada observaci√≥n seg√∫n la densidad de su entorno. El procedimiento general consta de los siguientes pasos:

1. **Para cada punto**, se calcula cu√°ntos vecinos tiene dentro del radio $\epsilon$.  
2. **Si el n√∫mero de vecinos ‚â• minPts**, el punto se considera **n√∫cleo** y se inicia (o expande) un cl√∫ster.  
3. A partir de cada punto n√∫cleo, el algoritmo **"crece" el cl√∫ster** incorporando:
   - todos sus vecinos directos,
   - los vecinos de esos vecinos, siempre que sean tambi√©n puntos n√∫cleo.
4. Los puntos que no cumplen las condiciones de densidad se examinan:
   - si est√°n cerca de un punto n√∫cleo, se consideran **frontera**,  
   - si no pertenecen a ninguna regi√≥n densa, se clasifican como **ruido**.
5. Se repite el proceso hasta revisar todos los puntos.

El resultado es una partici√≥n formada por **regiones densas** separadas por **zonas de baja densidad**, con la ventaja de que el m√©todo **no fuerza asignaciones**: permite dejar puntos sin cl√∫ster .



Como ya se ha mencionado el algoritmo distingue tres categor√≠as de puntos:

**a) Puntos n√∫cleo (core points)**
Son los puntos cuya **vecindad de radio $\epsilon$ contiene al menos `minPts`** observaciones (incluido el propio).  
Representan las regiones donde la densidad es suficientemente alta como para formar un cl√∫ster.

En t√©rminos geom√©tricos:  
$$|N_\epsilon(x)| \geq \text{minPts}.$$

Estos puntos **generan y expanden los cl√∫steres**.

**b) Puntos frontera (border points)**
Son puntos que **no cumplen** el criterio de densidad para ser n√∫cleo, pero **est√°n dentro del radio $\epsilon$ de un punto n√∫cleo**.  
No generan nuevos cl√∫steres, pero s√≠ **se conectan a uno ya existente**.

Representan observaciones situadas en la periferia de los grupos densos.

**c) Puntos ruido (noise points u outliers)**
Son observaciones que **no cumplen ninguna de las dos condiciones anteriores**.  
No est√°n suficientemente cerca de ning√∫n punto n√∫cleo y, por tanto, **no pertenecen a ning√∫n cl√∫ster**.

Estos puntos son especialmente relevantes, ya que DBSCAN identifica de forma natural los **outliers estructurales** del dataset.



La funci√≥n principal del paquete **`dbscan`** para implementar este m√©todo es: **`dbscan(x, eps, minPts, weights = NULL, borderPoints = TRUE, search = "kd", bucketSize = 10, splitRule = "suggest", ...)`** donde:



+ `x`: Matriz o data frame con las **variables num√©ricas estandarizadas** del clustering al igual que en kmeans no se introduce la matriz de distancias.

+ `eps`: Distancia m√°xima que define la **vecindad** de un punto.  
  Es el par√°metro m√°s importante: define qu√© tan "juntos" deben estar los puntos para considerarse parte de una misma regi√≥n densa.


+ `minPts`:**N√∫mero m√≠nimo de puntos** contandose a si mismo que debe haber en un entorno de radio `eps` para considerar que un punto es un **punto n√∫cleo (core point)**. Con este par√°metro se modera la densidad para formar un cl√∫ster.

+ `weights`: Vector de pesos para ponderar la densidad local. Si no se especifica, todos los puntos tienen peso $1$ como ser√° en este caso.

+ `borderPoints`: Indica si los puntos frontera deben asignarse a un cl√∫ster (`TRUE`) o mantenerse como ruido (`FALSE`).


+ `search`: Tipo de estructura usada para b√∫squedas de vecinos. En este caso se usar√°  `"kd"` (la cual est√° por defecto) que utiliza un kd-tree, muy eficiente en dimensiones bajas/medias.

+ `bucketSize`: Controla el tama√±o m√≠nimo de los nodos del kd-tree, afectando al rendimiento. El valor por defecto es $10$, adecuado para este caso.

+ `splitRule`: Regla de divisi√≥n del kd-tree. No cambia el resultado, solo la eficiencia computacional por lo que se dejar√° por defecto.

En la funci√≥n hay par√°metros avanzados opcionales para b√∫squedas o matrices de distancias de ah√≠los puntos suspensivos en la sintaxis, al no utilizarse no se explicar√°n.



In [None]:
# Instalaci√≥n de la librer√≠a dbscan
install.packages("dbscan")

In [None]:
# Cargamos la librer√≠a dbscan
library(dbscan)

In [None]:
# Constru√≠mos el cl√∫ster no jer√°rquico con m√©todo dbscan
# eps: radio de vecindad
# minPts: m√≠nimo n√∫mero de puntos para formar una regi√≥n densa
NHC_dbscan = dbscan(datos_est, eps = 1.5, minPts = 3)

In [None]:
# Constatamos la clase del objeto
class(NHC_dbscan)

In [None]:
# Informaci√≥n obtenida del cl√∫ster no jer√°rquico con bdscan
str(NHC_dbscan)

Los valores utilizados para el modelo se han variado debido a que si se redujer√° la distancia o se aumentar√° el n√∫mero de nodos necesario los clusters se reducen a un √∫nico cluster o identifica a todos como outliers.

El objeto contiene $5$ elementos los cuales se explicar√°n a continuaci√≥n:

El elemento `cluster` es un vector de longitud igual al n√∫mero de observaciones del conjunto de datos (18 en este caso). Cada posici√≥n contiene el **n√∫mero de cl√∫ster asignado** a la observaci√≥n correspondiente (el primer elemento estar√≠a en el cluster n√∫mero 1 junto al 2, 7, 11, 14 y 15). Los elementos que aparecen con un 0 significa que se han identificado como un outliers.


In [None]:
# N√∫mero de cl√∫ster asignado a cada uno de los clientes
NHC_dbscan$cluster

El objeto **`eps`** indica el radio de vecindad $\epsilon$ usado por DBSCAN. Representa la **distancia m√°xima para que dos puntos se consideren vecinos**.

In [None]:
# Informaci√≥n sobre el radio de vencidad utilizado
NHC_dbscan$eps

El objeto **`minPts`** indica el **n√∫mero m√≠nimo de puntos necesarios** usado por DBSCAN.

In [None]:
# Informaci√≥n sobre el no. m√≠nimo de puntos necesarios par considerar un cl√∫ster
NHC_dbscan$minPts

Este objeto  **`metric`** indica la **m√©trica empleada para calcular distancias** entre observaciones usada por DBSCAN.

In [None]:
# Informaci√≥n sobre la m√©trica utilizada
NHC_dbscan$metric

Este objeto **`borderPoints`** indica si los puntos frontera se incluyen en los cl√∫steres. En este caso se usao el por defecto `TRUE` lo que significa es que los puntos frontera se asignan al cl√∫ster correspondiente.

In [None]:
# Informaci√≥n sobre si se consideran los puntos frontera o no
NHC_dbscan$borderPoints

El m√©todo **Gaussian Mixture Models (GMM)** es un enfoque probabil√≠stico para el clustering donde se asume que los datos proceden de una **mezcla de distribuciones gaussianas multivariantes**, cada una representando un cl√∫ster. A diferencia de k-means (que asigna cada punto a un √∫nico cl√∫ster), GMM asigna **probabilidades de pertenencia**, permitiendo capturar cl√∫steres con **formas elipsoidales**, **distintas varianzas** y **correlaciones internas** entre variables.

El procedimiento general consta de los siguinetes pasos:
1. Se generan estimaciones iniciales de medias (vector centroide), matrices de covarianza y pesos de mezcla. Si no se inicializan se har√° una asignaci√≥n aleatoria.

2. Antes de asignar una observaci√≥n a un cluster a cada observaci√≥n el algoritmo calcula la **probabilidad posterior de pertenecer a cada cluster**, es decir, las **responsabilidades**:  
  $$\tau_{ik} = P(\text{corresponder al cl√∫ster } k \mid x_i).$$
   Esto permite modelar incertidumbre: un equipo puede tener un $70 \%$ de pertenencia al cl√∫ster 1 y un $30 \%$ al cl√∫ster 3 o tener un $52 \%$ y un $48 \%$ en cuyo caso no estr√≠a tan claro a cual pretenece.
  
3. A partir de las responsabilidades, se actualizan los par√°metros del modelo: medias, matrices de covarianza y pesos. Y con cada iteraci√≥n se mejora la verosimilitud del modelo.

4. Los pasos anteriores se repiten hasta que la log-verosimilitud se estabiliza o se alcanza el n√∫mero m√°ximo de iteraciones. Esta naturaleza iterativa hace que GMM sea m√°s flexible que m√©todos como DBSCAN y m√°s expresivo que k-means.

5. Tras relizar todos lo pasos previos la observaci√≥n se asocia al cluster con mayor probabilidad.




La funci√≥n principal para estimar un GMM en R es: **`Mclust(data, G = NULL, modelNames = NULL, prior = NULL, control = emControl(), initialization = NULL, ...)`**. A continuaci√≥n se explican sus argumentos m√°s importantes:

- **`data`**: matriz o data.frame con las variables num√©ricas. Al igual que los m√©todos anteriores no utiliza matriz de distancias.

- **`G`**: conjunto de n√∫meros de componentes (clusters) a evaluar. Si se deja por defecto, se usa autom√°ticamente `1:9` lo que significa que se har√° con $G=1$ hasta $G=9$. El modelo √≥ptimo se selecciona por BIC.

- **`modelNames`**: define la estructura de las matrices de covarianza (en forma: esf√©ricas, diagonales, elipsoidales o en volumen). Si se deja `NULL`, se prueban modelos adecuados seg√∫n la dimensi√≥n del dataset y tambi√©n se elige el mejor seg√∫n BIC.

- **`prior`**: especifica un prior conjugado para medias y covarianzas mediante `priorControl()`. Se usar√° su valor por defecto `NULL` (estimaci√≥n por m√°xima verosimilitud sin informaci√≥n previa).

- **`control`**: par√°metros del algoritmo EM (tolerancias, iteraciones m√°ximas), definidos con `emControl()`. Permitiendo un mayor ajuste sobre el modelo.



- **`initialization`**: controla la inicializaci√≥n del EM. Puede incluir:
  - `hcPairs` (partici√≥n jer√°rquica previa),
  - `subset` (subconjunto para inicializar),
  - `noise` (componente adicional para ruido).
  Si no se especifica, `Mclust()` realiza autom√°ticamente una inicializaci√≥n jer√°rquica robusta.

En la funci√≥n hay par√°metros avanzados opcionales para la representaci√≥n de gr√°ficas de ah√≠ los puntos suspensivos en la sintaxis, al no utilizarse no se explicar√°n.




In [None]:
# Instalaci√≥n de la librer√≠a mclust
install.packages("mclust")

In [None]:
# Cargamos la librer√≠a mclust
library(mclust)

In [None]:
# Constru√≠mos el cl√∫ster no jer√°rquico con modelos de mezclas gaussianas
# data: base de datos estandarizada (datos_est)
# G = 2:4 orquilla de 2 a 4 componentes (cl√∫steres) para facilitar la comparaci√≥n con k-means y DBSCAN
NHC_gmm = Mclust(data = datos_est, G = 2:4)

In [None]:
# Constatamos la clase del objeto
class(NHC_gmm)

In [None]:
# Informaci√≥n obtenida del cl√∫ster no jer√°rquico con modelos de mezclas gaussianas
str(NHC_gmm)

El objeto contiene 16  elementos los cuales se explicar√°n a continuaci√≥n:

+ **`cluster`**: Muestra la **instrucci√≥n exacta utilizada para estimar el modelo**. Igual que en clustering jer√°rquico (`call` en `hclust`) o en k-means, sirve como referencia documental.

In [None]:
# Instrucci√≥n exacta utilizada para estimar el modelo GMM
NHC_gmm$call

+ **`data`**: Contiene **los datos estandarizados utilizados en el modelo**.  
Es una matriz num√©rica de dimensi√≥n **18√ó4** (18 observaciones, 4 variables).  
Incluye nombres de las variables:  
`Win_rate`, `KDA`, `Control_obj`, `Entreno_horas`.

In [None]:
# Matriz de datos utilizada (660 observaciones x 5 variables estandarizadas)
head(NHC_gmm$data)

+ **`modelName`**: Indica el **modelo de la matriz de covarianzas utilizado**. En este caso `"VII"` es el **tipo de estructura de covarianza elegido por BIC** entre todas las posibles.  
En este caso:  
- V = volumen variable  
- I = forma esf√©rica  
- I = orientaci√≥n no aplicable (esf√©rico)

Modelo **esf√©rico con varianzas diferentes entre grupos** el resto de posisbilidades est√°n detallasdas m√°s abajo.

In [None]:
# Tipo de modelo gaussiano elegido (VVV = covarianzas completamente libres)
NHC_gmm$modelName

+ **`n`**: Indica el **n√∫mero de observaciones** consideradas en el dataset.

In [None]:
# N√∫mero total de observaciones
NHC_gmm$n

+ **`d`**: Indica el **n√∫mero de variables** consideradas en el dataset.

In [None]:
# N√∫mero de variables (dimensi√≥n del espacio)
NHC_gmm$d

+ **`G`**: Indica el **n√∫mero de componentes (cl√∫steres)** seleccionados por el algoritmo EM (Expectation Maximization) entre los propuestos.

In [None]:
# N√∫mero de componentes gaussianos seleccionados
NHC_gmm$G

+ **`BIC`**: contiene **los valores del BIC para todos los modelos probados**.  
Es una matriz con:
- filas: componentes evaluadas (`2`, `3`, `4`)
- columnas: tipos de modelos gaussianos (`EII`, `VII`, `EEI`, ‚Ä¶)

Se usa para seleccionar el mejor modelo.

En la celda de c√≥digo se explican todas las posibles combinaciones de los modelos gaussianos

In [None]:
# Matriz de valores BIC para los diferentes modelos gaussianos evaluados
# 1¬∫ letra (Volumen): Tama√±o del cl√∫ster
# 2¬∫ letra (Forma): Relaci√≥n entre las longitudes de los ejes principales - elipticidad
# 3¬∫ letra (Orientaci√≥n): Rotaci√≥n de la elipse en el espacio - matriz de eigenvectores

# EII: Volumen igual, forma esf√©rica, sin orientaci√≥n -> Cl√∫steres esf√©ricos, del mismo tama√±o, sin rotaci√≥n. Es el modelo equivalente a k-means
# VII: Volumen distinto, forma esf√©rica, sin orientaci√≥n -> Cl√∫steres esf√©ricos pero con tama√±os diferentes.
# EEI: Volumen igual, forma igual, sin orientaci√≥n -> Elipses con misma forma pero no rotadas; s√≥lo difieren en la ubicaci√≥n de su centro.
# VEI: Volumen distinto, misma forma, sin orientaci√≥n -> Mismas elipses sin rotaci√≥n, pero unas m√°s grandes que otras.
# EVI: Volumen igual, forma distinta, sin orientaci√≥n -> Todas las elipses tienen mismo volumen pero diferente elipticidad.
# VVI: Volumen distinto, forma distinta, sin orientaci√≥n -> Elipses sin rotaci√≥n pero cada cl√∫ster tiene volumen y forma distinta.
# EEE: Volumen igual, forma igual, orientaci√≥n igual -> Misma elipse (misma covarianza) en todos los cl√∫steres.
# VEE: Volumen distinto, forma igual, orientaci√≥n igual -> Cl√∫steres con estructura id√©ntica pero tama√±os distintos.
# EVE: Volumen igual, forma distinta, orientaci√≥n igual -> Diferente elipticidad pero misma rotaci√≥n.
# VVE: Volumen distinto, forma distinta, orientaci√≥n igual -> Diferencias en tama√±o y forma, pero mismos ejes de orientaci√≥n.
# EEV: Volumen igual, forma igual, orientaci√≥n distinta -> Todas las elipses tienen tama√±o y forma igual pero est√°n rotadas de distinta forma.
# VEV: Volumen distinto, forma igual, orientaci√≥n distinta -> Vol√∫menes diferentes, misma forma, orientaciones distintas.
# EVV: Volumen igual, forma distinta, orientaci√≥n distinta -> Mismo volumen pero formas y orientaciones diferentes.
# VVV: Volumen distinto, forma distinta, orientaci√≥n distinta -> El modelo m√°s flexible de todos, sin restricciones.
NHC_gmm$BIC

+ **`loglik`**: Valor de la **log-verosimilitud final** del modelo. Cuanto mayor sea, mejor ajusta el modelo.

In [None]:
# Log-verosimilitud del modelo GMM estimado
NHC_gmm$loglik

+ **`df`**: Grados de libertad del modelo (**n√∫mero de par√°metros estimados**). Dependen de las medias, pesos y covarianzas a estimar.

In [None]:
# Grados de libertad (par√°metros estimados del modelo)
NHC_gmm$df

+ **`bic`**: Valor del BIC final del modelo elegido (el mayor entre todas las combinaciones probadas)

In [None]:
# Valor del BIC del modelo finalmente elegido por Mclust
NHC_gmm$bic

+ **`icl`**: Valor del ICL (Integrated Completed Likelihood), penaliza el solapamiento entre clusters.  
Valor cercano al BIC indica que los cl√∫steres est√°n bien separados. Como se puede apreciar la diferencia es inferior a una unidad inferior al $1 \%$ del Bic.

In [None]:
# Valor del √≠ndice ICL (penaliza incertidumbre de clasificaci√≥n)
NHC_gmm$icl

+ **`hypvol`**: Volumen del hiperparalelogramo para modelos 1D.  
En este caso es `NA` porque el modelo es multivariante.

In [None]:
# Volumen hiperdimensional del espacio de par√°metros (habitualmente NA)
NHC_gmm$hypvol

+ **`parameters`**:Lista con los par√°metros del modelo GMM seleccionado.

a) `pro`
Pesos de mezcla: $0.85\%$ y $0,15\%$ lo que siginifica que el **cl√∫ster 1 contiene el 85.3%** de los jugadores; el **cl√∫ster 2 el 14.7%**.

b)`mean`
Matriz de medias (**4 variables √ó 2 componentes**), una columna por cl√∫ster.  
En este caso:
- Cl√∫ster 1: jugadores con Win_rate positivo.  
- Cl√∫ster 2: jugadores con m√©tricas notablemente menores.

c) `variance`
Estructura de covarianza donde se pueden extraer m√∫ltiples datos, pero solo se extraer√°:

- `sigma`: matrices de covarianza completas (4√ó4√ó2).  
  Cada componente produce una matriz distinta.



In [None]:
# Proporciones de mezcla (probabilidad a priori de cada cl√∫ster)
NHC_gmm$parameters$pro

In [None]:
# Medias (centroides gaussianos) por cl√∫ster y variable
NHC_gmm$parameters$mean

In [None]:
# Matrices de covarianza para cada componente (definen forma y orientaci√≥n)
str(NHC_gmm$parameters$variance$sigma)

In [None]:
# Extraer la matriz de covarianza del cl√∫ster 1
cov_1 = NHC_gmm$parameters$variance$sigma[,,1]
cov_1

In [None]:
# Extraer la matriz de covarianza del cl√∫ster 2
cov_2 = NHC_gmm$parameters$variance$sigma[,,2]
cov_2

+ **`z`**: Matriz de probabilidades de pertenencia (**responsabilidades EM**).  
Con una dimensi√≥n: **18√ó2** ya que son 18 equipos y solo dos clusters. Los valores oscilan entre $0$ y $1$. En este caso la primera observaci√≥n $1.00$, $0.00$ indica que el equipo es pr√°cticamente seguro que se encuentra en el cl√∫ster $1$.

In [None]:
# Probabilidades de pertenencia de cada observaci√≥n a cada cl√∫ster
NHC_gmm$z[1:5, ]

+ **`classification`**: Vector con la **asignaci√≥n final** de cada observaci√≥n siguinedo la regla del m√°ximo a posteriori. En este caso el quipo n√∫mero 4, 6 y 12 pertenecer√≠an al segundo cluster y el resto pertenecer√≠an al primero.

In [None]:
# Clasificaci√≥n final de cada cliente (cl√∫ster con mayor probabilidad)
NHC_gmm$classification

+ **`uncertainty`**: Mide la **incertidumbre de clasificaci√≥n** siguiendo la siguinete ecuaci√≥n:  
$$1 - \max_k(\tau_{ik})$$
Valores cercanos a **0** indican que la clasificaci√≥n muy segura.  
Mientras que los valores altos indican la existencia de puntos en frontera entre cl√∫steres.

En este caso como se puede observar ser√≠an muy proximos a 0 lo que refuerza la divisi√≥n realizada.

In [None]:
# Incertidumbre asociada a la clasificaci√≥n de cada observaci√≥n
head(NHC_gmm$uncertainty, 10)

El m√©todo **Spectral Clustering (SPEC)** es un enfoque basado en grafos que realiza el clustering analizando la **estructura de conectividad** entre las observaciones, en lugar de asumir distribuciones estad√≠sticas como en GMM. El algoritmo construye una matriz de afinidad que mide la similitud entre pares de puntos y, a partir de ella, obtiene **la matriz Laplaciana**. Estos autovectores transforman los datos a un espacio vectorial donde los cl√∫steres se vuelven linealmente separables, permitiendo aplicar k-means de forma eficaz. A diferencia de m√©todos basados en centroides o distribuci√≥n, SPEC puede detectar cl√∫steres no convexos, estructuras complejas y relaciones que dependen de la geometr√≠a del grafo, sin suponer gaussianidad ni formas elipsoidales.

El procedimiento general consta de los siguinetes pasos:

- **1. Construcci√≥n del modelo a partir de un grafo**
Spectral Clustering comienza interpretando los datos como un **grafo de similitud**:
  - Cada observaci√≥n es un **nodo**.
  - La similitud entre observaciones define una **arista** del grafo.
  - El usuario debe fijar el n√∫mero de cl√∫steres $K$.

- **2. Construcci√≥n de la matriz de afinidad, grado y Laplaciana**
El algoritmo construye internamente:

  - **Matriz de afinidad** $W$: usando un kernel (t√≠picamente RBF o KNN), calcula cu√°nta similitud hay entre pares de puntos.
  - **Matriz de grado** $D$: contiene la suma de las afinidades de cada nodo.
  - **Matriz laplaciana** $L = D - W$: describe la estructura del grafo y ser√° la base del an√°lisis espectral.
- **3. Descomposici√≥n espectral**
Se realiza una descomposici√≥n en autovalores y autovectores:

  - Los **autovalores m√°s peque√±os** contienen la estructura natural del grafo.
  - Se descarta el **primer autovector** $\mathbf{v}_1$ ya que est√° asociado al autovalor 0.
  - Se eligen los **$K$ autovectores siguientes**: $\mathbf{v}_2, \dots, \mathbf{v}_{K+1}$.
  - Estos autovectores forman la **matriz espectral** $U$, que reubica los datos en un espacio donde los cl√∫steres son linealmente separables.

- **4. Clustering en el espacio espectral**
  En este nuevo espacio (filas de $U$), ya no se trabaja con las coordenadas originales:
  - Se aplica **k-means** sobre las filas de $U$.
  - k-means funciona correctamente aqu√≠ porque los cl√∫steres ya est√°n separados de forma casi lineal.

- **5. Asignaci√≥n final de cl√∫steres**
  El algoritmo asigna directamente sin hacer iteracions una etiqueta por punto:
  - No existen puntos ‚Äúborder‚Äù o ‚Äúcore‚Äù (DBSCAN).
  - No existen probabilidades ni incertidumbres (GMM).
  - No hay ruido expl√≠cito.
  - Los cl√∫steres pueden tener **formas no convexas**, algo que GMM y k-means no pueden capturar en el espacio original.






La funci√≥n principal es `specc()`,de la librer√≠a $\tt kernlab$. Cuya sintaxis es **`specc(x, centers, kernel = "rbfdot", kpar = "automatic", iterations = 200, na.action = na.omit, ...)`** donde:

+ `x`: Matriz o data.frame con datos num√©ricos estandarizados. A partir de ellos se construye autom√°ticamente la matriz de afinidad y el grafo de similitud.

+ `centers`: N√∫mero de cl√∫steres $K$ o matriz de centros iniciales en el espacio espectral. En este caso, se especificar√°  `centers = 2`.

+ `kernel`: especifica el tipo de kernel usado para calcular la afinidad.En esta pr√°ctica se usar√° kernel = "rbfdot" ‚Üí kernel Gaussiano (RBF). Aunque habr√≠a otras obciones como "laplacedot", "polydot", "vanilladot" entre otros.

+ `kpar`: controla los **par√°metros del kernel**. Puede ser una cadena de texto, como `"automatic"`, que elige valores adecuados autom√°ticamente, o una lista, pkpar = list(sigma = 0.05). Aunque en este caso se usar√° el por defecto.

+ `iterations`: n√∫mero **m√°ximo de iteraciones internas** del algoritmo k-means. Por defecto suele ser `iterations = 200`.

+ `na.action`: indica **c√≥mo tratar los valores perdidos** (`NA`). Por defecto se eliminan utilizando `na.action = na.omit`.

En la funci√≥n hay par√°metros avanzados opcionales para la normalizaci√≥n del grafo, ajustes de k-means u opciones del kernel de ah√≠ los puntos suspensivos en la sintaxis, al no utilizarse no se explicar√°n.

In [None]:
# Instalaci√≥n de la librer√≠a kernlab
install.packages("kernlab")

In [None]:
# Cargamos la librer√≠a kernlab
library(kernlab)

In [None]:
# Ayuda de la funci√≥n specc(x, centers, kernel, kpar, ...)
?specc

In [None]:
# Constru√≠mos el cl√∫ster no jer√°rquico con Spectral Clustering
# x: base de datos estandarizada (datos_est)
# centers : fijamos 2 cl√∫steres para facilitar la comparaci√≥n con k-means, DBSCAN y GMM
NHC_spec = specc(x = as.matrix(datos_est), centers = 2, kernel  = "rbfdot")

In [None]:
# Constatamos la clase del objeto
class(NHC_spec)

In [None]:
# Informaci√≥n obtenida del cl√∫ster no jer√°rquico con Spectral Clustering
str(NHC_spec)

El objeto contiene 5 elementos los cuales se explicar√°n a continuaci√≥n:

+ **`Data`**: Es un vector de enteros que contiene la asignaci√≥n final de cl√∫steres para cada observaci√≥n.

En este caso habr√≠a 9 equipos en cada cluster.

In [None]:
# Vector con la asignaci√≥n final de cl√∫ster para cada observaci√≥n (1 a 660)
NHC_spec@.Data

+ **`centers`**: Indica la informaci√≥n sobre los **centroides en el espacio transformado**. Aunque el clustering se hace en el espacio espectral (autovectores del Laplaciano del grafo), `specc()` devuelve los **centroides reconstruidos en el espacio original** para facilitar la interpretaci√≥n. No son los centroides reales del clustering, sino una aproximaci√≥n √∫til para interpretar perfiles medios de cada cl√∫ster.

Hay dos filas ya que solo se ha dividido en dos clusters, en este caso da la casualidad de que est√°n exactamente en el extremo opuesto $C_1 = -C_2$.

In [None]:
# Matriz de 2 x 5 con los centroides de los cl√∫steres en el espacio original
NHC_spec@centers

+ **`size`**: Es un vector que indica el n√∫mero de puntos que pertenecen a cada cl√∫ster. Como ya se ha comentado estna en euilibrio 9 en cada cluster.

In [None]:
# N√∫mero de observaciones asignadas a cada cl√∫ster
NHC_spec@size

+ **`kernelf`**: Es un objeto que define el kernel utilizado para construir la matriz de afinidad del grafo en este caso representa al kernel gaussiano $K(x, y) = \exp\!\left(-\frac{\|x - y\|^{2}}{2\sigma^{2}}\right)$. El valor del par√°metro `sigma` controla la escala de afinidad entre puntos. Un **sigma alto** indica afinidad suave (m√°s conexiones). En cambio, un **sigma bajo** es sin√≥nimo de afinidad muy localizada (grupos m√°s peque√±os y definidos). En este caso ser√≠a pequ√±o por lo que la afinidad est√° muy localizada.

In [None]:
# Par√°metro sigma del kernel RBF utilizado para construir la matriz de afinidad
NHC_spec@kernelf@kpar$sigma

+ **`withinss`**: Es un vector num√©rico que contiene la Suma de cuadrados dentro de cl√∫steres (WSS) pero en el espacio espectral, no en el espacio original. **Midiendo la cohesi√≥n interna** de cada cl√∫ster.

In [None]:
# Suma de cuadrados dentro de cada cl√∫ster en el espacio original
NHC_spec@withinss

<div style="background-color:#5DADE2"><b>Apartado 5</b></div>

En esta secci√≥n se determinar√° el **n√∫mero √≥ptimo de cl√∫sters** para los modelos de clustering no jer√°rquico estimados previamente. El objetivo es encontrar el m√©todo de asociaci√≥n y el n√∫mero de clusters par ala base de datos.

Para cada una de estos m√©todos se aplicar√°n **tres criterios distintos de selecci√≥n de cl√∫sters**, con una funci√≥n propia ya que no esta implementada en `R`, con el fin de obtener una recomendaci√≥n robusta y comparativa:

1. **M√©todo del codo (traceW)**: analiza la disminuci√≥n de la suma de inercias intra-cl√∫ster (suma de las distancias al cuadrado de cada una de las observaciones al respectivo centro del cl√∫ster) a medida que aumenta el n√∫mero de grupos. El n√∫mero √≥ptimo de cl√∫sters se identifica en el punto donde la reducci√≥n deja de ser significativa. Siendo el n√∫mero √≥ptimo de cl√∫steres q el que poseea al valor de k para el cu√°l se presente una ca√≠da repentina y m√°s grande en el WSS.

2. **Estad√≠stico de Gap**: compara la compactaci√≥n observada con la que cabr√≠a esperar en configuraciones aleatorias, seleccionando el n√∫mero de cl√∫sters para el cual la separaci√≥n entre ambas es m√°xima.

3. **Silueta promedio**: eval√∫a simult√°neamente la cohesi√≥n interna y la separaci√≥n entre cl√∫sters; se elige el n√∫mero de grupos que maximiza la calidad global de la partici√≥n. La silueta para una observaci√≥n determinada $i$ es una <u>**combinaci√≥n de la cohesi√≥n</u> $a_i$ y $b_i$** definida como: $s_i = \frac{b_i - a_i}{\max\{a_i,\, b_i\}}$. Esto es equivalente a:

\begin{cases}
1 - \dfrac{a_i}{b_i}, & \text{si } a_i < b_i,\\[6pt]
0, & \text{si } a_i = b_i,\\[6pt]
\dfrac{b_i}{a_i} - 1, & \text{si } a_i > b_i.
\end{cases}




Ya que la funci√≥n es propia se dar√° una explicaci√≥n de lo que hace.
La funci√≥n `NHC_elbow` constituye una herramienta integrada para aplicar el m√©todo del codo en varios algoritmos de clustering no jer√°rquico: **k-means, Gaussian Mixture Models (GMM), Spectral Clustering y DBSCAN**. Su estructura est√° dise√±ada para garantizar reproducibilidad, control del rango de b√∫squeda y comparabilidad entre m√©todos. Para ello, la funci√≥n comienza verificando y cargando autom√°ticamente las librer√≠as necesarias, transformando los datos en formato matricial y fijando una semilla. Posteriormente define una funci√≥n auxiliar que calcula la *Within-Cluster Sum of Squares (WSS)*, magnitud clave para el m√©todo del codo en todos los algoritmos basados en
k.

El procedimiento para cada m√©todo se adapta a sus particularidades. En **k-means**, la funci√≥n emplea `NbClust` para obtener la WSS cl√°sica (tracew) y sugerir un n√∫mero √≥ptimo de cl√∫steres. En **GMM** y **Spectral Clustering**, donde la formulaci√≥n no incluye directamente WSS, se calcula una WSS aproximada a partir de las particiones asignadas a cada valor de k. En el caso de **DBSCAN**, donde no existe par√°metro k, se estima el "codo" analizando la distancia al minPts-√©simo vecino m√°s cercano y evaluando c√≥mo var√≠a el n√∫mero de cl√∫steres y el ruido para una rejilla de valores de `eps`.

Finalmente, la funci√≥n organiza todos los resultados en una lista estructurada y genera **dos tablas comparativas**: una para los m√©todos basados en k y otra para DBSCAN. Estas tablas permiten observar de forma conjunta c√≥mo evoluciona la WSS o el n√∫mero de cl√∫steres seg√∫n el par√°metro estudiado, facilitando la selecci√≥n del modelo m√°s adecuado. Esta integraci√≥n en un √∫nico flujo de trabajo permite evaluar cuatro algoritmos no jer√°rquicos mediante un marco com√∫n y sistem√°tico, lo que mejora la interpretaci√≥n y la toma de decisiones en el an√°lisis de cl√∫steres.

In [None]:
#--------------------------------------------------------------
# Funci√≥n general para aplicar el "m√©todo del codo" a:
#  - k-means (usando NbClust y tracew)
#  - GMM (Mclust, WSS aproximada)
#  - Spectral Clustering (specc, WSS aproximada)
#  - DBSCAN (kNN distance para elegir eps)
#--------------------------------------------------------------
NHC_elbow = function(data, k_min = 2, k_max = 10, eps_grid = seq(0.4, 1.2, by = 0.05), minPts_dbscan = 3, seed = 123){

#----------------------------------------------------------
# 0) Comprobaciones y carga de librer√≠as
#----------------------------------------------------------

# Aseguramos que 'data' sea una matriz num√©rica
data = as.matrix(data)

# Vector de valores de k a evaluar
k_values = k_min:k_max

# Establecemos semilla de reproducibilidad
set.seed(seed)

libs_necesarias = c("NbClust", "mclust", "kernlab", "dbscan", "cluster", "knitr")

for (lib in libs_necesarias) {
  if (!requireNamespace(lib, quietly = TRUE)) {
    install.packages(lib)
  }
  library(lib, character.only = TRUE)
}

# Cargamos librer√≠as necesarias
library(NbClust)   # Para k-means + tracew
library(mclust)    # Para GMM
library(kernlab)   # Para Spectral Clustering
library(dbscan)    # Para DBSCAN
library(cluster)   # Para funciones de distancia
library(knitr)     # Para realizar la tabla comparativa

#----------------------------------------------------------
# 1) Funci√≥n auxiliar: calcula WSS dada una partici√≥n
#     x  : matriz de datos (n x p)
#     cl : vector de cl√∫steres (longitud n)
#----------------------------------------------------------
wss_clusters = function(x, cl) {

    # Para cada cl√∫ster j calculamos la suma de cuadrados
    grupos = split.data.frame(x, cl)

    # Eliminamos posibles grupos vac√≠os (por seguridad)
    grupos = grupos[sapply(grupos, nrow) > 0]

    # Aplica una funci√≥n a cada cl√∫ster de la lista 'grupos'
    wss_vec = vapply(grupos, function(g) {
      centro = colMeans(g) # Calcula el centroide del cl√∫ster (media por columnas)
      sum(rowSums((g - centro)^2)) # Calcula la WSS del cl√∫ster: suma de distancias cuadr√°ticas de cada punto al centroide
    }, numeric(1)) # Especifica que cada iteraci√≥n devuelve un √∫nico n√∫mero (WSS de un cl√∫ster)

    # Suma las WSS de todos los cl√∫steres para obtener la WSS total
    sum(wss_vec)
}

#----------------------------------------------------------
# 2) K-MEANS + NBCLUST (m√©todo del codo "cl√°sico" con tracew)
#----------------------------------------------------------
wss_km = NbClust(data = data, distance = "euclidean", min.nc = k_min, max.nc = k_max, method = "kmeans", index = "tracew")

# 'All.index' contiene el √≠ndice tracew (WSS) para cada k
tracew_km = wss_km$All.index

# Extraemos el n√∫mero √≥ptimo de cl√∫steres seg√∫n NbClust
best_km = as.numeric(wss_km$Best.nc[1])

#----------------------------------------------------------
# 3) GMM (Mclust) - WSS aproximada para cada G = k
#----------------------------------------------------------
wss_gmm = numeric(length(k_values))

for (i in seq_along(k_values)) {
  k = k_values[i]

  # Ajustamos el modelo de mezclas gaussianas con G = k
  gmm_k = Mclust(data = data, G = k)

  # Clasificaci√≥n m√°xima a posteriori (partici√≥n dura)
  cl = gmm_k$classification

  # Calculamos WSS "tipo k-means" a partir de la partici√≥n
  wss_gmm[i] = wss_clusters(data, cl)
}

#----------------------------------------------------------
# 4) SPECTRAL CLUSTERING - WSS aproximada para cada k
#----------------------------------------------------------
wss_spectral = numeric(length(k_values))

for (i in seq_along(k_values)) {
  k = k_values[i]

  # Ajustamos Spectral Clustering con k cl√∫steres
  spec_k = specc(x = data, centers = k, kernel = "rbfdot")

  # Asignaci√≥n de cl√∫steres (vector de longitud n)
  cl = spec_k@.Data

  # Calculamos WSS "tipo k-means"
  wss_spectral[i] = wss_clusters(data, cl)
}

#----------------------------------------------------------
# 5) DBSCAN - "codo" de distancias k-NN para eps
#----------------------------------------------------------
# Distancias al minPts-√©simo vecino m√°s cercano (para kNNdistplot)
kNN_dists = kNNdist(data, k = minPts_dbscan)
kNN_dists = sort(kNN_dists)  # ordenamos para visualizar el "codo"

# Evaluamos una rejilla de eps para ver n√∫mero de cl√∫steres y ruido
n_clusters_db = numeric(length(eps_grid))
n_noise_db    = numeric(length(eps_grid))

for (i in seq_along(eps_grid)) {
  eps_i = eps_grid[i]

  # Ajustamos DBSCAN para cada eps de la rejilla
  db_i = dbscan(data, eps = eps_i, minPts = minPts_dbscan)

  # N√∫mero de cl√∫steres distintos de 0 (excluimos ruido)
  n_clusters_db[i] = length(setdiff(unique(db_i$cluster), 0))

  # N√∫mero de puntos etiquetados como ruido (cluster = 0)
  n_noise_db[i] = sum(db_i$cluster == 0)
}

#----------------------------------------------------------
# 6) Construimos tablas resumen comparativas
#----------------------------------------------------------

# Tabla comparativa para m√©todos basados en k (k-means, GMM, Spectral)
# Intentamos alinear tracew_km con k_values usando los nombres (por si NbClust devuelve nombres de k)
tracew_km_num = as.numeric(tracew_km[match(k_values, names(tracew_km))])

tabla_k = data.frame(
  k                   = k_values,       # N√∫mero de cl√∫steres
  tracew_kmeans       = tracew_km_num,  # Suma de cuadrados intra-cl√∫ster seg√∫n NbClust (k-means)
  wss_gmm             = wss_gmm,        # WSS aproximada para GMM
  wss_spectral        = wss_spectral    # WSS aproximada para Spectral Clustering
)

# Tabla comparativa para DBSCAN en funci√≥n de eps
tabla_dbscan = data.frame(
  eps        = eps_grid,      # Valores de eps evaluados
  n_clusters = n_clusters_db, # N√∫mero de cl√∫steres (excluyendo ruido) para cada eps
  n_noise    = n_noise_db     # N√∫mero de puntos ruido para cada eps
)

#----------------------------------------------------------
# 7) Devolvemos resultados en una lista estructurada
#----------------------------------------------------------
resultados = list(
  kmeans = list(
    nbclust_obj = wss_km,        # objeto completo de NbClust
    tracew      = tracew_km,    # √≠ndice tracew para cada k
    best_k      = best_km     # n√∫mero √≥ptimo de cl√∫steres seg√∫n NbClust
  ),
  gmm = list(
    k_values = k_values,        # valores de k evaluados
    wss      = wss_gmm          # WSS aproximada para cada k
  ),
  spectral = list(
    k_values = k_values,        # valores de k evaluados
    wss      = wss_spectral     # WSS aproximada para cada k
  ),
  dbscan = list(
    minPts     = minPts_dbscan, # minPts utilizado en DBSCAN
    kNN_dists  = kNN_dists,     # distancias k-NN ordenadas (para el "codo" de eps)
    eps_grid   = eps_grid,      # rejilla de eps evaluada
    n_clusters = n_clusters_db, # n√∫mero de cl√∫steres (excluyendo ruido) para cada eps
    n_noise    = n_noise_db     # n√∫mero de puntos ruido para cada eps
  ),
  tablas = list(
    k_methods = tabla_k,        # tabla comparativa k-means, GMM, Spectral
    dbscan    = tabla_dbscan   # tabla comparativa para DBSCA
    )
  )


# Devuelve el resultado final
return(resultados)
}


In [None]:
# Aplicamos la funci√≥n NHC_elbow sobre nuestra base de datos estandarizada
res_elbow = NHC_elbow(datos_est)

In [None]:
# Informaci√≥n obtenida con la funci√≥n 'NHC_elbow' (vista completa)
show(res_elbow)

**Interpretaci√≥n.-** El objeto resultante contiene  5 elemnetos que resumen los resultados de los cuatro m√©todos de *clustering* no jer√°rquico aplicados mediante la funci√≥n `NHC_elbow`. En primer lugar, dentro del apartado **`kmeans`**, observamos los valores del √≠ndice **tracew** para $k = 2,\dots,10$ (`nbclust_obj$All.index`), donde la inercia intra‚Äìcl√∫ster disminuye de forma progresiva. El m√©todo `NbClust` selecciona **$k = 4$** como n√∫mero √≥ptimo de cl√∫steres (`best_k`), tambi√©n se le puede a√±adir el valor correspondiente a ese n√∫mero √≥ptimo (`nbclust_obj$Best.nc`), proporcionando adem√°s la partici√≥n completa de las observaciones (`nbclust_obj$Best.partition`). Esta coherencia entre la ca√≠da pronunciada de tracew y la elecci√≥n autom√°tica indica que el m√©todo encuentra una estructura relativamente clara para cuatro grupos.

En cuanto al apartado **`gmm`**, se muestran los valores de la WSS aproximada (`wss`)para cada $k$ (`k_values`) bajo modelos de mezclas gaussianas. En este caso, los valores no siguen un patr√≥n estrictamente decreciente porque la WSS se calcula a partir de una clasificaci√≥n dura derivada del modelo probabil√≠stico. Aun as√≠, se observa cierta estabilidad en torno a $k = 2,3$ y $k = 10$, mientras que otros valores presentan incrementos debidos a ajustes de mezcla m√°s complejos.


En **`spectral`**, la WSS aproximada (`wss`) muestra un comportamiento similar: cierta variabilidad en funci√≥n de $k$, con valores relativamente moderados entre $k=2$ y $k=10$ (`k_values`), aunque sin un "codo" claro. Esto indica que, para estos datos, ni GMM ni Spectral Clustering muestran una estructura de cl√∫steres tan marcada como la identificada por k-means.

Finalmente, el apartado **`dbscan`** refleja que, con tres puntos para formar un cluster (`minPts`), ninguna de las opciones de $\epsilon$ evaluadas (`eps_grid`) genera cl√∫steres excepto en la √∫ltima: todos los casos presentan **0 cl√∫steres** menos el √∫ltimo (`n_clusters`) por lo que tendran **18 puntos de ruido**excepto el √∫ltimo (`n_noise`), lo que implica que los datos no presentan densidades suficientemente diferenciadas para este m√©todo bajo dichos par√°metros, las distancias se pueden observar en `kNN_dits`.

Las dos tablas finales permiten comparar visualmente estos resultados: la tabla de m√©todos basados en $k$ confirma la tendencia decreciente esperada de tracew en k-means y la variabilidad de las WSS en GMM y Spectral; mientras que la tabla espec√≠fica para DBSCAN resume la incapacidad del m√©todo para encontrar grupos en este conjunto de datos.




In [None]:
# Comparamos los resultados de los 4 m√©todos no jer√°rquicos
# Extraemos los resultados obtenidos
tabla_k = res_elbow$tablas$k_methods
tabla_dbscan = res_elbow$tablas$dbscan

In [None]:
# Cargamos la librer√≠a 'knitr'
require(knitr)

In [None]:
# Generamos la tabla comparativa de los m√©todos k-means, DBSCAN y GMM
kable(tabla_k, caption = "Resumen de √≠ndices para k-means, GMM y Spectral Clustering", digits = 3, align = "c")

**Interpretaci√≥n.-** A partir de la tabla comparativa de los √≠ndices obtenidos por k-means, GMM y Spectral Clustering, se observar diversos  comportamiento de cada m√©todo.

En primer lugar, **k-means muestra un patr√≥n claramente decreciente en tracew**, pasando de aproximadamente 50.7 en $k=2$ a 8.1 en $k=10$. La ca√≠da m√°s pronunciada ocurre entre $k=3$ y $k=4$, lo que sugiere que el m√©todo identifica una estructura bien definida en torno a **4 grupos**. A partir de ese punto, las mejoras son m√°s moderadas, coherentes con un "codo" en torno a $k=4$.

Por el contrario, tanto **GMM** como **Spectral Clustering** presentan **√≠ndices de dispersi√≥n m√°s irregulares**. En GMM, los valores de WSS no exhiben un descenso progresivo; de hecho, algunos valores aumentan de forma notable (por ejemplo, en $k=4$ y $k=8$), lo que indica que las particiones generadas por los modelos de mezcla no producen agrupaciones m√°s compactas conforme aumenta $k$. Spectral Clustering muestra un patr√≥n similar, con fluctuaciones marcadas y sin evidencias de un punto de inflexi√≥n claro.

Comparando los tres m√©todos, se observa que **ning√∫n m√©todo basado en WSS (GMM o Spectral) sugiere un n√∫mero √≥ptimo evidente de cl√∫steres**, mientras que **k-means s√≠ identifica una estructura relativamente estable**, apoyada en una reducci√≥n clara de la inercia hasta $k=4$. Esto sugiere que, para estos datos, k-means captura mejor la organizaci√≥n subyacente, mientras que los m√©todos basados en modelos probabil√≠sticos o en la estructura espectral del grafo no logran detectar agrupaciones con la misma nitidez.

Aunque todavia que queda el m√©todo DBSCAN que se estudiar√° a continuaci√≥n.


In [None]:
# Generamos la tabla comparativa del m√©todo DBSCAN
kable(tabla_dbscan, caption = "Resumen de resultados para DBSCAN seg√∫n eps", digits = 3, align = "c")

**Interpretaci√≥n.-**  
El comportamiento de DBSCAN en este conjunto confirma que el par√°metro $eps$ controla de forma decisiva la estructura que el algoritmo es capaz de detectar. A partir de los resultados observados pueden destacarse varios puntos:

* **Sensibilidad extrema a la densidad:** Para valores bajos y moderados de $eps$ (entre 0.40 y 1.15), el algoritmo no identifica ning√∫n cl√∫ster y clasifica todos los puntos como ruido. Esto indica que, bajo criterios estrictos de densidad, los datos no presentan regiones suficientemente compactas como para formar grupos.

* **Umbral cr√≠tico alrededor de $eps \approx 1.20$:** S√≥lo cuando el radio de vecindad aumenta lo suficiente, DBSCAN detecta la presencia de **2 cl√∫steres** y reduce significativamente la cantidad de puntos marcados como ruido (de 18 a 11). Esto refleja que la estructura del dataset no es densa, sino m√°s bien dispersa, por lo que s√≥lo agrupamientos ‚Äúamplios‚Äù cumplen los requisitos de densidad.

* **Estabilidad del ruido:** El n√∫mero de puntos considerados ruido permanece constante (18) para todos los valores hasta $eps=1.15$, lo cual sugiere que el patr√≥n espacial carece de densidades locales destacables en ese rango.

En resumen, el an√°lisis indica que **√∫nicamente con un $eps$ suficientemente grande** aparece una estructura de **2 cl√∫steres**, lo que sugiere que el dataset contiene grupos amplios pero poco densos. La elecci√≥n de $eps$ deber√≠a de cambiara a valores superiores quiz√° una orquilla de 1.20 a 1.75 ser√≠a m√°s obtima.


Ahora se mostr√° en gr√°fica los valores para que se pueda observar de forma gr√°fica el "codo".

In [None]:
# Cargamos las librer√≠as necesarias para llevar a cabo la representaci√≥n gr√°fica
library(ggplot2)
library(dplyr)
library(tidyr)

In [None]:
# Extraemos la tabla de m√©todos basados en k
tabla_k = res_elbow$tablas$k_methods

In [None]:
# Pasamos a formato largo para poder usar ggplot c√≥modamente
tabla_k_long = tabla_k %>%

# Cambiamos de formato "ancho" a "largo"
pivot_longer(
    cols = c(tracew_kmeans, wss_gmm, wss_spectral), # Indicamos qu√© columnas queremos ‚Äúdesapilar‚Äù (las medidas de WSS)
    names_to = "metodo",                            # El nombre de la nueva columna que contendr√° el nombre del m√©todo (antes era el nombre de la variable)
    values_to = "wss"                               # El nombre de la nueva columna que contendr√° los valores num√©ricos de esas medidas
  ) %>%

# Modificamos o creamos columnas en el data.frame resultante
mutate(
  metodo = recode(                                  # Reescribimos los valores de la columna 'metodo' para que sean m√°s legibles
    metodo,
    "tracew_kmeans" = "k-means (tracew)",           # Cambiamos la etiqueta t√©cnica 'tracew_kmeans' por una descripci√≥n m√°s clara
    "wss_gmm"       = "GMM (WSS aprox.)",           # Cambiamos 'wss_gmm' por 'GMM (WSS aprox.)'
    "wss_spectral"  = "Spectral (WSS aprox.)"       # Cambiamos 'wss_spectral' por 'Spectral (WSS aprox.)'
  )
)

In [None]:
# Representamos gr√°ficamente el m√©todo del codo
ggplot(tabla_k_long, aes(x = k, y = wss, color = metodo)) +
  geom_line(linewidth = 0.8) +
  geom_point(size = 2) +
  labs(title = "M√©todo del codo para k-means, GMM y Spectral Clustering",
       x     = "N√∫mero de cl√∫steres (k)",
       y     = "WSS / tracew (variabilidad intra-cl√∫ster)",
       color = "M√©todo") +
  theme_minimal(base_size = 12)

**Interpretaci√≥n.-**  
El gr√°fico compara la evoluci√≥n de la variabilidad intra‚Äìcl√∫ster (WSS o su aproximaci√≥n) para **k-means**, **GMM** y **Spectral Clustering** conforme aumenta el n√∫mero de cl√∫steres $k$.  

En el caso de **k-means**, se observa una **disminuci√≥n muy marcada entre $k=3$ y $k=4$**, seguida de mejoras cada vez m√°s peque√±as para valores superiores de $k$. Este comportamiento es caracter√≠stico de un **punto de codo** claro en **$k=4$**, donde a√±adir m√°s cl√∫steres no reduce de forma significativa la variabilidad interna.

Por el contrario, las curvas de **GMM** y **Spectral Clustering** se mantienen **mucho m√°s aleatoria**, con oscilaciones pero sin un descenso abrupto despu√©s de los primeros valores de $k$. Esto indica que estos m√©todos **no obtienen una ganancia sustancial** al incrementar el n√∫mero de cl√∫steres, por lo que el criterio del codo no resulta tan concluyente para ellos.

En conjunto, el comportamiento de las tres curvas sugiere que **$k=4$ es la elecci√≥n m√°s razonable**, respaldado por la se√±al clara dada por k-means y la ausencia de otra opci√≥n por **GMM** y **Spectral Clustering**.


In [None]:
# Extraemos la tabla de los resultados de DBSCAN
tabla_db = res_elbow$tablas$dbscan

In [None]:
# Evoluci√≥n del n√∫mero de cl√∫steres seg√∫n eps
ggplot(tabla_db, aes(x = eps, y = n_clusters)) +
  geom_line(linewidth = 0.8) +
  geom_point(size = 2) +
  labs(title = "DBSCAN: n√∫mero de cl√∫steres en funci√≥n de eps",
       x     = "eps",
       y     = "N√∫mero de cl√∫steres (sin ruido)") +
  scale_x_continuous(breaks = tabla_db$eps) +
  theme_minimal(base_size = 12)

**Interpretaci√≥n.-**  
El gr√°fico muestra la evoluci√≥n del n√∫mero de cl√∫steres detectados por **DBSCAN** en funci√≥n del par√°metro `eps`. Para un amplio rango inicial (`eps` entre 0.40 y 1.15), el algoritmo devuelve **cero cl√∫steres v√°lidos**, lo que significa que **todos los puntos son considerados ruido** bajo estos niveles de exigencia de densidad. Esto sugiere que, con `minPts = 3`, la distancia entre puntos es demasiado grande para formar n√∫cleos densos en ese intervalo.

Solo cuando `eps` alcanza valores alrededor de **1.20** aparece finalmente una estructura con **dos cl√∫steres**, lo que indica que el algoritmo empieza a considerar suficientes puntos dentro del radio para formar regiones densas coherentes.  

En conjunto, el gr√°fico evidencia que el conjunto de datos **no presenta densidades suficientemente compactas** como para que DBSCAN detecte cl√∫steres en eps peque√±os o moderados. La aparici√≥n de cl√∫steres √∫nicamente en eps grandes sugiere que la estructura es **poco densa** y requiere radios amplios para conectarse, por lo que la configuraci√≥n de DBSCAN debe interpretarse con cautela en este caso.


In [None]:
# Evoluci√≥n del n√∫mero de puntos ruido seg√∫n eps
ggplot(tabla_db, aes(x = eps, y = n_noise)) +
  geom_line(linewidth = 0.8) +
  geom_point(size = 2) +
  labs(title = "DBSCAN: n√∫mero de puntos ruido en funci√≥n de eps",
       x     = "eps",
       y     = "N√∫mero de observaciones etiquetadas como ruido") +
  scale_x_continuous(breaks = tabla_db$eps) +
**Interpretaci√≥n.-**
El gr√°fico muestra la evoluci√≥n del n√∫mero de cl√∫steres detectados por **DBSCAN** en funci√≥n del par√°metro `eps`. Para un amplio rango inicial (`eps` entre 0.40 y 1.15), el algoritmo devuelve **cero cl√∫steres v√°lidos**, lo que significa que **todos los puntos son considerados ruido** bajo estos niveles de exigencia de densidad. Esto sugiere que, con `minPts = 3`, la distancia entre puntos es demasiado grande para formar n√∫cleos densos en ese intervalo.

Solo cuando `eps` alcanza valores alrededor de **1.20** aparece finalmente una estructura con **dos cl√∫steres**, lo que indica que el algoritmo empieza a considerar suficientes puntos dentro del radio para formar regiones densas coherentes.

En conjunto, el gr√°fico evidencia que el conjunto de datos **no presenta densidades suficientemente compactas** como para que DBSCAN detecte cl√∫steres en eps peque√±os o moderados. La aparici√≥n de cl√∫steres √∫nicamente en eps grandes sugiere que la estructura es **poco densa** y requiere radios amplios para conectarse, por lo que la configuraci√≥n de DBSCAN debe interpretarse con cautela en este caso.
  theme_minimal(base_size = 12)


**Interpretaci√≥n.-**  
La gr√°fica muestra la evoluci√≥n del n√∫mero de puntos etiquetados como **ruido** por DBSCAN en funci√≥n del par√°metro `eps`. Para todo el rango inicial (`eps` entre 0.40 y 1.15), el algoritmo considera **a las 18 observaciones como ruido**, lo cual indica que **no existe suficiente densidad local** para formar cl√∫steres con `minPts = 3` en ese intervalo.

Solo cuando `eps` alcanza aproximadamente **1.20** el n√∫mero de puntos ruido cae bruscamente hasta **11**, lo que significa que algunos puntos empiezan a encontrarse dentro de radios suficientemente amplios como para cumplir el criterio de densidad y formar un par de cl√∫steres v√°lidos.

En conjunto, el gr√°fico confirma que el conjunto de datos presenta una **densidad muy baja o muy dispersa**, de modo que DBSCAN no identifica regiones densas hasta valores de `eps` relativamente grandes. Esto refuerza la idea de que, para este dataset, DBSCAN solo ofrece soluciones interpretables cuando se permite un radio amplio que conecte los puntos.


Tras realizar el an√°lisis del criterio del codo se realizar√° el criterio delestadistico GAP, como la funci√≥n es propia se explicar√° que realiza la funci√≥n.

La funci√≥n NHC_gap sustituye el an√°lisis anterior basado en el criterio del codo, por el Estad√≠stico GAP, que es una medida m√°s robusta y formal para determinar el n√∫mero √≥ptimo de cl√∫steres. Mientras que el criterio del codo se basaba en observar visualmente la reducci√≥n de la variabilidad intra‚Äìcl√∫ster, esta funci√≥n calcula el valor GAP mediante bootstrap, comparando la dispersi√≥n real de los datos con la dispersi√≥n esperada bajo una distribuci√≥n de referencia uniforme. Esto permite seleccionar el n√∫mero de cl√∫steres no solo por el "codo", sino mediante un criterio estad√≠stico con soporte te√≥rico.

Adem√°s, la funci√≥n generaliza el an√°lisis a tres metodolog√≠as distintas: k-means, Gaussian Mixture Models (GMM) y Spectral Clustering, creando wrappers personalizados para que todos puedan evaluarse con clusGap. Para cada m√©todo, la funci√≥n construye una tabla comparativa de valores GAP entre diferentes valores de $k$, lo que permite contrastar c√≥mo cada algoritmo estructura los datos y si coinciden o divergen en la elecci√≥n del n√∫mero √≥ptimo de cl√∫steres. Esto supone una mejora respecto a la funci√≥n anterior del codo, que solo evaluaba la variabilidad interna sin marco de comparaci√≥n entre m√©todos.

Finalmente, la funci√≥n mantiene un tratamiento especial para DBSCAN, ya que el Estad√≠stico GAP no es aplicable a algoritmos basados en densidad. En lugar de forzar un criterio inadecuado, la funci√≥n implementa un an√°lisis sistem√°tico del par√°metro eps, registrando el n√∫mero de cl√∫steres y el n√∫mero de puntos ruido para distintos valores. Con ello se obtiene una visi√≥n clara de c√≥mo evoluciona la estructura de densidad, complementando el enfoque basado en $k$ de los m√©todos anteriores. El resultado final es un procedimiento unificado, m√°s riguroso y comparativo, que supera ampliamente las limitaciones del an√°lisis previo basado √∫nicamente en el codo.




In [None]:
#--------------------------------------------------------------
# Funci√≥n general para estimar el Estad√≠stico GAP en:
#  - k-means (usando clusGap)
#  - GMM (Mclust + wrapper para clusGap)
#  - Spectral Clustering (specc + wrapper para clusGap)
#  - DBSCAN (Se mantiene an√°lisis de eps, ya que Gap no aplica a densidad sin k fijo)
#--------------------------------------------------------------
NHC_gap = function(data, k_min = 2, k_max = 10, B = 50, eps_grid = seq(0.4, 1.2, by = 0.05), minPts_dbscan = 3, seed = 123){

#----------------------------------------------------------
# 0) Comprobaciones y carga de librer√≠as
#----------------------------------------------------------

# Aseguramos que 'data' sea una matriz num√©rica
data = as.matrix(data)

# Vector de valores de k a evaluar
k_values = k_min:k_max

# Establecemos semilla de reproducibilidad
set.seed(seed)

libs_necesarias = c("mclust", "kernlab", "dbscan", "cluster")

for (lib in libs_necesarias) {
  if (!requireNamespace(lib, quietly = TRUE)) {
    install.packages(lib)
  }
  library(lib, character.only = TRUE)
}

# Cargamos librer√≠as necesarias
library(cluster)   # Para clusGap (k-means)
library(mclust)    # Para GMM
library(kernlab)   # Para Spectral Clustering
library(dbscan)    # Para DBSCAN

#----------------------------------------------------------
# 1) Definici√≥n de Wrappers (Funciones auxiliares para clusGap)
#    clusGap necesita funciones que acepten (x, k) y devuelvan
#    una lista con el componente $cluster
#----------------------------------------------------------

# Wrapper para GMM
gmm_fn = function(x, k){
  model = Mclust(x, G = k, verbose = FALSE)
  list(cluster = model$classification)
}

# Wrapper para Spectral Clustering
spec_fn = function(x, k){
  # Usamos tryCatch por si falla la convergencia en alguna iteraci√≥n
  out = tryCatch({
    res = specc(x, centers = k, kernel = "rbfdot")
    list(cluster = res@.Data)
  }, error = function(e) {
    # En caso de error, devolvemos un cluster aleatorio (fallback)
    list(cluster = sample(1:k, nrow(x), replace = TRUE))
  })
  return(out)
}

# Wrapper para K-means (aseguramos nstart para estabilidad)
kmeans_fn = function(x, k){
  kmeans(x, centers = k, nstart = 25)
}

#----------------------------------------------------------
# 2) K-MEANS - Estad√≠stico GAP
#----------------------------------------------------------
# Calculamos el Gap statistic con B iteraciones de bootstrap
gap_km_obj = clusGap(data, FUNcluster = kmeans_fn, K.max = k_max, B = B)

# Calculamos el Gap statistic con B iteraciones de bootstrap
# La tabla de clusGap empieza en k=1, filtramos por filas
gap_km_values = gap_km_obj$Tab[k_values, "gap"]

#----------------------------------------------------------
# 3) GMM - Estad√≠stico GAP
#----------------------------------------------------------
# Nota: Esto puede tardar dependiendo del tama√±o de datos y B
# Calculamos el Gap statistic con B iteraciones de bootstrap
gap_gmm_obj = clusGap(data, FUNcluster = gmm_fn, K.max = k_max, B = B)

# Calculamos el Gap statistic con B iteraciones de bootstrap
# La tabla de clusGap empieza en k=1, filtramos por filas
gap_gmm_values = gap_gmm_obj$Tab[k_values, "gap"]

#----------------------------------------------------------
# 4) SPECTRAL CLUSTERING - Estad√≠stico GAP
#----------------------------------------------------------
# Nota: Esto puede tardar dependiendo del tama√±o de datos y B
# Calculamos el Gap statistic con B iteraciones de bootstrap
gap_spec_obj = clusGap(data, FUNcluster = spec_fn, K.max = k_max, B = B)

# Calculamos el Gap statistic con B iteraciones de bootstrap
# La tabla de clusGap empieza en k=1, filtramos por filas
gap_spec_values = gap_spec_obj$Tab[k_values, "gap"]

#----------------------------------------------------------
# 5) DBSCAN - An√°lisis de sensibilidad (eps)
#    El estad√≠stico Gap no es aplicable directamente porque
#    DBSCAN no fija k. Mantenemos el an√°lisis de eps/ruido.
#----------------------------------------------------------
# Distancias al minPts-√©simo vecino (para visualizaci√≥n)
kNN_dists = kNNdist(data, k = minPts_dbscan)
kNN_dists = sort(kNN_dists)

# Evaluamos la rejilla de eps
n_clusters_db = numeric(length(eps_grid))
n_noise_db    = numeric(length(eps_grid))

# Ajustamos DBSCAN para cada eps de la rejilla
for (i in seq_along(eps_grid)) {
  eps_i = eps_grid[i]
  db_i = dbscan(data, eps = eps_i, minPts = minPts_dbscan)

  # Clusters excluyendo ruido (0)
  n_clusters_db[i] = length(setdiff(unique(db_i$cluster), 0))
  n_noise_db[i]    = sum(db_i$cluster == 0)
}

#----------------------------------------------------------
# 6) Construimos tablas resumen comparativas
#----------------------------------------------------------
# Tabla comparativa de valores GAP
tabla_gap = data.frame(k = k_values, gap_kmeans = gap_km_values, gap_gmm = gap_gmm_values, gap_spectral = gap_spec_values)

# Tabla comparativa para DBSCAN
tabla_dbscan = data.frame(eps = eps_grid, n_clusters = n_clusters_db, n_noise = n_noise_db)

#----------------------------------------------------------
# 7) Devolvemos resultados en lista
#----------------------------------------------------------
resultados = list(
  gap_objects = list(
    kmeans   = gap_km_obj,    # Objeto completo clusGap (contiene SE.sim, etc.)
    gmm      = gap_gmm_obj,
    spectral = gap_spec_obj
  ),
  dbscan = list(
    minPts     = minPts_dbscan,
    kNN_dists  = kNN_dists,
    eps_grid   = eps_grid,
    n_clusters = n_clusters_db,
    n_noise    = n_noise_db
  ),
  tablas = list(
    gap_methods = tabla_gap,   # Tabla resumen de valores Gap
    dbscan      = tabla_dbscan # Tabla resumen DBSCAN
  )
)

# Devuelve el resultado final
return(resultados)
}


In [None]:
# Aplicamos la funci√≥n NHC_gap sobre nuestra base de datos estandarizada (puede tardar unos minutos)
res_gap = NHC_gap(datos_est)

In [None]:
# Informaci√≥n obtenida con la funci√≥n 'NHC_gap'
str(res_gap)

In [None]:
# Informaci√≥n obtenida con la funci√≥n 'NHC_gap' (vista completa)
show(res_gap)

**Interpretaci√≥n.-** El objeto generado por la funci√≥n `NHC_gap` contiene **tres bloques de resultados**: los estad√≠sticos Gap para los m√©todos basados en $k$ (*k-means*, *GMM* y *Spectral Clustering*), el an√°lisis de sensibilidad para **DBSCAN**, y dos tablas resumen listas para an√°lisis comparativo. En conjunto, este resultado permite evaluar la estructura de cl√∫steres desde una perspectiva estad√≠stica m√°s s√≥lida que el criterio del codo, ya que compara la dispersi√≥n observada con la obtenida bajo una distribuci√≥n de referencia. Con de $50$ iteraciones bootstrap  (`B`).

Dentro del apartado **`gap_objects`**, observamos que los tres m√©todos (*k-means*, *GMM* y *Spectral*) seleccionan **$k = 1$** como n√∫mero √≥ptimo de cl√∫steres bajo el criterio *firstSEmax*, ya que el valor del estad√≠stico Gap es m√°ximo en $k = 1$ y decrece conforme aumenta $k$. Esto es coherente con las tablas: en los tres m√©todos, el estad√≠stico Gap es positivo √∫nicamente en $k = 1$, y en la mayor√≠a de los casos se vuelve negativo a partir de $k = 2$, indicando que a√±adir m√°s cl√∫steres no mejora la separaci√≥n respecto al modelo nulo. Adem√°s, el patr√≥n decreciente o fluctuante de la columna `gap` en `Tab` confirma que no hay evidencia estad√≠stica de m√∫ltiples grupos bien definidos en los datos seg√∫n ninguno de los tres algoritmos.

En cuanto al bloque **`dbscan`**, el an√°lisis de densidad muestra una situaci√≥n similar. Para la rejilla de valores de $\epsilon$ definida (`eps_grid`), el m√©todo produce **0 cl√∫steres** en todos los casos salvo el √∫ltimo, donde encuentra √∫nicamente **2 cl√∫steres** (`n_clusters`) y reduce el n√∫mero de puntos de ruido a 11 (`n_noise`). Esto implica que, para la mayor parte del rango explorado, las distancias entre puntos (`kNN_dists`) no son suficientemente peque√±as como para formar regiones densas estables, la cual se definio como 3 equipos para un cluster (`minPts`) y el m√©todo no detecta estructura agregada relevante bajo los par√°metros elegidos.

Finalmente, las dos tablas incluidas en **`tablas`** sintetizan estas conclusiones. La tabla **`gap_methods`** muestra que para $k = 2,\dots,10$ todos los valores del estad√≠stico Gap son peque√±os y mayoritariamente negativos, reforzando que ninguno de los m√©todos identifica agrupamientos significativos m√°s all√° de $k = 1$. Por su parte, la tabla **`dbscan`** confirma la ausencia de cl√∫steres en la mayor√≠a de configuraciones de $\epsilon$. En conjunto, este objeto indica que, seg√∫n el criterio Gap y el an√°lisis de densidad, **los datos no presentan una estructura clara de cl√∫steres**, o bien esta es demasiado d√©bil para ser detectada por los m√©todos considerados.






In [None]:
# Comparamos los resultados de los 4 m√©todos no jer√°rquicos
# Extraemos la tabla del Estad√≠stico Gap
tabla_gap = res_gap$tablas$gap_methods

In [None]:
# Generamos la tabla comparativa de los m√©todos k-means, DBSCAN y GMM (Estad√≠stico Gap)
kable(tabla_gap, caption = "Resumen del Estad√≠stico Gap para k-means, GMM y Spectral Clustering", digits = 4, align = "c",
      col.names = c("k", "k-means (Gap)", "GMM (Gap)", "Spectral (Gap)"))

**Interpretaci√≥n.-** La tabla muestra los valores del **Estad√≠stico Gap** para distintos valores de $k$ usando *k-means*, *GMM* y *Spectral Clustering*. En este caso, los valores del Gap son muy peque√±os y **no presentan m√°ximos positivos claros**, lo que indica que los datos **no muestran una estructura de cl√∫steres fuerte** seg√∫n esta m√©trica.

Ninguno de los tres m√©todos exhibe un incremento sustancial del Gap que sugiera la presencia de agrupamientos bien definidos. De hecho:

- En **k-means**, los valores del Gap son ligeramente positivos solo en $k=2$, y desde $k=3$ en adelante son todos negativos, indicando que a√±adir m√°s cl√∫steres **no mejora la separaci√≥n respecto al modelo nulo** ya que un valor negativo significa que es peor que una elecci√≥n aleatoria de clusters.
- En **GMM**, ocurre algo similar: los valores oscilan en torno a cero y, aunque algunos son positivos (por ejemplo, en $k=4$ y $k=5$), no siguen un patr√≥n creciente ni definen un m√°ximo destacable.
- En **Spectral Clustering**, los valores positivos aparecen en algunos valores de $k$ (como $k=3$, $k=4$ y $k=7$), pero no forman una tendencia consistente ni estable a trav√©s de los valores de $k$.

Dado que el **criterio del Gap busca un m√°ximo bien definido**, la ausencia de un pico claro implica que el conjunto de datos **no presenta una estructura de cl√∫steres claramente identificable** bajo estos m√©todos. En consecuencia, **no hay evidencia s√≥lida para seleccionar un valor √≥ptimo de $k$**, y cualquier elecci√≥n deber√≠a basarse en otros criterios (codo y silueta promedio).

En resumen, el Estad√≠stico Gap sugiere que **los datos no contienen una estructura de cl√∫steres fuerte o bien separada**, y que **ning√∫n valor de $k$ destaca como √≥ptimo** seg√∫n este criterio.


In [None]:
# Generamos la tabla comparativa del m√©todo DBSCAN (Estad√≠stico Gap)
kable(res_gap$tablas$dbscan, caption = "Resumen de resultados para DBSCAN seg√∫n eps (Estad√≠stico Gap)", digits = 3, align = "c")

**Interpretaci√≥n.-** Los resultados muestran que **DBSCAN no identifica ning√∫n cl√∫ster** en la mayor parte del rango de valores de `eps`. Para todos los radios entre 0.40 y 1.15, el algoritmo considera que **todos los puntos son ruido**, lo que implica que la densidad local nunca es lo suficientemente alta como para formar grupos seg√∫n el criterio interno del algoritmo. Este comportamiento indica que, en este conjunto de datos, **no existen zonas de alta densidad separadas entre s√≠** bajo los valores de vecindad evaluados.

Solo cuando `eps = 1.20` se detecta una estructura no trivial: aparecen **2 cl√∫steres** y el n√∫mero de puntos clasificados como ruido se reduce a 11. Esto sugiere que solo con un radio de vecindad relativamente grande, es decir, permitiendo que muchos puntos entren dentro del mismo entorno de densidad, DBSCAN es capaz de encontrar grupos cohesivos. Sin embargo, este valor elevado de `eps` tambi√©n implica que la separaci√≥n entre los cl√∫steres es d√©bil y que el algoritmo est√° forzando la uni√≥n de regiones que solo parecen densas a gran escala.

En conjunto, el an√°lisis indica que **DBSCAN no detecta una estructura de densidad clara en los datos** salvo cuando se incrementa el radio de manera muy amplia. Por tanto, este algoritmo **no aporta evidencia s√≥lida de cl√∫steres bien definidos**, y confirma que los m√©todos basados en distancia o conectividad (como k-means, GMM o spectral) son m√°s adecuados para este conjunto de datos.


Al igual que en el criterio anterior se proceder√° a graficarlos.

In [None]:
# Extraemos la tabla de resultados GAP
tabla_gap = res_gap$tablas$gap_methods

In [None]:
# Pasamos a formato largo para ggplot
tabla_gap_long = tabla_gap %>%
  pivot_longer(
    cols      = c(gap_kmeans, gap_gmm, gap_spectral),
    names_to  = "metodo",
    values_to = "gap_stat"
  ) %>%
  mutate(
    metodo = recode(
      metodo,
      "gap_kmeans"   = "k-means (Gap)",
      "gap_gmm"      = "GMM (Gap)",
      "gap_spectral" = "Spectral (Gap)"
    )
  )

In [None]:
# Representamos gr√°ficamente el Estad√≠stico Gap
ggplot(tabla_gap_long, aes(x = k, y = gap_stat, color = metodo)) +
  geom_line(linewidth = 0.8) +
  geom_point(size = 2) +
  labs(title = "Estad√≠stico Gap para k-means, GMM y Spectral Clustering",
       subtitle = "Valores m√°s altos indican una mejor estructura de cl√∫steres",
       x     = "N√∫mero de cl√∫steres (k)",
       y     = "Estad√≠stico Gap",
       color = "M√©todo") +
  scale_x_continuous(breaks = tabla_gap$k) +
  theme_minimal(base_size = 12)

**Interpretaci√≥n.-** La representaci√≥n del **estad√≠stico Gap** evidencia un patr√≥n consistente entre los tres m√©todos evaluados, destacando de forma clara que la estructura m√°s s√≥lida se alcanza en $k=4$. El m√©todo **Spectral Clustering** (l√≠nea azul) presenta su **m√°ximo global** en este punto, lo que indica que, seg√∫n la conectividad y las relaciones no lineales entre observaciones, la partici√≥n en tres grupos es la m√°s marcada. Por su parte, **GMM** muestra tambi√©n un **pico local pronunciado** en $k=3$, antes de que el valor del Gap comience a disminuir progresivamente para valores superiores de $k$.

En el caso de **k-means**, exceptuando en $k=2$ los valores son negativos indicando que es mejor la selecci√≥n de clusters de forma aleatoria.



In [None]:
# Extraemos la tabla de DBSCAN del objeto res_gap
tabla_gap_db = res_gap$tablas$dbscan

In [None]:
# Nota: Como DBSCAN no usa Gap directo, visualizamos la estabilidad estructural
# Evoluci√≥n del n√∫mero de cl√∫steres seg√∫n eps
ggplot(tabla_gap_db, aes(x = eps, y = n_clusters)) +
  geom_line(linewidth = 0.8, color = "darkblue") +
  geom_point(size = 2, color = "darkblue") +
  labs(title = "DBSCAN: Estabilidad de cl√∫steres seg√∫n eps",
       x     = "eps (Radio de vecindad)",
       y     = "N√∫mero de cl√∫steres formados") +
  scale_x_continuous(breaks = tabla_gap_db$eps) +
  theme_minimal(base_size = 12)

**Interpretaci√≥n.-**  
El gr√°fico muestra la evoluci√≥n del n√∫mero de cl√∫steres detectados por **DBSCAN** en funci√≥n del par√°metro `eps`. Para un amplio rango inicial (`eps` entre 0.40 y 1.15), el algoritmo devuelve **cero cl√∫steres v√°lidos**, lo que significa que **todos los puntos son considerados ruido** bajo estos niveles de exigencia de densidad. Esto sugiere que, con `minPts = 3`, la distancia entre puntos es demasiado grande para formar n√∫cleos densos en ese intervalo.

Solo cuando `eps` alcanza valores alrededor de **1.20** aparece finalmente una estructura con **dos cl√∫steres**, lo que indica que el algoritmo empieza a considerar suficientes puntos dentro del radio para formar regiones densas coherentes.  

En conjunto, el gr√°fico evidencia que el conjunto de datos **no presenta densidades suficientemente compactas** como para que DBSCAN detecte cl√∫steres en eps peque√±os o moderados. La aparici√≥n de cl√∫steres √∫nicamente en eps grandes sugiere que la estructura es **poco densa** y requiere radios amplios para conectarse, por lo que la configuraci√≥n de DBSCAN debe interpretarse con cautela en este caso.





In [None]:
# Evoluci√≥n del ruido seg√∫n eps
ggplot(tabla_gap_db, aes(x = eps, y = n_noise)) +
  geom_line(linewidth = 0.8, color = "firebrick") +
  geom_point(size = 2, color = "firebrick") +
  labs(title = "DBSCAN: Cantidad de ruido seg√∫n eps",
       x     = "eps (Radio de vecindad)",
       y     = "Puntos considerados ruido") +
  scale_x_continuous(breaks = tabla_gap_db$eps) +
  theme_minimal(base_size = 12)

**Interpretaci√≥n.-**  
La gr√°fica muestra la evoluci√≥n del n√∫mero de puntos etiquetados como **ruido** por DBSCAN en funci√≥n del par√°metro `eps`. Para todo el rango inicial (`eps` entre 0.40 y 1.15), el algoritmo considera **a las 18 observaciones como ruido**, lo cual indica que **no existe suficiente densidad local** para formar cl√∫steres con `minPts = 3` en ese intervalo.

Solo cuando `eps` alcanza aproximadamente **1.20** el n√∫mero de puntos ruido cae bruscamente hasta **11**, lo que significa que algunos puntos empiezan a encontrarse dentro de radios suficientemente amplios como para cumplir el criterio de densidad y formar un par de cl√∫steres v√°lidos.

En conjunto, el gr√°fico confirma que el conjunto de datos presenta una **densidad muy baja o muy dispersa**, de modo que DBSCAN no identifica regiones densas hasta valores de `eps` relativamente grandes. Esto refuerza la idea de que, para este dataset, DBSCAN solo ofrece soluciones interpretables cuando se permite un radio amplio que conecte los puntos.

Ya que la funci√≥n es propia se dar√° una explicaci√≥n de lo que hace. La funci√≥n NHC_elbow constituye una herramienta integrada para aplicar el m√©todo del codo en varios algoritmos de clustering no jer√°rquico: k-means, Gaussian Mixture Models (GMM), Spectral Clustering y DBSCAN. Su estructura est√° dise√±ada para garantizar reproducibilidad, control del rango de b√∫squeda y comparabilidad entre m√©todos. A partir del conjunto de datos introducido, la funci√≥n calcula m√∫ltiples particiones para un rango de valores de $k$ y para los distintos algoritmos: **k-means**, **GMM** y **Spectral Clustering**. Para cada combinaci√≥n, obtiene m√©tricas internas de validaci√≥n como el **√≠ndice de silueta**, el **√≠ndice de Dunn**, el **Davies‚ÄìBouldin**, el **Calinski‚ÄìHarabasz**, el **Gap Statistic** y otras medidas relevantes que permiten comparar la calidad de la estructura encontrada. Adem√°s, organiza todos los resultados en tablas y listas para incorporar en informes de forma inmediata sin neceisidad de generaci√≥n externa, que sintetizan el comportamiento de los m√©todos frente al n√∫mero de cl√∫steres.



In [None]:
#--------------------------------------------------------------
# Funci√≥n general para calcular la Silueta Promedio en:
#  - k-means (stats + cluster)
#  - GMM (mclust + cluster)
#  - Spectral Clustering (kernlab + cluster)
#  - DBSCAN (dbscan + cluster)
#--------------------------------------------------------------
NHC_silueta = function(data, k_min = 2, k_max = 10, eps_grid = seq(0.4, 1.2, by = 0.05), minPts_dbscan = 3, seed = 123){

#----------------------------------------------------------
# 0) Comprobaciones y carga de librer√≠as
#----------------------------------------------------------

# Aseguramos que 'data' sea una matriz num√©rica
data = as.matrix(data)

# Calculamos la matriz de distancias una sola vez (necesaria para silhouette)
# Usamos distancia Eucl√≠dea por defecto
dist_mat = dist(data)

# Vector de valores de k a evaluar
k_values = k_min:k_max

# Establecemos semilla de reproducibilidad
set.seed(seed)

libs_necesarias = c("mclust", "kernlab", "dbscan", "cluster")

for (lib in libs_necesarias) {
  if (!requireNamespace(lib, quietly = TRUE)) {
    install.packages(lib)
  }
  library(lib, character.only = TRUE)
}

# Cargamos librer√≠as necesarias
library(cluster)   # Para la funci√≥n silhouette()
library(mclust)    # Para GMM
library(kernlab)   # Para Spectral Clustering
library(dbscan)    # Para DBSCAN

#----------------------------------------------------------
# 1) Funci√≥n auxiliar: extrae silueta promedio
#----------------------------------------------------------
calc_sil_avg = function(cl, d_mat) {

# La silueta solo se define para k >= 2
# Si hay 1 solo grupo o todo es ruido, devuelve NA o 0
k_enc = length(unique(cl))
  if (k_enc < 2) {
    return(NA)
  } else {
    sil_obj = silhouette(cl, d_mat)
    # Devolvemos la media de la tercera columna (width)
    return(summary(sil_obj)$avg.width)
  }
}

#----------------------------------------------------------
# 2) K-MEANS - Silueta Promedio
#----------------------------------------------------------
sil_km = numeric(length(k_values))

for (i in seq_along(k_values)) {
  k = k_values[i]

  # Ejecutamos k-means
  km_res = kmeans(data, centers = k, nstart = 25)

  # Calculamos silueta
  sil_km[i] = calc_sil_avg(km_res$cluster, dist_mat)
}

#----------------------------------------------------------
# 3) GMM (Mclust) - Silueta Promedio
#----------------------------------------------------------
sil_gmm = numeric(length(k_values))

for (i in seq_along(k_values)) {
  k = k_values[i]

  # Ajustamos GMM
  gmm_res = Mclust(data, G = k, verbose = FALSE)

  # Clasificaci√≥n
  cl = gmm_res$classification

  # Nota: Calculamos la silueta sobre la distancia Eucl√≠dea original
  # para hacer los m√©todos comparables en t√©rminos de compacidad geom√©trica.
  sil_gmm[i] = calc_sil_avg(cl, dist_mat)
}

#----------------------------------------------------------
# 4) SPECTRAL CLUSTERING - Silueta Promedio
#----------------------------------------------------------
sil_spectral = numeric(length(k_values))

for (i in seq_along(k_values)) {
  k = k_values[i]

  # Ajustamos Spectral
  # Usamos tryCatch para evitar paradas si no converge
  spec_res = tryCatch({
    specc(data, centers = k, kernel = "rbfdot")
  }, error = function(e) NULL)

  if (!is.null(spec_res)) {
    cl = spec_res@.Data
    sil_spectral[i] = calc_sil_avg(cl, dist_mat)
  } else {
    sil_spectral[i] = NA
  }
}

#----------------------------------------------------------
# 5) DBSCAN - Silueta Promedio por eps
#----------------------------------------------------------
# Para DBSCAN, calcularemos la silueta de los puntos CLASIFICADOS.
# Opci√≥n: Excluir el ruido (cluster 0) del c√°lculo de la media,
# ya que el ruido no forma un cl√∫ster cohesivo.

sil_dbscan    = numeric(length(eps_grid))
n_clusters_db = numeric(length(eps_grid))
n_noise_db    = numeric(length(eps_grid))

# Distancias kNN para referencia visual del codo (igual que en funciones previas)
kNN_dists = kNNdist(data, k = minPts_dbscan)
kNN_dists = sort(kNN_dists)

for (i in seq_along(eps_grid)) {
  eps_i = eps_grid[i]

  db_res = dbscan(data, eps = eps_i, minPts = minPts_dbscan)
  cl = db_res$cluster

  # Guardamos m√©tricas estructurales
  n_clusters_db[i] = length(setdiff(unique(cl), 0))
  n_noise_db[i]    = sum(cl == 0)

  # Calculamos silueta SOLO si hay al menos 2 cl√∫steres reales (excluyendo ruido)
  # O si consideramos ruido como grupo, depender√° de la interpretaci√≥n.
  # Aqu√≠: filtramos el ruido para ver la calidad de los grupos formados.
  mask_no_ruido = cl != 0

  if (length(unique(cl[mask_no_ruido])) >= 2) {
    # Calculamos silueta solo con los datos que no son ruido
    # Necesitamos subconjunto de la matriz de distancias tambi√©n
    dist_subset = as.dist(as.matrix(dist_mat)[mask_no_ruido, mask_no_ruido])
    sil_val = calc_sil_avg(cl[mask_no_ruido], dist_subset)
    sil_dbscan[i] = sil_val
  } else {
    sil_dbscan[i] = NA # No aplica silueta si hay < 2 grupos
  }
}

#----------------------------------------------------------
# 6) Construimos tablas resumen comparativas
#----------------------------------------------------------

# Tabla comparativa para m√©todos basados en k
tabla_sil = data.frame(k = k_values, sil_kmeans = sil_km, sil_gmm = sil_gmm, sil_spectral = sil_spectral)

# Tabla comparativa para DBSCAN
tabla_dbscan = data.frame(eps = eps_grid, n_clusters = n_clusters_db, n_noise = n_noise_db, avg_sil_clu = sil_dbscan)

#----------------------------------------------------------
# 7) Devolvemos resultados en lista estructurada
#----------------------------------------------------------
resultados = list(
  metrica = "Average Silhouette Width",
  dbscan_info = list(
    minPts    = minPts_dbscan,
    kNN_dists = kNN_dists,
    nota      = "La silueta de DBSCAN se calcula excluyendo puntos de ruido (cluster 0)"
  ),
  tablas = list(
    sil_methods = tabla_sil,    # Tabla resumen K-means, GMM, Spectral
    dbscan      = tabla_dbscan  # Tabla resumen DBSCAN
  )
)

# Devuelve el resultado final
return(resultados)
}


In [None]:
# Aplicamos la funci√≥n NHC_silueta sobre nuestra base de datos estandarizada
res_silueta = NHC_silueta(datos_est)

In [None]:
# Informaci√≥n obtenida con la funci√≥n 'NHC_silueta'
str(res_silueta)

In [None]:
# Informaci√≥n obtenida con la funci√≥n 'NHC_silueta' (vista completa)
show(res_silueta)

**Interpretaci√≥n.-** El objeto resultante `res_silueta` contiene 3 elementos principales que resumen la evaluaci√≥n basada en el Average Silhouette Width para los m√©todos de clustering considerados, incluyendo una secci√≥n espec√≠fica dedicada a DBSCAN. El primer elemento, **`metrica`**, indica claramente que la medida empleada para comparar la calidad de los agrupamientos es **"Average Silhouette Width"** (Anchura de Silueta Promedio), una m√©trica que eval√∫a simult√°neamente la coherencia interna de los cl√∫steres y la separaci√≥n entre ellos.

En el apartado **`dbscan_info`**, se especifica el valor de `minPts = 3`, correspondiente al n√∫mero m√≠nimo de vecinos requeridos para formar un cl√∫ster en DBSCAN. A continuaci√≥n, se muestran las distancias a los 3 vecinos m√°s cercanos (`kNN_dists`), donde los valores oscilan aproximadamente entre $1.49$ y $2.63$, lo que permite inferir el rango razonable de $\epsilon$ para evaluar densidades consistentes. La nota incluida (`nota`) aclara que la silueta de DBSCAN se computa excluyendo los puntos clasificados como ruido, es decir, aquellos asignados al cl√∫ster $0$.

Dentro del apartado **`tablas`**, el subelemento sil_methods presenta las anchuras medias de silueta para **k-means, GMM y Spectral Clustering** para $k = 2,\dots,10$. Los valores muestran que los tres m√©todos alcanzan sus puntuaciones m√°s altas alrededor de $k = 4‚Äì6$, especialmente k-means con un m√°ximo en $k = 6$ (`sil_kmeans = 0.2708`), seguido muy de cerca por GMM y, en menor medida, por Spectral Clustering. Este comportamiento sugiere que, desde la m√©trica de silueta, los datos presentan una estructura moderadamente definida en ese rango de particiones, con cierta p√©rdida de coherencia para valores mayores de $k$.

Finalmente, el subelemento `dbscan` resume la evoluci√≥n de DBSCAN para distintos valores de $\epsilon$. Se observa que todas las configuraciones entre $0.40$ y $1.15$ producen **0 cl√∫steres y 18 puntos de ruido**, lo que implica que con esos radios no se alcanza suficiente densidad para formar agrupamientos estables (`n_clusters`, `n_noise`). S√≥lo en $\epsilon = 1.20$ el algoritmo identifica **2 cl√∫steres** con **11 puntos de ruido**, alcanzando adem√°s una **silueta media elevada** (`avg_sil_clu = 0.44097`), lo que indica que, aunque DBSCAN es muy sensible al par√°metro $\epsilon$, existe al menos una configuraci√≥n que revela una estructura de densidad coherente en los datos.
  
  

In [None]:
# Comparamos los resultados de los 4 m√©todos no jer√°rquicos
# Extraemos la tabla de la Silueta Promedio
tabla_k_silueta = res_silueta$tablas$sil_methods

In [None]:
# Generamos la tabla comparativa de los m√©todos k-means, DBSCAN y GMM (Silueta promedio)
kable(tabla_k_silueta, caption = "Resumen de √≠ndices para k-means, GMM y Spectral Clustering (Silueta promedio)", digits = 3, align = "c")

Antes de realizar la interpretaci√≥n cabe resaltar que la interpretaci√≥n del valor ser√° la <u>regla emp√≠rica com√∫nmente aceptada</u> la cual es:

- Si la silueta promedio est√° entre $0.71$ y $1$ entonces la estructura de clasificaci√≥n encontrada es fuerte.

- Si la silueta promedio est√° entre $0.51$ y $0.7$ entonces la estructura de clasificaci√≥n encontrada es razonable (aceptable).

- Si la silueta promedio est√° entre $0.26$ y $0.50$ entonces la estructura de clasificaci√≥n encontrada es d√©bil y puede ser artificial.

- Si la silueta promedio es $< 0.25$ entonces no se ha encontrado una estructura de clasificaci√≥n.

**Interpretaci√≥n.-** La tabla recoge las siluetas promedio de **k-means**, **GMM** y **Spectral Clustering** para $k = 2,\dots,10$, permitiendo evaluar la calidad relativa de cada partici√≥n. En primer lugar, se observa que los valores m√°ximos se concentran en $k=6$, lo que indica que la estructura de los datos es moderada. El mayor valor de toda la tabla corresponde a **K-means** (`sil_kmeans = 0.271`), aunque este valor se encuentra por minimamente del umbral m√≠nimo de $0.25$, por lo que no constituye evidencia suficiente de una estructura fuerte.

En cuanto a **Spectral Clustering** y **GMM**, ambos m√©todos muestran un comportamiento muy similar: las siluetas aumentan gradualmente hasta alcanzar valores moderados en **$k=4$** (`0.239` en Spectral Clustering y `0.246` en GMM) y alcanzan su m√°ximo en **$k=6$** (`0.247` y `0.255`, respectivamente). Sin embargo, incluso estos m√°ximos permanecen dentro del rango de **estructura no encontrada**, lo que indica que la partici√≥n solo est√° respaldada de manera tenue por la forma geom√©trica de los datos. A partir de ah√≠, todos los m√©todos muestran una degradaci√≥n progresiva.

En conjunto, aunque ninguno de los m√©todos obtiene valores de Silueta que indiquen **estructura fuerte** ni **razonable**, se aprecia que los valores m√°s consistentes y altos se concentran entre **$k = 4$ y $k = 6$**, siendo **k-means y GMM con $k=6$** los que alcanzan los mejores resultados relativos. Por tanto, estos an√°lisis apuntan a que la estructura de los datos es **d√©bil** pero m√°s estable en torno a ese rango.


In [None]:
# Generamos la tabla comparativa del m√©todo DBSCAN (Silueta promedio)
kable(res_silueta$tablas$dbscan, caption = "Resumen de resultados para DBSCAN seg√∫n eps (Silueta promedio)", digits = 3, align = "c")

**Interpretaci√≥n.-** La tabla resume c√≥mo evoluciona el comportamiento de **DBSCAN** al variar el par√°metro $\epsilon$ manteniendo `minPts = 3`. Se observa que para todos los valores comprendidos entre `eps = 0.40` y `eps = 1.15`, el algoritmo detecta **0 cl√∫steres** (`n_clusters = 0`) y clasifica a **las 18 observaciones como ruido** (`n_noise = 18`). En consecuencia, la silueta promedio no puede calcularse (`avg_sil_clu = NA`), ya que DBSCAN no llega a formar ning√∫n grupo v√°lido. Este comportamiento indica que, en ese rango de vecindad, los puntos nunca alcanzan una densidad suficiente como para generar cl√∫steres estables.

La √∫nica excepci√≥n se produce en `eps = 1.20`, donde el algoritmo identifica **2 cl√∫steres** (`n_clusters = 2`) y reduce el n√∫mero de puntos ruido a **11** (`n_noise = 11`). En este caso s√≠ es posible calcular la silueta, obteni√©ndose un valor de **0.441** (`avg_sil_clu = 0.4409738`), lo que seg√∫n las reglas emp√≠ricas corresponde a una **estructura de cl√∫steres d√©bil pero existente**. Este resultado pone de manifiesto que solo con valores de $\epsilon$ considerablemente grandes DBSCAN consigue detectar alguna estructura en los datos, aunque dicha estructura no alcanza niveles altos de separaci√≥n o compacidad.


Se proceder√° a graficar los resultados.

In [None]:
# Extraemos la tabla de resultados de Silueta
library(dplyr)
library(tidyr)
tabla_sil = res_silueta$tablas$sil_methods

In [None]:

# Pasamos a formato largo
tabla_sil_long = tabla_sil %>%
  pivot_longer(
    cols      = c(sil_kmeans, sil_gmm, sil_spectral),
    names_to  = "metodo",
    values_to = "silueta"
  ) %>%
  mutate(
    metodo = recode(
      metodo,
      "sil_kmeans"   = "k-means (Silueta)",
      "sil_gmm"      = "GMM (Silueta)",
      "sil_spectral" = "Spectral (Silueta)"
    )
  )

In [None]:
# Representamos gr√°ficamente la Silueta Promedio
ggplot(tabla_sil_long, aes(x = k, y = silueta, color = metodo)) +
  geom_line(linewidth = 0.8) +
  geom_point(size = 2) +
  labs(title = "Silueta Promedio para k-means, GMM y Spectral Clustering",
       subtitle = "Valores cercanos a 1 indican cl√∫steres densos y bien separados",
       x     = "N√∫mero de cl√∫steres (k)",
       y     = "Anchura de Silueta Promedio",
       color = "M√©todo") +
  scale_x_continuous(breaks = tabla_sil$k) +
  theme_minimal(base_size = 12)

**Interpretaci√≥n.-** El an√°lisis de la **silueta promedio** indica que el n√∫mero √≥ptimo de cl√∫steres se alcanza en **k = 6**, donde los tres algoritmos logran sus valores m√°ximos de separaci√≥n entre grupos y cohesi√≥n interna. En este punto, **k-means** obtiene la mayor calidad de partici√≥n con una silueta de **0.271**, seguido de **GMM** con **0.255**, y **Spectral Clustering** con **0.247**, lo que sugiere que, aunque las diferencias no son grandes, k-means produce los cl√∫steres m√°s compactos y mejor definidos para este valor de k.

A partir de $k > 6$, las curvas de los tres m√©todos muestran un descenso progresivo en la calidad de las soluciones, indicando que a√±adir m√°s cl√∫steres produce agrupamientos menos cohesionados y peor separados. Por el contrario, para valores menores de k, la estructura de los datos a√∫n no est√° completamente capturada y la silueta es inferior en todos los casos. La convergencia de los m√°ximos en **k = 6** refuerza que este es el punto donde la partici√≥n ofrece el equilibrio m√°s robusto entre complejidad del modelo y calidad del agrupamiento.


In [None]:
# Extraemos la tabla DBSCAN del objeto res_silueta
tabla_sil_db = res_silueta$tablas$dbscan

In [None]:
# Gr√°fico espec√≠fico para Silueta en DBSCAN
# Nota: Los NAs (donde no hubo suficientes clusters) no se pintar√°n, cortando la l√≠nea,
# lo cual es correcto para indicar que ah√≠ no hay soluci√≥n v√°lida.
ggplot(tabla_sil_db, aes(x = eps, y = avg_sil_clu)) +
  geom_line(linewidth = 0.8, color = "purple") +
  geom_point(size = 2, color = "purple") +
  labs(title = "DBSCAN: Calidad de los cl√∫steres (Silueta) seg√∫n eps",
       subtitle = "Calculado excluyendo el ruido. Espacios vac√≠os indican < 2 cl√∫steres.",
       x     = "eps (Radio de vecindad)",
       y     = "Silueta Promedio (sin ruido)") +
  scale_x_continuous(breaks = tabla_sil_db$eps) +
  theme_minimal(base_size = 12)

**Interpretaci√≥n.-**  
El gr√°fico muestra la evoluci√≥n del n√∫mero de cl√∫steres detectados por **DBSCAN** en funci√≥n del par√°metro `eps`. Para un amplio rango inicial (`eps` entre 0.40 y 1.15), el algoritmo devuelve **cero cl√∫steres v√°lidos**, lo que significa que **todos los puntos son considerados ruido** bajo estos niveles de exigencia de densidad. Esto sugiere que, con `minPts = 3`, la distancia entre puntos es demasiado grande para formar n√∫cleos densos en ese intervalo.

Solo cuando `eps` alcanza valores alrededor de **1.20** aparece finalmente una estructura con **dos cl√∫steres**, lo que indica que el algoritmo empieza a considerar suficientes puntos dentro del radio para formar regiones densas coherentes.  

En conjunto, el gr√°fico evidencia que el conjunto de datos **no presenta densidades suficientemente compactas** como para que DBSCAN detecte cl√∫steres en eps peque√±os o moderados. La aparici√≥n de cl√∫steres √∫nicamente en eps grandes sugiere que la estructura es **poco densa** y requiere radios amplios para conectarse, por lo que la configuraci√≥n de DBSCAN debe interpretarse con cautela en este caso.





In [None]:
# Evoluci√≥n del ruido seg√∫n eps
ggplot(tabla_sil_db, aes(x = eps, y = n_noise)) +
  geom_line(linewidth = 0.8, color = "purple") +
  geom_point(size = 2, color = "purple") +
  labs(title = "DBSCAN: Cantidad de ruido seg√∫n eps",
       x     = "eps (Radio de vecindad)",
       y     = "Puntos considerados ruido") +
  scale_x_continuous(breaks = tabla_sil_db$eps) +
  theme_minimal(base_size = 12)

**Interpretaci√≥n.-**  
La gr√°fica muestra la evoluci√≥n del n√∫mero de puntos etiquetados como **ruido** por DBSCAN en funci√≥n del par√°metro `eps`. Para todo el rango inicial (`eps` entre 0.40 y 1.15), el algoritmo considera **a las 18 observaciones como ruido**, lo cual indica que **no existe suficiente densidad local** para formar cl√∫steres con `minPts = 3` en ese intervalo.

Solo cuando `eps` alcanza aproximadamente **1.20** el n√∫mero de puntos ruido cae bruscamente hasta **11**, lo que significa que algunos puntos empiezan a encontrarse dentro de radios suficientemente amplios como para cumplir el criterio de densidad y formar un par de cl√∫steres v√°lidos.

En conjunto, el gr√°fico confirma que el conjunto de datos presenta una **densidad muy baja o muy dispersa**, de modo que DBSCAN no identifica regiones densas hasta valores de `eps` relativamente grandes. Esto refuerza la idea de que, para este dataset, DBSCAN solo ofrece soluciones interpretables cuando se permite un radio amplio que conecte los puntos.

En este apartado se a√±adir√°n las siluetas individuales por medio de un **gr√°fico de siluetas**, dicho gr√°fico  muestra qu√© tan bien se **ajusta cada observaci√≥n** al **cl√∫ster** que ha sido **asignado comparando qu√© tan cerca** se **encuentra** de las **dem√°s en su cluster**.Se realizar√° para los $k=6$ y $eps=1.20$ ya que han sido los valores √≥ptimos.

De cada uno se realizar√°n dos representaciones aunque ambas son equivalentes se realizan para ayudar en la comprensi√≥n.

In [None]:
# Cargamos las librer√≠as necesarias
library(cluster) # Contiene la funci√≥n silhouette()
install.packages("factoextra")
library(factoextra) # √ötil para la funci√≥n fviz_silhouette (m√°s est√©tica)

In [None]:
# Asignaciones de cl√∫steres
# k=6 es el valor que utilizaremos para k-means, GMM y Spectral
# Para DBSCAN, usamos la soluci√≥n robusta de eps=1.15

# 1. k-means
set.seed(123) # Para reproducibilidad
res_kmeans_k3 = kmeans(datos_est, centers = 6, nstart = 25)
k_means_clusters = res_kmeans_k3$cluster

# 2. GMM
res_gmm_k3 = Mclust(datos_est, G = 6)
gmm_clusters = res_gmm_k3$classification

# 3. DBSCAN
res_dbscan_eps115 = dbscan(datos_est, eps = 1.2, minPts = 3)
dbscan_clusters = res_dbscan_eps115$cluster

In [None]:
# Se necesita la matriz de asignaci√≥n y la matriz de distancias
sil_kmeans = silhouette(k_means_clusters, datos_dist)
plot(sil_kmeans, main = "Silueta (k-means, k=6)", border = NA, col = 2:(3+1)) # colorea hasta k+1 cl√∫steres

In [None]:
# Alternativa para que teng√°is otro gr√°fico similar (requiere factoextra)
fviz_silhouette(sil_kmeans)

**Interpretaci√≥n.-** La silueta promedio del modelo ($0.27$) revela que la estructura global de los cl√∫steres es **d√©bil**, indicando que las separaciones entre grupos son modestas y que existe una proximidad considerable entre observaciones de cl√∫steres distintos. Aun as√≠, el an√°lisis permite identificar patrones diferenciados en la calidad interna de cada cl√∫ster. En concreto, los cl√∫steres **1**, **4** y **5** muestran siluetas medias entre $0.31$ y $0.35$, lo que sugiere una cohesi√≥n razonable y una separaci√≥n algo m√°s clara respecto al resto. El cl√∫ster **5**, con una silueta de $0.35$, es el mejor definido dentro del modelo.

Por el contrario, los cl√∫steres **3** y **6** presentan valores muy bajos de silueta ($0.10$ y $0.12$), indicando una estructura claramente d√©bil: muchas de sus observaciones est√°n m√°s cerca de otros cl√∫steres que del suyo propio. El cl√∫ster **2** ocupa una posici√≥n intermedia, con una silueta de $0.28$ que refleja una separaci√≥n moderada pero no s√≥lida. En conjunto, aunque el modelo logra identificar algunos grupos con cierta coherencia interna, la baja silueta promedio sugiere que la partici√≥n en seis cl√∫steres no captura una estructura de agrupamiento fuerte en los datos.


In [None]:
# Generamos y graficamos siluetas para GMM (k=3)
sil_gmm = silhouette(gmm_clusters, datos_dist)
plot(sil_gmm, main = "Silueta (GMM, k=6)", border = NA, col = 2:(3+1))

In [None]:
# Alternativa para que teng√°is otro gr√°fico similar (requiere factoextra)
fviz_silhouette(sil_gmm)

**Interpretaci√≥n.-** La silueta promedio del modelo ($0.27$) revela que la estructura global de los cl√∫steres es **d√©bil**, indicando que las separaciones entre grupos son modestas y que existe una proximidad considerable entre observaciones de cl√∫steres distintos. Aun as√≠, el an√°lisis permite identificar patrones diferenciados en la calidad interna de cada cl√∫ster. En concreto, los cl√∫steres **1**, **2** y **5** muestran siluetas medias de $0.31$ y $0.32$, lo que sugiere una cohesi√≥n razonable y una separaci√≥n algo m√°s clara respecto al resto. Los cl√∫ster **2 y 1**, con una silueta de $0.32$, es los mejores definidos dentro del modelo.

Por el contrario, los cl√∫steres **3** y **6** presentan valores muy bajos de silueta ($0.24$ y $0.12$), indicando una estructura claramente d√©bil: muchas de sus observaciones est√°n m√°s cerca de otros cl√∫steres que del suyo propio. El cl√∫ster **4** es un cluster unitario. En conjunto, aunque el modelo logra identificar algunos grupos con cierta coherencia interna, la baja silueta promedio sugiere que la partici√≥n en seis cl√∫steres no captura una estructura de agrupamiento fuerte en los datos.


In [None]:
# Generamos y graficamos siluetas para DBSCAN (eps=1.15)
# Importante: La funci√≥n silhouette trata al cl√∫ster 0 de DBSCAN (ruido) como un cl√∫ster separado.
sil_dbscan = silhouette(dbscan_clusters, datos_dist)
plot(sil_dbscan, main = "Silueta (DBSCAN, eps=1.20)", border = NA, col = 2:(max(dbscan_clusters)+1))

In [None]:
# Alternativa para que teng√°is otro gr√°fico similar (requiere factoextra)
fviz_silhouette(sil_dbscan)

**Interpretaci√≥n.-** La silueta promedio del modelo ($0.07$) revela que la estructura global de los cl√∫steres ***no se ha encontrado**, indicando que las separaciones entre grupos son grandes y que no existe una proximidad considerable entre observaciones de cl√∫steres distintos. Aun as√≠, el an√°lisis permite identificar patrones diferenciados en la calidad interna de cada cl√∫ster. En concreto, los cl√∫steres **1** y **2** muestran siluetas medias entre $0.36$ y $0.53$, lo que sugiere una cohesi√≥n razonable y una separaci√≥n algo m√°s clara respecto al resto. El cl√∫ster **2**, con una silueta de $0.53$, es el mejor definido dentro del modelo y siendo el √∫nico que posee una estructura aceptable entre todos los modelos.

Por el contrario, el cluster $0$ posee un valor negativo, esto tiene sentido ya que es el formado por los valores outliers.  En conjunto, aunque el modelo logra identificar algunos grupos con cierta coherencia, la baja silueta promedio sugiere que la partici√≥n en tres cl√∫steres no captura una estructura de agrupamiento fuerte en los datos.


**Conclusi√≥n.-** No se ha podido indentificar un modelo √≥ptimo debido a que entre los criterios no hay ni unidad ni mayor√≠a salbo en el dbsacn el cual nos indica que hay que dividirlo en 10 clusters pero pese a esa unidad los valores de los estad√≠sticos son malos.