# Algoritmos no supervisados

## Que es el clustering

El clustering es una técnica de aprendizaje no supervisado que agrupa datos similares en conjuntos llamados clusters. A diferencia de los métodos supervisados, no requiere datos etiquetados previamente y busca encontrar patrones o estructuras inherentes en los datos.

Las características principales del clustering incluyen:

- **Agrupación por similitud**: Los objetos dentro de un mismo cluster son más similares entre sí que con objetos de otros clusters
- **Descubrimiento de patrones**: Permite identificar estructuras naturales en los datos sin conocimiento previo
- **Aplicaciones diversas**: Se utiliza en segmentación de clientes, análisis de imágenes, bioinformática y reconocimiento de patrones

Los algoritmos más comunes incluyen:
- K-means: Divide los datos en k grupos minimizando la varianza intra-cluster
- Clustering jerárquico: Construye una jerarquía de clusters mediante divisiones o fusiones sucesivas
- DBSCAN: Agrupa puntos basándose en la densidad, identificando regiones de alta densidad separadas por regiones de baja densidad

El clustering es fundamental en la exploración de datos y sirve como base para muchas tareas de análisis más avanzadas.

* Objetivo: Agrupar de manera coherente un conjunto de datos sin etiquetar en subconjuntos o clusters
* Agrupación de los datos mediante el *concepto de proximidad* entre ellos
    * Métrica: método concreto con el que se evalúa la cercanía entre los puntos
        * Ejemplo rudimentario de clustering: Escoger una o varias dimensiones y definir cada cluster como el conjunto de elementos que comparten valores en esas dimensiones.
        * Ejemplo: Si eliges la dirección IP, se define un cluster por cada dirección IP (GROUP BY de SQL)



## Tecnicas de machine learning que usan clustering

El clustering se integra en múltiples técnicas avanzadas de machine learning:

- **Reducción de dimensionalidad**: Algoritmos como t-SNE y UMAP utilizan conceptos de clustering para visualizar datos de alta dimensionalidad
- **Sistemas de recomendación**: Agrupan usuarios o productos con comportamientos similares para generar recomendaciones
- **Detección de anomalías**: Identifican outliers como puntos que no pertenecen claramente a ningún cluster
- **Aprendizaje semi-supervisado**: Utilizan clusters para generar pseudo-etiquetas cuando los datos etiquetados son escasos
- **Segmentación de imágenes**: Agrupan píxeles similares para identificar objetos o regiones
- **Procesamiento de lenguaje natural**: Clustering de documentos o palabras para descubrir temas o similitudes semánticas
- **Análisis de series temporales**: Agrupan patrones similares en datos secuenciales para identificar comportamientos recurrentes

Estas técnicas aprovechan la capacidad del clustering para descubrir estructuras subyacentes en los datos, potenciando así otros algoritmos y metodologías de análisis más complejas.

### Kmeans

K-means es uno de los algoritmos de clustering más populares y ampliamente utilizados debido a su simplicidad y eficiencia. Este método particiona un conjunto de datos en K clusters distintos, donde cada punto pertenece al cluster con el centroide más cercano.

#### Funcionamiento del algoritmo:

1. **Inicialización**: Se seleccionan K puntos como centroides iniciales (aleatoriamente o mediante métodos como K-means++)
2. **Asignación**: Cada punto del conjunto de datos se asigna al centroide más cercano, formando K clusters
3. **Actualización**: Se recalculan los centroides como la media de todos los puntos asignados a cada cluster
4. **Iteración**: Se repiten los pasos 2 y 3 hasta que los centroides se estabilicen o se alcance un número máximo de iteraciones

#### Características principales:

- **Convergencia garantizada**: Siempre converge a un mínimo local de la función objetivo
- **Complejidad lineal**: O(n·K·d·i) donde n es el número de puntos, K el número de clusters, d la dimensionalidad y i el número de iteraciones
- **Requiere especificar K**: El usuario debe definir el número de clusters a priori
- **Sensible a outliers**: Los valores atípicos pueden afectar significativamente la posición de los centroides
- **Asume clusters convexos**: Funciona mejor con clusters esféricos de tamaño similar

#### Limitaciones:

- No garantiza encontrar la solución óptima global
- Los resultados dependen de la inicialización de los centroides
- Dificultad para manejar clusters de formas irregulares o densidades variables
- No adecuado para datos categóricos sin una adaptación específica

A pesar de sus limitaciones, K-means sigue siendo fundamental en muchas aplicaciones debido a su escalabilidad y facilidad de implementación, especialmente en fases exploratorias del análisis de datos.

# Ejemplo Matemático de Centroides y Distancias en K-means

## Representación Matemática

Sean los puntos $X = \{x_1, x_2, ..., x_n\}$ donde cada $x_i \in \mathbb{R}^d$ es un vector de $d$ dimensiones.

### Centroides

Para $k$ clusters, los centroides se representan como $C = \{c_1, c_2, ..., c_k\}$ donde cada $c_j \in \mathbb{R}^d$.

El centroide $c_j$ del cluster $j$ se calcula como la media aritmética de todos los puntos asignados a ese cluster:

$$c_j = \frac{1}{|S_j|} \sum_{x_i \in S_j} x_i$$

donde $S_j$ es el conjunto de puntos asignados al cluster $j$.

### Distancia Euclidiana

La distancia euclidiana entre un punto $x_i$ y un centroide $c_j$ se calcula como:

$$d(x_i, c_j) = \sqrt{\sum_{l=1}^{d} (x_{i,l} - c_{j,l})^2}$$

### Función Objetivo

K-means busca minimizar la suma de las distancias al cuadrado entre cada punto y su centroide más cercano:

$$J = \sum_{j=1}^{k} \sum_{x_i \in S_j} ||x_i - c_j||^2$$

## Ejemplo Numérico

Considerando puntos en 2D:
- $x_1 = (2, 3)$
- $x_2 = (3, 4)$
- $x_3 = (8, 7)$
- $x_4 = (9, 8)$

Con $k=2$ y centroides iniciales $c_1 = (2, 3)$ y $c_2 = (8, 7)$.

La asignación inicial sería:
- Cluster 1: $\{x_1, x_2\}$
- Cluster 2: $\{x_3, x_4\}$

Nuevos centroides después de una iteración:
- $c_1 = \frac{(2,3) + (3,4)}{2} = (2.5, 3.5)$
- $c_2 = \frac{(8,7) + (9,8)}{2} = (8.5, 7.5)$

# Algoritmo K-means

```
función k_means(k, dataset):
    # Inicialización aleatoria de los centroides
    centroides = seleccionar_k_puntos_aleatorios(dataset, k)
    
    # Vector para almacenar la asignación de cada punto a un cluster
    asignaciones = vector_vacío(longitud(dataset))
    
    repetir:
        # Asignación de cada punto al centroide más cercano
        para i = 1 hasta longitud(dataset):
            asignaciones[i] = índice_del_centroide_más_cercano(dataset[i], centroides)
        
        # Actualización de los centroides
        centroides_antiguos = centroides
        para j = 1 hasta k:
            puntos_del_cluster = {dataset[i] | asignaciones[i] == j}
            centroides[j] = calcular_media(puntos_del_cluster)
            
    hasta que centroides == centroides_antiguos o alcance_max_iteraciones
    
    retornar centroides, asignaciones
```

El algoritmo k-means divide los datos en k grupos minimizando la suma de distancias cuadráticas entre cada punto y el centroide de su cluster asignado.

# Limitaciones del algoritmo K-means

El algoritmo K-means, a pesar de su popularidad, presenta varias limitaciones importantes:

- **Selección de K**: Requiere especificar el número de clusters a priori, lo que puede ser difícil sin conocimiento previo del dataset
- **Sensibilidad a la inicialización**: Los resultados varían según los centroides iniciales, pudiendo converger a mínimos locales
- **Limitado a formas convexas**: Asume clusters esféricos y de tamaño similar, fallando con formas irregulares
- **Afectado por outliers**: Los valores atípicos distorsionan significativamente la posición de los centroides
- **No determinístico**: Diferentes ejecuciones pueden producir resultados distintos
- **Escalas de características**: Sensible a las diferentes escalas de las variables
- **Limitaciones con datos categóricos**: Diseñado principalmente para variables numéricas continuas
- **Densidad variable**: No maneja bien clusters con diferentes densidades
- **Convergencia lenta**: En conjuntos grandes o de alta dimensionalidad, puede requerir muchas iteraciones

* Se debe intuir el número de clusters que genera el algoritmo. Si son datos etiquetados, elegir el número de clusters como un valor entre uno y tres veces el número de etiquetas existentes
* Hay que aplicar normalización al conjunto de datos
* No debe utilizarse KMEANS con datos categóricos a los que se le aplica one-hot encoding.
* Por el contrario, deben tratar de codificarse estas características como multiple binary
* Pierde eficiencia en conjuntos de datos con muchas dimensiones. Una practica frecuente es reducir las dimensiones del conjunto de datos mediante el uso de PCA o SVD
* Funciona mejor si los centroides iniciales se eligen aleatoriamente. Esto provoca que los resultados puedan cambiar dependiendo de donde se inicialicen
* Asume que los clusters son esféricos. No funciona correctamente en distribuciones de datos no esféricas.

Para abordar estas limitaciones, existen variaciones como K-means++ (mejora la inicialización), K-medoids (más robusto a outliers), o algoritmos completamente diferentes como DBSCAN o clustering jerárquico.

# DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

DBSCAN es un algoritmo de clustering basado en densidad que identifica grupos de puntos densamente agrupados separados por regiones de baja densidad.

## Características principales

- **No requiere especificar el número de clusters**: Descubre automáticamente la cantidad de grupos en los datos
- **Identifica ruido**: Clasifica explícitamente puntos como "ruido" si no pertenecen a ningún cluster denso
- **Detecta clusters de forma arbitraria**: No está limitado a formas esféricas como K-means
- **Basado en dos parámetros clave**:
    - **Epsilon (ε)**: Radio que define el vecindario de un punto
    - **MinPts**: Número mínimo de puntos necesarios en el vecindario para formar un core point

## Funcionamiento del algoritmo

1. **Clasificación de puntos**:
     - **Core point**: Punto con al menos MinPts puntos en su vecindario de radio ε
     - **Border point**: Punto en el vecindario de un core point pero con menos de MinPts vecinos
     - **Noise point**: Punto que no es ni core ni border

2. **Formación de clusters**:
     - Conecta core points que son vecinos directamente
     - Une core points mutuamente alcanzables a través de otros core points
     - Asigna border points al cluster de sus core points vecinos

![DBSCAN EXAMPLE](Images/DBSCAN.png)

## Ventajas

- Identifica clusters de formas variadas
- Detecta automáticamente outliers
- No asume distribuciones específicas en los datos
- No requiere conocer el número de clusters a priori

## Limitaciones

- Sensible a la elección de parámetros ε y MinPts
- Dificultad con clusters de densidades muy variables
- Problemas en espacios de alta dimensionalidad debido a la "maldición de la dimensionalidad"
- Mayor complejidad computacional que K-means (O(n²) en el peor caso)

DBSCAN es particularmente útil en aplicaciones donde los datos contienen ruido, los clusters tienen formas irregulares o cuando el número de clusters no es conocido de antemano.

# Ejemplo Matemático de DBSCAN: Densidad y Conectividad

## Definiciones Matemáticas

Sea un conjunto de datos $X = \{x_1, x_2, ..., x_n\}$ donde cada $x_i \in \mathbb{R}^d$.

### Conceptos Fundamentales

1. **Vecindario-ε de un punto**:
    El conjunto de puntos a una distancia menor o igual que $\varepsilon$ de $x$:
    $$N_\varepsilon(x) = \{y \in X \mid d(x,y) \leq \varepsilon\}$$

2. **Punto núcleo (Core point)**:
    Un punto $p$ es núcleo si su vecindario contiene al menos MinPts puntos:
    $$|N_\varepsilon(p)| \geq \text{MinPts}$$

3. **Alcance directo por densidad**:
    Un punto $q$ es directamente alcanzable desde $p$ si:
    $$p \text{ es un punto núcleo y } q \in N_\varepsilon(p)$$

4. **Alcance por densidad**:
    Un punto $q$ es alcanzable por densidad desde $p$ si existe una cadena de puntos $p_1, p_2, ..., p_m$ con $p_1 = p$ y $p_m = q$ donde cada $p_{i+1}$ es directamente alcanzable desde $p_i$.

5. **Conexión por densidad**:
    Dos puntos $p$ y $q$ están conectados por densidad si existe un punto $o$ tal que ambos $p$ y $q$ son alcanzables por densidad desde $o$.

## Ejemplo Numérico

Consideremos puntos en un plano 2D con $\varepsilon = 2$ y $\text{MinPts} = 3$:

- $x_1 = (1, 1)$
- $x_2 = (2, 2)$
- $x_3 = (1.5, 1.8)$
- $x_4 = (8, 7)$
- $x_5 = (8.5, 8)$
- $x_6 = (4, 5)$

### Análisis del Vecindario

Para $x_1$:
$$N_\varepsilon(x_1) = \{x_1, x_2, x_3\}$$
La distancia euclidiana entre $x_1$ y $x_2$ es:
$$d(x_1, x_2) = \sqrt{(2-1)^2 + (2-1)^2} = \sqrt{2} \approx 1.41 < 2$$

Como $|N_\varepsilon(x_1)| = 3 = \text{MinPts}$, $x_1$ es un punto núcleo.

De manera similar, $x_2$ y $x_3$ son puntos núcleo, mientras que $x_6$ es un punto de ruido ya que está aislado.

### Formación de Clusters

- Cluster 1: $\{x_1, x_2, x_3\}$ (todos conectados por densidad)
- Cluster 2: $\{x_4, x_5\}$ (conectados entre sí)
- Ruido: $\{x_6\}$ (no conectado a ningún otro punto dentro de $\varepsilon$)

Este ejemplo ilustra cómo DBSCAN identifica clusters basados en densidad y clasifica puntos aislados como ruido.

# Evaluación de mecanismos de clustering

La evaluación de algoritmos de clustering es desafiante ya que, al ser no supervisados, no hay etiquetas "correctas" para comparar. Sin embargo, existen varias métricas y enfoques para validar la calidad de los clusters:

## Métricas internas (cuando no hay etiquetas)

- **Coeficiente de Silhouette**: Mide qué tan similar es un punto a su propio cluster comparado con otros clusters (rango de -1 a 1)
    - Valores cercanos a 1 indican buena separación
    - Valores cercanos a 0 indican solapamiento
    - Valores negativos sugieren asignaciones incorrectas

- **Índice Davies-Bouldin**: Cuantifica la separación promedio entre clusters (valores más bajos son mejores)

- **Inercia/SSE**: Suma de distancias cuadráticas de cada punto a su centroide
    - Útil para el método "elbow" para determinar el número óptimo de clusters en K-means

- **Índice Calinski-Harabasz**: Mide el ratio entre la dispersión entre clusters y la dispersión dentro de los clusters

## Métricas externas (cuando hay etiquetas disponibles)

- **Índice de Rand Ajustado (ARI)**: Mide la similitud entre dos asignaciones de clusters, ajustado para el azar
    - Rango de -1 a 1, donde 1 es concordancia perfecta

- **Información Mutua Normalizada (NMI)**: Cuantifica la información compartida entre la asignación de clusters y las etiquetas reales

- **Homogeneidad y Completitud**: 
    - Homogeneidad: cada cluster contiene solo miembros de una misma clase
    - Completitud: todos los miembros de una misma clase están en el mismo cluster

## Validación visual

- **Visualización de clusters**: Proyecciones 2D/3D usando PCA, t-SNE o UMAP
- **Dendrogramas**: Para evaluar clustering jerárquico
- **Mapas de calor de matrices de distancia**: Para examinar la estructura de similitud

## Análisis de estabilidad

- **Validación cruzada**: Comparar clusters obtenidos con diferentes submuestras de datos
- **Perturbación de datos**: Evaluar cómo cambian los clusters al añadir ruido o variar parámetros

La elección de la métrica depende del contexto específico del problema y de los objetivos del análisis de clustering.

# Técnicas para Evaluar Clusters Especificados

## Homogeneidad

La homogeneidad mide si cada cluster contiene únicamente miembros de una sola clase. Un clustering tiene homogeneidad perfecta cuando todos los clusters contienen solo puntos de datos que pertenecen a una única clase.

- **Fórmula**: $h = 1 - \frac{H(C|K)}{H(C)}$
    - Donde $H(C|K)$ es la entropía condicional de las clases dados los clusters
    - $H(C)$ es la entropía de las clases

- **Rango**: Entre 0 y 1, donde 1 indica perfecta homogeneidad
- **Interpretación**: Un valor alto significa que los puntos dentro de cada cluster pertenecen principalmente a la misma clase

## Completitud (Plenitud)

La completitud evalúa si todos los puntos de datos que pertenecen a una misma clase se encuentran en un único cluster. Es perfecta cuando todos los miembros de una clase están asignados al mismo cluster.

- **Fórmula**: $c = 1 - \frac{H(K|C)}{H(K)}$
    - Donde $H(K|C)$ es la entropía condicional de los clusters dadas las clases
    - $H(K)$ es la entropía de los clusters

- **Rango**: Entre 0 y 1, donde 1 indica perfecta completitud
- **Interpretación**: Un valor alto indica que los miembros de una clase tienden a estar asignados al mismo cluster

## V-Measure

V-Measure es la media armónica entre homogeneidad y completitud, similar al F1-score en clasificación.

- **Fórmula**: $V_\beta = \frac{(1+\beta) \times h \times c}{\beta \times h + c}$
    - Donde $\beta$ es un factor de peso (habitualmente $\beta = 1$)

- **Rango**: Entre 0 y 1, donde 1 indica clustering perfecto
- **Interpretación**: Proporciona un balance entre homogeneidad y completitud

## Pureza

La pureza mide qué tan "puros" son los clusters respecto a las clases verdaderas, asignando cada cluster a la clase más frecuente dentro de él.

- **Fórmula**: $\text{Pureza} = \frac{1}{N} \sum_{i} \max_j |c_i \cap t_j|$
    - Donde $c_i$ es el cluster $i$, $t_j$ es la clase $j$, y $N$ es el número total de puntos

- **Rango**: Entre 0 y 1, donde 1 indica pureza perfecta
- **Ventajas**: Simple e intuitiva
- **Desventajas**: No penaliza la fragmentación de una clase en múltiples clusters

Estas métricas son especialmente útiles cuando se dispone de etiquetas de clase para validar los resultados del clustering, permitiendo una evaluación cuantitativa de la calidad del agrupamiento desde diferentes perspectivas.

# Técnicas para Evaluar Clusters No Etiquetados

## Coeficiente de Silhouette

El Coeficiente de Silhouette mide qué tan similar es un punto a su propio cluster en comparación con otros clusters, sin necesidad de conocer las etiquetas verdaderas.

- **Fórmula**: Para cada punto $i$, se calcula:
    $s(i) = \frac{b(i) - a(i)}{\max\{a(i), b(i)\}}$
    - Donde $a(i)$ es la distancia media entre $i$ y todos los demás puntos en el mismo cluster
    - $b(i)$ es la distancia media mínima entre $i$ y los puntos de cualquier otro cluster

- **Rango**: Entre -1 y 1
    - Valores cercanos a 1 indican que el punto está bien agrupado
    - Valores cercanos a 0 indican que el punto está en el límite entre clusters
    - Valores negativos indican que el punto probablemente pertenece a otro cluster

- **Interpretación global**: El promedio de todos los coeficientes individuales proporciona una medida de la calidad general del clustering

## Índice Calinski-Harabasz

También conocido como Criterio de la Razón de Varianza (VRC), este índice evalúa la validez del clustering basándose en la dispersión entre y dentro de los clusters.

- **Fórmula**:
    $CH = \frac{SS_B}{SS_W} \times \frac{N-k}{k-1}$
    - Donde $SS_B$ es la dispersión entre clusters
    - $SS_W$ es la dispersión dentro de los clusters
    - $N$ es el número total de puntos
    - $k$ es el número de clusters

- **Interpretación**: Valores más altos indican clusters mejor definidos y más separados
- **Ventajas**: Rápido de calcular y eficaz para detectar clusters compactos y bien separados
- **Desventajas**: Tiende a favorecer clusters convexos y puede no funcionar bien con formas arbitrarias

## Índice Davies-Bouldin

Este índice mide la similitud promedio entre cada cluster y su cluster más similar, donde la similitud se define como la ratio entre distancias intra-cluster e inter-cluster.

- **Fórmula**:
    $DB = \frac{1}{k} \sum_{i=1}^{k} \max_{j \neq i} \left( \frac{\sigma_i + \sigma_j}{d(c_i, c_j)} \right)$
    - Donde $\sigma_i$ es la distancia media de los puntos en el cluster $i$ a su centroide
    - $d(c_i, c_j)$ es la distancia entre los centroides de los clusters $i$ y $j$

- **Interpretación**: Valores más bajos indican mejor clustering
- **Ventajas**: Tiene en cuenta tanto la dispersión dentro del cluster como la separación entre clusters

## Inercia (SSE - Sum of Squared Errors)

La inercia mide la compacidad de los clusters calculando la suma de las distancias cuadráticas entre cada punto y el centroide de su cluster.

- **Fórmula**:
    $\text{Inercia} = \sum_{i=1}^{k} \sum_{x \in C_i} ||x - \mu_i||^2$
    - Donde $C_i$ es el conjunto de puntos en el cluster $i$
    - $\mu_i$ es el centroide del cluster $i$

- **Interpretación**: Valores más bajos indican clusters más compactos
- **Aplicación común**: Se utiliza en el método del codo (elbow method) para determinar el número óptimo de clusters

Estas métricas proporcionan herramientas objetivas para evaluar la calidad de los agrupamientos cuando no se dispone de etiquetas verdaderas, centrándose en características intrínsecas como compacidad, separación y estructura interna de los clusters.

# Clustering en Ciberseguridad

El clustering juega un papel fundamental en la ciberseguridad moderna, proporcionando herramientas para identificar patrones, anomalías y comportamientos maliciosos en entornos cada vez más complejos:

## Aplicaciones principales

- **Detección de anomalías**: Identifica comportamientos atípicos que podrían indicar intrusiones o actividades maliciosas
- **Análisis de malware**: Agrupa muestras de malware con características similares para identificar nuevas variantes y familias
- **Segmentación del tráfico de red**: Clasifica el tráfico en patrones normales y sospechosos
- **Detección de botnets**: Identifica comunicaciones comando y control basadas en patrones de tráfico similares
- **Análisis de logs de seguridad**: Agrupa eventos relacionados para identificar incidentes y reducir alertas redundantes
- **Prevención de fraude**: Detecta transacciones financieras sospechosas que se desvían de los patrones normales

## Algoritmos específicos

- **DBSCAN**: Especialmente útil para identificar comportamientos anómalos que se desvían de los grupos principales de actividad normal
- **K-means**: Empleado para perfilar comportamientos de usuarios y establecer líneas base de normalidad
- **Clustering jerárquico**: Utilizado en análisis forense para establecer relaciones entre artefactos de seguridad
- **Modelos de mezclas gaussianas**: Aplicados para modelar distribuciones de comportamiento normal/anormal

## Ventajas en ciberseguridad

- **Detección no supervisada**: Descubre amenazas sin necesidad de firmas predefinidas o conocimiento previo
- **Adaptabilidad**: Ajusta automáticamente sus modelos a medida que evolucionan las amenazas
- **Reducción de falsos positivos**: Mejora la precisión de los sistemas de detección
- **Escalabilidad**: Maneja grandes volúmenes de datos generados en entornos de red modernos

## Desafíos

- **Interpretabilidad**: La comprensión de los clusters para generar conocimiento accionable
- **Evolución rápida de amenazas**: Necesidad de actualización constante de los modelos
- **Alta dimensionalidad**: Los datos de seguridad suelen tener numerosos atributos
- **Desequilibrio de clases**: Los eventos maliciosos son generalmente una minoría en los datos

El clustering se ha convertido en una técnica esencial dentro de las plataformas avanzadas de seguridad, como SIEM (Security Information and Event Management), EDR (Endpoint Detection and Response) y sistemas de detección de amenazas basados en comportamiento.