# El Algoritmo K-Means

El algoritmo K-Means es un método de clustering no supervisado que tiene como objetivo particionar $n$ observaciones en $k$ grupos o "clusters", donde cada observación pertenece al cluster con el centroide (media) más cercano. Es decir, agrupa puntos de datos similares en categorías.

#### **Objetivo**

El objetivo principal de K-Means es minimizar la **inercia**, que es la suma de los cuadrados de las distancias entre cada punto de datos y el centroide de su cluster asignado. Esta medida se conoce también como la suma de las distancias cuadradas dentro del cluster.

La fórmula de la inercia (también llamada "coste") es:

$$
\text{Inercia} = \sum_{i=1}^{k} \sum_{x \in C_i} ||x - \mu_i||^2
$$

Donde:
* $k$ es el número de clusters.
* $C_i$ es el $i$-ésimo cluster.
* $\mu_i$ es el centroide del cluster $C_i$.
* $x$ es un punto de datos en el cluster $C_i$.
* $||x - \mu_i||^2$ es la distancia euclidiana al cuadrado entre el punto de datos y su centroide.


## Pasos del Algoritmo K-Means

1. **Seleccionar el número de clusters ($k$):**  
    Decide cuántos grupos deseas encontrar en tus datos.

2. **Inicializar los centroides:**  
    Elige aleatoriamente $k$ puntos de datos como los centroides iniciales de los clusters.

3. **Asignar cada punto al cluster más cercano:**  
    Calcula la distancia de cada punto a cada centroide y asigna cada punto al cluster cuyo centroide esté más cerca.

4. **Actualizar los centroides:**  
    Para cada cluster, calcula el nuevo centroide como la media de todos los puntos asignados a ese cluster.

5. **Repetir los pasos 3 y 4:**  
    Reasigna los puntos y actualiza los centroides hasta que las asignaciones no cambien o se alcance un número máximo de iteraciones.

6. **Resultado final:**  
    El algoritmo termina cuando los centroides ya no cambian significativamente. Cada punto queda asignado a un cluster y se obtiene la partición final de los datos.

# Dudas K-means

### ¿Qué es un centroide?

Un **centroide** es el punto que representa el "centro" de un cluster en el espacio de características. En el contexto de K-Means, el centroide de un cluster se calcula como el promedio (media aritmética) de todas las coordenadas de los puntos que pertenecen a ese cluster.

Matemáticamente, si un cluster $C$ contiene $n$ puntos de datos $x_1, x_2, ..., x_n$, el centroide $\mu$ se calcula como:

$$
\mu = \frac{1}{n} \sum_{i=1}^{n} x_i
$$

El centroide no necesariamente coincide con uno de los puntos de datos originales, pero es el punto que minimiza la suma de las distancias cuadradas a todos los puntos del cluster.

### ¿Qué es la inercia en K-Means?

La **inercia** en K-Means es una medida de qué tan bien se han agrupado los datos en los clusters. Específicamente, representa la suma de las distancias cuadradas entre cada punto de datos y el centroide de su cluster asignado. 

Una inercia baja indica que los puntos están cerca de sus centroides, lo que sugiere que los clusters son compactos y bien definidos. Por el contrario, una inercia alta significa que los puntos están más dispersos dentro de los clusters.

En resumen, el objetivo del algoritmo K-Means es minimizar la inercia para lograr una mejor agrupación de los datos.

### ¿Qué es la distancia euclídea?

La **distancia euclídea** es una medida de la distancia "en línea recta" entre dos puntos en un espacio euclidiano (como el plano o el espacio tridimensional). Es la forma más común de medir la distancia entre dos puntos.

Matemáticamente, para dos puntos $A = (x_1, y_1)$ y $B = (x_2, y_2)$ en dos dimensiones, la distancia euclídea se calcula como:

$$
d(A, B) = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}
$$

En general, para puntos en $n$ dimensiones $A = (a_1, a_2, ..., a_n)$ y $B = (b_1, b_2, ..., b_n)$:

$$
d(A, B) = \sqrt{\sum_{i=1}^{n} (a_i - b_i)^2}
$$

Esta distancia se utiliza en K-Means para determinar qué tan cerca está un punto de un centroide.