In [None]:
IRdisplay::display_html("
<style>
.output_png {
        display: table-cell;
        text-align: center;
        vertical-align: middle;
    }
</style>")

# Agrupamiento con *kmeans*

El agrupamiento de observaciones consiste en técnicas de minería de datos para identificar grupos de observaciones o sujetos similares, para esto se utilizan características del conjunto de datos a trabajar. Este tipo de técnicas corresponde a *aprendizaje no supervisado*.

La similitud entre observaciones (o individuos) se define utilizando algunas medidas de distancia entre observaciones, incluidas medidas de distancia euclidianas y basadas en correlaciones.

Existen diferentes tipos de técnicas de agrupación de datos:
- kmeans: Subdividir en $k$ grupos el conjunto de datos.
- dendogramas: Enfoques de agrupamiento jerárquico, que identifican grupos en los datos sin subdividirlos.


In [None]:
library(ggpubr)
library(factoextra)
library(cluster)

In [None]:
columns = c("area", "perimeter", "compactness", "length", "width", "AC", "lengthGroove", "class")
url = "https://www.dl.dropboxusercontent.com/s/wrexlo5im3g5ioi/seeds_dataset.csv"
seeds = read.csv(url, header = F, sep=",", col.names = columns)
seeds$class = factor(seeds$class, levels = c(1,2,3), labels = c("Kama", "Rosa", "Canadian"))

Generalmente para realizar clustering, es necesario escalar los datos. Esto debido a estar ocupando una misma "regla" en las mediciones. Los métodos más conocidos para escalar los datos son:
- Normalización
- Transformación usando cuantiles
- Entre otros

In [None]:
seeds.scaled = scale(seeds[c(1:7)])

La idea del clustering es poder encontrar las observaciones más similares entre sí, es por esto que se debe calcular la distancia entre cada una una de las observaciones. Las distancias más conocidas son:
- Euclediana
- Manhattan
- Minkowski


In [None]:
dist.eucl = dist(seeds.scaled, method = "euclidean")

fviz_dist(dist.eucl)

El punto inicial de kmeans es definir un número k de grupos a formar. Para esto, existen distintas formas de encontrar un k a trabajar:

- Método del codo.
- Método de la silueta.
- Metodo de brecha estadística.


**Ojo, pestaña, ceja:** el k no debe ser estrictamente igual a la cantidad de clases, agrupamiento es aprendizaje no supervisado.

Es probable que los métodos lleguen a distintas conclusiones, todo depende del problema a trabajar. Más información [aquí](https://www.datanovia.com/en/lessons/determining-the-optimal-number-of-clusters-3-must-know-methods/).

In [None]:
fviz_nbclust(seeds.scaled, kmeans, method = "wss")

In [None]:
fviz_nbclust(seeds.scaled, kmeans, method = "silhouette")

In [None]:
fviz_nbclust(seeds.scaled, kmeans, method = "gap_stat")

In [None]:
set.seed(99999)

km.res = kmeans(seeds.scaled, 3, nstart = 25)
fviz_cluster(km.res, data = seeds.scaled, palette = "jco", ggtheme = theme_minimal())

Con el k definido, solo queda visualizar los clusters...

Inicializacion
![image1](https://www.iartificial.net/wp-content/uploads/2020/01/kmeans-inicializacion.webp)

Asignacion
![image2](https://www.iartificial.net/wp-content/uploads/2020/01/kmeans-asignacion-1.webp)

Actualizacion
![image3](https://www.iartificial.net/wp-content/uploads/2020/01/kmeans-actualizacion-1.webp)

In [None]:
km.res

In [None]:
km.res$cluster

In [None]:
seeds$km.eucl = km.res$cluster

In [None]:
set.seed(99999)

dist.daisy = daisy(seeds.scaled)
dis.matrix.daisy = as.matrix(dist.daisy)
km.daisy = kmeans(dis.matrix.daisy, 3)

seeds$km.daisy = km.daisy$cluster

fviz_cluster(km.daisy, data = seeds.scaled, palette = "jco", ggtheme = theme_minimal())

In [None]:
seeds

In [None]:
summary(seeds[seeds["km.eucl"] == 1, ])

summary(seeds[seeds["km.eucl"] == 2, ])

summary(seeds[seeds["km.eucl"] == 3, ])