# **Librerías necesarias**

In [None]:
install.packages("cluster")
install.packages("ggplot2")
library(cluster)
library(ggplot2)

Cargamos los datos y verificamos los tipos y su estructura

In [None]:
mall_customers <- read.csv("mallCustomers.csv")
str(mall_customers)
head(mall_customers)
summary(mall_customers)

# **Agrupamiento**

### **k-means**

Primero, calcularemos el número óptimo de centroides a utilizar mediante el método del codo

In [None]:

set.seed(123)
wcss <- vector()
for (i in 1:10) {
  kmeans_model <- kmeans(mall_customers[, c("Age", "Annual.Income", "Spending.Score")], centers = i, nstart = 10)
  wcss[i] <- kmeans_model$tot.withinss
}

Graficamos los resultados

In [None]:
plot(1:10, wcss, type = 'b', main = "Método del Codo", xlab = "Número de Clústeres (k)", ylab = "WCSS")

Determinamos que el número óptimo de centroides es 5, por lo tanto, aplicamos el algoritmo con dicho número, usando todas las variables excepto el género

In [None]:
kmeans_model <- kmeans(mall_customers[, c("Age", "Annual.Income", "Spending.Score")], centers = 5, nstart = 10)
mall_customers$cluster <- kmeans_model$cluster

Graficamos los resultados

In [None]:
ggplot(mall_customers, aes(x = Annual.Income, y = Spending.Score, color = factor(cluster))) +
  geom_point() +
  geom_point(data = kmeans_model$centers, aes(x = Annual.Income, y = Spending.Score), color = 'black', size = 3, shape = 16) +
  labs(title = "Segmentación de clientes", x = "Ingresos Anuales", y = "Puntuación de Gasto") +
  theme_minimal()

Calculamos la información retenida para verificar la calidad del modelo

In [None]:
centroids <- kmeans_model$centers
distances_to_centroid <- as.matrix(dist(mall_customers[, c("Age", "Annual.Income", "Spending.Score")], method = "euclidean"))
withinss <- rep(0, 5)
for (i in 1:5) {
  withinss[i] <- sum((distances_to_centroid[, i])^2)
}
tot_withinss <- sum(withinss)
totss <- sum((distances_to_centroid)^2)
betweenss <- totss - tot_withinss
information <- betweenss / totss
information

La información retenida es muy alta, lo que indica que es una buena agrupación

### **Dendrogramas Jerárquicos**

##### **Single**

Creamos el dendrograma usando el método single

In [None]:
dendrogram_single <- hclust(dist(mall_customers[, c("Age", "Annual.Income", "Spending.Score")]), method = "single")

Graficamos el resultado

In [None]:
plot(dendrogram_single, main = "Método Single", xlab = "", ylab = "Distancia")

##### **Centroid**

Creamos el dendrograma usando el método centroid

In [None]:
dendrogram_centroid <- hclust(dist(mall_customers[, c("Age", "Annual.Income", "Spending.Score")]), method = "centroid")

Graficamos el resultado

In [None]:
plot(dendrogram_centroid, main = "Método Centroid", xlab = "", ylab = "Distancia")

##### **Ward**

Creamos el dendrograma usando el método ward

In [None]:
dendrogram_ward <- hclust(dist(mall_customers[, c("Age", "Annual.Income", "Spending.Score")]), method = "ward.D")

Graficamos el resultado

In [None]:
plot(dendrogram_ward, main = "Método Ward", xlab = "", ylab = "Distancia")