<a href="https://colab.research.google.com/github/WellcomePeujio/Segmentacion-de-Clientes-con-Clustering/blob/main/Segmentaci%C3%B3n_de_Clientes_con_Clustering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Segmentación de Clientes con Clustering

**Problema**: Una tienda online analiza las siguientes métricas de sus clientes:

| Cliente | Frecuencia de Compra (veces/mes) | Gasto Promedio ($) | Antigüedad (meses) |
|---------|----------------------------------|--------------------|--------------------|
| C1      | 10                               | 300                | 24                 |
| C2      | 15                               | 400                | 36                 |
| C3      | 5                                | 100                | 12                 |
| C4      | 8                                | 200                | 18                 |
| C5      | 12                               | 350                | 30                 |

**Preguntas**:

1. Aplica el algoritmo **K-means** para segmentar a los clientes en **2 grupos**.  
2. Interpreta los clusters y cómo podrían influir en las estrategias de marketing.

**Fórmula para la Distancia Euclidiana**:

$$
d(x, y) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2}
$$

Donde:  
- $x, y$: Puntos en el espacio de las métricas de los clientes.  
- $n$: Número de características (en este caso, 3: frecuencia, gasto, antigüedad).  


# Resolución de la Segmentación de Clientes con Clustering

## Paso 1: Definición del Problema

Queremos segmentar a los clientes en **2 grupos** utilizando el algoritmo K-means. Este método minimiza la suma de las distancias cuadráticas entre los puntos y sus centroides, definida como:

### Fórmula para la Función Objetivo de K-means

$$
J = \sum_{k=1}^K \sum_{i \in C_k} ||x_i - \mu_k||^2
$$

Donde:  
- $K$: Número de clusters (en este caso, $K = 2$).  
- $C_k$: Conjunto de puntos en el cluster $k$.  
- $x_i$: Punto de datos.  
- $\mu_k$: Centroide del cluster $k$.  

---

## Paso 2: Datos Iniciales

| Cliente | Frecuencia (veces/mes) | Gasto Promedio ($) | Antigüedad (meses) |
|---------|-------------------------|--------------------|--------------------|
| C1      | 10                      | 300                | 24                 |
| C2      | 15                      | 400                | 36                 |
| C3      | 5                       | 100                | 12                 |
| C4      | 8                       | 200                | 18                 |
| C5      | 12                      | 350                | 30                 |

---

## Paso 3: Cálculo Manual de K-means (Iteración Inicial)

1. **Inicialización de Centroides**:  
   Seleccionamos aleatoriamente dos puntos como centroides iniciales:  
   - $\mu_1 = (10, 300, 24)$  
   - $\mu_2 = (5, 100, 12)$  

2. **Cálculo de la Distancia Euclidiana**:  
   Usamos la fórmula:  

   $$
   d(x, y) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2}
   $$

   Calculamos las distancias de cada cliente a los centroides iniciales:  

   - Para el Cliente $C1 = (10, 300, 24)$:

     $$
     d(C1, \mu_1) = \sqrt{(10-10)^2 + (300-300)^2 + (24-24)^2} = 0
     $$
     $$
     d(C1, \mu_2) = \sqrt{(10-5)^2 + (300-100)^2 + (24-12)^2} = \sqrt{25 + 40000 + 144} \approx 200.36
     $$

   - Para el Cliente $C2 = (15, 400, 36)$:
   
     $$
     d(C2, \mu_1) = \sqrt{(15-10)^2 + (400-300)^2 + (36-24)^2} = \sqrt{25 + 10000 + 144} \approx 101.25
     $$
     $$
     d(C2, \mu_2) = \sqrt{(15-5)^2 + (400-100)^2 + (36-12)^2} = \sqrt{100 + 90000 + 576} \approx 301.00
     $$

   Repetimos el proceso para los otros clientes.  

3. **Asignación de Clusters**:  
   Asignamos cada cliente al cluster del centroide más cercano.

4. **Recalculación de Centroides**:  
   Una vez asignados, calculamos los nuevos centroides como el promedio de los puntos en cada cluster:

   $$
   \mu_k = \frac{1}{|C_k|} \sum_{i \in C_k} x_i
   $$

5. **Repetir Hasta Convergencia**:  
   Repetimos los pasos 2 a 4 hasta que los centroides no cambien significativamente.

---

## Paso 4: Resultados

- **Cluster 1**: Clientes de alta frecuencia y alto gasto.  
- **Cluster 2**: Clientes de baja frecuencia y bajo gasto.  

---

## Conclusión

1. Segmentamos los clientes en **2 grupos**: uno con clientes frecuentes y de mayor valor, y otro con clientes menos activos.  
2. Estos clusters pueden ayudar a personalizar estrategias de marketing, enfocándose en retención para el grupo 1 y activación para el grupo 2.  


In [None]:
from sklearn.cluster import KMeans
import numpy as np
import matplotlib.pyplot as plt

# Datos de los clientes
clientes = np.array([
    [10, 300, 24],  # Cliente C1
    [15, 400, 36],  # Cliente C2
    [5, 100, 12],   # Cliente C3
    [8, 200, 18],   # Cliente C4
    [12, 350, 30]   # Cliente C5
])

# Aplicar K-means con 2 clusters
kmeans = KMeans(n_clusters=2, random_state=0)
kmeans.fit(clientes)
etiquetas = kmeans.labels_
centroides = kmeans.cluster_centers_

# Crear gráfica
fig = plt.figure(figsize=(10, 6))
ax = fig.add_subplot(111, projection='3d')

# Separar datos por cluster
cluster1 = clientes[etiquetas == 0]
cluster2 = clientes[etiquetas == 1]

# Graficar los clusters
for i, cliente in enumerate(clientes):
    ax.scatter(cliente[0], cliente[1], cliente[2], label=f"C{i+1}")

ax.scatter(centroides[:, 0], centroides[:, 1], centroides[:, 2],
           color='red', label='Centroides', s=200, marker='X')

ax.set_xlabel("Frecuencia de Compra (veces/mes)")
ax.set_ylabel("Gasto Promedio ($)")
ax.set_zlabel("Antigüedad (meses)")
ax.set_title("Segmentación de Clientes - Clustering K-means")
plt.legend()
plt.show()
