<a href="https://colab.research.google.com/github/mayait/ClaseAnalisisDatos/blob/main/machine_learning/RFM_kmeans_SuperStore.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# RFM (Recency, Frequency, Monetary)

El modelo RFM (Recency, Frequency, Monetary) es una técnica de análisis de comportamiento del cliente que se utiliza para segmentar una base de clientes en grupos específicos. El objetivo es identificar a los clientes más valiosos y entender cómo interactúan con un negocio. El modelo se basa en tres métricas principales:

1. **Recency (R) - Reciente**: Mide el tiempo transcurrido desde la última transacción o interacción que un cliente ha tenido con la marca. En general, a menor tiempo desde la última compra, más "reciente" es el cliente. Esta métrica se basa en la idea de que los clientes que han comprado recientemente son más propensos a hacerlo de nuevo en comparación con los que no lo han hecho durante mucho tiempo.
2. **Frequency (F) - Frecuencia**: Mide la cantidad de veces que un cliente ha realizado una transacción o interactuado con la marca en un período de tiempo específico. Los clientes que interactúan con más frecuencia suelen ser más leales a la marca.
3. **Monetary (M) - Monetario**: Representa el valor total de las transacciones que un cliente ha realizado en un período de tiempo determinado. En otras palabras, es una medida del valor total que un cliente ha aportado a la empresa. Cuanto más alto sea este valor, más valioso es el cliente.

**Instrucciones**

1. **Descargar el Dataset**: Descargar el archivo **`SUPERSTORE`**
2. **Importar el Dataset**: Utilizar Python y Pandas para importar el dataset.
3. **Análisis Exploratorio**: Revisar las primeras y últimas filas, tipos de datos, y estadísticas básicas para familiarizarse con los datos.
4. ****Cálculo de Métricas RFM****
    1. **Recency (R)**: Calcula cuánto tiempo ha pasado desde la última compra de cada cliente.
    2. **Frequency (F)**: Cuenta cuántas veces cada cliente ha hecho una compra.
    3. **Monetary (M)**: Suma cuánto ha gastado cada cliente en total.
5. **Segmentación por K-Means**
    1. **Normalización de datos RFM**: Los datos RFM deben estar en la misma escala para que el algoritmo K-Means funcione correctamente. Utiliza una técnica de normalización como la estandarización (restar la media y dividir por la desviación estándar) o la normalización min-max.
    2. **Determinar el número de clusters (k)**: Utiliza el método del codo para determinar el número de clusters. El método del codo implica el ajuste del modelo K-Means a los datos para una variedad de valores de k y luego graficar los valores de inercia resultantes. Busca un "codo" en la gráfica donde la disminución de la inercia se ralentiza, lo que sugerirá el número óptimo de clusters.
    3. **Ajustar el modelo K-Means**: Con el número óptimo de clusters determinado, ajusta el modelo K-Means a los datos RFM normalizados.
    4. **Análisis de Segmentos**: Una vez que tengas los clusters, analiza las distribuciones de R, F y M para cada cluster. Determina las características que definen cada segmento y dales una etiqueta descriptiva.
6. **Recomendaciones para cada segmento**: Basándote en las características de cada segmento, formula recomendaciones específicas. Analiza cada segmento.


In [None]:
import pandas as pd
from datetime import datetime

In [None]:
from pandas.io.excel import read_excel
df = read_excel('https://raw.githubusercontent.com/mayait/ClaseAnalisisDatos/main/machine_learning/datasets/superstore.xlsx')

# 4 Cálculo de Métricas RFM

**Recency (R): Calcula cuánto tiempo ha pasado desde la última compra de cada cliente.**

*  Utiliza la fecha mayor para calcular el tiempo que ha pasado
*  Calcular los días desde la última compra `['Order Date'].max()` para cada cliente `'Customer ID'`, `groupby` es una alternativa
*  Recency es la diferencia en días entre la `ultima compra` y la `fecha mayor`




In [None]:
# Convertir la columna "Order Date" a tipo de dato fecha
df['Order Date'] = pd.to_datetime(df['Order Date'])

# Asumimos que la fecha actual es hoy para el propósito de este ejercicio.
hoy = _________________

df_recency = df.groupby___________________________
df_recency.columns = ['customer_ID', 'last_Purchase_Date']
df_recency['Recency'] = (hoy - df_recency['last_Purchase_Date']).dt.days

**Frequency (F): Cuenta cuántas veces cada cliente ha hecho una compra.**



*   Crea un dataframe df_frequency que tenga el Customer_ID y el Count
*   Cuidado, toma en cuenta que cada linea representa una linea de la factura, no una compra, puedes tener varias lineas por compra.



In [None]:
# Paso 2: Calcular Frequency
df_frequency = df.groupby_______________________
df_frequency.columns = ['customer_ID', 'frecuency']
df_frequency

**Monetary (M): Suma cuánto ha gastado cada cliente en total.**



In [None]:

# Paso 3: Calcular Monetary
df_monetary =
df_monetary.columns = ['customer_ID', 'monetary']

**Combina los 3 dataframes en uno**


*   El datframe deberia tener la estructura `customer_ID, recency, frecuency, monetary`



In [None]:
df_rfm = pd.merge__________________
df_rfm = pd.merge__________________

df_rfm

# 5. **Segmentación por K-Means**

In [None]:
# Normalización de datos RFM

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
rfm_normalized = scaler.fit_transform(df_rfm)