“Online” es un conjunto de que contiene todas las transacciones que ocurrieron entre el 01/12/2010 y el 09/12/2011 para un comercio minorista en línea (Reino Unido). La empresa vende principalmente regalos únicos para todas las ocasiones. Muchos clientes de la empresa son mayoristas.  El objetivo es realizar un agrupamiento de los clientes y elegir a qué grupos dirigirse.
Vamos a analizar los Clientes en función de los siguientes factores: 

* Días: número de días desde la última compra 
* Frecuencia: número de transacciones 
* Gasto: gastos totales 


 1. Cargamos las librerias y los datos

In [1]:
# Importamos librerias para manejo de los datos

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt


# Import librerias para análisis de cluster
import sklearn
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from scipy.cluster.hierarchy import linkage
from scipy.cluster.hierarchy import dendrogram
from scipy.cluster.hierarchy import cut_tree

In [8]:
import xlrd

In [10]:
# Lectura de los datos

retail = pd.read_csv('Online.xlsx - Hoja1.csv')
retail.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/10 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/10 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/10 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/10 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/10 8:26,3.39,17850.0,United Kingdom


In [11]:
# Forma del objeto
retail.shape

(541909, 8)

In [12]:
#Análisis descriptivo
retail.describe() 

Unnamed: 0,Quantity,UnitPrice,CustomerID
count,541909.0,541909.0,406829.0
mean,9.55225,4.611114,15287.69057
std,218.081158,96.759853,1713.600303
min,-80995.0,-11062.06,12346.0
25%,1.0,1.25,13953.0
50%,3.0,2.08,15152.0
75%,10.0,4.13,16791.0
max,80995.0,38970.0,18287.0


2. Limpieza de los datos


In [13]:
#Eliminamos filas con valores perdidos
retail = retail.dropna()
retail.shape

(406829, 8)

In [14]:
# Creamos la variable Gasto

retail['Gasto'] = retail['Quantity']*retail['UnitPrice']
rfm_m = retail.groupby('CustomerID')['Gasto'].sum()
rfm_m = rfm_m.reset_index()
rfm_m.head()

Unnamed: 0,CustomerID,Gasto
0,12346.0,0.0
1,12347.0,4310.0
2,12348.0,1797.24
3,12349.0,1757.55
4,12350.0,334.4


In [15]:
#Creamos la variable Frecuencia
rfm_f = retail.groupby('CustomerID')['InvoiceNo'].count()
rfm_f = rfm_f.reset_index()
rfm_f.columns = ['CustomerID', 'Frequencia']
rfm_f.head()

Unnamed: 0,CustomerID,Frequencia
0,12346.0,2
1,12347.0,182
2,12348.0,31
3,12349.0,73
4,12350.0,17


In [16]:
#Unimos rfm_m y rfm_f
rfm = pd.merge(rfm_m, rfm_f, on='CustomerID', how='inner')
rfm.head()

Unnamed: 0,CustomerID,Gasto,Frequencia
0,12346.0,0.0,2
1,12347.0,4310.0,182
2,12348.0,1797.24,31
3,12349.0,1757.55,73
4,12350.0,334.4,17


In [18]:
# Creamos la variable Dias. 
# Convertimos la variable fecha al tipo de datos apropiados

retail['InvoiceDate'] = pd.to_datetime(retail['InvoiceDate'],format='%d-%m-%Y %H:%M')

ValueError: time data '12/1/10 8:26' does not match format '%d-%m-%Y %H:%M' (match)

In [None]:
#Calculamos la fecha máxima para conocer la fecha de la última transacción
max_date = max(retail['InvoiceDate'])
max_date

In [None]:
#Calculamos la diferencia entre la fecha máxima y la fecha de la transacción
retail['Dias'] = max_date - retail['InvoiceDate']
retail.head()

In [None]:
#Calculamos la fecha de la última transacción para obtener la antigüedad de los clientes
rfm_p = retail.groupby('CustomerID')['Dias'].min()
rfm_p = rfm_p.reset_index()
rfm_p.head()

In [None]:
#Extraemos el número de días
rfm_p['Dias'] = rfm_p['Dias'].dt.days
rfm_p.head()

In [None]:
#Unimos para obtener la base final
rfm = pd.merge(rfm, rfm_p, on='CustomerID', how='inner')
rfm.columns = ['CustomerID', 'Gasto', 'Frequencia', 'Dias']
rfm.head()

In [None]:
# Eliminamos los valores atípicos de Gasto
Q1 = rfm.Gasto.quantile(0.05)
Q3 = rfm.Gasto.quantile(0.95)
IQR = Q3 - Q1
rfm = rfm[(rfm.Gasto >= Q1 - 1.5*IQR) & (rfm.Gasto <= Q3 + 1.5*IQR)]

# Eliminamos los valores atípicos de Dias
Q1 = rfm.Dias.quantile(0.05)
Q3 = rfm.Dias.quantile(0.95)
IQR = Q3 - Q1
rfm = rfm[(rfm.Dias >= Q1 - 1.5*IQR) & (rfm.Dias <= Q3 + 1.5*IQR)]

# Eliminamos los valores atípicos de la Frecuencia
Q1 = rfm.Frequencia.quantile(0.05)
Q3 = rfm.Frequencia.quantile(0.95)
IQR = Q3 - Q1
rfm = rfm[(rfm.Frequencia >= Q1 - 1.5*IQR) & (rfm.Frequencia <= Q3 + 1.5*IQR)]

In [None]:
#Estandarizamos los valores

rfm_df = rfm[['Gasto', 'Frequencia', 'Dias']]

scaler = StandardScaler()

rfm_df_scaled = scaler.fit_transform(rfm_df)
rfm_df_scaled.shape

In [None]:
rfm_df_scaled = pd.DataFrame(rfm_df_scaled)
rfm_df_scaled.columns = ['Gasto', 'Frequencia', 'Dias']
rfm_df_scaled.head()

In [None]:
#Método de Ward
mergings = linkage(rfm_df_scaled, method="ward", metric='euclidean')
dendrogram(mergings)
plt.show()

In [None]:
# Elbow

ssd = []
range_n_clusters = [2, 3, 4, 5, 6, 7, 8]
for num_clusters in range_n_clusters:
    kmeans = KMeans(n_clusters=num_clusters, max_iter=50)
    kmeans.fit(rfm_df_scaled)
    
    ssd.append(kmeans.inertia_)
    
# Gráfico
plt.plot(ssd)

In [None]:
# Cálculo de Si
range_n_clusters = [2, 3, 4, 5, 6, 7, 8]

for num_clusters in range_n_clusters:
    
    # intialise kmeans
    kmeans = KMeans(n_clusters=num_clusters, max_iter=50)
    kmeans.fit(rfm_df_scaled)
    
    cluster_labels = kmeans.labels_
    
    # silhouette score
    silhouette_avg = silhouette_score(rfm_df_scaled, cluster_labels)
    print("For n_clusters={0}, the silhouette score is {1}".format(num_clusters, silhouette_avg))

In [None]:
# Modelo final k=3
kmeans = KMeans(n_clusters=3, max_iter=50)
kmeans.fit(rfm_df_scaled)

In [None]:
rfm['Cluster_Id'] = kmeans.labels_
rfm.head()

In [None]:
# Box plot Gasto

sns.boxplot(x='Cluster_Id', y='Gasto', data=rfm)

In [None]:
# Box plot Cluster Frequencia

sns.boxplot(x='Cluster_Id', y='Frequencia', data=rfm)

In [None]:
# Box plot Días
sns.boxplot(x='Cluster_Id', y='Dias', data=rfm)

Los clientes del Cluster 1 son los clientes con una gran cantidad de transacciones en comparación con otros clientes. Su gasto es superior al de otros clientes ya que son compradores frecuentes. 
Los clientes del Cluster 2 no son compradores frecuentes y su última compra fue hace más tiempo, por lo tanto, son los menos importantes desde el punto de vista comercial. 
Los clientes del Cluster 0 realizaron su compra más recientemente pero tienen poca frecuencia de compra.


Como actividad puede realizar los dendogramas con otros métodos de aglomeración. También ajuste k means con 2 grupos y analice.
