## Repaso Clusterización

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import PowerTransformer

In [2]:
from sklearn.cluster import KMeans
from mpl_toolkits.mplot3d import Axes3D

p = PowerTransformer(method='yeo-johnson')
plt.rcParams['figure.figsize'] = (10,8)

### Preparación de un algoritmo de Clusterización

In [3]:
df = pd.read_csv('./Datos/Ecommerce.csv').drop(columns=['Unnamed: 8']).dropna()
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])
    
df['CustomerID'] = df.CustomerID.astype(int)
df['Total'] = df['Quantity'] * df['UnitPrice']
df['Cantidad_devo'] = df['Quantity']
df.loc[df['Cantidad_devo'] > 0, 'Cantidad_devo'] = 0
df['Cantidad_devo'] = df['Cantidad_devo'] * -1
df['Cantidad_venta'] = df['Quantity']
df.loc[df['Cantidad_venta'] < 0, 'Cantidad_venta'] = 0
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,Total,Cantidad_devo,Cantidad_venta
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2016-11-29,2.55,17850,United Kingdom,15.3,0,6
1,536365,71053,WHITE METAL LANTERN,6,2016-11-29,3.39,17850,United Kingdom,20.34,0,6
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2016-11-29,2.75,17850,United Kingdom,22.0,0,8
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2016-11-29,3.39,17850,United Kingdom,20.34,0,6
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2016-11-29,3.39,17850,United Kingdom,20.34,0,6


In [4]:
df = df.groupby(by='CustomerID').agg({'InvoiceNo': 'count', 'Cantidad_devo': 'sum', 'Cantidad_venta': 'sum', 'Total': 'sum'}).reset_index()
df.columns =  ['Cliente', 'Numero_tickes', 'Uds_devo', 'Uds_venta', 'Eur_venta']

In [5]:
for i in list(df.columns)[1:]:
    var = i + '_norm'
    df[var] = p.fit_transform(df[[i]])
df.columns

Index(['Cliente', 'Numero_tickes', 'Uds_devo', 'Uds_venta', 'Eur_venta',
       'Numero_tickes_norm', 'Uds_devo_norm', 'Uds_venta_norm',
       'Eur_venta_norm'],
      dtype='object')

In [6]:
df.shape[0]

4372

In [7]:
for i in list(df.columns)[1:]:
    if 'Eur_venta_norm' in i:
        outs = df[(abs(df[i]) >2*df[i].std()+df[i].mean())].Cliente
        df = df[~df['Cliente'].isin(outs)].copy()
    elif '_norm' not in i:
        df.drop(i,axis=1,inplace=True)
df.shape[0]

4305

**KMeans**

In [8]:
%pylab
fig = plt.figure()
ax = fig.gca(projection='3d')

k = KMeans()
cats = k.fit_predict(df[['Numero_tickes_norm', 'Uds_venta_norm', 'Eur_venta_norm']])

ax.scatter(df['Numero_tickes_norm'], df['Uds_venta_norm'], df['Eur_venta_norm'],c=cats)
ax.legend()
plt.show();

Using matplotlib backend: Qt5Agg
Populating the interactive namespace from numpy and matplotlib


`%matplotlib` prevents importing * from pylab and numpy
  warn("pylab import has clobbered these variables: %s"  % clobbered +
  ax = fig.gca(projection='3d')
No handles with labels found to put in legend.


In [9]:
# Num clusters
len(set(cats))

8

In [10]:
# Asignar cluster a cada elemento

df['Cluster'] = list(cats+1)
df['Cluster'].value_counts()

4    897
2    880
6    799
1    666
3    488
8    305
5    183
7     87
Name: Cluster, dtype: int64

In [11]:
%pylab
fig = plt.figure()
ax = fig.gca(projection='3d')

k = KMeans(n_clusters = 15)
cats = k.fit_predict(df[['Numero_tickes_norm', 'Uds_venta_norm', 'Eur_venta_norm']])

ax.scatter(df['Numero_tickes_norm'], df['Uds_venta_norm'], df['Eur_venta_norm'],c=cats)
ax.legend()
plt.show();

  ax = fig.gca(projection='3d')


Using matplotlib backend: Qt5Agg
Populating the interactive namespace from numpy and matplotlib


No handles with labels found to put in legend.


**Cómo decidir el nº óptimo de clusters en KMeans: Método del Codo**

Este método mide, para cada cluster y conjunto de clusters, el desorden interno que presentan, es decir, la distancia entre cada elemento y el potencial centroide. Analiza cómo va disminuyendo el desorden a medida que se aumentan los clusters, y elige el nº de clusters óptimo (que será cuando baje el ritmo de descenso del desorden) teniendo en cuenta también la variable tiempo

In [12]:
from yellowbrick.cluster import KElbowVisualizer
k = KMeans()
fig = plt.figure()

view = KElbowVisualizer(k, k=(2,25), metric='calinski_harabasz', locate_elbow=True)


view.fit(df[['Numero_tickes_norm', 'Uds_venta_norm', 'Eur_venta_norm']])

view.show()

<AxesSubplot:title={'center':'Calinski Harabasz Score Elbow for KMeans Clustering'}, xlabel='k', ylabel='calinski harabasz score'>

In [13]:
view.elbow_value_

2

In [19]:
fig = plt.figure()
ax = fig.gca(projection='3d')

k = KMeans(n_clusters = view.elbow_value_)
cats = k.fit_predict(df[['Numero_tickes_norm', 'Uds_venta_norm', 'Eur_venta_norm']])

ax.scatter(df['Numero_tickes_norm'], df['Uds_venta_norm'], df['Eur_venta_norm'],c=cats,cmap='viridis',alpha=0.1)
for i in range(len(set(cats))):
    ax.scatter(k.cluster_centers_[i,0],k.cluster_centers_[i,1],k.cluster_centers_[i,2],marker='o') #kmedoids

plt.show();

  ax = fig.gca(projection='3d')


In [15]:
k.cluster_centers_

array([[-0.72839108, -0.67886909, -0.26018003],
       [ 0.7703135 ,  0.68687002,  0.16846889]])

**Clusters jerárquicos**

Emplean una lógica similar a los algoritmos decision trees. Estos árboles van tomando decisiones maximizando la separación entre las ramas por las que van avanzando.

In [16]:
from sklearn.svm import SVC
from sklearn import metrics
from matplotlib.colors import ListedColormap
from sklearn.cluster import AgglomerativeClustering

In [23]:
ac = AgglomerativeClustering(n_clusters=4)
cats = ac.fit_predict(df[['Numero_tickes_norm', 'Eur_venta_norm']])

plt.figure()
sns.scatterplot(data=df, x=df['Numero_tickes_norm'], y=df['Eur_venta_norm'], hue=cats, palette = 'Accent')
plt.show()

*También aquí podemos optimizar el nº de clusters con YellowBrick*

In [25]:
view = KElbowVisualizer(k, k=(2,25), metric='calinski_harabasz', locate_elbow=True)


view.fit(df[['Numero_tickes_norm', 'Eur_venta_norm']])
view.show()

5

In [26]:
ac = AgglomerativeClustering(n_clusters=view.elbow_value_)
cats = ac.fit_predict(df[['Numero_tickes_norm', 'Eur_venta_norm']])

plt.figure()
sns.scatterplot(data=df, x=df['Numero_tickes_norm'], y=df['Eur_venta_norm'], hue=cats, palette = 'Accent')
plt.show()

**DBSCAN**

"Imita" el modus operandi de un humano a la hora de detectar y segmentar clusters. Al emplear una lógica "manual" tendremos que pasarle dos parámetros:
* eps: distancia mínima que consideramos antes de dar un salto de clúster
* min_samples: indica el mínimo número de observaciones que pedimos antes de crear un nuevo clúster.

In [46]:
from sklearn.cluster import DBSCAN

plt.figure()

db = DBSCAN(
       eps=(df['Numero_tickes_norm'].std() * df['Eur_venta_norm'].std())**2, # dist minima para saltar de cluster
       min_samples=50) # no puede haber clusters que tengan menos de 10 observaciones

cats = db.fit_predict(df[['Numero_tickes_norm','Eur_venta_norm']])

sns.scatterplot(data=df, x=df['Numero_tickes_norm'], y=df['Eur_venta_norm'], hue=cats, palette = 'Accent')
plt.show()

In [47]:
len(set(cats))

4