<center>
<h4>Diplomatura AACSyA 2018 - FaMAF - UNC</h4>
<h1>Aprendizaje No Supervisado</h1>
<h2>Práctico 1 - Clustering - Punto 2.1 - PCA</h2>
<hr>
Por David Gonzalez <leonardo.david.gonzalez@gmail.com> y Facundo Díaz Cobos <facundo.diaz.cobos@gmail.com>
</center>
<br/>

## Objetivos
En este práctico se explorarán diferentes soluciones de clustering, para desarrollar las capacidades de análisis de
soluciones de clustering. Es preferible que los conjuntos de datos con los que trabajar sean propios, ya que de esta
forma podrán aplicar su conocimiento del dominio en la interpretación de las diferentes soluciones. Alternativa-
mente, pueden usar conjuntos de datos de los ejemplos de la materia.
En los mismos, hacer una breve discusión del problema y explicar cómo puede ser útil usar técnicas de clustering.

# Consignas
Para cumplir los objetivos, realizar las siguientes actividades:

1 - Explorar soluciones con diferentes parámetros y compararlas. Por ejemplo, variar el número de clusters, las
métricas de distancia, el número de iteraciones o el número de veces que se inicializan las semillas. Describir
brevemente: número de clusters, población de cada cluster, algunas caracterı́sticas distintivas de cada cluster,
algunos elementos que se puedan encontrar en cada cluster.

2 - Incorporar un embedding como preproceso a los datos, aplicar los algoritmos de clustering después de ese
preproceso y describir la solución o soluciones resultantes, discutiendo las ventajas que resultan. Se pueden
usar:

◦ Principal
Component Analysis http://scikit-learn.org/stable/modules/generated/sklearn.
decomposition.PCA.html

◦ para texto, embeddings neuronales Gensim https://pypi.org/project/gensim/

◦ para texto, embeddings neuronales Fastext https://pypi.org/project/fasttext/

3 - Proponer (y en lo posible, implementar) métricas de evaluación de soluciones de clustering basadas en testigos.
Los testigos son pares de objetos que un experto de dominio etiqueta como “deberı́an estar en el mismo cluster”
o “deberı́an estar en distintos clusters”.

4 - El método k-means de scikit-learn no provee una forma sencilla de obtneer los objetos más cercanos al centroide
de un cluster. Proponga alguna forma de obtener una muestra de los elementos de un cluster que sean cercanos
al centroide, por ejemplo, usando clasificadores, usando distancia coseno, etc. En lo posible, implementarlos y
mostrar esos elementos, discutir la representatividad de los elementos encontrados.

# <u>RESOLUCIÓN</u>

# Importando los datos:
Vamos a trabajar un set de datos correspondiente a compras reales de clientes realizadas en el año 2017. Los clientes fueron anonimizados previamente para poder ser utilizados en el ejercicio.

In [1]:
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from yellowbrick.cluster.elbow import KElbowVisualizer
from sklearn.cluster import KMeans
from datetime import datetime
from IPython.display import display, HTML

import numpy as np
np.random.seed(0)

# Configuramos el tamaño de los gráficos, en pulgadas
from pylab import rcParams
rcParams['figure.figsize'] = 18, 10

# 2 - Incorporar un embedding como preproceso a los datos:

Intentaremos hacer una reducción de dimensionalidad mediante PCA:


In [2]:
import pandas as pd
ppcp_log_norm = pd.read_csv('clustering-1-datos-normalizados.csv')
ppcp_log_norm.head()

Unnamed: 0,CODIGO_ARTICULO,000-000-0236,000-000-0236.1,000-000-0236.2,000-000-0236.3,000-000-0236.4,000-000-0236.5,000-000-0236.6,000-000-0236.7,000-000-0236.8,...,000-999-c11857,000-999-c11857.1,000-999-c3436,000-999-c3436.1,000-999-c3436.2,000-999-c3747,000-999-c3747.1,000-999-c3747.2,000-999-d4532,000-999-d5883
0,MONTH,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0,...,10.0,11.0,8.0,9.0,10.0,9.0,10.0,11.0,4.0,4.0
1,CODIGO_CLIENTE,,,,,,,,,,...,,,,,,,,,,
2,0024531e81828540871212e10c896d71,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,...,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147
3,003c44afe6e90ba8848dfd2bdd92c03f,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,...,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147
4,004a4de5dd7ab3c72b8f86fe635bb9b8,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,...,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147


In [3]:
# Eliminamos la cabecera de archivo y colocamos CODIGO_ARTICULO como indice:
ppcp_log_norm = ppcp_log_norm.drop(ppcp_log_norm.index[0:2])
ppcp_log_norm = ppcp_log_norm.set_index( ['CODIGO_ARTICULO'] )
ppcp_log_norm.head()

Unnamed: 0_level_0,000-000-0236,000-000-0236.1,000-000-0236.2,000-000-0236.3,000-000-0236.4,000-000-0236.5,000-000-0236.6,000-000-0236.7,000-000-0236.8,000-000-0241,...,000-999-c11857,000-999-c11857.1,000-999-c3436,000-999-c3436.1,000-999-c3436.2,000-999-c3747,000-999-c3747.1,000-999-c3747.2,000-999-d4532,000-999-d5883
CODIGO_ARTICULO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0024531e81828540871212e10c896d71,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,...,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147
003c44afe6e90ba8848dfd2bdd92c03f,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,...,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147
004a4de5dd7ab3c72b8f86fe635bb9b8,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,...,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147
00a1e834d044753f4e47964143a5e904,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,...,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147
00bb302b07a498a606e061579e962c45,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,...,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147,-0.693147


In [None]:
ppcp_log_norm.describe()

In [None]:
# Primero obtenemos la matriz de correlacion 
df_corr = ppcp_log_norm.corr()

In [None]:
# Lo vemos en el gráfico:
plt.title('Heatmap Correlation - Original',fontsize=15)
plt.imshow(df_corr, cmap=plt.cm.get_cmap("YlGnBu"), interpolation="nearest")
plt.colorbar()
plt.show()

## Revisión 1: Obtener la cantidad de features indicando el porcentaje de varianza

In [None]:
# Aqui podemos ver que algunas features tiene mucha correlacion entre si
# Por lo que vamos a aplicar una técnica de embedding, PCA (Principal component analisis)
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import numpy as np

pca = PCA(.99)
pca.fit(ppcp_log_norm)
df_reduced_99_pca = pca.transform(ppcp_log_norm)

In [None]:
# Vamos a volver a generar otro mapa de calor, par ver si la correlacion bajo y el PCA fue efectivo.
df_red_99 =  pd.DataFrame(data=df_reduced_99_pca, columns=range(df_reduced_99_pca.shape[1]))
#Generamos un nuevo mapa de calor para ver corroborar que la correlacion entre columnas es baja!
df_red_99_corr = df_red_99.corr()
# Lo vemos en el gráfico:
plt.title('Heatmap Correlation - PCA',fontsize=15)
plt.imshow(df_red_99_corr, cmap=plt.cm.get_cmap("YlGnBu"), interpolation="nearest")
plt.colorbar()
plt.show()

In [None]:
# Obtenemos la cantidad de features que mantienen el 99% de la información
HTML(str(df_red_99.shape[1]) + ' features')

## Revisión 2: Obtener la cantidad de features analizando la relación de varianza

In [None]:
# Detección de cantida de features minima que nos dé la mayor varianza
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# Entrenamos con todos los features
n_features = ppcp_log_norm.shape[0]

covar_matrix = PCA(n_components = n_features) 
covar_matrix.fit(ppcp_log_norm)
variance = covar_matrix.explained_variance_ratio_ #calculate variance ratios

var=np.cumsum(np.round(covar_matrix.explained_variance_ratio_, decimals=3)*100)
var # cumulative sum of variance explained with [n] features


In [None]:
# Visualizamos en un grafico:
plt.ylabel('% Variance Explained')
plt.xlabel('# of Features')
plt.title('PCA Analysis')
plt.plot(var)
plt.show()

In [None]:
# El valor de corte está entre los 370 y 380 feature. Analizamos mas de cerca para ver el punto de corte.
plt.ylabel('% Variance Explained')
plt.xlabel('# of Features')
plt.title('PCA Analysis')

plt.plot(var[370:380])
plt.show()

La gráfica nos muestra que luego de 375 features no mejora la variance. Tomamos esa cantidad para entrenar PCA.

In [None]:
# Aqui podemos ver que algunas features tiene mucha correlacion entre si
# Por lo que vamos a aplicar una técnica de embedding, PCA (Principal component analisis)
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import numpy as np

pca = PCA(n_components=375)
pca.fit(ppcp_log_norm)
df_reduced_pca = pca.transform(ppcp_log_norm)
# Vamos a volver a generar otro mapa de calor, par ver si la correlacion bajo y el PCA fue efectivo. 1677679
df_red =  pd.DataFrame(data=df_reduced_pca, columns=range(df_reduced_pca.shape[1]))

In [None]:
display(df_red.head())
display(df_red.tail())

In [None]:
#Generamos un nuevo mapa de calor para ver corroborar que la correlacion entre columnas es baja!
# y efectivamente este metodo nos ayudo a reducir dimencionalidad sin tanta perdida de informacion
# ya que ahora estamos en otro espacio, sin tanta perdida de informacion
df_red_corr = df_red.corr()

# Lo vemos en el gráfico:
plt.title('Heatmap Correlation - PCA',fontsize=15)
plt.imshow(df_red_corr, cmap=plt.cm.get_cmap("YlGnBu"), interpolation="nearest")
#plt.imshow(df_corr, cmap=plt.cm.get_cmap("Reds"), interpolation="nearest")
plt.colorbar()
plt.show()

In [None]:
HTML(str(df_red.shape[1]) + ' features')

## Clusterizamos el resultado:
Trabajamos ahora con las columnas detectadas y reclusterizamos para ver si mejora la distribución:

In [None]:
# Clusterizamos los clientes segun la similaridad de los productos que compran
plt.clf()
clusterClientes = KElbowVisualizer(KMeans(), k=(2,25), metric='silhouette')
clusterClientes.fit(df_red)
clusterClientes.poof()
plt.show()

Ok, probamos con 22 clusters:

In [None]:
num_clusters = 22

# Ejecutamos la clusterización por la cantidad de clusters seleccionada:
np.random.seed(0)
ppcp_kmeans = KMeans(n_clusters=num_clusters)

ppcp_clusters = ppcp_kmeans.fit_predict(df_red)

pd.DataFrame(ppcp_clusters).hist()
plt.show()


In [None]:
unique, counts = np.unique(ppcp_clusters, return_counts=True)

for index in range(0, len(unique)):
    display( '* Cantidad de clientes del CLUSTER '+str(index)+': ' + str( counts[index]))

Se observa que los valores de distribución son parecidos al primer cluster. A continuacion probaremos poner algunas metricas de evaluacion basadas en testigos. 

In [None]:
ppcp_log_norm.to_csv('clustering-1-datos-clusterizados-pca.csv')