<center>
<h4>Diplomatura en CDAAyA 2020 - FaMAF - UNC</h4>
<h1>¿Caro o Barato? Análisis de Precios de Almacen en un Contexto Inflacionario</h1>
<h3>Aprendizaje Automático No Supervisado</h3>
</center>
</left>
<h4>Sofía Luján y Julieta Bergamasco</h4>
</left>

### Introducción

En la siguiente notebook se presentará la consigna a seguir para el cuarto y último práctico del proyecto, correspondiente a la materia Aprendizaje Automático No Supervisado. El objetivo consiste en aplicar distintas técnicas de análisis exploratorio de datos (EDA) al dataset, de modo de encontrar patrones sistematizables. A los fines de este práctico, *nos enfocaremos en clasificar los productos y la búsqueda de valores atípicos (outliers).*

Luego, una vez aplicadas las técnicas de aprendizaje no supervisado y del cálculo de las métricas pertinentes, podremos recurrir a las etiquetas de clases con el fin de contrastar los resultados obtenidos.

Para ello, comenzaremos con las importaciones pertinentes.

### Importaciones

In [None]:
# Importación de las librerías necesarias
import numpy as np
import pandas as pd
# Puede que nos sirvan también
import matplotlib as mpl
mpl.get_cachedir()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
# import sklearn as skl

from sklearn import preprocessing
from sklearn.utils import shuffle
from sklearn.decomposition.pca import PCA
from sklearn.decomposition import FactorAnalysis
from sklearn.cluster import KMeans
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.metrics import silhouette_samples, silhouette_score
from sklearn.model_selection import train_test_split

random_state = 0
np.random.seed(0)  # Para mayor determinismo

  import pandas.util.testing as tm


In [None]:
pd.set_option('display.max_columns', 150)
pd.set_option('display.max_rows', 150)
pd.set_option('max_colwidth', 151)

## Consigna para Aprendizaje Automático No Supervisado

### I. Preprocesamiento

A los fines de realizar este práctico, se utilizará el dataset crudo. El preprocesamiento será similar al aplicado en los prácticos anteriores.

#### 1. Obtención del Dataset

Cargar el conjunto de datos original. 

#### 2. Aplicar Script de Curación

Inicialmente, con el objetivo de preparar los datos que alimentarán los modelos de aprendizaje automático (ML) propuestos, deberán aplicar el script de curación obtenido en el práctico anterior.

#### 3. Creación de Nuevos Atributos

En esta etapa, pueden adicionar atributos calculados a partir de los datos preexistentes, que crean que son pertinentes a priori o que hayan encontrado interesantes por tener mayor correlación con `precio relativo`. Por ejemplo, el precio relativo del período anterior.

#### 4. Normalización de Atributos

Es posible que sea necesario normalizar las features de nuestro dataset, dado que los algoritmos de clasificación no supervisada lo requieren. Aplicar al dataset la normalización de atributos que consideren adecuada.

#### 5. Mezca Aleatória y División en Train/Test

Finalmente, es recomendable que mezclen los datos aleatoriamente, dado que la inicialización influye en los resultados del modelo que se propone que implementen.

Respecto a la división en Train/Test, dado que se trata de un algoritmo de aprendizaje automático no supervisado, pueden omitir esta división, ya que estamos buscando patrones ocultos en los datos que reflejen las causas latentes.

---

A modo de ayuda, **en esta notebook encontrarán una especie de template** que sigue los pasos propuestos y que deberán ir completando.

Recuerden que la ciencia de datos es un **proceso circular, continuo y no lineal**. Es decir, si los datos requieren de mayor procesamiento para satisfacer las necesidades de algoritmos de ML (cualesquiera de ellos), vamos a volver a la etapa inicial para, por ejemplo, crear nuevas features, tomar decisiones diferentes sobre valores faltantes o valores atípicos (outliers), descartar features, entre otras.

### II. Aplicación de Modelos de Aprendizaje Automático No Supervisado

Una vez finalizada la etapa de preprocesamiento, se propone implementar, por un lado, una técnica de reducción de dimensionalidad para representar los datos y, por el otro, dos técnicas de clusterización.

#### 1. Descomposición de Variables: Principal Component Analysis

Si bien la mayoría de nuestros atributos se tratan de variables binarias y PCA no es tan apropiado para este tipo de datasets, puede aplicarse esta técnica y ver que resulta.
A partir del análisis y la visualización de los datasets transformados por PCA, obtener conclusiones.

Adicionalmente, existe una técnica llamada Factor Analysis que puede ser más apropiada para este caso. Aplicarla y obtener conclusiones. Comparar con los resultados obtenidos previamente.

#### 2. K-Means Clustering
Aplicar K-Means tanto al dataset original como al dataset transformado a partir de cualquiera de las técnicas anteriores.

Explorar distintas soluciones de clustering con diferentes parámetros, como iteraciones, número de clusters o métricas de distancia, y compararlas. Finalmente, para el modelo seleccionado:

- Calcular las métricas pertinentes sobre los clusters resultantes.
- Aplicando el método de Elbow, ¿cuál sería la cantidad óptima de clusters?
- Agregar al dataset original el cluster resultante de los modelos.
- Graficar diferentes variables de interés por cluster y compararlos.
- Tomar ejemplos aleatorios y pensar por qué están en un cluster y no en otro.
- Calcular los centroides y tratar de mostrar qué tiene cada cluster cerca de su centroide. Obtener conclusiones.
- Graficar la silhouette utilizando distancia Manhattan. [Definición](https://en.wikipedia.org/wiki/Silhouette_(clustering)#:~:text=The%20silhouette%20value%20is%20a,poorly%20matched%20to%20neighboring%20clusters) y 
[Doc+Ejemplo](https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html)

#### 3. HDBScan en cada cluster para detectar anomalías.

[Lib and Doc](https://hdbscan.readthedocs.io/en/latest/) y
[Más Doc](https://towardsdatascience.com/understanding-hdbscan-and-density-based-clustering-121dbee1320e)

Este algoritmo es de clusterización apropiado para detectar anomalias (outliers). El resultado deberían ser un set de productos caros o baratos dentro de cada cluster identificado en la etapa anterior.

---
### III. Opcional - Tareas Adicionales

1. Incluir clusters como una nueva feature en el modelo seleccionado en el práctico de aprendizaje supervisado. A partir de esto, obtener conclusiones de acuerdo al error de predicción. **Productos caros**: aquellos con error de predicción positivo alto. **Productos baratos**: aquellos con error de predicción negativo alto. ¿Tiene sentido?

2. Al obtener la predicción del precio, se llega al **precio relativo estimado**. Hacer la transformación inversa para identificar cuál debería ser el precio nominal de ese producto particular. ¿Qué dato necesitamos conocer si estamos prediciendo los precios de hoy?

3. Probar los modelos con los nuevos datos disponibilizados.


### Entregables

El entregable de este práctico consiste en **esta misma Notebook**, pero con el preprocesamiento aplicado y las técnicas implementadas, agregando las explicaciones que crean pertinentes y las decisiones tomadas, en caso de corresponder.

Sintetizar las conclusiones en un archivo de texto, como lo vienen haciendo con los anteriores prácticos.

**Fecha de Entrega: 13/10**

# Resolución

## I. Preprocesamiento

### 1. Carga de Datos

Para comenzar, importamos los datos que vamos a utilizar:

In [None]:
# Cargamos el dataset original en una variable
precios_20200412_20200413 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200412_20200413.csv')
precios_20200419_20200419 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200419_20200419.csv')
precios_20200426_20200426 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200426_20200426.csv')
precios_20200502_20200503 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200502_20200503.csv')
precios_20200518_20200518 = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/precios_20200518_20200518.csv')

productos = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/productos.csv')
sucursales = pd.read_csv('https://raw.githubusercontent.com/solujan/mentoria_2020/master/raw_dataset/sucursales.csv')


In [None]:
productos.head()

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
0,1663,LA ANÓNIMA,Radicheta Atada La Anonima 1 Un,1.0 un,,,
1,2288,LA ANÓNIMA,Perejil Atado La Anonima 1 Un,1.0 un,,,
2,205870,SIN MARCA,Ojo de Bife 1 Kg,1.0 kg,,,
3,205894,SIN MARCA,Milanesa de Peceto Novillito 1 Kg,1.0 kg,,,
4,205955,SIN MARCA,Chiquizuela Novillito 1 Kg,1.0 kg,,,


In [None]:
precios_20200518_20200518.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,29.9,2288,2-1-009
1,32.9,2288,2-1-037
2,36.9,2288,2-1-090
3,39.9,2288,2-3-247
4,499.99,205870,9-1-430


<div class="alert alert-block alert-info">
El dataset ya está **listo para trabajar!**
</div>

### 2. Aplicar Script de Curación

El siguiente paso implica aplicar el script que resultó del práctico anterior. También pueden adicionar campos calculados en base a otros atributos, según lo consideren pertinente.

### 3. Creación de Nuevos Atributos

Decisiones al respecto:

### 4. Normalización de Atributos

Aplicar al dataset la normalización de atributos que consideren adecuada.

In [None]:
# Pueden utilizar los siguientes métodos, por ejemplo:

min_max_scaler = preprocessing.MinMaxScaler()
standard_scaler = preprocessing.StandardScaler()


### 5. Mezca Aleatória y División en Train/Test

Mezclar los datos aleatoriamente. Luego, si les parece necesario, dividir en Train/Test el dataset.

In [None]:
# Para mezclar aleatoriamente el dataset, utilizar el siguiente módulo:

_ds_shuff = shuffle(_ds)

## II. Aplicación de Modelos de Aprendizaje Automático No Supervisado

Utilizando los datos obtenidos, se aplicarán técnicas de reducción de dimensionalidad y el modelo K-Means de Clustering.

### 1. Descomposivión de Variables: Principal Component Analysis

A continuación se aplicará la técnica de descomposición por Análisis de Componente Principal (PCA).

In [None]:
# Utilizar diferentes valores para el parámetro n_components

pca = PCA()
pca_ind = pca.fit_transform(_ds)


In [None]:
fa = FactorAnalysis(n_components=7, random_state=0)
fa_ds = fa.fit_transform(_ds)


Si se animan, pueden usar una red neuronal como encoder para la reducción de dimensionalidad.

***Hint: *** [En el siguiente link](https://medium.com/intuitive-deep-learning/autoencoders-neural-networks-for-unsupervised-learning-83af5f092f0b)

### 2.  K-Means Clustering

A continuación se aplicará K-Means para clasificar en clusters nuestros datasets.

In [None]:
num_clusters = 5
km = KMeans(n_clusters=num_clusters)
km.fit(_ds)

clusters = km.labels_.tolist()

In [None]:
print (clusters)

# Recuento del número de elementos en cada cluster
for i in range(num_clusters):
    print ('El cluster %i tiene %i elementos' % (i, clusters.count(i)))

In [None]:
# Agrupar por clusters y clases los datasets, utilizando .count()
_ds['cluster'] = clusters
_ds['cluster'].value_counts()


In [None]:
# Calcular estadísticos relevantes para variables clave del dataset, diferenciados por cada cluster
# Pueden usar .describe()

In [None]:
# Para encontrar los centroides y analizarlos pueden utilizar lo siguiente:
centroids = km.cluster_centers_   # centroids = km.centroids
order_centroids = centroids.argsort()[:, ::-1]

In [None]:
# Aplicar método de Elbow para identificar el número de clusters óptimo
n = 
sum_sq_dist = []
list_k = list(range(1, n))

for k in list_k:
    km = KMeans(n_clusters=k)
    km.fit(_ds_individual)
    sum_sq_dist.append(km.inertia_)

In [None]:
# Calcular la métrica de la silueta. Pueden usar los módulos silhouette_samples y silhouette_score

silhouette_vals = silhouette_samples(_ds, clusters)

Graficar diferentes variables de interés por cluster y compararlos.

### 3.  HDBScan en cada cluster para detectar anomalías.

In [None]:
!pip install hdbscan

Collecting hdbscan
[?25l  Downloading https://files.pythonhosted.org/packages/22/2f/2423d844072f007a74214c1adc46260e45f034bb1679ccadfbb8a601f647/hdbscan-0.8.26.tar.gz (4.7MB)
[K     |████████████████████████████████| 4.7MB 2.9MB/s 
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
    Preparing wheel metadata ... [?25l[?25hdone
Building wheels for collected packages: hdbscan
  Building wheel for hdbscan (PEP 517) ... [?25l[?25hdone
  Created wheel for hdbscan: filename=hdbscan-0.8.26-cp36-cp36m-linux_x86_64.whl size=2301797 sha256=bbe351f063b18970aa101d87c0c8002c8f9bde185b40820780678c5256d16963
  Stored in directory: /root/.cache/pip/wheels/82/38/41/372f034d8abd271ef7787a681e0a47fc05d472683a7eb088ed
Successfully built hdbscan
Installing collected packages: hdbscan
Successfully installed hdbscan-0.8.26


In [None]:
import hdbscan
clusterer = hdbscan.HDBSCAN(metric='manhattan')
clusterer.fit(df)
clusterer.labels_
clusterer.probabilities_

### III. Opcional - Tareas Adicionales