# Ejercicio - Sistema de Recomendación usando SVD

En este ejercicio vamos a usar una una porción del [Online Retail dataset](https://archive.ics.uci.edu/ml/datasets/Online+Retail), que contiene información sobre transacciones que ocurrieron en Noviembre 2011 en una tienda online basada en el Reino Unido (UK). Esta tienda vende artículos diversos de decoración y regalos, y muchos de sus clientes son tiendas físicas.

El objetivo del ejercicio es crear un sistema de recomendación que, dado un cliente (cuyo identificador conocemos, no un nuevo cliente), recomiende productos que dicho cliente estaría interesado en comprar.

### Cargamos los datos

In [9]:
import pandas as pd
import numpy as np
ventas = pd.read_csv("./data/retail.csv")

ventas.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,573744,21314,SMALL GLASS HEART TRINKET POT,8,2011-11-01 08:16:00,2.1,17733.0,United Kingdom
1,573744,21704,BAG 250g SWIRLY MARBLES,12,2011-11-01 08:16:00,0.85,17733.0,United Kingdom
2,573744,21791,VINTAGE HEADS AND TAILS CARD GAME,12,2011-11-01 08:16:00,1.25,17733.0,United Kingdom
3,573744,21892,TRADITIONAL WOODEN CATCH CUP GAME,12,2011-11-01 08:16:00,1.25,17733.0,United Kingdom
4,573744,21915,RED HARMONICA IN BOX,12,2011-11-01 08:16:00,1.25,17733.0,United Kingdom


### Crear matriz de Cliente/Producto (CustomerID, StockID), donde la intersección sea el numero de veces que cada cliente ha comprado cada producto.

Este dataset no está ordenado de la forma necesaria para poder aplicar SVD (matriz de clientes/productos), asi que parte del ejercicio consiste en manipular el dataset hasta obtener la forma deseada. El identificador de cliente es `CustomerID` y el identificador de producto es `StockCode`

**Pista** Una forma de procesar el dataset para convertirlo a una matriz es con el método [`pandas.pivot_table()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.pivot_table.html)

In [10]:
elementos = dict(zip(ventas.StockCode,ventas.Description))

In [175]:
cliente_producto = ventas.pivot_table(
    values="Quantity",
    index="CustomerID",
    columns="StockCode",
    aggfunc="sum"
)

In [17]:
cliente_producto.shape

(1711, 2704)

In [18]:
from scipy.sparse import coo_matrix

In [26]:
cliente_id_lista = np.array(cliente_producto.index.tolist())
producto_id_lista = np.array(cliente_producto.columns.tolist())

In [28]:
ventas_mtz = cliente_producto.fillna(0).values.copy()
ventas_mtz_sparce = coo_matrix(ventas_mtz)

## Hacer la descomposicion SVD sparse de la matriz original de cliente/producto, (podemos tomar k=10)

In [30]:
from scipy.sparse.linalg import svds

In [31]:
U,s,V = svds(ventas_mtz_sparce,k=10)

In [34]:
print(f"U: \t{U.shape} \ns: \t{s.shape} \nV: \t{V.shape}")

U: 	(1711, 10) 
s: 	(10,) 
V: 	(10, 2704)


# Reconstruir la matriz original de cliente/producto con SVD

In [36]:
#Convertir array a matriz diagonal
s_diag = np.diag(s)

In [37]:
ventas_svd = U @ s_diag @ V

In [50]:
from sklearn.preprocessing import MinMaxScaler

In [53]:
def revisar_escala(escala):
    print(f"Min: {escala.min()} \nMax: {escala.max()}")

In [67]:
escalador = MinMaxScaler(feature_range=(1,4))

In [68]:
ventas_svd_escalada = escalador.fit_transform(ventas_svd)

In [69]:
revisar_escala(ventas_svd)

Min: -213.4609869194147 
Max: 12539.999999952573


In [70]:
revisar_escala(ventas_svd_escalada)

Min: 0.9999999999999998 
Max: 4.000000000000001


### Crear función de recomendación.

Hasta aquí hemos explicado todo en clase, ahora llega la parte adicional donde se proporciona valor a dicha decomposicion.

Ahora tenemos una matriz con las "puntuaciones" que cada cliente daria a cada producto. Lo que tenemos que hacer es crear una funcion que dado un cliente, tome la fila que le corresponde en la matriz que hemos calculado con SVD. Para dicha fila, aquellos valores más altos serán aquellos con una puntuacion estimada más alta para dicho usuario. Asi que simplemente tomamos los productos (las columnas) con valores más altos **que no estuviesen en el dataset original para el usuario!**, ya que no le debemos recomendar productos que ya ha comprado, sino productos nuevos.

Dicha función debe tomar como argumento una id de cliente y un número de recomendaciones y debe devolver las recomendaciones.

In [100]:
id_cliente = 12352

In [103]:
cliente_index = np.where(cliente_id_lista == id_cliente)[0][0]

In [154]:
print("SKU \tDescripcion")
print("_____ \t______________________________")
for recomendacion in index_sort[:10]:
    print(f"{producto_id_lista[recomendacion]} \t{elementos[producto_id_lista[recomendacion]]}")

SKU 	Descripcion
_____ 	______________________________
22492 	MINI PAINT SET VINTAGE 
85099B 	JUMBO BAG RED RETROSPOT
22152 	PLACE SETTING WHITE STAR
21810 	CHRISTMAS HANGING STAR WITH BELL
22356 	CHARLOTTE BAG PINK POLKADOT
21787 	RAIN PONCHO RETROSPOT
20973 	12 PENCIL SMALL TUBE WOODLAND
23583 	LUNCH BAG PAISLEY PARK  
22629 	SPACEBOY LUNCH BOX 
22382 	LUNCH BAG SPACEBOY DESIGN 


In [165]:
def recomendar(id_cliente, num_recomendaciones=5):
    # poner aqui la logica de recomendacion para un cliente
    cliente_id = np.where(cliente_id_lista == id_cliente)[0][0]
    
    #Se ordena la lista de compras predichas para el cliente
    index_sort = ventas_svd[cliente_index,:].argsort()[::-1]
    
    #Se crea la mascara para descartar elementos que ya ha comprado
    productos_no_comprados = ventas_mtz[cliente_index,:][index_sort] == 0
    
    rec_index = index_sort[productos_no_comprados]
    rec_ids = producto_id_lista[rec_index]
    recomendaciones = rec_ids[:num_recomendaciones]
    
    return recomendaciones

In [170]:
d = cliente_producto.loc[id_cliente]
[elementos[x] for x in d[d.notna()].index]

['BLUE STRIPE CERAMIC DRAWER KNOB',
 'VICTORIAN GLASS HANGING T-LIGHT',
 'IVORY KITCHEN SCALES',
 'MINT KITCHEN SCALES',
 'CHILDS BREAKFAST SET DOLLY GIRL ',
 'PINK BABY BUNTING',
 'PANTRY ROLLING PIN',
 'PANTRY PASTRY BRUSH',
 'ZINC HEART FLOWER T-LIGHT HOLDER',
 'GLASS BON BON JAR',
 'PETIT TRAY CHIC',
 'SET 12 COLOUR PENCILS SPACEBOY ',
 'SET 12 COLOUR PENCILS DOLLY GIRL ',
 'WOODLAND BUNNIES LOLLY MAKERS',
 'POSTAGE']

In [172]:
recomendaciones = recomendar(12352, 10)
print(recomendaciones)

['22492' '85099B' '22152' '21810' '22356' '21787' '20973' '23583' '22629'
 '22382']


In [174]:
[elementos[x] for x in recomendaciones]

['MINI PAINT SET VINTAGE ',
 'JUMBO BAG RED RETROSPOT',
 'PLACE SETTING WHITE STAR',
 'CHRISTMAS HANGING STAR WITH BELL',
 'CHARLOTTE BAG PINK POLKADOT',
 'RAIN PONCHO RETROSPOT',
 '12 PENCIL SMALL TUBE WOODLAND',
 'LUNCH BAG PAISLEY PARK  ',
 'SPACEBOY LUNCH BOX ',
 'LUNCH BAG SPACEBOY DESIGN ']