# <center> Unidad 4: Sistemas de recomendación </center>

## Introducción
En esta lección revisaremos los **sistemas de recomendación** o también conocidos en inglés como “recommender systems”. Los **sistemas de recomendación** son algoritmos que permiten a las empresas detectar las necesidades y preferencias de sus clientes de forma personalizada, a través del análisis de grandes cantidades de datos. Estos sistemas tienen dos objetivos fundamentales: 

1. Maximizar las ventas de los proveedores; y,
2. Facilitar las búsquedas de productos o intereses de los usuarios. 

Los **sistemas de recomendación** pueden ser el tipo más común de modelo predictivo que puede encontrar una persona promedio y proporcionan la base para recomendaciones sobre servicios tan populares como Amazon, Spotify y YouTube.

### Modelos de recomendación 

El principal objetivo de estos modelos es descubrir patrones en el conjunto de datos donde el sistema recomienda ítems al usuario basándose exclusivamente en su experiencia pasada y su la correlación con sus necesidades e intereses. Existen diversas formas de crear de recomendación, unas más sencillas y otras un poco más complejas.

#### Tipos de modelos de recomendación

**1. Popularity (basado en popularidad)**: Es un tipo de sistema de recomendación que funciona según el principio de popularidad. Estos sistemas comprueban qué productos o películas están de moda o son los más populares entre los usuarios y los recomiendan directamente. Se caracteriza por ser fácil de implementar pero no personaliza las recomendaciones. Ejemplo: los productos más vendidos en una e-commerce, los videos más vistos en Youtube.
 
**2. Content-based filtering (filtrado basado en el contenido)**: Es otro tipo de sistema de recomendación que funciona según el principio del contenido similar. Si un usuario está viendo una película, el sistema buscará otras películas de contenido similar o del mismo género que la película que está viendo. Ejemplo: Google que a partir del histórico de búsquedas o visitas realizadas nos recomienda web similares.
 
**3. Collaborative filtering (filtrado colaborativo)**:  Está considerado como uno de los sistemas de recomendación más inteligentes que funcionan a partir de la similitud entre diferentes usuarios y también artículos que se utilizan ampliamente como sitio web de comercio electrónico y también sitios web de películas en línea. Comprueba los gustos de usuarios similares y hace recomendaciones. La similitud no se limita al gusto del usuario, sino que también se puede tener en cuenta la similitud entre diferentes artículos. El sistema ofrecerá recomendaciones más eficaces si disponemos de un gran volumen de información sobre usuarios y artículos. Ejemplo: Amazon cuyo modelo de recomendación identifica usuarios similares y recomienda nuevos ítems a otros usuarios basado en el rating dado por otros usuarios similares (que no haya valorado este usuario).

# Caso práctico

Este material expande el marco inicial de los sistemas de recomendación y aborda la temática en un contexto del análisis y resolución de un caso práctico con Python. Tiene por objetivo analizar los sistemas de recomendación y su aplicabilidad como una herramienta para la personalización del consumidor.

## Sobre la empresa

La cadena de supermercados **K-Mart** es una de las más populares de América y de varios países a lo largo del mundo. Con sede en Boston, es uno de los minoristas más grande con más de dos millones de colaboradores. Tiene presencia internacional en más de 28 países con casi 11.000 tiendas.

**K-Mart**, en su misión, busca promover el ahorro y una mejor calidad de vida en las personas de todo el mundo que accedan a sus servicios, ya sea de tiendas minoristas o de comercio electrónico. Basa su éxito en la importancia que le otorga a las familias ocupadas, en las cuales reside su estrategia de negocio, para que logren empoderamiento cubriendo todas sus necesidades con las mejores marcas con las que trabaja la compañía. La empresa participa de 3 formatos principales de tiendas: supercentros, tiendas de descuentos y tiendas de barrio. También ofrece 3 unidades principales de mercancías: comestibles, mercadería en general y salud y bienestar. En cada uno de los formatos la compañía fomenta los precios bajos.

## 1. Evaluación de necesidades del negocio
La fase de evaluación del caso de negocio requiere que se cree, evalúe y apruebe un caso de negocio antes de proceder a las tareas reales de análisis práctico.

Sin duda, algo que caracteriza a **K-Mart** es brindar una mejor experiencia de compra gracias a la iniciativa de promover precios bajos todos los días. Pero decir que su éxito se basa únicamente en bajar los precios es no reconocer la importancia de su gestión de inventario eficiente. En este sentido, la empresa puede desarrollar, abrir y operar unidades en ubicaciones estratégicas y ofrecer una experiencia omnicanal enfocada en el cliente. 

Su activo diferencial para alcanzar el éxito es la innovación. Por ello, esta importante cadena de supermercados ha lanzado al mercado una aplicación móvil que permite a sus clientes realizar pedidos en línea. Existe una oportunidad para que la app muestre recomendaciones de sus productos cuando un cliente desde el momento en que ingresa a la tienda online. El área de Marketing de la empresa se ha planteado como objetivo que la aplicación pueda recomendar a sus clientes al menos 10 artículos en su canasta de compras. 

# 2. Identificación de datos
La etapa de identificación de datos consiste en identificar los conjuntos de datos necesarios para el proyecto de análisis y sus fuentes.

**Dataset:** 

El conjunto de datos contiene las transacciones de compra de **K-Mart** en un período determinado. La información incluye la fecha, hora, identificación del cliente y el nombre del producto de cada compra.

**Diccionario de datos**

  * `date`: fecha de compra
  * `time`: hora de compra 
  * `transaction`: id del clien
  * `item`: nombre del producto

# 3. Adquisición y filtrado de datos
Durante la etapa de adquisición y filtrado de datos se recopilan los datos de todas las fuentes de datos que se identificaron durante la etapa **Identificación de datos**.


El conjunto de datos planteado contiene información de más de 21.200 transacciones. Todos los datos se han recogido a través de la aplicación movil de **K-Mart**. Los datos se han restringido y anonimizado para proteger la privacidad de los clientes. 

# 4. Extracción de datos
Durante esta etapa se debe extraer datos dispares y transformarlos en un formato que pueda facilitar el análisis de datos.

**Instalar librerías**

In [2]:
# !pip install turicreate

**Importar librerías y módulos específicos de librerías**

In [3]:
import pandas as pd
import numpy as np
import time
# import turicreate as tc

**Cargar el dataset**

In [15]:
url = "https://raw.githubusercontent.com/vhteran/UDLA_Big_Data_aplicada_a_los_Negocios/main/data/ventas.csv"
data = pd.read_csv(url, sep = ";")

In [16]:
# Visualizamos el dataset
display(data)

Unnamed: 0,date,time,transaction,quantity,item
0,30/10/2019,9:58:11,1,1,Bread
1,30/10/2019,10:05:34,2,2,Scandinavian
2,30/10/2019,10:05:34,2,3,Scandinavian
3,30/10/2019,10:07:57,3,1,Hot chocolate
4,30/10/2019,10:07:57,3,1,Jam
...,...,...,...,...,...
21288,9/4/2020,14:32:58,9682,2,Coffee
21289,9/4/2020,14:32:58,9682,2,Tea
21290,9/4/2020,14:57:06,9683,2,Coffee
21291,9/4/2020,14:57:06,9683,2,Pastry


# 5. Validación y limpieza de datos
Los datos no válidos pueden sesgar y falsear los resultados de los análisis. La etapa de validación y depuración de datos se enfoca en establecer reglas de validación a menudo complejas y a eliminar cualquier dato no válido conocido.

In [19]:
#Seleccionamos las columnas que requerimos para el análisis y renombra con: 'customerId', 'purchase_count', 'productId'
dataset = data[["transaction","quantity","item"]]
display(dataset)

Unnamed: 0,transaction,quantity,item
0,1,1,Bread
1,2,2,Scandinavian
2,2,3,Scandinavian
3,3,1,Hot chocolate
4,3,1,Jam
...,...,...,...
21288,9682,2,Coffee
21289,9682,2,Tea
21290,9683,2,Coffee
21291,9683,2,Pastry


In [22]:
# Renombramos los columnas seleccionadas previamente por 'customerId', 'purchase_count' y 'productId'
dataset.columns=['customerId', 'purchase_count', 'productId']
display(dataset)

Unnamed: 0,customerId,purchase_count,productId
0,1,1,Bread
1,2,2,Scandinavian
2,2,3,Scandinavian
3,3,1,Hot chocolate
4,3,1,Jam
...,...,...,...
21288,9682,2,Coffee
21289,9682,2,Tea
21290,9683,2,Coffee
21291,9683,2,Pastry


In [23]:
# Agrupamos los datos por 'customerId' y 'productId'
dataset_transformado = dataset.groupby(['customerId', 'productId'])['purchase_count'].sum()
dataset_transformado.head()

customerId  productId    
1           Bread            1
2           Scandinavian     5
3           Cookies          1
            Hot chocolate    1
            Jam              1
Name: purchase_count, dtype: int64

In [25]:
# Transponemos el dataset
dataset_transformado = dataset_transformado.unstack()
dataset_transformado.head()

productId   customerId
Adjustment  1            NaN
            2            NaN
            3            NaN
            4            NaN
            5            NaN
dtype: float64

**Normalizar los valores de los elementos entre los usuarios**

Para hacer esto, normalizamos la frecuencia de compra de cada artículo entre los usuarios creando primero una matriz usuario-artículo de la siguiente manera:

💡 **Normalizar:** significa que se van a ajustar los valores medidos en diferentes escalas respecto a una escala común. Ayudará a mejorar el performance del modelo._

In [26]:
#Creamos una matriz normalizada
df_matrix_norm = (dataset_transformado-dataset_transformado.min())/(dataset_transformado.max()-dataset_transformado.min())
df_matrix_norm.head()

productId   customerId
Adjustment  1            NaN
            2            NaN
            3            NaN
            4            NaN
            5            NaN
dtype: float64

**Crear una tabla para la entrada al modelado**

In [28]:
#Agregamos como columna el campo 'customerId'
dataModelo = df_matrix_norm.reset_index() 
dataModelo.head()

Unnamed: 0,productId,customerId,0
0,Adjustment,1,
1,Adjustment,2,
2,Adjustment,3,
3,Adjustment,4,
4,Adjustment,5,


In [29]:
#Cambiamos el nombre de la columna index por 'scaled_purchase_freq'
dataModelo.index.names = ['scaled_purchase_freq'] 
dataModelo.head()

Unnamed: 0_level_0,productId,customerId,0
scaled_purchase_freq,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Adjustment,1,
1,Adjustment,2,
2,Adjustment,3,
3,Adjustment,4,
4,Adjustment,5,


In [30]:
#Agregamos como columna el campo 'customerId'
dataModelo = df_matrix_norm.reset_index() 
dataModelo.head()

Unnamed: 0,productId,customerId,0
0,Adjustment,1,
1,Adjustment,2,
2,Adjustment,3,
3,Adjustment,4,
4,Adjustment,5,


In [31]:
#Obtenemos una matriz usuario, producto, rating/interacción
dataModelo = pd.melt(dataModelo, id_vars=['customerId'], value_name='scaled_purchase_freq').dropna()
dataModelo.head()

Unnamed: 0,customerId,variable,scaled_purchase_freq
0,1,productId,Adjustment
1,2,productId,Adjustment
2,3,productId,Adjustment
3,4,productId,Adjustment
4,5,productId,Adjustment


In [44]:
dataModelo.scaled_purchase_freq.mean()

**Definir modelos usando la librería Turicreate**

In [None]:
user_id = 'customerId'
item_id = 'productId'
users_to_recommend = list(dataset[user_id])

n_rec = 10 #número de items recomendados
n_display = 20 #visualizar las primeras 20 filas del resultado

# 6. Agregación y representación de datos
La etapa de agregación y representación de datos, se dedica a integrar múltiples conjuntos de datos para obtener una visión unificada.

El caso de negocio propuesto no requiere la integración de otros datos.

# 7. Análisis de datos
La etapa de análisis de datos se enfoca en llevar a cabo la tarea de análisis propiamente dicha, que suele implicar uno o más tipos de análisis

## Implementación modelo Popularity (basado en popularidad)
Como revisamos anteriormente, el modelo **Popularity** es la manera más sencilla de crear un sistema de recomendación. Entonces, ¿cómo identificamos los productos populares? ¿Cuáles son los productos que tienen mejor puntaje/rating?

In [None]:
#Crear modelo por popularidad
popularity = tc.popularity_recommender.create(tc.SFrame(dataModelo), 
                                                    user_id = user_id, 
                                                    item_id = item_id, 
                                                     target='scaled_purchase_freq')
#Recomendación de productos por popularidad
recom = popularity.recommend(users=users_to_recommend, k=n_rec)
recom.print_rows(n_display)

#### Conclusión: 
La aplicación móvil podría indicar los artículos populares a los clientes nuevos de los que no se tienen mayor información de sus transacciones. Los productos que deberían generarse como recomendación serían: 
* Argentina Night, Kids biscuit, Pick and Mix Bowls, My-5 Fruit Shoot, Victorian Sponge, Honey, Bowl Nic Pitt, Fairy Doors, Spread, Chimichurri Oil

### Implementación modelo Collaborative filtering (filtrado colaborativo)


Como revisamos anteriormente, en el modelo de filtrado colaborativo, recomendamos elementos en función de cómo compran elementos usuarios similares. Los modelos de filtrado colaborativo pueden ser calculados por la ténica del **vecino más cercano** o por **factorización de matrices**.

 * **Vecino más cercano:** el enfoque del vecino más cercano se utiliza para encontrar usuarios o productos similares. 


In [None]:
#Creamos el modelo por filtrado colaborativo
filter_model = tc.item_similarity_recommender.create(tc.SFrame(dataModelo), 
                                            user_id = user_id, 
                                            item_id = item_id)
#Recomendación del modelo de filtrado colaborativo
recom = filter_model.recommend(users=users_to_recommend, k=n_rec)
recom.print_rows(n_display)

# 8. Visualización de datos
La capacidad de analizar grandes cantidades de datos y obtener información útil tiene poco valor si los únicos que pueden interpretar los resultados son los analistas.
La etapa de visualización de datos se dedica a utilizar técnicas y herramientas de visualización de datos para comunicar gráficamente los resultados del análisis con vistas a una interpretación eficaz por parte de los usuarios empresariales.

In [None]:
#Productos similares
filter_model.get_similar_items(items=['Coffee','Pastry','Scandinavian'], k=2 )

In [None]:
#Recomienda productos que el cliente aun no ha comprado
dataModelo[dataModelo['customerId']==2]

# 9. Utilización de los resultados del análisis
Después de que los resultados del análisis se pongan a disposición de los usuarios de negocio para apoyar la toma de decisiones empresariales, por ejemplo a través de cuadros de mando o paneles, puede haber más oportunidades para utilizar los resultados del análisis. La etapa de utilización de los resultados del análisis, esta enfocada en determinar cómo y dónde se pueden aprovechar más los datos del análisis procesado.

**Conclusiones**

Con este breve análisis se podría concluir que:

 * La aplicación móvil podría indicar los artículos populares a los clientes nuevos de los que no se tienen mayor información de sus transacciones. Los productos que deberían generarse como recomendación serían: Argentina Night, Kids biscuit, Pick and Mix Bowls, My-5 Fruit Shoot, Victorian Sponge, Honey, Bowl Nic Pitt, Fairy Doors, Spread, Chimichurri Oil.

 * Para aquellos clientes que ya tienen un historial de compra, la aplicación móvil les recomendaría de forma personalizada los 10 mejores productos. En el caso del cliente "1" se le podría recomendar Coffe o Pastry.

# **Referencias** <a class="anchor" id="18"></a>
    

  1. https://unipython.com/como-desarrollar-un-sistema-de-recomendacion-en-python/

  2. https://ourcodeworld.co/articulos/leer/1101/construyendo-un-sistema-de-recomendacion-simple-en-python

  3. https://anderfernandez.com/blog/sistema-de-recomendacion-con-python/
  

