# Sistemas de recomendación
___
![](https://www.fundacionctic.org/sites/default/files/inline-images/3_4.png)
https://en.wikipedia.org/wiki/Recommender_system

Un sistema de recomendación (plataforma de recomendación ó motor de recomendación), es una subclase de *[sistema de filtrado de información](https://en.wikipedia.org/wiki/Information_filtering_system)* que brinda sugerencias para elementos que son más pertinentes para un usuario en particular.

Por lo general, las sugerencias se refieren a varios procesos de toma de decisiones, como qué producto comprar, qué música escuchar o qué noticias en línea leer. Los sistemas de recomendación son particularmente útiles cuando una persona necesita elegir un elemento de una cantidad potencialmente abrumadora de elementos que puede ofrecer un servicio.

Los sistemas de recomendación se utilizan en una variedad de áreas:
- Generador de listas de reproducción para servicios de streamming de video y música. (YouTube, Spotify)
- Recomendadores de productos para tiendas en línea (Amazon, Mercadolibre)
- Recomendadores de contendio para plataformas en redes sociales (Facebook, Instagram, LinkedIn, TikTok)
- Artículos de investigación y expertos - Colaboradores.
- Servicios financieros
- ...
-




___
## Un poco de historia
Elaine Rich creó en 1979, sin saberlo, los primeros sistemas de recomendación. Buscó la forma de recomendar a un usuario un libro que le pudiera gustar. Su idea era crear un sistema que hiciera preguntas específicas al usuario y le asignara estereotipos en función de sus respuestas. Dependiendo del estereotipo de los usuarios, obtendría una recomendación para un libro que le podría gustar.

La primera mención real del sistema de recomendación fue en 1990 en un informe técnico llamado "digital bookshelf" por Jussi Karlgren en la Universidad de Columbia.

### Netflix Prize
![https://assets3.thrillist.com/v1/image/2677185/792x520/scale;webp=auto;jpeg_quality=60.jpg](https://assets3.thrillist.com/v1/image/2677185/792x520/scale;webp=auto;jpeg_quality=60.jpg)
De 2006 a 2009, **Netflix** patrocinó una competencia, ofreciendo un gran premio de **$\$1,000,000** al equipo que pudiera tomar un conjunto de datos ofrecido de más de 100 millones de calificaciones de películas y devolver recomendaciones que eran un 10% más precisas que las ofrecidas por el sistema de recomendación existente de la compañía.

Esta competencia impulsó la búsqueda de algoritmos nuevos y más precisos. El 21 de septiembre de 2009, se otorgó el gran premio de **$\$1,000,000** USD al equipo **Pragmatic Chaos de BellKor**.

Surgieron varios problemas de privacidad en torno al conjunto de datos ofrecido por Netflix para la competencia del Premio Netflix. Aunque los conjuntos de datos se anonimizaron para preservar la privacidad del cliente, en 2007 dos investigadores de la Universidad de Texas pudieron identificar algunos usuarios individuales haciendo coincidir los conjuntos de datos con las clasificaciones de películas en Internet Movie Database.
___

#### Datos
- **Training set** (99,072,112 ratings sin incluir el **probe set**; 100,480,507 incluyendo el **probe set**)
    - **Probe set** (1,408,395 ratings)
- **Qualifying set** (2,817,131 ratings) consisting of:
    - **Test set** (1,408,789 ratings), used to determine winners
    - **Quiz set** (1,408,342 ratings), used to calculate leaderboard scores

#### Consideraciones
- Para cada película, el título y el año de lanzamiento se proporcionan en un conjunto de datos separado.
- No se proporciona ninguna información sobre los usuarios.
    - Para proteger la privacidad de los clientes, "algunos de los datos de calificación de algunos clientes en los conjuntos de capacitación y calificación se han alterado deliberadamente de una o más de las siguientes maneras: eliminando calificaciones, insertando calificaciones y fechas alternativas y modificando la calificación fechas.

___

## ¿Qué no son los sistemas de recomendación?
___
- No es un sistema que "*recomienda*" valores aleatorios (para alguno problema aleatorio).
- No es un sistema que "*recomienda*" precios de una casa que estes comprando.
- No es un sistema que "*recomienda*" si una transacción es fraudulenta o no.

## ¿Qué son los sistemas de recomendación?
___
- Un sistema que predice ratings o preferencias que un usuario pueda tener a cierto item.
- Comúnmente están organizados y presentados como recomendaciones "top-N"
- También conocidos como **motores de recomendación**, ó **plataformas de recomendación**

## Entendiendo al usuario
Todo sistema de recomendación necesita datos para poder operar. Por lo tanto, necesita información de cada usuario para poder descifrar el gusto y preferencias de ese usuario.

Luego, utiliza esta información del usuario junto con la información de todos los demás usuarios (similares) para recomendar cosas que quizás le guste.

Pero... **¿Cómo saber qué le gusta al usuario?**
___

### Rating explícito
- Calificación numérica del producto (Estrellas).
- Like (o dislike) de algún tipo de contenido.
- ...

**Problemas:**
- Trabajo extra por parte del usuario. ¿Cuántos de ustedes califican todas las compras en línea? ó  ¿Califican todas las cancioesn que escuchan en su streaming de música?
-  ¿A quién le gustó la película de Top Gun?

### Rating implícito
Viendo las cosas que haces e interpretando qué te gusta (o disgustan) a partir de eso:
- Click en una página web
- Click en una ad (publicidad)
    - Ventajas de los clicks:
        - Se tienen mucha información sobre eso
    - Desventajas de los clicks:
        - Click por accidente
        - Click por imagen llamativa (Click bait)
        - Bots
- Compras (Muy resistente a engaño)
- Consumo de servicios: YouTube, Spotify, Netflix

**Rating explícito** es un gran insumo cuando se puede lograr que el usuario valore o califique los productos/servicios que compra/consume.

Por otro lado, el **rating implícito** puede dar información más valiosa para empezar a diseñar un recomendador.
___



## Sistemas de Recomendación Top N


**Objetivo:** Producir una lista finita de recomendaciones de las mejores cosas para mostrarle a un usuario específico.

Ejemplo de un (ó tres) recomendador top N:
![](https://i.insider.com/57e2b71a077dcc3d018b73d8?width=600&format=jpeg&auto=webp)

<p style="color:red; font-size:20px">Nota:</p> La investigación en los sistemas de recomendación tienden a centrarse en el problema de predecir el rating que un usuario le dará a una producto que no se ha calificado aún. **Pero** eso es muy diferente a lo que un sistema de recomendación en realidad quiere hacer en el mundo real.

<p style="color:blue; font-size:20px">A los usuarios no les importa la habilidad de predecir como van a calificar un nuevo item. Ellos quieren ver cosas que les van a gustar</p>

___

### Arquitectura de un sistema de recomendación Top-N
### Una arquitectura (Item based)
<img src="topnRecom.png" width="1500" height="1000">

### Otra arquitectura
<img src="topnRecom2.png" width="1500" height="1000">
___

## Componentes de un Recomendador

Los recomendadores tienen principalmente tres grandes componentes:
1. **Generación de candidatos:** Dado un pool de items, se generan subconjutnos más pequeños de candidatos (items) para recomendar a un usuario
2. **Sistema de puntaje:** Asignar un puntaje a cada item candidato.
3. **Sistema de re-rankeo:** Se tiene en cuenta variables extras para re ordenar los items candidatos.

### Tipos de sistemas de generación de candidatos
1. **Content-based filtering System**
    - Recomendaciones basadas en los atributos de los items.
        Género, año, director, actores, reviews, etc.
    - Se calcula la similaridad entre sus atributos. Ejemplo con coseno de similaridad.

2. **Collaborative filtering System**
    - Acá la palabra clave es **COLABORACION**.
    - En palabras simples, encontrar personas con gustos similares a los tuyos. Encontrar vecinos.
        - **User-based Collaborative filter** *"A los usuarios que les gustaron esto que compraste, también les gustó esto.."*
        - **Item-based Collaborative filter** *"Porque te gustó esto, te puede interesar esto..."*

3. **Híbridos**

### Qué tipo de generador de candidatos es el que se presenta en la imágen?
![](collaborativeFilter.png)

### Actividad en clase - MovieLens Dataset

- Crear un ambiente virtual de python en un nuevo proyecto (puede usar `Pycharm`). Llamar al proyecto `MovieLens-trabaja-en-clase`
- Crear un cuaderno de Jupyter dentro del proyecto anterior, con el siguiente nombre: `TC2PrimerNombrePrimerApellido.ipynb`, en mi caso sería `TC2CristianZapata.ipynb`
- Descargar el siguiente dataset en un carpeta llamada `data` dentro del mismo proyecto. [Dataset](https://grouplens.org/datasets/movielens/latest/)
- Importar el dataset con ayuda de `pandas`
- Realizar un análisis exploratorio de datos (EDA) del dataset importado.


Algunas preguntas que se pueden responder (pero no limitadas a estas)
- Cuáles fueron los géneros mejor rankeados en promedio en el año 2005?
- Cuál es el top 5 de películas mejor rankeadas en promedio?
- Cuál es el género con más revies?
- Cuáles es el género por año con mejor rating entre el año 2000 y 2010?
- Cuál es el usuario con más críticas y cuál es su género favorito?





## Tarea 2
Responder las preguntas planteadas anteriormente con el dataset de `MovieLens`. Crear un cuaderno de Jupyter con le siguiente formato: `T2PrimerNombrePrimerApellido.ipynb` y subirlo al espacio en canvas.

**Fecha de entrega:** Miércoles 7 de septiembre a las 7:55 pm