# Sistema de recomendaciones de Películas usando Python 

# Ponente: Ernesto Crespo

* Desarrollador Python desde el año 2000
* Blog: [blog.crespo.org.ve](https://blog.crespo.org.ve) migrando a [www.seraph.to](https://www.seraph.to)  
* BI Developer y Data Scientist
* Github: [https://github.com/ecrespo](https://github.com/ecrespo)
* Gitlab: [https://gitlab.com/ecrespo](https://gitlab.com/ecrespo)
* Twitter: [@_seraph1](https://twitter.com/_seraph1)

<hr>

# Científico de Datos (wikipedia) 
La ciencia de datos es un campo interdisciplinario que utiliza métodos, procesos, algoritmos y sistemas científicos para extraer conocimientos y conocimientos de datos en diversas formas, tanto estructuradas como no estructuradas,  similar a la minería de datos.

La ciencia de datos es un "concepto para unificar estadísticas, análisis de datos, aprendizaje automático y sus métodos relacionados" para "entender y analizar fenómenos reales" con datos. Emplea técnicas y teorías extraídas de muchos campos dentro del contexto de las matemáticas, estadísticas, ciencias de la información y ciencias de la computación.

![](./images/venn-diagram.png)
<hr>

![](./images/revelando-los-secretos-de-twitter-festival-de-software-libre-2014-24-638.jpg)
<hr>

![](./images/habilidades-del-cientifico-de-datos.jpg)
<hr>

![](./images/dsc.png)
<hr>

# Herramientas 


## Jupyter notebook: 
[Jupyter](https://jupyter.org/)

![](./images/Jupyter3.png)

Es una aplicación web opensource que permite crear un compartir código en vivo, ecuaciones, visualización y texto narrativo. 

Entre sus usos incluye: 
* Limpieza de datos 
* Simulación numérica 
* Modelación estadística 
* Visualización de datos 
* Machine Leaarning
* Permite contar una historia (Storytelling)
* Mucho más ...


<hr>

## Pandas: 
[Pandas](https://pandas.pydata.org/)

![](./images/pandas_logo.png)

Es una librería escrita en Python para manipulación, analisis  y visualización de datos.

<hr>

## Numpy

[Numpy](http://www.numpy.org/)

![](./images/numpy.png)

Es una librería para Python que soporta grandes arreglos y matrices multidimensionales, con una alta colección de funciones matemáticas de alto nivel para operar con los
arreglos.

<hr>

## Matplotlib

[Matplotlib](https://matplotlib.org/)

![](./images/matplotlib.png)

Es una librería para Python que permite generar gráficas en 2D y 3D 

<hr>

## Seaborn 

[Seaborn](http://seaborn.pydata.org/)

![](./images/seaborn.png)

Es una librería basada en matplotlib que provee una interface de alto nivel para gráficos atractivos de información estadística.

<hr>


<hr>

# Sistema de recomendaciones de Películas
## Fuente de datos 

El repositorio donde encontrarán el notebook y la fuentes de datos original lo pueden conseguir en el siguiente enlace:

https://github.com/krishnaik06/Movie-Recommender-in-python

https://github.com/krishnaik06/Movie-Recommender-in-python/blob/master/Recommender%20Systems%20with%20Python.ipynb

Este es un sistema básico de recomendaciones, usando simplemente estadística usando Pandas y Numpy en Python

### Importar librerías 

In [None]:
import pandas as pd 
import numpy as np 

### Obtener los datos 

* [u.data.txt](./datos/u.data.txt): Archivo que contiene datos separados por tabulador(campos: user_id,item_id,rating,timestamp).
* [Mogie Id titles](./datos/Movie_Id_Titles.txt): Archivo csv que contiene los títulos de las películas (campos: item_id, titles).

In [None]:
column_names = ['user_id', 'item_id', 'rating', 'timestamp']
df = pd.read_csv('./datos/u.data.txt', sep='\t', names=column_names)

In [None]:
# Obtener los títulos de las películas
movie_titles = pd.read_csv("./datos/Movie_Id_Titles.txt")

### Revisar los dataframes 

In [None]:
df.head() 

In [None]:
df.tail()

In [None]:
df.info()

In [None]:
len(df)

<hr>

In [None]:
movie_titles.head()

In [None]:
movie_titles.info() 

In [None]:
len(movie_titles)

In [None]:
df.describe().T

In [None]:
df.corr()

In [None]:
movie_titles.describe().T

In [None]:
movie_titles.corr()

In [None]:
df['rating'].describe()

<hr>

### Concatenar dafaframes de títulos de películas con el rating 

Se concatenarán los dataframes df y movie_titles, noten que ambos dataframes tienen el item_id como campo, así que se usará este campo para realizar la fusión.

![](./images/fusion.jpg)

In [None]:
df = pd.merge(df,movie_titles,on='item_id')
df.head()

In [None]:
df.tail() 

In [None]:
df.info() 

In [None]:
len(df)

In [None]:
df.describe()

In [None]:
df.describe().T

In [None]:
df.corr() 

<hr>

## Visualización de los datos 

### Importar librerías 

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('white')
%matplotlib inline

### Gráficar un mapa de calor a partir de una correlación

In [None]:
sns.heatmap(df.corr());

### Gráfica de pares

Esta gráfica permite ver el comportamiento de pares de variables gráficamente. 

In [None]:
sns.pairplot(df);

Tener información estadística del item_id 

In [None]:
df["item_id"].describe()

Se generá una gráfica de vela

In [None]:
sns.boxplot(x=df["item_id"]);

<hr>

### Crear un dataframe con el número de rating y el rating promedio

### Se agrupa por título ordenando los promedios de rating 

In [None]:
df.groupby('title')['rating'].mean().sort_values(ascending=False).head()

In [None]:
df.groupby('title')['rating'].mean().sort_values(ascending=False).tail()

### Se agrupa por título ordenando los ratings

In [None]:
df.groupby('title')['rating'].count().sort_values(ascending=False).head()

In [None]:
df.groupby('title')['rating'].count().sort_values(ascending=False).tail()

### Se construye un dataframe del promedio de rating de los títulos de las películas 

De la agrupación anterior se crea un dataframe por promedio de rating

In [None]:
ratings = pd.DataFrame(df.groupby('title')['rating'].mean())
ratings.head()

### Se define el número de rating

De la agrupación anterior se crea un dataframe por número de rating

In [None]:
ratings['num of ratings'] = pd.DataFrame(df.groupby('title')['rating'].count())
ratings.head()

### Ahora vienen los histogramas

Se genera el histograma del número de rating y del promedio de rating a partir de los dataframe anteriores.

In [None]:
plt.figure(figsize=(18,8))
ratings['num of ratings'].hist(bins=70);

Se puede ver que la mayoría de las películas han recibido menos de 50 ratings, mientras el número de películas que tienen más de 100 ratings es muy bajo.

In [None]:
plt.figure(figsize=(18,8))
ratings['rating'].hist(bins=70);

Los datos tienen una debil distribución normal, el promedio est;a alrededor de 3.5

### Se genera la gráfica que une los dos histogramas anteriores

In [None]:
sns.jointplot(x='rating',y='num of ratings',data=ratings,alpha=0.5);


Las películas con mayor promedio de rating, tienen más número de rating, comparadas con películas que tienen bajo promedio de rating.

<hr>

## Recomendar películas similares 

Se crea un dataframe con la matriz de títulos de películas con el usuario correspondiente

In [None]:
moviemat = df.pivot_table(index='user_id',columns='title',values='rating')
moviemat.head()

### Pelicula más ranqueada 

In [None]:
ratings.sort_values('num of ratings',ascending=False).head(10)

In [None]:
ratings.sort_values('num of ratings',ascending=False).tail(10)

Escogemos 2 películas, star wars y mentiroso mentiroso. 

Se define el rating de usuarios de las dos películas 

In [None]:
starwars_user_ratings = moviemat['Star Wars (1977)']
liarliar_user_ratings = moviemat['Liar Liar (1997)']
starwars_user_ratings.head()

In [None]:
liarliar_user_ratings.head()

Se puede usar corrwith() para obtener la correlación de las dos series de pandas 

In [None]:
similar_to_starwars = moviemat.corrwith(starwars_user_ratings)
similar_to_liarliar = moviemat.corrwith(liarliar_user_ratings)

In [None]:
similar_to_starwars.head()

In [None]:
similar_to_liarliar.head()

Se remueve los valores NaN 

In [None]:
corr_starwars = pd.DataFrame(similar_to_starwars,columns=['Correlation'])
corr_starwars.dropna(inplace=True)
corr_starwars.head()

Ahora se ordenan las películas por corrlación, esto debería mostrar las películas similares, 
sin embargo notará que los resultados no tienen sentido, ya que hay películas que sólo 
se han visto una vez, y hay usuarios que sólo han visto star wars 

In [None]:
corr_starwars.sort_values('Correlation',ascending=False).head(10)

Para arreglar esto, se filtrarán las películas que sólo tengan menos de 100 reviews (revisar, el histograma)

In [None]:
corr_starwars = corr_starwars.join(ratings['num of ratings'])
corr_starwars.head()

Al ordenar los títulos, la salida tiene más sentido

In [None]:
corr_starwars[corr_starwars['num of ratings']>100].sort_values('Correlation',ascending=False).head()

In [None]:
corr_starwars[corr_starwars['num of ratings']>100].sort_values('Correlation',ascending=False).tail()

Ahora lo mismo con la comedia mentiroso, mentiroso

In [None]:
corr_liarliar = pd.DataFrame(similar_to_liarliar,columns=['Correlation'])
corr_liarliar.dropna(inplace=True)
corr_liarliar = corr_liarliar.join(ratings['num of ratings'])
corr_liarliar[corr_liarliar['num of ratings']>100].sort_values('Correlation',ascending=False).head()

In [None]:
corr_liarliar[corr_liarliar['num of ratings']>100].sort_values('Correlation',ascending=False).tail()

<hr>

# Más avanzado:
* [Creating a Simple Recommender System in Python using Pandas](https://stackabuse.com/creating-a-simple-recommender-system-in-python-using-pandas/)
* [Implementing a recommendation system on Tensorflow](https://medium.com/@felsal/implementing-a-recommendation-system-on-tensorflow-e41b80793165)
* [How to build a collaborative filtering model for personalized recommendations using TensorFlow and TensorFlow Transform](https://towardsdatascience.com/how-to-build-a-collaborative-filtering-model-for-personalized-recommendations-using-tensorflow-and-b9a77dc1320)
* [TensorRec: A Recommendation Engine Framework in TensorFlow](https://hackernoon.com/tensorrec-a-recommendation-engine-framework-in-tensorflow-d85e4f0874e8)
* [Perfume Recommendations using Natural Language Processing](https://towardsdatascience.com/perfume-recommendations-using-natural-language-processing-ad3e6736074c)
* [Tutorial de Jupyter](https://towardsdatascience.com/power-ups-for-jupyter-notebooks-ebfa6e5e57a)
<hr>

# Enlaces de Interés para aprender Python y Ciencia de datos

* [https://lectures.quantecon.org/py/](https://lectures.quantecon.org/py/)
* [https://data-flair.training/blogs/python-tutorials-home/](https://data-flair.training/blogs/python-tutorials-home/)
* [https://data-flair.training/blogs/python-tutorial/](https://data-flair.training/blogs/python-tutorial/)
* [https://data-flair.training/blogs/data-science-tutorials-home/#tutorials](https://data-flair.training/blogs/data-science-tutorials-home/#tutorials)

<hr>

# Preguntas?