# A Gentle Introduction to Machine Learning
## Netflix recommender system
#### March 4, 2020

# Preprocesamiento de datos

Usaremos la librería Pandas
===========================

*Pandas* es una librería de Python que ofrece herramientas para manipulación y análisis de datos de manera efectiva

Las principales caracteristicas de pandas son:
* Importación y exportación de datos
* Exploración de datos
* Manipulación de datos
* Agrupación de datos
 

In [None]:
import pandas as pd
import datetime as dt
from sklearn.model_selection import train_test_split

import matplotlib
import matplotlib.pyplot as plt

import seaborn as sns
%matplotlib inline

## Importar datos

In [None]:
# Importar un archivo .csv
print("creando el DataFrame desde el fichero data.csv..")
df = pd.read_csv('~/Descargas/data.csv', names=['movie', 'user','rating','date'])
df.date = pd.to_datetime(df.date)


print('Done..')

## Visualizando un DataFrame

Un DataFrame es una estructura de datos tabular que se compone de columnas y filas ordenadas.

In [None]:
# Mostrando todos los datos
df

In [None]:
# Conocer las columnas
df.columns

In [None]:
# Conocer el numero de filas de un dataframe


In [None]:
# Presenta las primeras 20 filas de df


In [None]:
# Presenta las últimas 20 filas de df


In [None]:
# Localizar datos especificos por condición - lineas con fecha 2005-06-27



In [None]:
# Exportar los datos a un .csv
movies_june.to_csv('~/mis_datos.csv')

# Exploración de datos
* Tipos de datos: int, float, object, datetime

Se puede especificar el tipo de datos para una o mas columnas de un DataFrame, pero es opcional ya que *pandas* puede asignar automaticamente tipos de datos

In [None]:
# Conocer el tipo de datos


In [None]:
# Anális estadistico de datos


# df.describe(): Hace una descripción solo de datos numéricos en el DataFrame
# count: Número de terminos de la columna 
# mean: Valor promedio de la columna
# std: Desviación standard de la columna
# max, min y ĺimite de las columnas

Es importante tener en cuenta que las funciones matemáicas solamente aceptan datos numéricos

In [None]:
# Anális estadistico de datos, incluyendo tipo object

# top: Valor con mayor número de apariciones
# freq: Número de apariciones de top
# unique: Cantidad de valores únicos, sin repetirlos

In [None]:
df.info()

In [None]:
print("Info ")
print("-"*50)
print("Total No of Users   :", )
print("Total No of movies  :", )


# Manipulación de datos

In [None]:
# Comprobando valores nulos
print("Número de valores nulos en df : ", )

In [None]:
# Eliminar datos faltantes


In [None]:
# Crear nuevas nuevas columnas


In [None]:
#Buscar duplicados


In [None]:
# Eliminar datos duplicados


In [None]:
# Reemplazando valores


In [None]:
df.rating.max()

# Agregación de datos

In [None]:
# Promedio de rating por usuario utilizando groupby

# Visualizando con Matplotlib

In [None]:
# method to make y-axis more readable
def human(num, units = 'M'):
    return str(num/10**6) + " M"
   

In [None]:
fig, ax = plt.subplots()
plt.title('Distribution of ratings', fontsize=15)
sns.countplot(df.rating)
ax.set_yticklabels([human(item, 'M') for item in ax.get_yticks()])
ax.set_ylabel('No. of Ratings(Millions)')

plt.show()

## Trabajaremos con los 20 usuarios que han calificado más películas

In [None]:
# Identificar usuarios con más pelis calificadas

In [None]:
# Coger 200 lineas que contengam los top 20 usuarios 

In [None]:
small_df = 

In [None]:
small_df.shape

In [None]:
# Cuántas películas distintas hay en este df?

In [None]:
small_df.movie.nunique()

In [None]:
# Cuántos usuarios distintos hay en este df?

In [None]:
small_df.user.nunique()

In [None]:
small_df.head()

# Dividir data frame en Train y Test

In [None]:
X = small_df[['movie', 'user']]

In [None]:
y = small_df[['rating']]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [None]:
# Get train_df and test_df

In [None]:
train_df = X_train

In [None]:
train_df['rating'] = y_train.rating

In [None]:
train_df.head()

In [None]:
train_df.shape

In [None]:
test_df = X_test

In [None]:
test_df['rating'] = y_test.rating

In [None]:
test_df.head()

In [None]:
test_df.shape

In [None]:
# Sparse matrix de películas y usuarios

In [None]:
# Utilizando pandas pivot, crear sparse matrix de películas

In [None]:
df_movies = 

In [None]:
# Utilizando pandas pivot, crear sparse matrix de usuarios

In [None]:
df_users = 

In [None]:
# Similitud de Pearson

In [None]:
pearson_movies = df_movies.corr()

In [None]:
pearson_users = df_users.corr()