<a href="https://colab.research.google.com/github/Leriloe/MachineLearning-Python/blob/main/4_System_Recomendation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <span style='color:blue'> <center>Unsupervised Learning</center> </span>
## **Chapter 4.** System Recomendation
#### by **Ivan Alducin**

<p><img src="https://www.extremetech.com/wp-content/uploads/2016/03/Netflix-Feature.jpg" , width=1000/></p>

<p>En este capítulo usaremos algunas tecnicas de procesamiento de texto para poder crear un sistema de recomendación para peliculas y series de Netflix. ¿Estas listo?</p>

In [17]:
# Importa Pandas, Numpy, Seaborn y Matplotlib
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Importa el archivo "netflix_titles.csv"
df = pd.read_csv('netflix_titles.csv')
df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,TV Show,3%,,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brazil,"August 14, 2020",2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...


In [18]:
# Haz una pequeña exploración del DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7787 entries, 0 to 7786
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       7787 non-null   object
 1   type          7787 non-null   object
 2   title         7787 non-null   object
 3   director      5398 non-null   object
 4   cast          7069 non-null   object
 5   country       7280 non-null   object
 6   date_added    7777 non-null   object
 7   release_year  7787 non-null   int64 
 8   rating        7780 non-null   object
 9   duration      7787 non-null   object
 10  listed_in     7787 non-null   object
 11  description   7787 non-null   object
dtypes: int64(1), object(11)
memory usage: 730.2+ KB


## Data Cleansing
<p>Previo a crear el algoritmo que nos va a permitir desarrollar el sistema de recomedación y del cual hablaremos más adelante, tenemos que trabajar en depurar los datos para poder garantizar el mejor resultado posible y evitar incosistencias en la información</p>

In [19]:
# Coloca la moda dentro de las variables de 'country', 'date_added' y 'rating', esto para evitar depurar por completo datos nulos
df['country'] = df['country'].fillna(df['country'].mode()[0])

df['date_added'] = df['date_added'].fillna(df['date_added'].mode()[0])

df['rating'] = df['rating'].fillna(df['rating'].mode()[0])

In [20]:
# Verifica la cantidad de datos nulos existentes en el DataFrame
df.isnull().sum()

show_id            0
type               0
title              0
director        2389
cast             718
country            0
date_added         0
release_year       0
rating             0
duration           0
listed_in          0
description        0
dtype: int64

## Feature Engineering
<p>Vamos a crear algunas variables que nos van a ayudar a entender de mejor manera el contexto de la información que estamos trabajando, previo a proceder a crear el sistema de recomendación</p>

In [21]:
df['Genre'] = df['Genre'].str.split(',')[0]

KeyError: ignored

In [22]:
# Cambia el valor de la columna 'listed_in' que es la variable que describe el genero de la pelicula/serie por 'Genre'
df = df.rename(columns={'listed_in':'Genre'})

# Observa que una pelicula/serie puede ser clasificada con mas de un genero, para este caso, usaremos el primero.
df['Genre'] = df['Genre'].apply(lambda x: x.split(",")[0])
df['Genre']

0       International TV Shows
1                       Dramas
2                Horror Movies
3           Action & Adventure
4                       Dramas
                 ...          
7782                    Dramas
7783                    Dramas
7784             Documentaries
7785    International TV Shows
7786             Documentaries
Name: Genre, Length: 7787, dtype: object

In [10]:
r = df['date_added']
r

0          August 14, 2020
1        December 23, 2016
2        December 20, 2018
3        November 16, 2017
4          January 1, 2020
               ...        
7782      October 19, 2020
7783         March 2, 2019
7784    September 25, 2020
7785      October 31, 2020
7786         March 1, 2020
Name: date_added, Length: 7787, dtype: object

In [23]:
# Crea una columna con el año en el cual se agrego el contenido a Netflix
df['year_add'] = df['date_added'].apply(lambda y: y.split(",")[0])
df['year_add'] 

0          August 14
1        December 23
2        December 20
3        November 16
4          January 1
            ...     
7782      October 19
7783         March 2
7784    September 25
7785      October 31
7786         March 1
Name: year_add, Length: 7787, dtype: object

In [24]:
# Haz lo mismo para la columna mes y para la columna del país principal donde la pelicula/serie fue producida 
df['month_add'] = df['date_added'].apply(lambda y: y.split(" ")[0])

df['country_main'] = df['country'].apply(lambda y: y.split(",")[0])

## Exploratory Data Analysis
<p>Entender el contexto de la información es la parte fundamental de un proceso de Machine Learning, ya que esto es justo lo que nos da el entendimiento y el contexto del problema para que con esto podamos desarrollar algoritmos con mayor poder de predicción usando toda esa información y la experiencia y conocimiento que obtengamos de esta</p>

In [None]:
# ¿Que tipo de contenido predomina en Netflix, Series o Peliculas?
____

In [None]:
# Las peliculas y las series se deben de estudiar de diferente manera, así que vamos dividir el DataFrame en los dos tipos de contenido
movie = ____
serie = ____

In [None]:
# ¿Cual es la duración media de una pelicula?
movie['duration'] = ____

# Visualiza un histograma para la duración
____

In [None]:
# Cuales son las peliculas de mayor duración?
____

In [None]:
# Que país es el mayor productor de contenido para peliculas?
____

In [None]:
# Cuales son las series con mayor número de temporadas?
____

In [None]:
# Que país es el mayor productor de contenido para series?
____

In [None]:
# En general cual es el genero más popular de contenido en Netflix?
____

In [None]:
# Como ha sido la evolución de producción de contenido en Netflix durante los últimos años?
____

## Tipos de Sistemas de Recomendación 
<p>Existen dos tipos de metodología para poder diseñar un Sistema de recomendación, uno es el Colaborativo y otro es el basado en Contenido, la diferencia radica justo en la parte de recomendación entre usuarios y la recomendación directa con base en las caracteristicas o el contenido del objeto que se quiere recomendar.
El siguiente diagrama nos ayudara a entender de mejor manera.</p>
<p>
.
.
.
</p>

<div style="text-align: center"><img src="https://miro.medium.com/max/998/1*O_GU8xLVlFx8WweIzKNCNw.png", width=750 =/></div>

In [25]:
# Crea una lista con los campos de título, descripción y genero
features = ['title','description','Genre']

# Selecciona dentro del DataFrame principal los campos de la lista
df_features = df[features].reset_index()

In [26]:
# Vamos a usar esta función auxiliar para limpieza procesamiento de texto
def clean_data(x):
    x = str(x)
    return str.lower(x.replace(" ", ""))

In [27]:
# Usa esta función para cada una de las variables del DataFrame que acabas de crear 
for f in features:
    df_features[f] = df_features[f].apply(clean_data)

In [28]:
# Concatena las variables dentro de una nueva columna ('soup')
df_features['soup'] = df_features[features].sum(axis=1)
df_features['soup'].head()

0    3%inafuturewheretheeliteinhabitanislandparadis...
1    7:19afteradevastatingearthquakehitsmexicocity,...
2    23:59whenanarmyrecruitisfounddead,hisfellowsol...
3    9inapostapocalypticworld,rag-dollrobotshideinf...
4    21abrilliantgroupofstudentsbecomecard-counting...
Name: soup, dtype: object

In [29]:
# Importa las librerías necesarias
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Crea una matriz vectorizada
count = CountVectorizer(stop_words='english')
count_matrix = count.fit_transform(df_features['soup'])

In [30]:
# Calcula la similitud de la matriz por medio del coseno
similarity = cosine_similarity(count_matrix,count_matrix)

In [31]:
# Crea una serie donde el indice sean los titulos de las peliculas
index = pd.Series(df_features.index, index=df_features['title'])

In [33]:
# La siguiente función nos permitira crear la lista con las 10 peliculas que mas similitud tengan con el titulo que yo elija
def get_recommendations(title, similarity = similarity):
    
    try:
        # Quita los espacios del titulo ingresado y reemplazalo con minusculas
        title = title.replace(" ", "").lower()
        
        # Guardamos el indice del título que hayamos ingresado
        idx = index[title]

        # Obtenemos las similitudes de la lista de peliculas con el titulo elegido
        sim_scores = list(enumerate(similarity[idx]))

        # Ordenamos la lista de mayor a menor y obtenemos las primeras 10
        sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)[1:11]

        # Obtenemos el indice de el top 10 para poder buscarlas dentro de la lista completa
        movie_index = [i[0] for i in sim_scores]

        # Regresamos el nombre de las peliculas del top 10
        return df['title'].iloc[movie_index]
    
    except:
        print("Movie doesn't find in Netflix list")

In [38]:
# Visualiza las recomendaciones
get_recommendations('Naruto')

1202             Cannon Busters
2439    Glitter Force Doki Doki
4487            No Game No Life
5344                Saint Seiya
141                      7SEEDS
341                  Aggretsuko
556                    忍者ハットリくん
616             Attack on Titan
703                        BAKI
705      Bakugan: Battle Planet
Name: title, dtype: object

In [None]:
# Prueba el sistema de recomendación agregando las columnas de actores, país de origen y director