In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel

In [3]:
# Cargar datos

df = pd.read_csv('../datasets/movies_ml.csv', low_memory=False)
data = df.copy()

In [5]:
# Eliminando los datos duplicados del dataframe
data = data.drop_duplicates(subset = 'title')

In [6]:
# Calculo del promedio de la columna vote_average

C = data['vote_average'].mean()
print(C)

5.624940274853939


In [7]:
# Calculo del percentil 90, incluso si hay NaN
# calcula un umbral basado en el percentil 90 de la columna de votos, 
# lo cual indica el número mínimo de votos necesarios

m = data['vote_count'].quantile(0.90)
print(m)

158.0


In [8]:
# Calculate the minimum number of votes required to be in the chart, m

m = data['vote_count'].quantile(0.90)
print(m)

158.0


In [9]:
# Filtrado delas las películas que tienen votos igual o mayor al valor de 'p' percentil.
# que es el mínimo número de votos requeridos

data = data.loc[data['vote_count'] >= m]

In [10]:
# Función que calcula la calificación ponderada de cada película
def weighted_rating(x, m=m, C=C):
    v = x['vote_count']
    R = x['vote_average']
    # Calculation based on the IMDB formula
    return (v/(v+m) * R) + (m/(m+v) * C)

A continuación se muestra el sistema de calificación utilizado por IMDB. Este método es muy importante ya que todas las películas calificadas con 5 de 5 no son iguales. Una película puede haber recibido millones de calificaciones, mientras que otra puede tener un número más limitado de votos. Por lo tanto, esta calificación otorga mayor importancia a las películas que tienen más calificaciones.

            (WR) = (v/(v + m))R + (m/(v+m))C


R = promedio de la película (media)
v = número de votos para la película
p = número mínimo de votos requeridos para aparecer en el Top 50 (actualmente 1000)
m = la calificación promedio de todo el informe (actualmente 6.8)

In [11]:
# Calculo y se asignauna puntuación ponderada para cada película

data['score'] = data.apply(weighted_rating, axis=1)

In [12]:
# Se ordena las películas en función de la columna 'score' descendentemente 

data = data.sort_values('score', ascending = False)

In [13]:
# Explorando una muestra de la data overview 

data['overview']

314      Framed in the 1940s for the double murder of h...
10309    Raj is a rich, carefree, happy-go-lucky second...
834      Spanning the years 1945 to 1955, a chronicle o...
12481    Batman raises the stakes in his war on crime. ...
2843     A ticking-time-bomb insomniac and a slippery s...
                               ...                        
9710     Tim Avery, an aspiring cartoonist, finds himse...
12911    In DISASTER MOVIE, the filmmaking team behind ...
3471     In the year 3000, man is no match for the Psyc...
11557    When Edward, Peter, Lucy and Susan each follow...
13566    The young warrior Son Goku sets out on a quest...
Name: overview, Length: 4241, dtype: object

In [14]:
# Convirtiendo documentos de texto en una matriz de 
# características numéricas usando TF-IDF 

tfidf = TfidfVectorizer(stop_words='english')

In [15]:
# Reemplaza los valores NaN en la columna 'overview'con una cadena vacía ('#Replace NaN with an empty string

data['overview'] = data['overview'].fillna('')

In [16]:
# Creando la matriz de términos-frecuencia inversa con (TF-IDF) 

tfidf_matrix = tfidf.fit_transform(data['overview'])

In [17]:
# Mapeo de índices de los nombres en el vectorizador TF-IDF

tfidf.get_feature_names_out()[5000:5010]

array(['disguise', 'disguised', 'disguises', 'disgusted', 'dishes',
       'dishonored', 'disillusioned', 'disillusionment', 'disillusions',
       'disintegrate'], dtype=object)

In [18]:
# Calcular la puntuación de similitud del coseno entre todos los pares de películas TF-IDF

cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)

In [19]:
# Restablececiendo los índices de la data

data.reset_index(drop = True, inplace = True)

In [20]:
# Mapeo inverso que nos permite buscar el índice de una película a partir de su título

index = pd.Series(data.index, index = data['title']).drop_duplicates()

In [21]:
# Creación de la función de recomendación
def recomendacion(titulo, cosine_sim = cosine_sim):

  if titulo not in index:
    return "La película no se encuentra entre el 10% de las mejores películas. Intenta con una mejor!"

  idx = index[titulo]
  sim_scores = list(enumerate(cosine_sim[idx]))
  sim_scores = sorted(sim_scores, key = lambda x: x[1], reverse = True)
  sim_scores = sim_scores[1:6]
  movie_indices = [i[0] for i in sim_scores]
  result = data['title'].iloc[movie_indices]
  return {"Te recomendamos estas peliculas" : list(result)}

In [22]:
recomendacion("Toy Story")

{'Te recomendamos estas peliculas': ['Toy Story 3',
  'Toy Story 2',
  'The 40 Year Old Virgin',
  'Rebel Without a Cause',
  'Man on the Moon']}