In [1]:
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
import pickle

# Cargar los vectores y títulos desde el archivo binario
with open('movie_vectors.pkl', 'rb') as f:
    movie_vectors = pickle.load(f)

titles = movie_vectors["titles"]
tfidf_matrix = movie_vectors["tfidf_matrix"]

def recomendacion(titulo, n_recommendations=5):
    # Buscar el índice de la película que coincide con el título
    try:
        idx = np.where(titles == titulo)[0][0]
    except IndexError:
        return f"La película '{titulo}' no se encuentra en el dataset."

    # Calcular la similitud de coseno entre la película seleccionada y todas las demás
    target_vector = tfidf_matrix[idx]
    sim_scores = cosine_similarity(target_vector, tfidf_matrix).flatten()

    # Ordenar las puntuaciones de similitud en orden descendente
    sim_scores_indices = np.argsort(sim_scores)[::-1][1:n_recommendations+1]

    # Retornar los títulos de las 5 películas más similares
    recommended_titles = [titles[i] for i in sim_scores_indices]
    return recommended_titles

# Prueba la función con un ejemplo
print(recomendacion("Toy Story"))


['Toy Story 3', 'Toy Story 2', 'Small Fry', 'The 40 Year Old Virgin', "Andy Hardy's Blonde Trouble"]


In [2]:
print(recomendacion("Small Fry"))

['Toy Story', 'Rebel Without a Cause', "Burt's Buzz", 'Fry and Laurie Reunited', 'For Your Consideration']


Lets do a bit of debuging

In [1]:
import pandas as pd

# Leer las primeras líneas del archivo CSV
df_movies = pd.read_csv('app/movies_combined.csv')
print("Primeras líneas del archivo movies_combined.csv:")
print(df_movies.head())


Primeras líneas del archivo movies_combined.csv:
            belongs_to_collection      budget                      genres  \
0            Toy Story Collection  30000000.0   Animation, Comedy, Family   
1                             NaN  65000000.0  Adventure, Fantasy, Family   
2       Grumpy Old Men Collection         0.0             Romance, Comedy   
3                             NaN  16000000.0      Comedy, Drama, Romance   
4  Father of the Bride Collection         0.0                      Comedy   

  movie_id original_language  \
0      862                en   
1     8844                en   
2    15602                en   
3    31357                en   
4    11862                en   

                                            overview popularity  \
0  Led by Woody, Andy's toys live happily in his ...  21.946943   
1  When siblings Judy and Peter discover an encha...  17.015539   
2  A family wedding reignites the ancient feud be...    11.7129   
3  Cheated on, mistreated a

  df_movies = pd.read_csv('app/movies_combined.csv')


In [2]:
print("\nColumnas del DataFrame:")
print(df_movies.columns.tolist())



Columnas del DataFrame:
['belongs_to_collection', 'budget', 'genres', 'movie_id', 'original_language', 'overview', 'popularity', 'production_companies', 'production_countries', 'release_date', 'revenue', 'runtime', 'spoken_languages', 'status', 'tagline', 'title', 'vote_average', 'vote_count', 'release_year', 'return', 'cast', 'crew']


In [4]:
print("\nPrimeras fechas de lanzamiento:")
print(df_movies['release_date'].head())
print("\nTipo de la columna 'release_date':")
print(df_movies['release_date'].dtype)



Primeras fechas de lanzamiento:
0    1995-10-30
1    1995-12-15
2    1995-12-22
3    1995-12-22
4    1995-02-10
Name: release_date, dtype: object

Tipo de la columna 'release_date':
object


In [5]:
# Convertir la columna release_date a datetime
df_movies['release_date'] = pd.to_datetime(df_movies['release_date'])

print("\nFechas de lanzamiento después de la conversión:")
print(df_movies['release_date'].head())
print("\nNuevo tipo de la columna 'release_date':")
print(df_movies['release_date'].dtype)



Fechas de lanzamiento después de la conversión:
0   1995-10-30
1   1995-12-15
2   1995-12-22
3   1995-12-22
4   1995-02-10
Name: release_date, dtype: datetime64[ns]

Nuevo tipo de la columna 'release_date':
datetime64[ns]


In [6]:
df_movies['release_year'].head()

0    1995.0
1    1995.0
2    1995.0
3    1995.0
4    1995.0
Name: release_year, dtype: float64

In [10]:
# Convertir release_year a entero
df_movies['release_year'] = df_movies['release_year'].fillna(df_movies['release_year']).astype('Int64')

print("\nTipo de la columna 'release_year' después de la conversión:")
print(df_movies['release_year'].dtype)
print("\nPrimeros valores de release_year:")
print(df_movies['release_year'].head())



Tipo de la columna 'release_year' después de la conversión:
Int64

Primeros valores de release_year:
0    1995
1    1995
2    1995
3    1995
4    1995
Name: release_year, dtype: Int64


In [11]:
# Guardar los cambios en el archivo CSV
df_movies.to_csv('app/movies_combined.csv', index=False)

In [12]:
df_movies = pd.read_csv('app/movies_combined.csv')

print("\nPrimeras fechas de lanzamiento:")
print(df_movies['release_date'].head())
print("\nTipo de la columna 'release_date':")
print(df_movies['release_date'].dtype)



Primeras fechas de lanzamiento:
0    1995-10-30
1    1995-12-15
2    1995-12-22
3    1995-12-22
4    1995-02-10
Name: release_date, dtype: object

Tipo de la columna 'release_date':
object


  df_movies = pd.read_csv('app/movies_combined.csv')
