In [29]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

# Suponiendo que los datos están en un DataFrame llamado 'data' y tienen columnas 'title' y 'genre'
data = pd.read_csv('./Data/Recomendacion.csv')
data = data.head(6000)

In [30]:
# Paso 1: Preprocesamiento
data['title'] = data['title'].str.lower()  # Convertir títulos a minúsculas
data['genres'] = data['genres'].str.lower()  # Convertir géneros a minúsculas


In [31]:
# Paso 2: Combinar las columnas 'title' y 'genre'
data['combined_features'] = data['title'] + " " + data['genres']
data['combined_features'] = data['combined_features'].fillna('None')

In [32]:
# Paso 3: Crear la matriz TF-IDF basada en la columna combinada
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(data['combined_features'])

In [33]:
# Paso 4: Calcular la similitud del coseno
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)

In [34]:
def recomendacion(titulo: str):
    # Asegúrate de que los títulos están en minúsculas para facilitar la comparación
    data['title'] = data['title'].str.lower()

    # Verificar si el título existe en el dataset
    if titulo.lower() not in data['title'].values:
        return {"error": "Título no encontrado."}

    # Obtener el índice de la película que coincide con el título
    idx = data[data['title'] == titulo.lower()].index[0]

    # Obtener las similitudes para la película seleccionada
    sim_scores = list(enumerate(cosine_sim[idx]))

    # Ordenar las películas por similitud
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # Obtener los índices de las 5 películas más similares (excluyendo la película misma)
    similar_indices = [i[0] for i in sim_scores[1:6]]

    # Obtener los títulos de las películas similares
    similar_movies = data['title'].iloc[similar_indices].tolist()

    return {"recomendaciones": similar_movies}

In [35]:
data

Unnamed: 0,title,genres,combined_features
0,toy story,"animation, comedy, family","toy story animation, comedy, family"
1,jumanji,"adventure, fantasy, family","jumanji adventure, fantasy, family"
2,grumpier old men,"romance, comedy","grumpier old men romance, comedy"
3,waiting to exhale,"comedy, drama, romance","waiting to exhale comedy, drama, romance"
4,father of the bride part ii,comedy,father of the bride part ii comedy
...,...,...,...
5995,tag: the assassination game,thriller,tag: the assassination game thriller
5996,tempest,"comedy, drama, romance","tempest comedy, drama, romance"
5997,tenebre,"horror, mystery, thriller","tenebre horror, mystery, thriller"
5998,they call me bruce?,"action, comedy, thriller","they call me bruce? action, comedy, thriller"


In [None]:
recomendacion('Toy ')