# Imports

In [1]:
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer

# Files

In [2]:
df = pd.read_pickle("finaljuegos.pkl", compression="gzip")


In [None]:
df[20]

# Preprocesamiento



In [4]:
# Convertir la columna 'name' a minúsculas 
df['name'] = df['name'].str.lower().fillna('')

# Convertir la lista de cadenas 'tag_names' a una cadena 
df['tag_names'] = df['tag_names'].fillna('').apply(lambda x: ' '.join(x))

# Aplicar CountVectorizer a las columnas 'name' y 'tag_names'
corpus = df[['name', 'tag_names']].apply(lambda x: ' '.join(x.astype(str)), axis=1)
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

# Seleccionar las columnas relevantes para el cálculo de cosine similarity
cols_to_exclude = ['release', 'background_image', 'rating', 'playtime']
cols_to_include = [i for i, col in enumerate(df.columns) if col not in cols_to_exclude]
X = X[:, cols_to_include]

# Calcular cosine similarity
cos_sim_matrix = cosine_similarity(X)


In [5]:
cols_to_include


[0,
 1,
 2,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62]

# Recomendador

In [7]:
def recomendar_juego(df=df, similarity_matrix=cos_sim_matrix, n=3):
    juego = input("Introduce el nombre del juego: ")
    
    # Verificamos si el juego está en el dataframe
    if juego not in list(df['name']):
        print("Por favor, introduce un nombre válido.")
        return
    
    # Encontramos el índice del juego de entrada en el dataframe
    idx = df[df['name']==juego].index[0]
    
    # Obtenemos las puntuaciones de similitud coseno del juego de entrada con todos los demás juegos
    scores = list(enumerate(similarity_matrix[idx]))
    
    # Ordenamos los juegos por similitud, de mayor a menor
    sorted_scores = sorted(scores, key=lambda x: x[1], reverse=True)
    
    # Seleccionamos los n juegos más similares (excluyendo el propio juego de entrada)
    top_n = [df.iloc[i[0]] for i in sorted_scores[1:n+1]]
    
    # Devolvemos los nombres, las puntuaciones y las imágenes de fondo de los n juegos más similares
    return [(juego['name'], juego['rating'], juego['background_image']) for juego in top_n]


In [None]:
recomendar_juego()
