In [69]:
import pandas as pd 
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

In [79]:
data = pd.read_csv('../EDA/data_merged.csv')
data_steam_juegos = data.copy()
data_random_forest = data.copy()

In [71]:
data_steam_juegos.drop(['Id','Id_user','Developer','Genres','Posted','Sentiment_analysis','Recommend','Price','Playtime_forever','Release_date'],axis=1,inplace=True)
data.drop(['Id','Id_user','Genres','Posted','Sentiment_analysis','Recommend','Price','Playtime_forever'],axis=1,inplace=True)



In [72]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32514 entries, 0 to 32513
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Id_item       32514 non-null  int64  
 1   App_name      32514 non-null  object 
 2   Developer     32514 non-null  object 
 3   Release_date  32514 non-null  float64
dtypes: float64(1), int64(1), object(2)
memory usage: 1016.2+ KB


In [73]:
data_steam_juegos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32514 entries, 0 to 32513
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Id_item   32514 non-null  int64 
 1   App_name  32514 non-null  object
dtypes: int64(1), object(1)
memory usage: 508.2+ KB


In [74]:
data['Id_item'] = data['Id_item'].astype(str)
data['Release_date'] = data['Release_date'].astype(str)
# borrando duplicados
data = data.drop_duplicates(subset='Id_item', keep='first')
data_steam_juegos = data_steam_juegos.drop_duplicates(subset='Id_item', keep='first')
data['Especificaciones'] = data[['App_name','Developer','Release_date']].apply(lambda x: ', '.join(x), axis=1)
data.drop(['App_name','Developer','Release_date'],axis=1,inplace=True)

data.to_csv('steam_juegos.csv', index=False)
data_steam_juegos.to_csv('steam_id.csv', index=False)


Ingresando el id de producto, deberíamos recibir una lista con 5 juegos recomendados similares al ingresado.

In [75]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def recomendacion_juego(Id_item):
    try:
        # Cargar datos
        data = pd.read_csv('steam_juegos.csv')
        data_steam_juegos = pd.read_csv('steam_id.csv')

        # Verificar si el Id_item existe en el conjunto de datos
        if Id_item not in data['Id_item'].values:
            raise ValueError(f"El Id_item {Id_item} no existe en el conjunto de datos.")

        # Crear matriz TF-IDF usando la columna Especificaciones
        matriz = TfidfVectorizer(min_df=1, max_df=0.8, token_pattern=r'(?u)\b\w\w+\b')
        vector = matriz.fit_transform(data['Especificaciones'])
        df_vector = pd.DataFrame(vector.toarray(), index=data['Id_item'], columns=matriz.get_feature_names_out())

        # Calcular similitud de coseno
        vector_similitud_coseno = cosine_similarity(df_vector.values)
        cos_similarity_df = pd.DataFrame(vector_similitud_coseno, index=df_vector.index, columns=df_vector.index)

        # Verificar si el Id_item tiene similitud con otros juegos
        if Id_item not in cos_similarity_df.index:
            raise ValueError(f"No hay juegos similares al Id_item {Id_item}.")

        # Obtener recomendaciones y realizar operaciones
        recomendacion_juego = cos_similarity_df.loc[Id_item]
        recomendacion = recomendacion_juego.sort_values(ascending=False)
        resultado = recomendacion.head(6).reset_index()
        df_resultado = resultado.merge(data_steam_juegos, on='Id_item', how='left')

        # Verificar si el Id_item existe en el conjunto de datos de steam_id
        if Id_item not in data_steam_juegos['Id_item'].values:
            raise ValueError(f"El Id_item {Id_item} no existe en el conjunto de datos de steam_id.")

        # Obtener nombre del juego
        nombre_juego = data_steam_juegos[data_steam_juegos['Id_item'] == Id_item]['App_name'].values[0]

        # Crear mensaje de recomendación
        texto_recomendacion = f"Debido a que te gusta el juego {Id_item} : {nombre_juego}, estoy seguro que te gustarán los siguientes juegos "
                
        # Crear y devolver el resultado
        result = {
            'mensaje': texto_recomendacion.strip(),
            'Recomendaciones de juegos': df_resultado['App_name'][1:6].tolist()
        }

        return result

    except Exception as e:
        return {'error': str(e)}

# Ejemplo de uso
recomendaciones = recomendacion_juego(22000)  # Cambié el Id_item a string para coincidir con el formato
print(recomendaciones)


{'mensaje': 'Debido a que te gusta el juego 22000 : World of Goo, estoy seguro que te gustarán los siguientes juegos', 'Recomendaciones de juegos': ['Grey Goo', 'Stellar 2D', 'Call of Duty: World at War', 'S.T.A.L.K.E.R.: Clear Sky', 'Awesomenauts - the 2D moba']}


In [92]:
def recomendacion_usuario(id_usuario):
    try:
        data_random_forest = data.copy()

        # Verifica si el usuario existe en el conjunto de datos
        if id_usuario not in data_random_forest['Id_user'].values:
            raise ValueError(f'El usuario {id_usuario} no existe en el conjunto de datos.')

        # Selecciona características (X) y la etiqueta (y)
        X = data_random_forest[['Id_item', 'Release_date', 'Price', 'Posted', 'Sentiment_analysis', 'Playtime_forever']]
        y = data_random_forest['Recommend']

        # Divide el conjunto de datos en conjuntos de entrenamiento y prueba
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

        # Crea y entrena el modelo
        modelo = RandomForestClassifier(n_estimators=100, random_state=42)
        modelo.fit(X_train, y_train)

        # Filtra el conjunto de datos para obtener las características de juegos no etiquetados para el usuario
        juegos_sin_etiqueta = data_random_forest[data_random_forest['Id_user'] == id_usuario][['Id_item', 'Release_date', 'Price', 'Posted', 'Sentiment_analysis', 'Playtime_forever']]

        # Asegúrate de que haya al menos un juego sin etiquetar para el usuario
        if juegos_sin_etiqueta.empty:
            raise ValueError(f'No hay juegos sin etiquetar para el usuario {id_usuario}.')

        # Utiliza el modelo entrenado para predecir las preferencias del usuario para los juegos sin etiquetar
        preferencias_usuario = modelo.predict(juegos_sin_etiqueta)

        # Combina las predicciones con la información del juego y selecciona los 5 mejores
        juegos_sin_etiqueta['Recommend'] = preferencias_usuario
        juegos_recomendados = juegos_sin_etiqueta.sort_values(by='Recommend', ascending=False).head(5)

        # Realiza una fusión con el conjunto de datos original para obtener el nombre del juego
        juegos_recomendados = pd.merge(juegos_recomendados, data_random_forest[['Id_item', 'App_name']], on='Id_item', how='left')

        # Elimina duplicados basados en 'App_name'
        juegos_recomendados = juegos_recomendados.drop_duplicates(subset='App_name')

        # Reinicia el índice y luego incrementa en 1
        juegos_recomendados.reset_index(drop=True, inplace=True)
        juegos_recomendados.index += 1

        # Crear mensaje de recomendación
        mensaje_recomendacion = f'Recomendaciones para el usuario {id_usuario}:\n{juegos_recomendados.to_dict(orient="records")}'
        datos_dict = juegos_recomendados.to_dict(orient='records')
        return  datos_dict

    except Exception as e:
        return {'error': str(e)}

id_usuario = 'DemonPieOfTheNight'  # Reemplaza con el ID real de usuario que quieras obtener recomendaciones
recomendaciones = recomendacion_usuario(id_usuario)

# Imprime las recomendaciones
if recomendaciones is not None:
    print(f'Recomendaciones para el usuario {id_usuario}:\n{recomendaciones}')
           

Recomendaciones para el usuario DemonPieOfTheNight:
[{'Id_item': 41300, 'Release_date': 2009.0, 'Price': 0.0, 'Posted': 2011, 'Sentiment_analysis': 1, 'Playtime_forever': 931, 'Recommend': 1, 'App_name': 'Altitude'}, {'Id_item': 63500, 'Release_date': 2010.0, 'Price': 9.99, 'Posted': 2011, 'Sentiment_analysis': 2, 'Playtime_forever': 345, 'Recommend': 1, 'App_name': 'Swords and Soldiers HD'}, {'Id_item': 400, 'Release_date': 2007.0, 'Price': 9.99, 'Posted': 2011, 'Sentiment_analysis': 1, 'Playtime_forever': 95, 'Recommend': 1, 'App_name': 'Portal'}, {'Id_item': 8930, 'Release_date': 2010.0, 'Price': 29.99, 'Posted': 2014, 'Sentiment_analysis': 2, 'Playtime_forever': 1862, 'Recommend': 1, 'App_name': "Sid Meier's Civilization® V"}, {'Id_item': 105420, 'Release_date': 2013.0, 'Price': 9.99, 'Posted': 2014, 'Sentiment_analysis': 2, 'Playtime_forever': 334, 'Recommend': 1, 'App_name': 'Ms. Splosion Man'}]
