In [1]:
import pandas as pd
import pickle

In [12]:
steam = pd.read_csv("data/steam.csv")

dic_genres = pd.read_csv("data/genre_to_id.csv", index_col='genre').to_dict(
    orient='dict')['id']

dic_specs = pd.read_csv("data/pec_to_id.csv", index_col='spec').to_dict(
    orient='dict')['id']

#### Función 1

In [13]:
def genero(Año: str):
    Año = int(Año)
    df_year = steam[steam['year'] == Año]
    genre_counts = {}

    for genre_id in dic_genres.values():
        # Inicializar la cuenta para cada género
        genre_counts[genre_id] = 0

        # Iterar sobre las filas del DataFrame del año especificado
        for _, row in df_year.iterrows():
            # Verificar si el ID del género está presente en la lista de IDs de géneros
            if str(genre_id) in row['genre_id']:
                # Incrementar la cuenta del género si está presente
                genre_counts[genre_id] += 1

    # Ordenar los géneros individuales según el número de repeticiones en orden descendente
    sorted_genres = sorted(genre_counts.items(), key=lambda x: x[1], reverse=True)

    # Tomar los 5 géneros individuales más repetidos
    top_individual_genres = [genre_id for genre_id, _ in sorted_genres[:5]]

    # Obtener los nombres de géneros a partir de los IDs utilizando el diccionario dic_genres
    top_genres = [genre for genre, genre_id in dic_genres.items() if genre_id in top_individual_genres]

    # Formatear el resultado
    result = {'year': Año, 'top_genres': top_genres}

    return result

In [14]:
genero("1984")

{'year': 1984,
 'top_genres': ['Racing', 'Audio Production', 'Indie', 'Education', 'Casual']}

#### Función 2

In [11]:
def juegos(Año: str):
    # Convertir el año a entero para realizar la comparación
    Año = int(Año)

    # Filtrar el DataFrame para obtener los datos del año proporcionado
    df_year = steam[steam['year'] == Año]

    # Obtener la lista de juegos lanzados en el año
    juegos_lanzados = df_year['app_name'].tolist()

    # Formatear el resultado
    resultado = {'año': Año, 'juegos lanzados': juegos_lanzados}

    return resultado

In [12]:
juegos("1996")

{'año': 1996,
 'juegos lanzados': ['Final DOOM',
  'I Have No Mouth, and I Must Scream',
  "YOU DON'T KNOW JACK SPORTS",
  "YOU DON'T KNOW JACK Vol. 2",
  'Harvester',
  "Putt-Putt® and Pep's Balloon-o-Rama",
  "Freddi Fish and Luther's Maze Madness",
  "Pajama Sam: No Need to Hide When It's Dark Outside",
  'Realms of the Haunting',
  'Eradicator',
  'Normality',
  'Phantasmagoria 2: A Puzzle of Flesh',
  'Broken Sword 1: Original Version',
  'Spycraft: The Great Game',
  'Screamer 2',
  'Star Control: Kessari Quadrant',
  'Pray for Death',
  'Conquest of the New World',
  'Shattered Steel',
  'Master of Orion 2',
  'Master of Orion 1',
  'Timelapse',
  'Lords of the Realm II',
  'Terra Nova: Strike Force Centauri',
  'The Original Strife: Veteran Edition',
  'Deadlock: Planetary Conquest',
  'Tex Murphy: The Pandora Directive',
  'Stargunner',
  "Putt-Putt® and Pep's Dog on a Stick",
  "Freddi Fish and Luther's Water Worries",
  'Freddi Fish 2: The Case of the Haunted Schoolhouse',
 

#### Función 3

In [13]:
def specs(Año: str):
    Año = int(Año)
    df_year = steam[steam['year'] == Año]
    spec_counts = {}

    for spec_id in dic_specs.values():
        # Inicializar la cuenta para cada género
        spec_counts[spec_id] = 0

        # Iterar sobre las filas del DataFrame del año especificado
        for _, row in df_year.iterrows():
            # Verificar si el ID del género está presente en la lista de IDs de géneros
            if str(spec_id) in row['spec_id']:
                # Incrementar la cuenta del género si está presente
                spec_counts[spec_id] += 1

     # Ordenar los géneros individuales según el número de repeticiones en orden descendente
    sorted_specs = sorted(spec_counts.items(), key=lambda x: x[1], reverse=True)

    # Tomar los 5 géneros individuales más repetidos
    top_individual_specs = [spec_id for spec_id, _ in sorted_specs[:5]]

    # Obtener los nombres de géneros a partir de los IDs utilizando el diccionario dic_genres
    top_specs = [spec for spec, spec_id in dic_specs.items() if spec_id in top_individual_specs]

    # Formatear el resultado
    result = {'year': Año, 'top_specs': top_specs}

    return result

In [14]:
specs("2015")

{'year': 2015,
 'top_specs': ['Downloadable Content',
  'Single-player',
  'Mods (require HL2)',
  'Steam Achievements',
  'Steam Trading Cards']}

#### Función 4

In [23]:
def earlyacces(Año: str):
    # Convertir el año a entero para realizar la comparación
    Año = int(Año)

    # Filtrar el DataFrame para obtener los datos del año proporcionado
    df_year = steam[steam['year'] == Año]

    # Contar la cantidad de juegos lanzados en el año con early access (valor True)
    cantidad_early_access = int(df_year['early_access'].sum())

    # Formatear el resultado
    resultado = {'año': Año, 'early_acces': cantidad_early_access}
    
    return resultado

In [40]:
earlyacces("2016")

{'año': 2016, 'early_acces': 342}

#### Función 5

In [37]:
def sentiment(Año: str):
    # Convertir el año a entero para realizar la comparación
    Año = int(Año)

    # Filtrar el DataFrame para obtener los datos del año proporcionado
    df_year = steam[steam['year'] == Año]

    # Contar la cantidad de registros para cada categoría de sentimiento
    sentiment_counts = {}
    for sentiment_category in df_year['sentiment'].unique():
        count = df_year[df_year['sentiment'] == sentiment_category].shape[0]
        sentiment_counts[sentiment_category] = count

    # Formatear el resultado
    resultado = {'año': Año, 'sentiment': sentiment_counts}

    return resultado

In [38]:
sentiment("1999")

{'año': 1999,
 'sentiment': {'Mostly Positive': 6,
  'Very Positive': 21,
  'Positive': 3,
  '6 user reviews': 1,
  'Mixed': 7,
  '4 user reviews': 1,
  '5 user reviews': 2,
  '8 user reviews': 1,
  'Overwhelmingly Positive': 1}}

#### Función 6

In [179]:
def metascore(Año: str):
    # Convertir el año a entero para realizar la comparación
    Año = int(Año)

    # Filtrar el DataFrame para obtener los datos del año proporcionado
    df_year = steam[steam['year'] == Año]

    # Ordenar los juegos según el metascore en orden descendente
    top_5_juegos = df_year.nlargest(5, 'metascore')

    # Obtener la lista de juegos con mayor metascore y su respectivo metascore
    juegos_metascore = top_5_juegos[['app_name', 'metascore']].to_dict(orient='records')

    # Formatear el resultado
    resultado = {'año': Año, 'metascore': juegos_metascore}

    return resultado


In [181]:
metascore("2014")

{'año': 2014,
 'metascore': [{'app_name': 'Freespace 2', 'metascore': 91.0},
  {'app_name': 'DARK SOULS™ II', 'metascore': 91.0},
  {'app_name': 'Rise of Nations: Extended Edition', 'metascore': 89.0},
  {'app_name': 'Descent 3', 'metascore': 89.0},
  {'app_name': 'TowerFall Ascension', 'metascore': 87.0}]}

#### Función 7

In [None]:
def predicción(genero, earlyaccess, metascore):
    # Cargar el modelo almacenado en el archivo "predictor.pkl"
    with open('predictor.pkl', 'rb') as archivo:
        model = pickle.load(archivo)

    # Crear una instancia de MultiLabelBinarizer con la lista de todos los géneros únicos
    mlb = MultiLabelBinarizer(classes=unique_genres)

    # Aplicar transform para obtener la matriz binaria de géneros codificados
    genero_encoded = mlb.transform([genero])

    # Crear un DataFrame con los géneros codificados
    genero_df = pd.DataFrame(genero_encoded, columns=mlb.classes_)

    # Rellenar con ceros para asegurarse de que el DataFrame tenga todas las columnas esperadas por el modelo
    for col in mlb.classes_:
        if col not in genero_df.columns:
            genero_df[col] = 0

    # Realizar la predicción utilizando el modelo y los valores de earlyaccess y metascore
    # Asumiendo que las características del modelo son 'early_access', 'metascore', y las columnas one-hot del género
    input_features = ['early_access', 'metascore'] + list(mlb.classes_)
    input_data = pd.DataFrame([[earlyaccess, metascore] + genero_df.values.tolist()[0]], columns=input_features)
    price_prediction = model.predict(input_data)[0]

    # Calcular el RMSE (si es posible obtener los valores reales para comparar con las predicciones)
    # Si tienes un conjunto de datos de prueba con los valores reales, puedes calcular el RMSE aquí

    # Devolver el resultado en un diccionario
    result = {'predict_price': price_prediction, 'rmse': None}
    return result