<a href="https://colab.research.google.com/github/FreddyPinto/recsys-steam-games/blob/feature/notebooks/3.1-functions-test.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Functions Test

El objetivo de este notebook es crear las funciones para los endpoints que se consumirán en la API. Además, se realizarán pruebas para asegurar su funcionamiento adecuado utilizando los dataset creados específicamente para este fin.

## 0 Configuraciones Globales e Importaciones

En esta sección, importamos todas las bibliotecas y/o modulos necesarios para nuestro proceso de feature engineering y establecemos configuraciones globales de ser requerido.

In [1]:
import sys
import pandas as pd

print(f"System version: {sys.version}")
print(f"Pandas version: {pd.__version__}")

System version: 3.10.12 (main, Jun 11 2023, 05:26:28) [GCC 11.4.0]
Pandas version: 1.5.3


## 1 Extracción

En esta sección, extraemos los datos de los archivos `pseudo_db1` y `pseudo_db2` en formato parquet que serán utilizados como pseudo base de datos para los endpoints.

### 1.1 Extracción de los datos

Creamos una función que lee cada archivo desde su directorio y lo carga a un DataFrame de `pandas`.

In [2]:
# Cargamos los archivos parquet
def read_parquet_files(parquet_files):
    dataframes = {}
    for name in parquet_files:
        dataframes[name] = pd.read_parquet(f'data/processed/{name}.parquet', engine='pyarrow')
    return dataframes

parquet_files = ['pseudo-db1','pseudo-db2']
dataframes = read_parquet_files(parquet_files)

# Convertimos a df.
df_pseudo_db1 = dataframes['pseudo-db1']
df_pseudo_db2 = dataframes['pseudo-db2']

## 2 Endpoints

### 2.1 Endpoint 1

def **PlayTimeGenre( *`genero` : str* )**:
    Retorna `año` con mas horas jugadas para el género dado.
Ejemplo de retorno:

``` js
{
   "Año de lanzamiento con más horas jugadas para Género X": 2013
}
```

In [3]:
def PlayTimeGenre(genre: str):
  """
  Devuelve el año con más horas jugadas para un género dado.

  Args:
    genre: El género del juego.

  Returns:
    El año de lanzamiento con más horas jugadas para un género dado.
    Ejemplo de retorno:
        {
          "Año de lanzamiento con más horas jugadas para Género X": 2013
        }
  """

  # Filtra el DataFrame por género
  df_genre = df_pseudo_db1[df_pseudo_db1['genres'].str.contains(genre)]

  # Agrupa por año y calcula la suma total de horas jugadas para cada año
  playtime_by_year = df_genre.groupby('release_year')['playtime_forever'].sum()

  # Encuentra el año con más horas jugadas
  max_playtime_year = playtime_by_year.idxmax()
  response = {f"Año de lanzamiento con más horas jugadas para el género {genre}" : max_playtime_year}

  return response

In [6]:
PlayTimeGenre('Casual')

{'Año de lanzamiento con más horas jugadas para el género Casual': 2015}

### 2.2 Endpoint 2

+ def **UserForGenre( *`genero` : str* )**:
    Debe devolver el usuario que acumula más horas jugadas para el género dado y una lista de la acumulación de horas jugadas por año.

Ejemplo de retorno:
```js
{
   "Usuario con más horas jugadas para Género X":"us213ndjss09sdf",
   "Horas jugadas":[
      {
         "Año":2013,
         "Horas":203
      },
      {
         "Año":2012,
         "Horas":100
      },
      {
         "Año":2011,
         "Horas":23
      }
   ]
}
```

In [7]:
def UserForGenre(genre: str):
  """
  Devuelve el usuario que acumula más horas jugadas para un género dado.

  Args:
    genre: El género del juego.

  Returns:
    El usuario con más horas jugadas y una lista de la acumulación de horas jugadas por año.
    Ejemplo de retorno:
        {
          "Usuario con más horas jugadas para Género X":"us213ndjss09sdf",
          "Horas jugadas":[
              {
                "Año":2013,
                "Horas":203
              },
              {
                "Año":2012,
                "Horas":100
              },
              {
                "Año":2011,
                "Horas":23
              }
          ]
        }
    """

  # Filtra el DataFrame por género
  df_genre = df_pseudo_db1[df_pseudo_db1["genres"].str.contains(genre)]

  # Agrupa por usuario y año, y calcula la suma total de horas jugadas para cada usuario y año
  playtime_by_user_year = df_genre.groupby(['user_id', 'release_year'])['playtime_forever'].sum().reset_index()

  # Encuentra el usuario con más horas jugadas
  max_playtime_user = playtime_by_user_year.groupby('user_id')['playtime_forever'].sum().idxmax()

  # Obtiene una lista de la acumulación de horas jugadas por año para el usuario con más horas jugadas
  playtime_by_year = playtime_by_user_year[playtime_by_user_year['user_id'] == max_playtime_user][['release_year', 'playtime_forever']].rename(columns={'release_year': 'Año', 'playtime_forever': 'Horas'}).to_dict('records')

  response = {f"Usuario con más horas jugadas para el género {genre}" : max_playtime_user, "Horas jugadas": playtime_by_year}

  return response


In [9]:
UserForGenre('Action')

{'Usuario con más horas jugadas para el género Action': 'Sp3ctre',
 'Horas jugadas': [{'Año': 1995, 'Horas': 3.616666555404663},
  {'Año': 1997, 'Horas': 4.0333333015441895},
  {'Año': 1999, 'Horas': 0.7333333492279053},
  {'Año': 2000, 'Horas': 1177.4000244140625},
  {'Año': 2001, 'Horas': 4.166666507720947},
  {'Año': 2002, 'Horas': 3.9666666984558105},
  {'Año': 2003, 'Horas': 129.06666564941406},
  {'Año': 2004, 'Horas': 2123.5166015625},
  {'Año': 2005, 'Horas': 355.6499938964844},
  {'Año': 2006, 'Horas': 1504.2166748046875},
  {'Año': 2007, 'Horas': 1879.9000244140625},
  {'Año': 2008, 'Horas': 142.2166748046875},
  {'Año': 2009, 'Horas': 1812.8499755859375},
  {'Año': 2010, 'Horas': 1379.433349609375},
  {'Año': 2011, 'Horas': 2590.9833984375},
  {'Año': 2012, 'Horas': 6403.96630859375},
  {'Año': 2013, 'Horas': 2035.9666748046875},
  {'Año': 2014, 'Horas': 2214.39990234375},
  {'Año': 2015, 'Horas': 6571.89990234375},
  {'Año': 2016, 'Horas': 503.25},
  {'Año': 2017, 'Horas': 

### 2.3 Endpoint 3


+ def **UsersRecommend( *`año` : int* )**:
   Devuelve el top 3 de juegos MÁS recomendados por usuarios para el año dado. (reviews.recommend = True y comentarios positivos/neutrales)
  

Ejemplo de retorno:
```js
[
   {
      "Puesto 1":"X"
   },
   {
      "Puesto 2":"Y"
   },
   {
      "Puesto 3":"Z"
   }
]
```


In [10]:
def UsersRecommend(year: int):
    """
    Devuelve el top 3 de juegos MÁS recomendados por usuarios para el año dado.
    (reviews.recommend = True y comentarios positivos/neutrales)

    Args:
      year: El año a filtrar.

    Returns:
      El top 3 de juegos recomendados.
      Ejemplo de retorno:
          [
            {
                "Puesto 1":"X"
            },
            {
                "Puesto 2":"Y"
            },
            {
                "Puesto 3":"Z"
            }
          ]
    """

    # Filtra el DataFrame por año y recomendación
    df_year = df_pseudo_db2[(df_pseudo_db2['posted_year'] == year) & (df_pseudo_db2['recommend'] == True) & (df_pseudo_db2['sentiment_analysis'] > 1)]

    # Agrupa por juego y cuenta el número de recomendaciones para cada juego
    recommendations = df_year.groupby('item_name').size()

    # Ordena los juegos en función del número de recomendaciones y toma el top 3
    top_games = recommendations.sort_values(ascending=False).head(3)

    response = [{"Puesto {}".format(i+1): game} for i, game in enumerate(top_games.index)]

    return response

In [25]:
UsersRecommend(2013)

[{'Puesto 1': 'Team Fortress 2'},
 {'Puesto 2': "Garry's Mod"},
 {'Puesto 3': 'Dota 2'}]

### 2.4 Endpoint 4

+ def **UsersWorstDeveloper( *`año` : int* )**:
   Devuelve el top 3 de desarrolladoras con juegos MENOS recomendados por usuarios para el año dado. (reviews.recommend = False y comentarios negativos)
  
Ejemplo de retorno:
```js
[
   {
      "Puesto 1":"X"
   },
   {
      "Puesto 2":"Y"
   },
   {
      "Puesto 3":"Z"
   }
]
```

In [28]:
def UsersWorstDeveloper(year: int):
    """
    Devuelve el top 3 de desarrolladoras con juegos MENOS recomendados por usuarios para el año dado. (reviews.recommend = False y comentarios negativos)

    Args:
      year: El año a filtrar.

    Returns:
      El top 3 de desarrolladoras con juegos MENOS recomendados
      Ejemplo de retorno:
          [
            {
                "Puesto 1":"X"
            },
            {
                "Puesto 2":"Y"
            },
            {
                "Puesto 3":"Z"
            }
          ]
    """

    # Filtra el DataFrame por año y no recomendación
    df_year = df_pseudo_db2[(df_pseudo_db2['posted_year'] == year) & (df_pseudo_db2['recommend'] == False) & (df_pseudo_db2['sentiment_analysis'] == 0)]

    # Agrupa por juego y cuenta el número de no recomendaciones para cada juego
    not_recommendations = df_year.groupby('developer').size()

    # Ordena los juegos en función del número de no recomendaciones y toma el top 3
    top_games = not_recommendations.sort_values(ascending=False).head(3)

    response = [{"Puesto {}".format(i+1): game} for i, game in enumerate(top_games.index)]

    return response


In [11]:
UsersWorstDeveloper(2014)

[{'Puesto 1': 'Valve'},
 {'Puesto 2': 'Bohemia Interactive'},
 {'Puesto 3': 'Facepunch Studios'}]

### 2.5 Endpoint 5

def **sentiment_analysis( *`empresa desarrolladora` : str* )**:
    Según la empresa desarrolladora, se devuelve un diccionario con el nombre de la desarrolladora como llave y una lista con la cantidad total
    de registros de reseñas de usuarios que se encuentren categorizados con un análisis de sentimiento como valor.

Ejemplo de retorno:
```js
{
   "Valve":[
      {
         "Negative":1352
      },
      {
         "Neutral":2202
      },
      {
         "Positive":4840
      }
   ]
}
```


In [29]:
def sentiment_analysis(developer: str):

    """
    Según la empresa desarrolladora, se devuelve un diccionario con el nombre de la desarrolladora como llave y una lista con la cantidad total de registros de reseñas de usuarios que se encuentren categorizados con un análisis de sentimiento como valor.

    Args:
      developer: La desarrolladora a filtrar.

    Returns:
      El análisis de sentimiento para la desarrolladora dada.
      Ejemplo de retorno:
          {
            "Valve":[
                {
                  "Negative":1352
                },
                {
                  "Neutral":2202
                },
                {
                  "Positive":4840
                }
            ]
          }
    """

    # Filtramos el DataFrame por el nombre de la empresa desarrolladora
    df_dev = df_pseudo_db2[df_pseudo_db2['developer'] == developer]

     # Contamos el número de registros por cada categoría de sentimiento
    sentiment_counts = df_dev['sentiment_analysis'].value_counts()
    negative_reviews = sentiment_counts.get(0, 0)
    neutral_reviews = sentiment_counts.get(1, 0)
    positive_reviews = sentiment_counts.get(2, 0)

    # Creamos el diccionario con el nombre de la empresa desarrolladora como llave y la lista con los conteos como valor
    response = {
        developer : [
            {"Negative" : negative_reviews},
            {"Neutral" : neutral_reviews},
            {"Positive" : positive_reviews}
        ]
    }

    return response

In [27]:
sentiment_analysis('Valve')

{'Valve': [{'Negative': 1352}, {'Neutral': 2202}, {'Positive': 4840}]}