### Importamos Librerías

In [1]:
import pandas as pd

### Importamos los Conjuntos de Datos para los Endpoints

*Conjunto de Datos para Endpoint 1*

In [2]:
# Ruta al archivo Parquet
file_path = '../Data/Processed/API_data/ep1.parquet'

# Importar el archivo Parquet como un DataFrame
df_ep1 = pd.read_parquet(file_path)

# Mostrar primeros 5 elementos
df_ep1.head()

Unnamed: 0,developer,year,item_count,free_content_percentage
0,+7 Software,2016,1,0.0
1,"+Mpact Games, LLC.",2017,1,0.0
2,.M.Y.W.,2016,1,0.0
3,.ez Games,2017,1,0.0
4,07th Expansion,2015,2,0.0


*Conjunto de Datos para Endpoint 2*

In [3]:
# Ruta al archivo Parquet
file_path = '../Data/Processed/API_data/ep2.parquet'

# Importar el archivo Parquet como un DataFrame
df_ep2 = pd.read_parquet(file_path)

# Mostrar primeros 5 elementos
df_ep2.head()

Unnamed: 0,user_id,amount,recommendation_percentage,items_count
0,--000--,402.77,0.0,58
1,--ace--,176.8,4.55,44
2,--ionex--,114.91,8.7,23
3,-2SV-vuLB-Kg,442.48,7.35,68
4,-404PageNotFound-,1549.27,0.0,149


*Conjunto de Datos para Endpoint 3*

In [4]:
# Ruta al archivo Parquet
file_path = '../Data/Processed/API_data/ep3.parquet'

# Importar el archivo Parquet como un DataFrame
df_ep3 = pd.read_parquet(file_path)

# Mostrar primeros 5 elementos
df_ep3.head()

Unnamed: 0,genre,user_id,year,hours_year
0,Strategy,shinomegami,1993,366.68
1,Strategy,shinomegami,1995,341.42
2,Strategy,shinomegami,1997,0.0
3,Strategy,shinomegami,1998,0.0
4,Strategy,shinomegami,1999,0.23


*Conjunto de Datos para Endpoint 4*

In [5]:
# Ruta al archivo Parquet
file_path = '../Data/Processed/API_data/ep4.parquet'

# Importar el archivo Parquet como un DataFrame
df_ep4 = pd.read_parquet(file_path)

# Mostrar primeros 5 elementos
df_ep4.head()

Unnamed: 0,year,developer,recommend_score
0,2010,Valve,16
1,2010,Tripwire Interactive,3
2,2010,Sven Co-op Team,3
3,2011,Valve,107
4,2011,Tripwire Interactive,15


*Conjunto de Datos para Endpoint 5*

In [6]:
# Ruta al archivo Parquet
file_path = '../Data/Processed/API_data/ep5.parquet'

# Importar el archivo Parquet como un DataFrame
df_ep5 = pd.read_parquet(file_path)

# Mostrar primeros 5 elementos
df_ep5.head()

Unnamed: 0,developer,positive_reviews,negative_reviews
0,+7 Software,0,0
1,"+Mpact Games, LLC.",0,0
2,.M.Y.W.,0,0
3,.ez Games,0,0
4,07th Expansion,0,1


## 1. Endpoint 1

In [7]:
def developer_info(df: pd.DataFrame, desarrollador: str):
    """
    Retorna la cantidad de items y porcentaje de contenido gratuito por año según empresa desarrolladora.

    Args:
    - df (pandas.DataFrame): El DataFrame que contiene los datos.
    - desarrollador (str): El nombre del desarrollador para el cual se desea obtener la información.

    Returns:
    - dict: Un diccionario con la información del desarrollador.
    """
    retorno = {}
    
    # Filtrar los datos por el desarrollador dado
    df_desarrollador = df[df['developer'] == desarrollador]

    # Agrupar por desarrollador y año, contar la cantidad de items desarrollados y gratuitos
    items_por_año = df_desarrollador.groupby('year').agg(
        items_per_year=('item_count', 'sum'),
        free_content_per_year=('free_content_percentage', 'mean')
    ).reset_index()

    # Convertir el porcentaje de contenido gratuito a formato de cadena con símbolo de porcentaje
    items_por_año['free_content_per_year'] = items_por_año['free_content_per_year'].apply(lambda x: f"{x:.0f}%")

    # Crear el diccionario de retorno
    retorno = {
        "developer": desarrollador,
        "items_per_year": dict(zip(items_por_año['year'].astype(str), items_por_año['items_per_year'])),
        "free_content_per_year": dict(zip(items_por_año['year'].astype(str), items_por_año['free_content_per_year']))
    }

    return retorno


In [8]:
# Probamos la función con el DataFrame de ejemplo
developer = 'Valve'
resultado = developer_info(df_ep1, developer)
print(resultado)

{'developer': 'Valve', 'items_per_year': {'1998': 1, '1999': 1, '2000': 2, '2001': 1, '2003': 1, '2004': 5, '2005': 1, '2006': 2, '2007': 3, '2008': 1, '2009': 1, '2010': 2, '2011': 1, '2012': 2, '2014': 7, '2016': 1, '2017': 2}, 'free_content_per_year': {'1998': '0%', '1999': '0%', '2000': '0%', '2001': '0%', '2003': '0%', '2004': '0%', '2005': '0%', '2006': '0%', '2007': '33%', '2008': '0%', '2009': '0%', '2010': '50%', '2011': '0%', '2012': '0%', '2014': '0%', '2016': '100%', '2017': '0%'}}


## 2. Endpoint 2

In [9]:
def userdata(df, user_id):
    """
    Retorna la cantidad de dinero gastado por el usuario, el porcentaje de recomendación
    basado en las revisiones y la cantidad de items para el usuario dado.
    
    Args:
    - df (pandas.DataFrame): El DataFrame que contiene los datos.
    - user_id (str): El ID del usuario para el cual se desea obtener la información.
    
    Returns:
    - dict: Un diccionario con la información del usuario.
    """
    user_data = {}
    
    # Filtrar los datos del usuario dado
    user_data['User_id'] = user_id
    user_info = df[df['user_id'] == user_id]
    
    # Calcular la cantidad de dinero gastado por el usuario
    amount_spent = user_info['amount'].sum()
    user_data['Dinero gastado'] = f"${amount_spent}"
    
    # Calcular el porcentaje de recomendación
    recommendation_percentage = user_info['recommendation_percentage'].iloc[0]  # asumiendo que es el mismo para todos los registros del usuario
    user_data['% de recomendación'] = f"{recommendation_percentage}%"
    
    # Calcular la cantidad de items del usuario
    items_count = user_info['items_count'].iloc[0]  # asumiendo que es el mismo para todos los registros del usuario
    user_data['cantidad de items'] = items_count
    
    return user_data


In [10]:
# Probar la función userdata con un usuario específico
user_id = 'nottynotty'
user_info = userdata(df_ep2, user_id)
print("Información del usuario:")
print(user_info)

Información del usuario:
{'User_id': 'nottynotty', 'Dinero gastado': '$299.75', '% de recomendación': '4.65%', 'cantidad de items': 43}


## 3. Endpoint 3

In [11]:
def UserForGenre(dataframe, genero: str):
    """
    Devuelve el usuario que acumula más horas jugadas para el género dado
    y una lista de la acumulación de horas jugadas por año de lanzamiento.

    Parameters:
    - dataframe (DataFrame): El DataFrame que contiene los datos de los juegos.
    - genero (str): El género para el que se desea obtener la información.

    Returns:
    - dict: Un diccionario con el usuario que acumula más horas jugadas para el género dado
            y una lista de la acumulación de horas jugadas por año.
            Ejemplo de retorno: {
                "Usuario con más horas jugadas para Género X": user_id,
                "Horas jugadas": [{"Año": 2010, "Horas": 300}, {"Año": 2011, "Horas": 500}]
            }
    """
    # Filtrar el DataFrame por el género deseado
    df_genero = dataframe[dataframe['genre'] == genero]

    # Verificar si no hay datos para el género dado
    if df_genero.empty:
        return f"No hay datos disponibles para el género '{genero}'"

    # Encontrar el usuario con más horas jugadas para el género dado
    usuario_con_mas_horas = df_genero.groupby('user_id')['hours_year'].sum().idxmax()

    # Calcular las horas jugadas por año para el usuario encontrado
    horas_por_anio = df_genero[df_genero['user_id'] == usuario_con_mas_horas].groupby('year')['hours_year'].sum()

    # Crear el diccionario de salida
    output_dict = {
        "Usuario con más horas jugadas para Género X": usuario_con_mas_horas,
        "Horas jugadas": [{"Año": anio, "Horas": horas} for anio, horas in horas_por_anio.items()]
    }

    return output_dict

In [12]:
genero_deseado = "Action"
UserForGenre(df_ep3, genero_deseado)


{'Usuario con más horas jugadas para Género X': 'Sp3ctre',
 'Horas jugadas': [{'Año': 1993, 'Horas': 0.0},
  {'Año': 1995, 'Horas': 3.62},
  {'Año': 1996, 'Horas': 0.0},
  {'Año': 1997, 'Horas': 4.03},
  {'Año': 1998, 'Horas': 0.0},
  {'Año': 1999, 'Horas': 0.73},
  {'Año': 2000, 'Horas': 1177.4},
  {'Año': 2001, 'Horas': 4.17},
  {'Año': 2002, 'Horas': 3.97},
  {'Año': 2003, 'Horas': 129.06},
  {'Año': 2004, 'Horas': 2123.51},
  {'Año': 2005, 'Horas': 355.65},
  {'Año': 2006, 'Horas': 1504.22},
  {'Año': 2007, 'Horas': 1879.91},
  {'Año': 2008, 'Horas': 142.20999999999998},
  {'Año': 2009, 'Horas': 1812.8600000000001},
  {'Año': 2010, 'Horas': 1379.44},
  {'Año': 2011, 'Horas': 2590.97},
  {'Año': 2012, 'Horas': 6424.42},
  {'Año': 2013, 'Horas': 2035.97},
  {'Año': 2014, 'Horas': 2214.38},
  {'Año': 2015, 'Horas': 6488.58},
  {'Año': 2016, 'Horas': 1996.6200000000001},
  {'Año': 2017, 'Horas': 722.12}]}

## 4. Endpoint 4

In [13]:
def best_developer_year(dataframe, anio: int):
    """
    Obtiene el top 3 de desarrolladores con juegos más recomendados por usuarios para el año dado.

    Parameters:
    - dataframe (DataFrame): El DataFrame que contiene los datos de los juegos y las reviews.
    - año (int): El año para el que se desea obtener el top 3 de desarrolladores.

    Returns:
    - list: Una lista de diccionarios con el puesto y el nombre de los desarrolladores más recomendados.
            Ejemplo de retorno: [{"Puesto 1" : X}, {"Puesto 2" : Y},{"Puesto 3" : Z}]
    """
    # Filtrar el DataFrame por el año dado
    df_year = dataframe[dataframe['year'] == anio]

    # Obtener los 3 mejores desarrolladores para el año dado
    top_developers = df_year.groupby('developer')['recommend_score'].sum().nlargest(3)

    # Crear la lista de salida
    output_list = []
    for puesto, (developer, score) in enumerate(top_developers.items(), start=1):
        output_list.append({f'Puesto {puesto}': developer})

    return output_list

In [14]:
año_deseado = 2014
best_developer_year(df_ep4, año_deseado)


[{'Puesto 1': 'Valve'},
 {'Puesto 2': 'Facepunch Studios'},
 {'Puesto 3': 'Bohemia Interactive'}]

## 5. Endpoint 5

In [15]:
def developer_reviews_analysis(dataframe, desarrolladora: str):
    """
    Realiza un análisis de las reseñas de un desarrollador específico.

    Parameters:
    - dataframe (DataFrame): El DataFrame que contiene los datos de las reseñas.
    - desarrolladora (str): El nombre del desarrollador a analizar.

    Returns:
    - dict: Un diccionario con el nombre del desarrollador como llave y una lista
            con la cantidad total de registros de reseñas de usuarios categorizados
            con un análisis de sentimiento como valor positivo o negativo.
            Ejemplo de retorno: {'Valve': {'Negative': 182, 'Positive': 278}}
    """
    # Filtrar el DataFrame para obtener las reseñas del desarrollador especificado
    desarrolladora_df = dataframe[dataframe['developer'] == desarrolladora]

    # Calcular la cantidad total de registros de reseñas positivas y negativas
    total_positivas = desarrolladora_df['positive_reviews'].sum()
    total_negativas = desarrolladora_df['negative_reviews'].sum()

    # Crear el diccionario de resultados
    resultado = {desarrolladora: {'Positive': total_positivas, 'Negative': total_negativas}}

    return resultado


In [16]:
developer_reviews_analysis(df_ep5, "Valve")

{'Valve': {'Positive': 4753, 'Negative': 889}}