# Funciones de consulta Proyecto Individual ML Ops STEAM

## Creación y pruebas de las funciones

In [1]:
# Se importan las librerías necesarias para este proceso de transformación
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [45]:
# Rutas de ubicación para los datasets:
consulta1 = 'E:\\AAADATOS\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\PlayTimeGenre.gzip'
consulta2 = 'E:\\AAADATOS\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\UserForGenre.gzip'
consulta3 = 'E:\\AAADATOS\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\UsersRecommend.gzip'
consulta4 = 'E:\\AAADATOS\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\UsersWorstDeveloper.gzip'
consulta5 = 'E:\\AAADATOS\Henry\\AA_Data_Science\\MATERIAL_PI\\PI_ML_OPS_STEAM_DSFT17\\sentiment_analysis.gzip'

---

### Funciones

#### Consulta 1
- def **PlayTimeGenre**( **`genero`** : str ): Debe devolver **`año`** con mas horas jugadas para dicho género.

Ejemplo de retorno: {"Año de lanzamiento con más horas jugadas para Género X" : 2013}

In [23]:
# Se crea la función "PlayTimeGenre" que recibe un string "str" y devuelve un año "int" dentro de un diccionario

def PlayTimeGenre(genero):
    
    # Se verifica que el género sea una cadena (string)
    if not isinstance(genero, str):
        return {'Error': 'El género debe ser una cadena (string)'}
    
    # Se inicializa el Data Frame al que se le hara la consulta
    df_def1 = pd.read_csv(consulta1, compression='gzip')
    
    # Se filtra el Data Frame para incluir solo las filas que contengan el género deseado
    df_genero = df_def1[df_def1['Genres'].str.contains(genero, case=False, na=False)]
    
    # Se agrupa por el año y se suman las horas de juego para cada año
    df_agrupado = df_genero.groupby('Year_Launch')['Playtime_Forever_Hours'].sum().reset_index()
    
    # Se verifica si el Data Frame agrupado está vacío
    if df_agrupado.empty:
        return {'Error': f'No hay datos para el género "{genero}" después de filtrar por año'}
    
    # Se busca el año con la el valor mas grande horas de juego
    anio_mas_jugado = df_agrupado.loc[df_agrupado['Playtime_Forever_Hours'].idxmax()]['Year_Launch']
    
    # Se devuelve el resultado en un diccionario
    resultado = {'Año de lanzamiento con más horas jugadas para Género {}'.format(genero): int(anio_mas_jugado)}
    
    return resultado

In [28]:
genero = "indiE"
año_resultante = PlayTimeGenre(genero)
print(año_resultante)

{'Año de lanzamiento con más horas jugadas para Género indiE': 2006}


---

#### Consulta 2
- def **UserForGenre**( **`genero`** : str ):  Debe devolver el **`usuario`** que acumula más horas jugadas para el género dado y una lista de la acumulación de horas jugadas por año.

Ejemplo de retorno: {"Usuario con más horas jugadas para Género X" : us213ndjss09sdf, "Horas jugadas":[{Año: 2013, Horas: 203}, {Año: 2012, Horas: 100}, {Año: 2011, Horas: 23}]}

In [38]:
# Se crea la función "UserForGenre" que recibe un string "str" y devuelve un diccionario

def UserForGenre(genero):
    
    # Se verifica que el género sea una cadena (string)
    if not isinstance(genero, str):
        return {'Error': 'El género debe ser una cadena (string)'}
    
    # Se inicializa el Data Frame al que se le hara la consulta
    df_def2 = pd.read_csv(consulta2, compression='gzip')
    
    # Se filtra el Data Frame para incluir solo las filas que contengan el género deseado
    df_genero = df_def2[df_def2['Genres'].str.contains(genero, case=False, na=False)]
    
    # Se verifica si el Data Frame agrupado está vacío
    if df_genero.empty:
        return {'Error': f'No hay datos para el género "{genero}"'}
    
    # Se agrupa por usuario y se suman las horas de juego para cada usuario
    df_agrupado_usuario = df_genero.groupby('User_Id')['Playtime_Forever_Hours'].sum().reset_index()
    
    # Se verifica si el DataFrame agrupado por usuario está vacío
    if df_agrupado_usuario.empty:
        return {'Error': f'No hay datos para el género "{genero}" después de filtrar por usuario'}
    
    # Se busca el usuario con el máximo total de horas jugadas
    usuario_mas_horas = df_agrupado_usuario.loc[df_agrupado_usuario['Playtime_Forever_Hours'].idxmax()]['User_Id']
    
    # Se agrupa por año y suma las horas de juego para cada año
    df_agrupado_anio = df_genero.groupby('Year_Launch')['Playtime_Forever_Hours'].sum().reset_index()
    
    # Se rea una lista de diccionarios con la acumulación de horas jugadas por año
    lista_acumulacion_horas = [{'Año': int(anio), 'Horas': int(horas)} for anio, horas in zip(df_agrupado_anio['Year_Launch'],
                                                                                              df_agrupado_anio['Playtime_Forever_Hours'])]
    # Se construye el diccionario de resultado
    resultado = {
        'Usuario con más horas jugadas para Género {}'.format(genero): usuario_mas_horas,
        'Horas jugadas': lista_acumulacion_horas
    }

    return resultado

In [42]:
UserForGenre('Fast-Paced')

{'Usuario con más horas jugadas para Género Fast-Paced': 'Cow666',
 'Horas jugadas': [{'Año': 1999, 'Horas': 89},
  {'Año': 2000, 'Horas': 219},
  {'Año': 2007, 'Horas': 2},
  {'Año': 2008, 'Horas': 553255},
  {'Año': 2009, 'Horas': 840},
  {'Año': 2010, 'Horas': 102973},
  {'Año': 2011, 'Horas': 6},
  {'Año': 2012, 'Horas': 1402621},
  {'Año': 2013, 'Horas': 1650},
  {'Año': 2014, 'Horas': 10759},
  {'Año': 2015, 'Horas': 42036},
  {'Año': 2016, 'Horas': 126},
  {'Año': 2017, 'Horas': 1}]}

---

#### Consulta 3
- def **UsersRecommend**( **`año`** : int ):  Devuelve el top 3 de **`juegos`** MÁS recomendados por usuarios para el año dado. (reviews.recommend = True y comentarios positivos/neutrales)

Ejemplo de retorno: [{"Puesto 1" : X}, {"Puesto 2" : Y},{"Puesto 3" : Z}]

In [59]:
# Se crea la función "UsersRecommend" que recibe un entero"int" y devuelve una lista de diccionarios

def UsersRecommend(anio):
    
    # Se verifica que el año sea un entero
    if not isinstance(anio, int):
        return {'Error': 'El año debe ser un entero'}
    
    # Se inicializa el Data Frame al que se le hara la consulta
    df_def3 = pd.read_csv(consulta3, compression='gzip')
    
    # Se filtra el DataFrame para incluir solo las filas correspondientes al año dado
    df_anio = df_def3[df_def3['Year'] == anio]
    
    # Se verifica si el DataFrame resultante está vacío
    if df_anio.empty:
        return [{'Error': f'No hay datos para el año {anio}'}]
    
    # Se agrupa por título de juego y suma los valores en el campo "Conteo"
    df_agrupado_juegos = df_anio.groupby('Title')['Conteo'].sum().reset_index()
    
    # Se ordena el DataFrame en orden descendente según la suma del campo "Conteo"
    df_agrupado_juegos = df_agrupado_juegos.sort_values(by='Conteo', ascending=False)
    
    # Se selecciona los tres primeros juegos
    top_3_juegos = df_agrupado_juegos.head(3)
    
    # Se construye la lista de diccionarios de resultado
    resultado = [
        {'Puesto 1': top_3_juegos.iloc[0]['Title']},
        {'Puesto 2': top_3_juegos.iloc[1]['Title']},
        {'Puesto 3': top_3_juegos.iloc[2]['Title']}
    ]

    return resultado

In [61]:
print(UsersRecommend(2012))

[{'Puesto 1': 'Team Fortress 2'}, {'Puesto 2': 'Terraria'}, {'Puesto 3': "Garry's Mod"}]


---

#### Consulta 4
- def **UsersWorstDeveloper**( **`año`** : int ):  Devuelve el top 3 de **`desarrolladoras`** con juegos MENOS recomendados por usuarios para el año dado. (reviews.recommend = False y comentarios negativos)

Ejemplo de retorno: [{"Puesto 1" : X}, {"Puesto 2" : Y},{"Puesto 3" : Z}]

In [77]:
# Se crea la función "UsersWorstDeveloper" que recibe un entero"int" y devuelve una lista de diccionarios

def UsersWorstDeveloper(anio):
    
    # Se verifica que el año sea un entero
    if not isinstance(anio, int):
        return {'Error': 'El año debe ser un entero'}
    
    # Se inicializa el Data Frame al que se le hara la consulta
    df_def4 = pd.read_csv(consulta4, compression='gzip')
    
    # Se filtra el DataFrame para incluir solo las filas correspondientes al año dado
    df_anio = df_def4[df_def4['Year'] == anio]
    
    # Se verifica si el DataFrame resultante está vacío
    if df_anio.empty:
        return [{'Error': f'No hay datos para el año {anio}'}]
    
    # Se agrupa por desarrolladora y suma los valores en el campo "Conteo"
    df_agrupado_desarrolladoras = df_anio.groupby('Developer')['Conteo'].sum().reset_index()
    
    # Se ordena el DataFrame en orden descendente según la suma del campo "Conteo"
    df_agrupado_desarrolladoras = df_agrupado_desarrolladoras.sort_values(by='Conteo', ascending=False)
    
    # Se selecciona los tres primeros desarrolladores
    top_3_desarrolladoras = df_agrupado_desarrolladoras.head(3)
    
    # Se construye la lista de diccionarios de resultado
    resultado = [
        {"Puesto 1": top_3_desarrolladoras.iloc[0]['Developer']},
        {"Puesto 2": top_3_desarrolladoras.iloc[1]['Developer']},
        {"Puesto 3": top_3_desarrolladoras.iloc[2]['Developer']}
    ]
    
    return resultado

In [78]:
print(UsersWorstDeveloper(2016))

[{'Puesto 1': 'Valve'}, {'Puesto 2': 'Hello Games'}, {'Puesto 3': 'Ubisoft'}]


---

#### Consulta 5
- def **sentiment_analysis**( **`empresa desarrolladora`** : str ):  Según la empresa desarrolladora, se devuelve un diccionario con el nombre de la desarrolladora como llave y una lista con la cantidad total de registros de reseñas de usuarios que se encuentren categorizados con un análisis de sentimiento como valor.

Ejemplo de retorno: {'Valve' : [Negative = 182, Neutral = 120, Positive = 278]}

In [118]:
# Se crea la función "sentiment_analysis" que recibe un string "str" y devuelve un diccionario

def sentiment_analysis(desarrolladora):
    
    # Se verifica que la desarrolladora sea una cadena (string)
    if not isinstance(desarrolladora, str):
        return {'Error': 'La Desarrolladora debe ser una cadena (string)'}
    
    # Se inicializa el Data Frame al que se le hara la consulta
    df_def5 = pd.read_csv(consulta5, compression='gzip')
    
    # Se filtra el DataFrame para incluir solo las filas correspondientes a la desarrolladora dada
    df_desarrolladora = df_def5[df_def5['Developer'] == desarrolladora]
    
    # Se verifica si el DataFrame resultante está vacío
    if df_desarrolladora.empty:
        return {'Error': f'No hay datos para la desarrolladora {desarrolladora}'}
    
    # Se realiza un mapeo de valores originales a equivalentes deseados
    mapeo_sentimientos = {0: "Negative", 1: "Neutral", 2: "Positive"}
    
    # Se reemplaza los valores originales por los equivalentes deseados
    df_desarrolladora['Sentiment_Analysis'] = df_desarrolladora['Sentiment_Analysis'].map(mapeo_sentimientos)
    
    # Se define la lista ordenada de sentimientos
    sentimientos_ordenados = ["Negative", "Neutral", "Positive"]
    
    # Se agrupa por "Sentiment_Analysis" y cuenta la frecuencia de cada valor
    conteo_sentimientos = df_desarrolladora['Sentiment_Analysis'].value_counts().reindex(sentimientos_ordenados, fill_value=0).to_dict()
    
    # Se construye el diccionario de resultado con etiquetas
    resultado = {desarrolladora: {f"{sentimiento} =": conteo_sentimientos[sentimiento] for sentimiento in sentimientos_ordenados}}
    
    return resultado

In [119]:
print(sentiment_analysis('Ubisoft'))

{'Ubisoft': {'Negative =': 194, 'Neutral =': 1, 'Positive =': 773}}


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_desarrolladora['Sentiment_Analysis'] = df_desarrolladora['Sentiment_Analysis'].map(mapeo_sentimientos)


---

In [115]:
lista = []
for d in df_sentiment_analysis_parquet['Developer'].unique():
    lista.append(d)

print(lista)
print(len(lista))

NameError: name 'df_sentiment_analysis_parquet' is not defined