# Proyecto Individual 1 - ML OPS

La empresa en donde estoy trabajando como Data Scientist, una una plataforma multinacional de videojuegos, me ha solicitado que me encargue de crear un sistema de recomendación de videojuegos para usuarios. La idea es crear un modelo de ML que solucione este problema de negocio. 

Dado que la madurez de los datos es nula, es necesario empezar desde 0, empezando por hacer un trabajo breve de Data Engineer y luego lograr tener un MVP (Minimum Viable Product) para el cierre del proyecto:

- Transformaciones: Para este MVP no se solicitan transformaciones de datos (aunque haya motivos para hacerlo) pero se trabajará en leer el dataset con el formato correcto. Me indicaron que se puede eliminar las columnas que no se necesitan para responder las consultas o preparar los modelos de aprendizaje automático, y de esa manera optimizar el rendimiento de la API y el entrenamiento del modelo.

- Feature Engineering: En el dataset 'user_reviews' se incluyen reseñas de juegos hechos por distintos usuarios. Se debe crear la columna 'sentiment_analysis' aplicando análisis de sentimiento con NLP con la siguiente escala: debe tomar el valor '0' si es malo, '1' si es neutral y '2' si es positivo. Esta nueva columna debe reemplazar la de user_reviews.review para facilitar el trabajo de los modelos de machine learning y el análisis de datos. De no ser posible este análisis por estar ausente la reseña escrita, se indicó que debe tomar el valor de 1.

Desarrollo API: Se propone disponibilizar los datos de la empresa usando el framework 'FastAPI'.

Empezamos, entonces, con lo primero: importar nuestros datasets otorgados (los cuales son 3), para poder ver con que nos enfrentamos.

In [2]:
# Importamos primer dataset: Australian Users Reviews

import pandas as pd
import ast

# Lista para almacenar los diccionarios JSON de cada línea
data_list = []

# Ruta del archivo JSON
file_path = 'australian_user_reviews.json'

# Abrir el archivo y procesar cada línea
with open(file_path, 'r', encoding='utf8') as file:
    for line in file:
        try:
            # Usar ast.literal_eval para convertir la línea en un diccionario
            json_data = ast.literal_eval(line)
            data_list.append(json_data)
        except ValueError as e:
            print(f"Error en la línea: {line}")
            continue

# Crear un DataFrame a partir de la lista de diccionarios
df_reviews = pd.json_normalize(data_list, record_path='reviews', meta=['user_id','user_url'])

In [3]:
# Ver los primeros registros del DataFrame
df_reviews.head()

Unnamed: 0,funny,posted,last_edited,item_id,helpful,recommend,review,user_id,user_url
0,,"Posted November 5, 2011.",,1250,No ratings yet,True,Simple yet with great replayability. In my opi...,76561197970982479,http://steamcommunity.com/profiles/76561197970...
1,,"Posted July 15, 2011.",,22200,No ratings yet,True,It's unique and worth a playthrough.,76561197970982479,http://steamcommunity.com/profiles/76561197970...
2,,"Posted April 21, 2011.",,43110,No ratings yet,True,Great atmosphere. The gunplay can be a bit chu...,76561197970982479,http://steamcommunity.com/profiles/76561197970...
3,,"Posted June 24, 2014.",,251610,15 of 20 people (75%) found this review helpful,True,I know what you think when you see this title ...,js41637,http://steamcommunity.com/id/js41637
4,,"Posted September 8, 2013.",,227300,0 of 1 people (0%) found this review helpful,True,For a simple (it's actually not all that simpl...,js41637,http://steamcommunity.com/id/js41637


In [4]:
# verificamos la informacion rapidamente: 
df_reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 59305 entries, 0 to 59304
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   funny        59305 non-null  object
 1   posted       59305 non-null  object
 2   last_edited  59305 non-null  object
 3   item_id      59305 non-null  object
 4   helpful      59305 non-null  object
 5   recommend    59305 non-null  bool  
 6   review       59305 non-null  object
 7   user_id      59305 non-null  object
 8   user_url     59305 non-null  object
dtypes: bool(1), object(8)
memory usage: 3.7+ MB


In [5]:
df_reviews = df_reviews.dropna(thresh=2)
df_reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 59305 entries, 0 to 59304
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   funny        59305 non-null  object
 1   posted       59305 non-null  object
 2   last_edited  59305 non-null  object
 3   item_id      59305 non-null  object
 4   helpful      59305 non-null  object
 5   recommend    59305 non-null  bool  
 6   review       59305 non-null  object
 7   user_id      59305 non-null  object
 8   user_url     59305 non-null  object
dtypes: bool(1), object(8)
memory usage: 3.7+ MB


In [51]:
df_reviews['item_id'] = df_reviews['item_id'].astype(int)

In [52]:
df_reviews.info()

<class 'pandas.core.frame.DataFrame'>
Index: 59280 entries, 0 to 59304
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   posted              59280 non-null  datetime64[ns]
 1   item_id             59280 non-null  int32         
 2   recommend           59280 non-null  bool          
 3   review              59280 non-null  object        
 4   user_id             59280 non-null  object        
 5   user_url            59280 non-null  object        
 6   sentiment_analysis  59280 non-null  int64         
dtypes: bool(1), datetime64[ns](1), int32(1), int64(1), object(3)
memory usage: 3.0+ MB


In [7]:
# Eliminamos las columnas que no nos serviran a los fines de nuestro análisis: 

df_reviews.drop(columns=['funny', 'last_edited', 'helpful'], inplace=True)

In [8]:
# Procedemos a modificar el formato de la columna 'posted' para luego poder trabajar con ella:

from dateutil import parser 

# Funcion para analizar la fecha y manejar errores: 
def parse_date(date_str): 
    try:
        return parser.parse(date_str.replace("Posted ", ""), fuzzy = True)
    except ValueError:
        return None
    
# Aplicamos la funcion de analisis de fecha y reemplazamos las filas que tienen fechas incorrectas con NaN
df_reviews['posted'] = df_reviews['posted'].apply(parse_date)

# Además eliminamos esas filas que contengan valores NaN (ya que son fechas incorrectas y no nos servirán posteriormente en el análisis):
df_reviews = df_reviews.dropna(subset=['posted'])


In [9]:
df_reviews.head()

Unnamed: 0,posted,item_id,recommend,review,user_id,user_url
0,2011-11-05,1250,True,Simple yet with great replayability. In my opi...,76561197970982479,http://steamcommunity.com/profiles/76561197970...
1,2011-07-15,22200,True,It's unique and worth a playthrough.,76561197970982479,http://steamcommunity.com/profiles/76561197970...
2,2011-04-21,43110,True,Great atmosphere. The gunplay can be a bit chu...,76561197970982479,http://steamcommunity.com/profiles/76561197970...
3,2014-06-24,251610,True,I know what you think when you see this title ...,js41637,http://steamcommunity.com/id/js41637
4,2013-09-08,227300,True,For a simple (it's actually not all that simpl...,js41637,http://steamcommunity.com/id/js41637


# Importamos segundo dataset, Australian User Items


In [10]:
data_list2 = []

# Ruta del archivo JSON
file_path2 = 'australian_users_items.json'

# Abrir el archivo y procesar cada línea
with open(file_path2, 'r', encoding='utf8') as file:
    for line in file:
        try:
            # Usar ast.literal_eval para convertir la línea en un diccionario
            json_data2 = ast.literal_eval(line)
            data_list2.append(json_data2)
        except ValueError as e:
            print(f"Error en la línea: {line}")
            continue

# Crear un DataFrame a partir de la lista de diccionarios
df_items = pd.json_normalize(data_list2, record_path='items', meta='user_id')

In [11]:
# Ver los primeros registros del DataFrame
df_items.head()

Unnamed: 0,item_id,item_name,playtime_forever,playtime_2weeks,user_id
0,10,Counter-Strike,6,0,76561197970982479
1,20,Team Fortress Classic,0,0,76561197970982479
2,30,Day of Defeat,7,0,76561197970982479
3,40,Deathmatch Classic,0,0,76561197970982479
4,50,Half-Life: Opposing Force,0,0,76561197970982479


In [12]:
# Dropeamos las columnas innecesarias
df_items.drop(columns=['playtime_2weeks'], inplace=True) 

In [13]:
df_items['item_id'] = df_items['item_id'].astype('int32')


In [14]:
# Eliminamos duplicados: 
df_items = df_items.drop_duplicates()

In [15]:
df_items.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5094092 entries, 0 to 5153208
Data columns (total 4 columns):
 #   Column            Dtype 
---  ------            ----- 
 0   item_id           int32 
 1   item_name         object
 2   playtime_forever  int64 
 3   user_id           object
dtypes: int32(1), int64(1), object(2)
memory usage: 174.9+ MB


In [16]:
df_items.head()

Unnamed: 0,item_id,item_name,playtime_forever,user_id
0,10,Counter-Strike,6,76561197970982479
1,20,Team Fortress Classic,0,76561197970982479
2,30,Day of Defeat,7,76561197970982479
3,40,Deathmatch Classic,0,76561197970982479
4,50,Half-Life: Opposing Force,0,76561197970982479


In [17]:
# filas_con_none = df_items.isna().sum(axis=1)

# Filtrar el DataFrame original para obtener filas con más de 3 'None'
# filas_mas_de_3_none = df_items[filas_con_none > 3]
# filas_mas_de_3_none
# ejecutamos esto y vemos que no hay registros que tengan mas de 3 columnas con None. 

# Importamos tercer dataset, Output Steam Games


In [18]:
df_games = pd.read_json('output_steam_games.json', lines=True)

In [19]:
# Ver los primeros registros del DataFrame
df_games.head()

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,


In [20]:
df_games = df_games.dropna(thresh=5)
df_games.head()

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
88310,Kotoshiro,"[Action, Casual, Indie, Simulation, Strategy]",Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018-01-04,"[Strategy, Action, Indie, Casual, Simulation]",http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,0.0,761140.0,Kotoshiro
88311,"Making Fun, Inc.","[Free to Play, Indie, RPG, Strategy]",Ironbound,Ironbound,http://store.steampowered.com/app/643980/Ironb...,2018-01-04,"[Free to Play, Strategy, Indie, RPG, Card Game...",http://steamcommunity.com/app/643980/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free To Play,0.0,643980.0,Secret Level SRL
88312,Poolians.com,"[Casual, Free to Play, Indie, Simulation, Sports]",Real Pool 3D - Poolians,Real Pool 3D - Poolians,http://store.steampowered.com/app/670290/Real_...,2017-07-24,"[Free to Play, Simulation, Sports, Casual, Ind...",http://steamcommunity.com/app/670290/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free to Play,0.0,670290.0,Poolians.com
88313,彼岸领域,"[Action, Adventure, Casual]",弹炸人2222,弹炸人2222,http://store.steampowered.com/app/767400/2222/,2017-12-07,"[Action, Adventure, Casual]",http://steamcommunity.com/app/767400/reviews/?...,[Single-player],0.99,0.0,767400.0,彼岸领域
88314,,,Log Challenge,,http://store.steampowered.com/app/773570/Log_C...,,"[Action, Indie, Casual, Sports]",http://steamcommunity.com/app/773570/reviews/?...,"[Single-player, Full controller support, HTC V...",2.99,0.0,773570.0,


In [21]:
df_games.columns

Index(['publisher', 'genres', 'app_name', 'title', 'url', 'release_date',
       'tags', 'reviews_url', 'specs', 'price', 'early_access', 'id',
       'developer'],
      dtype='object')

In [22]:
# Borramos las columnas que no nos servirán a los fines de nuestor análisis: 

df_games.drop(columns=['reviews_url', 'specs', 'early_access','app_name','publisher'], inplace=True) 


In [23]:
df_games.info()

<class 'pandas.core.frame.DataFrame'>
Index: 32134 entries, 88310 to 120444
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   genres        28852 non-null  object 
 1   title         30085 non-null  object 
 2   url           32134 non-null  object 
 3   release_date  30068 non-null  object 
 4   tags          31972 non-null  object 
 5   price         30757 non-null  object 
 6   id            32133 non-null  float64
 7   developer     28836 non-null  object 
dtypes: float64(1), object(7)
memory usage: 2.2+ MB


In [24]:
# Procedemos a modificar el formato de las fechas de la columna 'release date' para luego poder trabajar con ella:

df_games['release_date'] = pd.to_datetime(df_games['release_date'], format='%Y-%m-%d', errors='coerce')

In [25]:
# Convertimos en 0 los registros que no tengan ID: 
df_games['id'] = df_games['id'].fillna(0).astype(int)

In [26]:
# Ahora convertimos todos los ID en enteros, para poder trabajar mejor: 
df_games['id'] = df_games['id'].astype(int)

In [50]:
df_games.head()

Unnamed: 0,genres,title,url,release_date,tags,price,id,developer
88310,"['Action', 'Casual', 'Indie', 'Simulation', 'S...",Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018-01-04,"[Strategy, Action, Indie, Casual, Simulation]",4.99,761140,Kotoshiro
88311,"['Free to Play', 'Indie', 'RPG', 'Strategy']",Ironbound,http://store.steampowered.com/app/643980/Ironb...,2018-01-04,"[Free to Play, Strategy, Indie, RPG, Card Game...",Free To Play,643980,Secret Level SRL
88312,"['Casual', 'Free to Play', 'Indie', 'Simulatio...",Real Pool 3D - Poolians,http://store.steampowered.com/app/670290/Real_...,2017-07-24,"[Free to Play, Simulation, Sports, Casual, Ind...",Free to Play,670290,Poolians.com
88313,"['Action', 'Adventure', 'Casual']",弹炸人2222,http://store.steampowered.com/app/767400/2222/,2017-12-07,"[Action, Adventure, Casual]",0.99,767400,彼岸领域
88314,,,http://store.steampowered.com/app/773570/Log_C...,NaT,"[Action, Indie, Casual, Sports]",2.99,773570,


Sobre las reseñas de juegos hechos por distintos usuarios, las cuales se encuentran en el dataset 'user_reviews', procedemos a aplicar el Análisis de sentimiento con NLP. 
Como fue ordenado, se debe tomar el valor '0' si el review es malo, '1' si es neutral y '2' si es positivo. En el caso de no ser posible este análisis por estar ausente la reseña escrita, debe tomar el valor de 1.

In [28]:
from textblob import TextBlob

# Función para realizar el análisis de sentimiento y asignar valores
def analyze_sentiment(text):
    if pd.isna(text):  # Verificar si el texto está ausente
        return 1  # Fijamos en 1 el valor que devolverá si el texto está ausente
    else:
        blob = TextBlob(text)
        sentiment = blob.sentiment.polarity
        # utilizamos un umbral de +- 0.2 para tener una clasificación más refinada
        # y distinguir entre reseñas ligeramente positivas o negativas y las que son claramente positivas o negativas: 
        if sentiment < -0.2:  # Valor negativo, consideramos que es 'malo'
            return 0
        elif sentiment > 0.2:  # Valor positivo, consideramos que es 'positivo'
            return 2
        else:  # Valor neutral
            return 1

# Aplicar la función a la columna 'review' y reemplazarla con una nueva columna de nombre 'sentiment_analysis'
df_reviews['sentiment_analysis'] = df_reviews['review'].apply(analyze_sentiment)

# Mostrar el DataFrame resultante
print(df_reviews)

          posted item_id  recommend  \
0     2011-11-05    1250       True   
1     2011-07-15   22200       True   
2     2011-04-21   43110       True   
3     2014-06-24  251610       True   
4     2013-09-08  227300       True   
...          ...     ...        ...   
59300 2023-07-10      70       True   
59301 2023-07-08  362890       True   
59302 2023-07-03  273110       True   
59303 2023-07-20     730       True   
59304 2023-07-02     440       True   

                                                  review            user_id  \
0      Simple yet with great replayability. In my opi...  76561197970982479   
1                   It's unique and worth a playthrough.  76561197970982479   
2      Great atmosphere. The gunplay can be a bit chu...  76561197970982479   
3      I know what you think when you see this title ...            js41637   
4      For a simple (it's actually not all that simpl...            js41637   
...                                                  ... 

In [29]:
df_reviews.info()

<class 'pandas.core.frame.DataFrame'>
Index: 59280 entries, 0 to 59304
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   posted              59280 non-null  datetime64[ns]
 1   item_id             59280 non-null  object        
 2   recommend           59280 non-null  bool          
 3   review              59280 non-null  object        
 4   user_id             59280 non-null  object        
 5   user_url            59280 non-null  object        
 6   sentiment_analysis  59280 non-null  int64         
dtypes: bool(1), datetime64[ns](1), int64(1), object(4)
memory usage: 3.2+ MB


In [30]:
# Verificamos que hayan sido puntuadas todas las filas: 

count_0 = (df_reviews['sentiment_analysis'] == 0).sum()
count_1 = (df_reviews['sentiment_analysis'] == 1).sum()
count_2 = (df_reviews['sentiment_analysis'] == 2).sum()

print(f"Número de filas con valor 0: {count_0}")
print(f"Número de filas con valor 1: {count_1}")
print(f"Número de filas con valor 2: {count_2}")
print(f"Total puntuadas: {count_0 + count_1 + count_2}")


Número de filas con valor 0: 5199
Número de filas con valor 1: 36440
Número de filas con valor 2: 17641
Total puntuadas: 59280


PRIMERA FUNCION: def PlayTimeGenre( genero : str ): Debe devolver año con mas horas jugadas para dicho género.

In [31]:
# Primero definimos una función para convertir un objeto en una cadena de texto:
def ensure_string2(obj):
    if isinstance(obj, str):
        # Intenta evaluar la cadena como una lista
        try:
            obj_list = ast.literal_eval(obj)
            if isinstance(obj_list, list):
                return ', '.join(obj_list)
        except ValueError:
            pass
    # Si no podemos evaluarlo como una lista, simplemente lo dejamos como está
    return str(obj)

In [32]:
# aplicamos la funcion:
df_games['genres'] = df_games['genres'].apply(ensure_string2)

In [33]:
# Ahora si redactamos la funcion solicitada: 
def PlayTimeGenre(genero= str):
    
    global df_games
    global df_items
   
    games_filtered = df_games[df_games['genres'].str.contains(genero, case=False, na=False)]
    
    # Filter df_items to obtain rows with similar item_id
    
    merged_df = pd.merge(df_items, games_filtered, left_on='item_id', right_on= 'id', how= 'inner')
    merged_df['release_date'] = pd.to_datetime(merged_df['release_date'])
    merged_df['release_year'] = merged_df['release_date'].dt.year
    
    grouped = merged_df.groupby('release_year')['playtime_forever'].sum()
    
    max_year = grouped.idxmax()
    
    return f"{{'Año con más horas jugadas para Género {genero}': {int(max_year)}}}"

In [34]:
resultado = PlayTimeGenre('Adventure')
print(resultado)

{'Año con más horas jugadas para Género Adventure': 2011}


SEGUNDA FUNCION: def UserForGenre( genero : str ): Debe devolver el usuario que acumula más horas jugadas para el género dado y una lista de la acumulación de horas jugadas por año.

In [35]:
def UserForGenre(genero: str):
    global df_games
    global df_items

    # Filtra los juegos por el género especificado
    games_filtered = df_games[df_games['genres'].str.contains(genero, case=False, na=False)]

    # Fusiona df_items y df_games basado en item_id e id
    merged_df = pd.merge(df_items, games_filtered, left_on='item_id', right_on='id', how='inner')
    merged_df['release_date'] = pd.to_datetime(merged_df['release_date'])
    merged_df['release_year'] = merged_df['release_date'].dt.year

    # Agrupa por año y usuario, calcula las horas jugadas por usuario por año
    grouped = merged_df.groupby(['release_year', 'user_id'])['playtime_forever'].sum().reset_index()

    # Encuentra al usuario con más horas jugadas para el género dado
    max_user = grouped[grouped['playtime_forever'] == grouped.groupby('release_year')['playtime_forever'].transform('max')]['user_id'].values[0]

    # Filtra los datos para el usuario con más horas jugadas
    user_data = grouped[grouped['user_id'] == max_user]

    # Elimina los años con 0 horas jugadas
    user_data = user_data[user_data['playtime_forever'] > 0]

    # Ordena los años en orden descendente
    user_data = user_data.sort_values(by='release_year', ascending=False)

    # Convierte las horas a enteros
    user_data['playtime_forever'] = user_data['playtime_forever'].astype(int)

    # Crea una lista de la acumulación de horas jugadas por año
    hours_by_year = [{'Año': int(year), 'Horas': int(hours)} for year, hours in zip(user_data['release_year'], user_data['playtime_forever'])]

    result = {
        "Usuario con más horas jugadas para ese Género": max_user,
        "Horas jugadas": hours_by_year
    }

    return result


In [36]:
resultado2 = UserForGenre('Sports')
print(resultado2)

{'Usuario con más horas jugadas para ese Género': 'Steamified', 'Horas jugadas': [{'Año': 2017, 'Horas': 8614}, {'Año': 2016, 'Horas': 26855}, {'Año': 2015, 'Horas': 8294}, {'Año': 2014, 'Horas': 34928}, {'Año': 2013, 'Horas': 2249}, {'Año': 2012, 'Horas': 1780}, {'Año': 2011, 'Horas': 2062}, {'Año': 2010, 'Horas': 161}, {'Año': 2009, 'Horas': 134}, {'Año': 1995, 'Horas': 7335}]}


TERCERA FUNCION: def UsersRecommend( año : int ): Devuelve el top 3 de juegos MÁS recomendados por usuarios para el año dado. (reviews.recommend = True y comentarios positivos/neutrales)

In [53]:
def UsersRecommend(año: int):
    global df_games
    global df_reviews

    # Filtra las reseñas para el año dado y que tengan recomendación (recommend = True) y comentarios positivos/neutrales (sentiment_analysis >= 0)
    reviews_filtered = df_reviews[(df_reviews['posted'].dt.year == año) &
                                  (df_reviews['recommend'] == True) & (df_reviews['sentiment_analysis'] >= 0)]

    # Agrupa las reseñas por item_id y cuenta cuántas veces cada juego ha sido recomendado
    game_recommendations = reviews_filtered.groupby('item_id')['recommend'].sum().reset_index()

    # Fusiona game_recommendations con df_games para obtener información sobre los juegos
    top_games = pd.merge(game_recommendations, df_games, left_on='item_id', right_on='id', how='inner')

    # Ordena los juegos por la cantidad de recomendaciones en orden descendente
    top_games = top_games.sort_values(by='recommend', ascending=False)

    # Selecciona los primeros 3 juegos recomendados y crea la lista de retorno
    top_3_games = top_games.head(3)

    # Crea una lista de diccionarios con el formato correcto
    top_3_list = [{"Puesto {}: {}".format(i, juego['title'])} for i, juego in enumerate(top_3_games[['title', 'recommend']].to_dict(orient='records'), start=1)]

    return top_3_list



In [54]:
resultado3 = UsersRecommend(2014)
print(resultado3)

[{'Puesto 1: Team Fortress 2'}, {'Puesto 2: Counter-Strike: Global Offensive'}, {"Puesto 3: Garry's Mod"}]


Ejemplo de retorno: [{"Puesto 1" : X}, {"Puesto 2" : Y},{"Puesto 3" : Z}]

In [None]:
def UsersNotRecommend(año: int):
    global df_games
    global df_reviews

    # Filtra las reseñas para el año dado y que tengan no recomendación (recommend = False) y comentarios negativos (sentiment_analysis < 0)
    reviews_filtered = df_reviews[(df_reviews['posted'].dt.year == año) &
                                  (df_reviews['recommend'] == False) & (df_reviews['sentiment_analysis'] == 0)]

    # Agrupa las reseñas por item_id y cuenta cuántas veces cada juego ha sido no recomendado
    game_not_recommendations = reviews_filtered.groupby('item_id')['recommend'].sum().reset_index()

    # Fusiona game_not_recommendations con df_games para obtener información sobre los juegos
    top_not_recommend_games = pd.merge(game_not_recommendations, df_games, left_on='item_id', right_on='id', how='inner')

    # Ordena los juegos por la cantidad de no recomendaciones en orden descendente
    top_not_recommend_games = top_not_recommend_games.sort_values(by='recommend', ascending=False)

    # Selecciona los primeros 3 juegos menos recomendados y crea la lista de retorno
    top_3_not_recommend_games = top_not_recommend_games.head(3)

    # Crea una lista de diccionarios con el formato correcto (sin el valor de recomendación)
    top_3_not_recommend_list = [{"Puesto {}: {}".format(i, juego['title'])} for i, juego in enumerate(top_3_not_recommend_games[['title']].to_dict(orient='records'), start=1)]

    return top_3_not_recommend_list



In [None]:
resultado4 = UsersNotRecommend(2012)
print(resultado4)

[{'Puesto 1: Team Fortress 2'}, {"Puesto 2: The Kings' Crusade"}, {'Puesto 3: Red Faction®: Armageddon™'}]


In [42]:
def VerificarReseñas(año: int):
    global df_reviews

    # Filtra las reseñas para el año dado y que tengan no recomendación (recommend = False) y comentarios negativos (sentiment_analysis < 0)
    reseñas_filtradas = df_reviews[(df_reviews['posted'].dt.year == año) &
                                  (df_reviews['recommend'] == False) & (df_reviews['sentiment_analysis'] == 0)]

    # Verifica si hay reseñas que cumplen con los criterios
    if not reseñas_filtradas.empty:
        print("Hay reseñas para el año {} que cumplen con los criterios.".format(año))
    else:
        print("No hay reseñas para el año {} que cumplan con los criterios.".format(año))

# Llamada a la función para verificar las reseñas para un año específico
VerificarReseñas(2020)  # Cambia el año según tus datos


No hay reseñas para el año 2020 que cumplan con los criterios.


In [48]:
df_reviews.head()

Unnamed: 0,posted,item_id,recommend,review,user_id,user_url,sentiment_analysis
0,2011-11-05,1250,True,Simple yet with great replayability. In my opi...,76561197970982479,http://steamcommunity.com/profiles/76561197970...,1
1,2011-07-15,22200,True,It's unique and worth a playthrough.,76561197970982479,http://steamcommunity.com/profiles/76561197970...,2
2,2011-04-21,43110,True,Great atmosphere. The gunplay can be a bit chu...,76561197970982479,http://steamcommunity.com/profiles/76561197970...,1
3,2014-06-24,251610,True,I know what you think when you see this title ...,js41637,http://steamcommunity.com/id/js41637,1
4,2013-09-08,227300,True,For a simple (it's actually not all that simpl...,js41637,http://steamcommunity.com/id/js41637,1


In [45]:
(df_reviews['recommend'] == False).sum()

6827

In [44]:
(df_reviews['sentiment_analysis'] == 0).sum()

5199

FUNCION 5: def sentiment_analysis( año : int ): Según el año de lanzamiento, se devuelve una lista con la cantidad de registros de reseñas de usuarios que se encuentren categorizados con un análisis de sentimiento.

In [40]:
def SentimentAnalysis(año: int):
    global df_reviews
    global df_games

    # Filtra las reseñas para el año dado
    reseñas_por_año = df_reviews[df_reviews['posted'].dt.year == año]

    # Realiza el análisis de sentimiento para las reseñas
    reseñas_por_año['sentiment_category'] = reseñas_por_año['sentiment_analysis'].apply(lambda x: 'Negative' if x == 0 else ('Neutral' if x == 1 else 'Positive'))

    # Cuenta la cantidad de reseñas en cada categoría de sentimiento
    conteo_sentimientos = reseñas_por_año['sentiment_category'].value_counts().to_dict()

    return conteo_sentimientos


In [41]:
# Ejemplo de uso
resultado5 = SentimentAnalysis(2013)  # Cambia el año según tus datos
print(resultado5)

{'Neutral': 3883, 'Positive': 2425, 'Negative': 484}


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  reseñas_por_año['sentiment_category'] = reseñas_por_año['sentiment_analysis'].apply(lambda x: 'Negative' if x == 0 else ('Neutral' if x == 1 else 'Positive'))


Exportamos los dos Dataframes mas pequeños en tamaño a .CSV y el Dataframe de Items (que es mas pesado), a tipo .PARQUET: 

In [55]:
# Exportar df_reviews a un archivo CSV
df_reviews.to_csv('df_reviews.csv', index=False)  # El parámetro index=False evita que se incluya el índice en el archivo CSV

In [56]:
# Exportar df_games a un archivo CSV
df_games.to_csv('df_games.csv', index=False)

In [57]:
# Exportar df_items a un archivo Parquet
df_items.to_parquet('df_items.parquet', index=False)  # El parámetro index=False evita que se incluya el índice en el archivo Parquet