# Ejercicio 2 

Vamos a trabajar con un dataframe que contiene información sobre reseñas de videojuegos. Cada fila del dataframe contiene la información de una reseña, y las columnas son las siguientes:
- Contenido: texto de la reseña
- Valoración: Recomendado o No recomendado
- Recomendado binario: 1 si la valoración es Recomendado, 0 si la valoración es No recomendado
  
El objetivo de este ejercicio es analizar los comentarios con un modelo LLM, extrayendo la información relevante de los comentarios para poder hacer un análisis posterior.



In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('videogames_reviews.csv')
data

Unnamed: 0.1,Unnamed: 0,Contenido,Valoración,Recomendado_binario
0,0,2 marzo so bad,No recomendado,0
1,1,10 febrero actualmente recomiendo juego contab...,No recomendado,0
2,2,9 febrero increíblemente gracioso ver cómo cdp...,No recomendado,0
3,3,the world in this game is extremely static the...,No recomendado,0
4,4,zero replayability i finished this game in abo...,No recomendado,0
...,...,...,...,...
19995,19995,si,Recomendado,1
19996,19996,cojonudo,Recomendado,1
19997,19997,reostia historia guapisima graficos impresiona...,Recomendado,1
19998,19998,basicamente sublime obra maestra,Recomendado,1


In [3]:
# Análisis exploratorio básico
print("Información básica del dataframe:")
print(f"Forma del dataframe: {data.shape}")
print(f"Columnas: {list(data.columns)}")
print("\nTipos de datos:")
print(data.dtypes)
print("\nPrimeras filas:")
data.head()

Información básica del dataframe:
Forma del dataframe: (20000, 4)
Columnas: ['Unnamed: 0', 'Contenido', 'Valoración', 'Recomendado_binario']

Tipos de datos:
Unnamed: 0             int64
Contenido                str
Valoración               str
Recomendado_binario    int64
dtype: object

Primeras filas:


Unnamed: 0.1,Unnamed: 0,Contenido,Valoración,Recomendado_binario
0,0,2 marzo so bad,No recomendado,0
1,1,10 febrero actualmente recomiendo juego contab...,No recomendado,0
2,2,9 febrero increíblemente gracioso ver cómo cdp...,No recomendado,0
3,3,the world in this game is extremely static the...,No recomendado,0
4,4,zero replayability i finished this game in abo...,No recomendado,0


In [4]:
# Análisis de valores nulos y únicos
print("Valores nulos por columna:")
print(data.isnull().sum())
print("\nValores únicos en 'Valoración':")
print(data['Valoración'].value_counts())
print("\nEstadísticas de la columna 'Recomendado_binario':")
print(data['Recomendado_binario'].value_counts())

Valores nulos por columna:
Unnamed: 0               0
Contenido              288
Valoración               0
Recomendado_binario      0
dtype: int64

Valores únicos en 'Valoración':
Valoración
No recomendado    10000
Recomendado       10000
Name: count, dtype: int64

Estadísticas de la columna 'Recomendado_binario':
Recomendado_binario
0    10000
1    10000
Name: count, dtype: int64


## Preprocesamiento Simplificado

Objetivo: Obtener los 100 comentarios con más texto para análisis posterior.

In [5]:
# Preprocesamiento simplificado: Top 100 comentarios con más texto
print("Preprocesando datos para obtener los 100 comentarios más largos...")

# Eliminar filas con contenido nulo
df_limpio = data.dropna(subset=['Contenido']).copy()
print(f"Comentarios válidos (sin nulos): {len(df_limpio)}")

# Calcular longitud de caracteres
df_limpio['longitud_caracteres'] = df_limpio['Contenido'].str.len()

# Seleccionar los 100 comentarios más largos
df_top_100 = df_limpio.nlargest(100, 'longitud_caracteres').reset_index(drop=True)

# Eliminar columnas innecesarias
if 'Unnamed: 0' in df_top_100.columns:
    df_top_100 = df_top_100.drop('Unnamed: 0', axis=1)

print(f"\nDataset final: {len(df_top_100)} comentarios")
print(f"Longitud promedio: {df_top_100['longitud_caracteres'].mean():.1f} caracteres")
print(f"Longitud mínima: {df_top_100['longitud_caracteres'].min()} caracteres")
print(f"Longitud máxima: {df_top_100['longitud_caracteres'].max()} caracteres")

print("\nDistribución de valoraciones en el top 100:")
print(df_top_100['Valoración'].value_counts())

# Mostrar el dataframe resultante
df_top_100

Preprocesando datos para obtener los 100 comentarios más largos...
Comentarios válidos (sin nulos): 19712

Dataset final: 100 comentarios
Longitud promedio: 6772.1 caracteres
Longitud mínima: 5421 caracteres
Longitud máxima: 7972 caracteres

Distribución de valoraciones en el top 100:
Valoración
No recomendado    65
Recomendado       35
Name: count, dtype: int64


Unnamed: 0,Contenido,Valoración,Recomendado_binario,longitud_caracteres
0,suiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii...,Recomendado,1,7972
1,this was probably my first preorder i felt tha...,Recomendado,1,7662
2,oh well admittedly its difficult for to write ...,No recomendado,0,7638
3,oh well admittedly its difficult for to write ...,No recomendado,0,7638
4,i know many will handwave away any criticisms ...,No recomendado,0,7609
...,...,...,...,...
95,4 febrero i was not seated in the glorious hyp...,Recomendado,1,5607
96,cyberpunk 2077cybermeme 2077what can there be ...,Recomendado,1,5573
97,brujo geralt riviatras recuperar memoria pasad...,Recomendado,1,5516
98,after hearing all the fuss about skyrim for ma...,No recomendado,0,5458


## Uso del LLM para análisis del dataframe.

In [None]:
import os
import json
import pandas as pd
from openai import OpenAI
from dotenv import load_dotenv
from tqdm import tqdm

# 1. Configuración
load_dotenv()
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

def clean_json_string(json_str):
    """
    Limpia la respuesta por si el modelo incluye bloques de código markdown.
    """
    json_str = json_str.strip()
    if json_str.startswith("```json"):
        json_str = json_str.split("```json")[1]
    if json_str.startswith("```"):
        json_str = json_str.split("```")[0]
    if json_str.endswith("```"):
        json_str = json_str.replace("```", "")
    return json_str.strip()

def create_game_analysis_prompt(review_text, review_id):
    # Prompt ajustado: Instrucciones en Español, pero sabiendo que el input es Inglés
    prompt = f"""
    Analiza la siguiente reseña de videojuego (que está en inglés) y extrae los datos en formato JSON.
    
    ID: {review_id}
    TEXTO (English): "{review_text}"
    
    Genera un JSON válido con estas claves:
    {{
        "Id": "{review_id}",
        "SentimientoGeneral": "Positivo" | "Negativo" | "Neutral",
        "AspectosPositivos": ["lista de aspectos"],
        "AspectosNegativos": ["lista de aspectos"],
        "Dificultad": "Demasiado Fácil" | "Fácil" | "Equilibrado" | "Difícil" | "Demasiado Difícil" | "No Mencionado",
        "Recomendado_Inferido": true | false
    }}
    """
    return prompt

def analyze_review(row):
    """
    Procesa una fila y maneja errores para no devolver None sin saber por qué.
    """
    # Validar que haya texto
    if pd.isna(row['Contenido']) or row['Contenido'] == "":
        return None

    try:
        response = client.chat.completions.create(
            model="gpt-3.5-turbo-0125",
            messages=[
                {"role": "system", "content": "Eres un asistente de data science. Respondes SIEMPRE en formato JSON válido sin texto adicional."},
                {"role": "user", "content": create_game_analysis_prompt(row['Contenido'], row.name)}
            ],
            temperature=0,
            response_format={"type": "json_object"} # Fuerza el modo JSON
        )
        
        raw_content = response.choices[0].message.content
        cleaned_content = clean_json_string(raw_content)
        
        return json.loads(cleaned_content)

    except json.JSONDecodeError:
        print(f"\nError de JSON en ID {row.name}. Respuesta raw: {raw_content[:50]}...")
        return None
    except Exception as e:
        print(f"\nError general en ID {row.name}: {e}")
        return None

In [32]:
# --- EJECUCIÓN DEL ANÁLISIS ---

# Creamos una lista para guardar los resultados
results_list = []

print(f"Procesando {len(df_top_100)} reseñas...")

# df_top_100.iterrows() nos da el índice y la serie de datos de la fila
for index, row in tqdm(df_top_100.iterrows(), total=df_top_100.shape[0]):
    analysis = analyze_review(row)
    if analysis:
        results_list.append(analysis)

# --- CONVERTIR A DATAFRAME ---

# Convertimos la lista de JSONs en un nuevo DataFrame
df_results = pd.DataFrame(results_list)

Procesando 100 reseñas...


100%|██████████| 100/100 [03:15<00:00,  1.96s/it]


In [34]:
df_results.head()

Unnamed: 0,Id,SentimientoGeneral,AspectosPositivos,AspectosNegativos,Dificultad,Recomendado_Inferido
0,0,Negativo,[],[],No Mencionado,False
1,1,Positivo,"[Detalles de la ciudad, Verticalidad de Night ...",[],Fácil,True
2,2,Negativo,[],"[Bugs y glitches frecuentes, Mecánicas faltant...",No Mencionado,False
3,3,Negativo,[],"[Bugs y glitches frecuentes, Mecánicas faltant...",No Mencionado,False
4,4,Negativo,[],"[Punitivo, Menos satisfactorio que otros juego...",Difícil,False


In [36]:
df_top_100.index = df_top_100.index.astype(int)
df_results['Id'] = df_results['Id'].astype(int)

In [38]:
df_final = df_top_100.merge(df_results, left_index=True, right_on='Id', how='left')

In [39]:
df_final.head()

Unnamed: 0,Contenido,Valoración,Recomendado_binario,longitud_caracteres,Id,SentimientoGeneral,AspectosPositivos,AspectosNegativos,Dificultad,Recomendado_Inferido
0,suiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii...,Recomendado,1,7972,0,Negativo,[],[],No Mencionado,False
1,this was probably my first preorder i felt tha...,Recomendado,1,7662,1,Positivo,"[Detalles de la ciudad, Verticalidad de Night ...",[],Fácil,True
2,oh well admittedly its difficult for to write ...,No recomendado,0,7638,2,Negativo,[],"[Bugs y glitches frecuentes, Mecánicas faltant...",No Mencionado,False
3,oh well admittedly its difficult for to write ...,No recomendado,0,7638,3,Negativo,[],"[Bugs y glitches frecuentes, Mecánicas faltant...",No Mencionado,False
4,i know many will handwave away any criticisms ...,No recomendado,0,7609,4,Negativo,[],"[Punitivo, Menos satisfactorio que otros juego...",Difícil,False


In [40]:
# Opcional: Guardar a CSV
df_final.to_csv("results/videojuegos_reseñas_analizadas.csv", index=False)