# Ejercicio 2 

Vamos a trabajar con un dataframe que contiene información sobre reseñas de videojuegos. Cada fila del dataframe contiene la información de una reseña, y las columnas son las siguientes:
- Contenido: texto de la reseña
- Valoración: Recomendado o No recomendado
- Recomendado binario: 1 si la valoración es Recomendado, 0 si la valoración es No recomendado
  
El objetivo de este ejercicio es analizar los comentarios con un modelo LLM, extrayendo la información relevante de los comentarios para poder hacer un análisis posterior.



In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('videogames_reviews.csv')
data

Unnamed: 0.1,Unnamed: 0,Contenido,Valoración,Recomendado_binario
0,0,2 marzo so bad,No recomendado,0
1,1,10 febrero actualmente recomiendo juego contab...,No recomendado,0
2,2,9 febrero increíblemente gracioso ver cómo cdp...,No recomendado,0
3,3,the world in this game is extremely static the...,No recomendado,0
4,4,zero replayability i finished this game in abo...,No recomendado,0
...,...,...,...,...
19995,19995,si,Recomendado,1
19996,19996,cojonudo,Recomendado,1
19997,19997,reostia historia guapisima graficos impresiona...,Recomendado,1
19998,19998,basicamente sublime obra maestra,Recomendado,1


In [3]:
# Análisis exploratorio básico
print("Información básica del dataframe:")
print(f"Forma del dataframe: {data.shape}")
print(f"Columnas: {list(data.columns)}")
print("\nTipos de datos:")
print(data.dtypes)
print("\nPrimeras filas:")
data.head()

Información básica del dataframe:
Forma del dataframe: (20000, 4)
Columnas: ['Unnamed: 0', 'Contenido', 'Valoración', 'Recomendado_binario']

Tipos de datos:
Unnamed: 0             int64
Contenido                str
Valoración               str
Recomendado_binario    int64
dtype: object

Primeras filas:


Unnamed: 0.1,Unnamed: 0,Contenido,Valoración,Recomendado_binario
0,0,2 marzo so bad,No recomendado,0
1,1,10 febrero actualmente recomiendo juego contab...,No recomendado,0
2,2,9 febrero increíblemente gracioso ver cómo cdp...,No recomendado,0
3,3,the world in this game is extremely static the...,No recomendado,0
4,4,zero replayability i finished this game in abo...,No recomendado,0


In [4]:
# Análisis de valores nulos y únicos
print("Valores nulos por columna:")
print(data.isnull().sum())
print("\nValores únicos en 'Valoración':")
print(data['Valoración'].value_counts())
print("\nEstadísticas de la columna 'Recomendado_binario':")
print(data['Recomendado_binario'].value_counts())

Valores nulos por columna:
Unnamed: 0               0
Contenido              288
Valoración               0
Recomendado_binario      0
dtype: int64

Valores únicos en 'Valoración':
Valoración
No recomendado    10000
Recomendado       10000
Name: count, dtype: int64

Estadísticas de la columna 'Recomendado_binario':
Recomendado_binario
0    10000
1    10000
Name: count, dtype: int64


## Preprocesamiento Simplificado

Objetivo: Obtener los 100 comentarios con más texto para análisis posterior.

In [5]:
# Preprocesamiento simplificado: Top 100 comentarios con más texto
print("Preprocesando datos para obtener los 100 comentarios más largos...")

# Eliminar filas con contenido nulo
df_limpio = data.dropna(subset=['Contenido']).copy()
print(f"Comentarios válidos (sin nulos): {len(df_limpio)}")

# Calcular longitud de caracteres
df_limpio['longitud_caracteres'] = df_limpio['Contenido'].str.len()

# Seleccionar los 100 comentarios más largos
df_top_100 = df_limpio.nlargest(100, 'longitud_caracteres').reset_index(drop=True)

# Eliminar columnas innecesarias
if 'Unnamed: 0' in df_top_100.columns:
    df_top_100 = df_top_100.drop('Unnamed: 0', axis=1)

print(f"\nDataset final: {len(df_top_100)} comentarios")
print(f"Longitud promedio: {df_top_100['longitud_caracteres'].mean():.1f} caracteres")
print(f"Longitud mínima: {df_top_100['longitud_caracteres'].min()} caracteres")
print(f"Longitud máxima: {df_top_100['longitud_caracteres'].max()} caracteres")

print("\nDistribución de valoraciones en el top 100:")
print(df_top_100['Valoración'].value_counts())

# Mostrar el dataframe resultante
df_top_100

Preprocesando datos para obtener los 100 comentarios más largos...
Comentarios válidos (sin nulos): 19712

Dataset final: 100 comentarios
Longitud promedio: 6772.1 caracteres
Longitud mínima: 5421 caracteres
Longitud máxima: 7972 caracteres

Distribución de valoraciones en el top 100:
Valoración
No recomendado    65
Recomendado       35
Name: count, dtype: int64


Unnamed: 0,Contenido,Valoración,Recomendado_binario,longitud_caracteres
0,suiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii...,Recomendado,1,7972
1,this was probably my first preorder i felt tha...,Recomendado,1,7662
2,oh well admittedly its difficult for to write ...,No recomendado,0,7638
3,oh well admittedly its difficult for to write ...,No recomendado,0,7638
4,i know many will handwave away any criticisms ...,No recomendado,0,7609
...,...,...,...,...
95,4 febrero i was not seated in the glorious hyp...,Recomendado,1,5607
96,cyberpunk 2077cybermeme 2077what can there be ...,Recomendado,1,5573
97,brujo geralt riviatras recuperar memoria pasad...,Recomendado,1,5516
98,after hearing all the fuss about skyrim for ma...,No recomendado,0,5458


## Uso del LLM para análisis del dataframe.

In [7]:
import os
import json
import pandas as pd
from openai import OpenAI
from dotenv import load_dotenv

# 1. Cargar variables de entorno
load_dotenv()

# 2. Inicializar cliente de OpenAI
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

def create_game_analysis_prompt(df_top100):
    """
    Crea un prompt para analizar una reseña de videojuego.
    
    Args:
        df_top100: Fila de pandas o diccionario con 'contenido' e 'index'
    
    Returns:
        String con el prompt
    """
    review_text = df_top100.get('Contenido', '')
    for x in range(1, len(df_top_100.index)):
        df_top_100.index[x]

    prompt = f"""
    Actúa como un analista experto de videojuegos. Analiza la siguiente reseña de un usuario y extrae la información en formato JSON estricto.

    ID DE LA RESEÑA: {review_id}
    TEXTO DE LA RESEÑA:
    "{review_text}"

    TAREA:
    Genera un objeto JSON con la siguiente estructura y restricciones:

    {{
        "Id": "{review_id}",
        "SentimientoGeneral": "Positivo" | "Negativo" | "Neutral",
        "AspectosPositivos": ["Lista de aspectos positivos mencionados (ej: gráficos, historia, jugabilidad)"],
        "AspectosNegativos": ["Lista de aspectos negativos mencionados (ej: bugs, precio, dificultad)"],
        "Dificultad": "Demasiado Fácil" | "Fácil" | "Equilibrado" | "Difícil" | "Demasiado Difícil" | "No Mencionado",
        "Recomendado": true | false (Inferir del tono si el usuario recomienda el juego)
    }}

    REGLAS:
    - Si la dificultad no se menciona explícitamente ni se puede inferir claramente, usa "No Mencionado".
    - "Recomendado" debe ser un booleano (true/false).
    - AspectosPositivos y AspectosNegativos deben ser arrays de strings. Si no hay, usa [].
    - Responde ÚNICAMENTE con el JSON válido.
    """
    return prompt

def analyze_review_with_openai(review_data, model="gpt-3.5-turbo-0125"):
    """
    Analiza una reseña usando OpenAI con modo JSON.
    """
    prompt = create_game_analysis_prompt(review_data)
    
    try:
        response = client.chat.completions.create(
            model=model,
            messages=[
                {
                    "role": "system", 
                    "content": "Eres un asistente útil que analiza reseñas de videojuegos y responde siempre en formato JSON."
                },
                {
                    "role": "user", 
                    "content": prompt
                }
            ],
            temperature=0.1, # Temperatura 0.1
            # IMPORTANTE: Forzamos la respuesta en JSON (feature de OpenAI)
            response_format={"type": "json_object"} 
        )
        
        # Extraer el contenido
        json_response = response.choices[0].message.content
        
        # Parsear a diccionario Python
        analysis_result = json.loads(json_response)
        
        return analysis_result

    except Exception as e:
        print(f"Error analizando reseña ID {review_data.get('id')}: {e}")
        return None

ModuleNotFoundError: No module named 'openai'