# üöÄ TP Final - Ciencia de Datos
## Entrenamiento de Modelo de Lenguaje para Generaci√≥n de Rese√±as

Este notebook entrena un modelo de lenguaje para generar rese√±as de productos de Amazon.

### üìã Objetivos:
- Cargar y preparar datos de rese√±as de Amazon
- Entrenar un modelo de lenguaje para generar rese√±as
- Evaluar la calidad de las rese√±as generadas
- Analizar la coherencia entre ratings y sentimientos

## üì¶ Importaciones

In [None]:
# Importaciones necesarias
import pandas as pd
from datasets import Dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
from transformers import DataCollatorForLanguageModeling, pipeline
import torch
import re

# Para traducci√≥n
try:
    from googletrans import Translator
    GOOGLE_TRANS_AVAILABLE = True
except ImportError:
    GOOGLE_TRANS_AVAILABLE = False
    print("‚ö†Ô∏è googletrans no disponible. Instalar con: pip install googletrans==4.0.0rc1")

try:
    from transformers import MarianMTModel, MarianTokenizer
    MARIAN_AVAILABLE = True
except ImportError:
    MARIAN_AVAILABLE = False
    print("‚ö†Ô∏è MarianMT no disponible. Instalar con: pip install sentencepiece")

print("‚úÖ Librer√≠as importadas correctamente")

## üîç Verificaci√≥n de Hardware

In [None]:
# Verificar GPU
print(f"CUDA disponible: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"GPU: {torch.cuda.get_device_name(0)}")
    print(f"Memoria GPU: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.1f} GB")
else:
    print("Usando CPU - optimizando para mejor rendimiento")
    # Optimizaciones para CPU
    torch.set_num_threads(8)  # Usar m√°s n√∫cleos de CPU
    print(f"N√∫cleos CPU utilizados: {torch.get_num_threads()}")

## üìä Carga y Preparaci√≥n de Datos

In [None]:
# Leer dataset
print("üìñ Cargando dataset...")
df = pd.read_csv('Amazon_Unlocked_Mobile.csv')
df = df.dropna(subset=['Reviews', 'Rating'])  # eliminamos rese√±as y ratings vac√≠os
df = df[['Product Name', 'Brand Name', 'Price', 'Rating', 'Reviews']]

# Convertir rating a entero
df['Rating'] = df['Rating'].astype(int)

print(f"üìä Dataset cargado: {len(df)} registros")
print(f"üìà Distribuci√≥n de ratings:")
print(df['Rating'].value_counts().sort_index())

In [None]:
# Balancear el dataset: igual cantidad de rese√±as por rating
max_per_rating = 800  # Aumentado para mejor aprendizaje
balanced_df = pd.concat([
    df[df['Rating'] == rating].sample(n=min(max_per_rating, len(df[df['Rating'] == rating])), random_state=42)
    for rating in range(1, 6)
])

print(f"‚öñÔ∏è Dataset balanceado: {len(balanced_df)} registros")
print(f"üìä Distribuci√≥n por rating:")
for rating in range(1, 6):
    count = len(balanced_df[balanced_df['Rating'] == rating])
    print(f"  {rating} estrellas: {count} rese√±as")

## üßπ Funciones de Limpieza y Procesamiento

In [None]:
def limpiar_texto(texto):
    """Limpia el texto de caracteres especiales y normaliza espacios"""
    if pd.isna(texto):
        return ""
    
    texto = str(texto)
    # Remover caracteres especiales pero mantener puntuaci√≥n b√°sica
    texto = re.sub(r'[^\w\s\.\,\!\?\-\']', '', texto)
    # Normalizar espacios
    texto = re.sub(r'\s+', ' ', texto).strip()
    return texto

def crear_prompt_mejorado(row):
    """Crea un prompt m√°s estructurado y espec√≠fico"""
    rating = row['Rating']
    producto = limpiar_texto(row['Product Name'] or 'Producto')
    marca = limpiar_texto(row['Brand Name'] or 'Marca')
    precio = str(row['Price'])
    rese√±a = limpiar_texto(row['Reviews'])
    
    # Determinar sentimiento esperado basado en rating
    if rating == 1:
        sentimiento = "muy negativo"
        instruccion = "Escribe una rese√±a muy cr√≠tica y negativa"
    elif rating == 2:
        sentimiento = "negativo"
        instruccion = "Escribe una rese√±a negativa con algunos aspectos positivos"
    elif rating == 3:
        sentimiento = "neutral"
        instruccion = "Escribe una rese√±a equilibrada con pros y contras"
    elif rating == 4:
        sentimiento = "positivo"
        instruccion = "Escribe una rese√±a positiva con algunas cr√≠ticas menores"
    else:  # rating == 5
        sentimiento = "muy positivo"
        instruccion = "Escribe una rese√±a muy positiva y entusiasta"
    
    # Prompt mejorado con instrucciones claras
    prompt = f"""INSTRUCCI√ìN: {instruccion} para este producto.

PRODUCTO: {producto}
MARCA: {marca}
PRECIO: {precio}
RATING: {rating} estrellas ({sentimiento})

RESE√ëA: {rese√±a}

FIN"""

    return prompt

print("‚úÖ Funciones de procesamiento definidas")

## üéØ Creaci√≥n de Prompts Estructurados

In [None]:
# Aplicar el nuevo prompt
balanced_df['text'] = balanced_df.apply(crear_prompt_mejorado, axis=1)

print('üìù Ejemplo de texto mejorado:')
print(balanced_df['text'].iloc[0])
print('Tipo:', type(balanced_df['text'].iloc[0]))

In [None]:
# Crear dataset de HuggingFace
dataset = Dataset.from_pandas(balanced_df[['text']])

# Dividir dataset en entrenamiento y validaci√≥n
dataset = dataset.train_test_split(test_size=0.2, seed=42)
train_dataset = dataset['train']
eval_dataset = dataset['test']

print(f"üìö Dataset de entrenamiento: {len(train_dataset)} ejemplos")
print(f"üîç Dataset de validaci√≥n: {len(eval_dataset)} ejemplos")

## üî† Tokenizaci√≥n

In [None]:
# Configurar tokenizador con modelo m√°s grande
model_name = "gpt2"  # Cambiado a gpt2 completo para mejor capacidad
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token

def tokenize_function(examples):
    # Aumentamos la longitud m√°xima a 256 tokens para capturar mejor el contexto
    return tokenizer(
        examples["text"],
        padding="max_length",
        truncation=True,
        max_length=256,  # Aumentado significativamente
    )

print('üî§ Tokenizador configurado')
print('üìù Ejemplo de tokenizaci√≥n:')
print(tokenize_function({"text": [balanced_df['text'].iloc[0]]}))

In [None]:
# Tokenizar datasets
print("üîÑ Tokenizando datasets...")

tokenized_train = train_dataset.map(tokenize_function, batched=True)
tokenized_train = tokenized_train.remove_columns(['text'])

tokenized_eval = eval_dataset.map(tokenize_function, batched=True)
tokenized_eval = tokenized_eval.remove_columns(['text'])

print("‚úÖ Tokenizaci√≥n completada")

## üöÄ Configuraci√≥n del Entrenamiento

In [None]:
# Cargar modelo
model = AutoModelForCausalLM.from_pretrained(model_name)
print(f"ü§ñ Modelo {model_name} cargado")

In [None]:
# Configurar argumentos de entrenamiento optimizados
training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,  # Reducido para evitar overfitting
    per_device_train_batch_size=4,  # Reducido para el modelo m√°s grande
    save_steps=200,  # Guardar m√°s frecuentemente
    save_total_limit=3,  # Mantener 3 checkpoints
    logging_steps=50,  # Logging m√°s frecuente para monitoreo
    prediction_loss_only=True,
    remove_unused_columns=False,
    # Optimizaciones para aprendizaje √≥ptimo
    dataloader_num_workers=2,  # Workers moderados para Windows
    gradient_accumulation_steps=8,  # Acumular gradientes para batch efectivo de 32
    warmup_steps=100,  # Warmup apropiado
    learning_rate=1e-4,  # Learning rate m√°s alto para mejor aprendizaje
    weight_decay=0.01,  # Regularizaci√≥n
    # Optimizaciones adicionales
    fp16=False,  # Desactivar para CPU
    bf16=False,  # Desactivar para CPU
    optim="adamw_torch",  # Optimizador eficiente
    lr_scheduler_type="cosine",  # Scheduler √≥ptimo
    max_grad_norm=1.0,  # Gradient clipping
    evaluation_strategy="steps",  # Evaluar durante el entrenamiento
    eval_steps=200,  # Evaluar cada 200 pasos
)

print("‚öôÔ∏è Configuraci√≥n de entrenamiento optimizada")

In [None]:
# Configurar data collator y trainer
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_train,
    eval_dataset=tokenized_eval,
    tokenizer=tokenizer,
    data_collator=data_collator,
)

print("üéØ Trainer configurado y listo para entrenar")

## üèãÔ∏è Entrenamiento del Modelo

In [None]:
# Iniciar entrenamiento
print("üöÄ Iniciando entrenamiento...")
print("‚è±Ô∏è Esto puede tomar varios minutos...")

trainer.train()

print("‚úÖ Entrenamiento completado")

## üíæ Guardado del Modelo

In [None]:
# Guardar modelo y tokenizer
print("üíæ Guardando modelo y tokenizer...")

model.save_pretrained('./results')
tokenizer.save_pretrained('./results')

print("‚úÖ Modelo guardado en './results'")

## üé≠ Funciones de Generaci√≥n Mejoradas

In [None]:
def crear_prompt_generacion(producto, marca, precio, rating):
    """Crea un prompt espec√≠fico para generaci√≥n"""
    if rating == 1:
        sentimiento = "muy negativo"
        instruccion = "Escribe una rese√±a muy cr√≠tica y negativa"
    elif rating == 2:
        sentimiento = "negativo"
        instruccion = "Escribe una rese√±a negativa con algunos aspectos positivos"
    elif rating == 3:
        sentimiento = "neutral"
        instruccion = "Escribe una rese√±a equilibrada con pros y contras"
    elif rating == 4:
        sentimiento = "positivo"
        instruccion = "Escribe una rese√±a positiva con algunas cr√≠ticas menores"
    else:  # rating == 5
        sentimiento = "muy positivo"
        instruccion = "Escribe una rese√±a muy positiva y entusiasta"
    
    prompt = f"""INSTRUCCI√ìN: {instruccion} para este producto.

PRODUCTO: {producto}
MARCA: {marca}
PRECIO: {precio}
RATING: {rating} estrellas ({sentimiento})

RESE√ëA:"""
    
    return prompt

def generar_resena_mejorada(producto, marca, precio, rating):
    """Genera una rese√±a mejorada con mejor control"""

    prompt = crear_prompt_generacion(producto, marca, precio, rating)

    # Configurar el generador con par√°metros optimizados
    generator = pipeline(
        'text-generation',
        model=model,
        tokenizer=tokenizer,
        max_new_tokens=80,  # Generar hasta 80 tokens nuevos
        do_sample=True,
        temperature=0.7,  # Temperatura moderada para balance entre creatividad y coherencia
        top_p=0.85,  # Nucleus sampling
        top_k=40,  # Top-k sampling
        repetition_penalty=1.3,  # Penalizar repeticiones
        pad_token_id=tokenizer.eos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        # Configuraci√≥n adicional
        num_beams=1,  # Sin beam search para m√°s creatividad
        length_penalty=1.0,
        no_repeat_ngram_size=3,  # Evitar repetici√≥n de n-gramas
    )

    # Generar texto
    resultado = generator(prompt, num_return_sequences=1)[0]['generated_text']

    # Extraer solo la rese√±a generada
    if "RESE√ëA:" in resultado:
        rese√±a = resultado.split("RESE√ëA:")[1].split("FIN")[0].strip()
    else:
        rese√±a = resultado[len(prompt):].strip()

    # Limpiar la rese√±a
    rese√±a = re.sub(r'\s+', ' ', rese√±a).strip()
    
    # Si la rese√±a es muy corta, intentar generar m√°s
    if len(rese√±a.split()) < 10:
        # Continuar la generaci√≥n
        prompt_continuacion = resultado + " "
        resultado2 = generator(prompt_continuacion, num_return_sequences=1)[0]['generated_text']
        parte2 = resultado2[len(prompt_continuacion):].strip()
        rese√±a = rese√±a + " " + parte2
        rese√±a = re.sub(r'\s+', ' ', rese√±a).strip()

    return rese√±a

def analizar_sentimiento(rese√±a):
    """Analiza el sentimiento de una rese√±a"""
    rese√±a_lower = rese√±a.lower()
    
    # Palabras positivas y negativas m√°s espec√≠ficas
    palabras_positivas = [
        'good', 'great', 'excellent', 'love', 'like', 'amazing', 'perfect', 'wonderful',
        'fantastic', 'awesome', 'outstanding', 'superb', 'brilliant', 'fabulous',
        'satisfied', 'happy', 'pleased', 'impressed', 'recommend', 'best', 'quality'
    ]
    
    palabras_negativas = [
        'bad', 'terrible', 'awful', 'hate', 'dislike', 'horrible', 'worst', 'disappointed',
        'poor', 'cheap', 'broken', 'defective', 'useless', 'waste', 'regret', 'avoid',
        'problem', 'issue', 'faulty', 'unreliable', 'slow', 'expensive', 'overpriced'
    ]
    
    positivas = sum(1 for palabra in palabras_positivas if palabra in rese√±a_lower)
    negativas = sum(1 for palabra in palabras_negativas if palabra in rese√±a_lower)
    
    return positivas, negativas

print("‚úÖ Funciones de generaci√≥n definidas")

## üéØ Prueba de Generaci√≥n de Rese√±as

In [None]:
# Probar generaciones mejoradas
print("üéØ Generando rese√±as de ejemplo con el modelo mejorado...\n")

# Ejemplos de productos
productos = [
    ("iPhone 15 Pro", "Apple", "$999", 1),
    ("Samsung Galaxy S24", "Samsung", "$799", 2),
    ("Google Pixel 8", "Google", "$699", 3),
    ("OnePlus 12", "OnePlus", "$599", 4),
    ("Xiaomi 14", "Xiaomi", "$499", 5)
]

for producto, marca, precio, rating in productos:
    print(f"üì± {producto} ({marca}) - {precio} - {rating}‚≠ê")
    rese√±a = generar_resena_mejorada(producto, marca, precio, rating)
    print(f"üìù Rese√±a: {rese√±a}")
    print(f"üìä Longitud: {len(rese√±a.split())} palabras")

    # Analizar sentimiento
    positivas, negativas = analizar_sentimiento(rese√±a)
    print(f"üòä Palabras positivas: {positivas}")
    print(f"üòû Palabras negativas: {negativas}")

    # Verificar si el sentimiento coincide con el rating
    if rating >= 4 and positivas > negativas:
        print("‚úÖ Sentimiento COINCIDE con rating alto")
    elif rating <= 2 and negativas > positivas:
        print("‚úÖ Sentimiento COINCIDE con rating bajo")
    elif rating == 3 and abs(positivas - negativas) <= 2:
        print("‚úÖ Sentimiento COINCIDE con rating neutral")
    else:
        print("‚ùå Sentimiento NO coincide con rating")

    print("-" * 80)

## üìä An√°lisis de Resultados

In [None]:
# Mostrar m√©tricas de entrenamiento de forma segura
print("M√©tricas de entrenamiento:")

if hasattr(trainer, 'state'):
    print(f"Pasos totales: {trainer.state.global_step}")

    # Mostrar todas las m√©tricas disponibles
    if trainer.state.log_history:
        print("üìä Historial de m√©tricas:")
        for i, log in enumerate(trainer.state.log_history[-5:]):  # √öltimos 5 logs
            print(f"  Paso {log.get('step', 'N/A')}:")
            for key, value in log.items():
                if key != 'step':
                    print(f"    {key}: {value}")
    else:
        print("No hay historial de m√©tricas disponible")
else:
    print("No se encontr√≥ informaci√≥n del estado del trainer")

print("\nüéâ ¬°Entrenamiento completado exitosamente!")

## üîß Funciones Adicionales de Traducci√≥n

In [None]:
def traducir_con_google(texto, idioma_destino='es'):
    """Traduce usando Google Translate"""
    if not GOOGLE_TRANS_AVAILABLE:
        return "Traducci√≥n no disponible - instalar googletrans"

    try:
        translator = Translator()
        traduccion = translator.translate(texto, dest=idioma_destino)
        return traduccion.text
    except Exception as e:
        return f"Error en traducci√≥n: {e}"

def traducir_con_marian(texto, idioma_origen='en', idioma_destino='es'):
    """Traduce usando MarianMT (m√°s preciso)"""
    if not MARIAN_AVAILABLE:
        return "Traducci√≥n no disponible - instalar sentencepiece"

    try:
        # Modelo espec√≠fico para ingl√©s a espa√±ol
        model_name = f'Helsinki-NLP/opus-mt-{idioma_origen}-{idioma_destino}'
        tokenizer = MarianTokenizer.from_pretrained(model_name)
        model = MarianMTModel.from_pretrained(model_name)

        # Tokenizar y traducir
        inputs = tokenizer(texto, return_tensors="pt", padding=True)
        translated = model.generate(**inputs)
        traduccion = tokenizer.decode(translated[0], skip_special_tokens=True)

        return traduccion
    except Exception as e:
        return f"Error en traducci√≥n: {e}"

def traducir_resena(resena, metodo='marian', idioma_destino='es'):
    """Traduce una rese√±a usando el m√©todo especificado"""

    if metodo == 'google':
        return traducir_con_google(resena, idioma_destino)
    elif metodo == 'marian':
        return traducir_con_marian(resena, 'en', idioma_destino)
    else:
        return "M√©todo de traducci√≥n no v√°lido"

print("‚úÖ Funciones de traducci√≥n definidas")

## üåç Prueba de Traducci√≥n (Opcional)

In [None]:
# Ejemplo de traducci√≥n de una rese√±a generada
print("üåç Probando traducci√≥n de rese√±as...\n")

# Generar una rese√±a de ejemplo
rese√±a_ejemplo = generar_resena_mejorada("iPhone 15 Pro", "Apple", "$999", 5)
print(f"üìù Rese√±a original: {rese√±a_ejemplo}")

# Traducir usando MarianMT
if MARIAN_AVAILABLE:
    traduccion = traducir_resena(rese√±a_ejemplo, metodo='marian')
    print(f"üåç Traducci√≥n (MarianMT): {traduccion}")
else:
    print("‚ö†Ô∏è MarianMT no disponible para traducci√≥n")

# Traducir usando Google Translate
if GOOGLE_TRANS_AVAILABLE:
    traduccion_google = traducir_resena(rese√±a_ejemplo, metodo='google')
    print(f"üåç Traducci√≥n (Google): {traduccion_google}")
else:
    print("‚ö†Ô∏è Google Translate no disponible para traducci√≥n")