In [1]:
import torch
from transformers import MarianMTModel, MarianTokenizer


In [2]:
def crear_dataset_sintetico(corpus_path, output_path):
    """
    Crea un dataset sintético para traducción Inglés-Español usando retrotraducción.

    Args:
        corpus_path (str): Ruta al archivo .txt con frases en español (una por línea).
        output_path (str): Ruta donde se guardará el archivo CSV del dataset.
    """
    # 1. Cargar el modelo de traducción de Español a Inglés
    model_name = 'Helsinki-NLP/opus-mt-es-en'
    try:
        tokenizer = MarianTokenizer.from_pretrained(model_name)
        model = MarianMTModel.from_pretrained(model_name)
    except OSError:
        print(f"Error: No se pudo encontrar el modelo {model_name}. Asegúrate de tener conexión a internet.")
        return


In [4]:
# Verificar si hay una GPU disponible para acelerar el proceso
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
print(f"Usando dispositivo: {device}")

NameError: name 'model' is not defined

In [5]:
# 2. Leer el corpus en español
    try:
        with open(corpus_path, 'r', encoding='utf-8') as f:
            frases_espanol = [line.strip() for line in f if line.strip()]
    except FileNotFoundError:
        print(f"Error: No se encontró el archivo en la ruta: {corpus_path}")
        return

    print(f"Se encontraron {len(frases_espanol)} frases para traducir.")

IndentationError: unexpected indent (3986569942.py, line 2)

In [None]:

# 3. Realizar la retrotraducción (de Español a Inglés)
    frases_ingles_sintetico = []
    # Procesar en lotes para manejar corpus grandes de manera eficiente
    batch_size = 16 
    for i in range(0, len(frases_espanol), batch_size):
        batch = frases_espanol[i:i+batch_size]
        # Tokenizar el lote de frases
        inputs = tokenizer(batch, return_tensors="pt", padding=True, truncation=True, max_length=512).to(device)
        
        # Generar la traducción
        translated_tokens = model.generate(**inputs)
        
        # Decodificar las traducciones y añadirlas a la lista
        traducciones = tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)
        frases_ingles_sintetico.extend(traducciones)
        
        print(f"Procesado lote {i//batch_size + 1}/{(len(frases_espanol) + batch_size - 1)//batch_size}")




In [None]:
   # 4. Guardar el dataset sintético en un archivo CSV
    import csv
    with open(output_path, 'w', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(['ingles', 'espanol'])  # Escribir la cabecera
        for eng, esp in zip(frases_ingles_sintetico, frases_espanol):
            writer.writerow([eng, esp])

    print(f"\n¡Dataset sintético creado con éxito en '{output_path}'!")
    print("Ejemplo de una de las traducciones generadas:")
    print(f"  Español (Original): {frases_espanol[0]}")
    print(f"  Inglés (Sintético): {frases_ingles_sintetico[0]}")

In [None]:
# --- Ejecución del script ---
if __name__ == "__main__":
    # Ruta a tu archivo con frases en español
    archivo_corpus_es = 'corpus_es.txt'
    
    # Ruta donde quieres guardar el nuevo dataset
    archivo_salida_csv = 'dataset_sintetico_en-es.csv'
    
    crear_dataset_sintetico(archivo_corpus_es, archivo_salida_csv)