# Traducción Automática de Datos
Traducción de los datasets de inglés a español usando librerías de traducción automática.

In [None]:
import os
import pandas as pd
from tqdm import tqdm
from deep_translator import GoogleTranslator

# Rutas de entrada y salida
fake_path = os.path.join("..", "data", "raw", "Fake.csv")
true_path = os.path.join("..", "data", "raw", "True.csv")

fake_output_path = os.path.join("..", "data", "translated", "Fake_es.csv")
true_output_path = os.path.join("..", "data", "translated", "True_es.csv")

# Cargar datasets
df_fake = pd.read_csv(fake_path)
df_true = pd.read_csv(true_path)

# Eliminar duplicados
df_fake.drop_duplicates(inplace=True)
df_true.drop_duplicates(inplace=True)

# Tomar una muestra de 500 registros de cada clase
df_fake = df_fake.sample(n=500, random_state=42)
df_true = df_true.sample(n=500, random_state=42)

# Función de traducción
def traducir_columna(df, columna):
    traducciones = []
    for texto in tqdm(df[columna], desc=f"Traduciendo '{columna}'"):
        try:
            texto_traducido = GoogleTranslator(source='auto', target='es').translate(texto)
        except Exception:
            texto_traducido = texto  # Si hay error, se mantiene el original
        traducciones.append(texto_traducido)
    return traducciones

# Traducir columnas de texto y título
df_fake["title_es"] = traducir_columna(df_fake, "title")
df_fake["text_es"] = traducir_columna(df_fake, "text")

df_true["title_es"] = traducir_columna(df_true, "title")
df_true["text_es"] = traducir_columna(df_true, "text")

# Crear carpeta de salida si no existe
os.makedirs(os.path.join("..", "data", "translated"), exist_ok=True)

# Guardar los archivos traducidos
df_fake.to_csv(fake_output_path, index=False)
df_true.to_csv(true_output_path, index=False)

print("✅ Traducción de muestra completada (500 noticias por clase).")


Traduciendo 'title':  23%|████████████████████████▊                                                                                    | 114/500 [01:48<08:37,  1.34s/it]