In [2]:
import os
import csv
import glob

def convert_bbc_txt_to_csv(txt_folder="noticias_bbc", output_dir="../data_scrapeada", 
                          filename="noticias_bbc.csv", label="Verdad", portal="bbc"):
    """
    Convierte archivos txt de BBC a formato CSV
    
    Args:
        txt_folder: carpeta con archivos txt de BBC
        output_dir: directorio donde guardar el CSV
        filename: nombre del archivo CSV de salida
        label: etiqueta para las noticias ("Verdad" o "Falso")
        portal: nombre del portal fuente
    """
    
    # Crear directorio de salida si no existe
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    # Ruta completa del archivo CSV de salida
    csv_path = os.path.join(output_dir, filename)
    
    # Verificar si el archivo existe para escribir encabezados
    file_exists = os.path.isfile(csv_path)
    
    # Obtener lista de archivos txt
    txt_files = glob.glob(os.path.join(txt_folder, "*.txt"))
    
    # Determinar veracidad
    veracidad = 1 if label.lower() == "verdad" else 0
    
    articles_processed = 0
    
    with open(csv_path, "a", encoding="utf-8", newline="") as csvfile:
        writer = csv.writer(csvfile)
        
        # Escribir encabezados si es la primera vez
        if not file_exists:
            writer.writerow(["fuente", "titulo", "descripcion", "url", "veracidad"])
        
        for txt_file in txt_files:
            try:
                with open(txt_file, "r", encoding="utf-8") as f:
                    content = f.read().strip()
                
                # El primer párrafo es el título
                lines = content.split('\n\n')
                title = lines[0].strip() if lines else ""
                
                # El resto del contenido es la descripción
                description = '\n\n'.join(lines[1:]) if len(lines) > 1 else ""
                
                # Generar URL ficticia basada en el nombre del archivo
                filename_base = os.path.basename(txt_file).replace(".txt", "")
                url = f"https://www.bbc.com/mundo/{filename_base}"
                
                # Escribir al CSV
                writer.writerow([
                    portal,
                    title,
                    description,
                    url,
                    veracidad
                ])
                
                articles_processed += 1
                
            except Exception as e:
                print(f"Error procesando {txt_file}: {e}")
                continue
    
    print(f"Procesados {articles_processed} artículos de {txt_folder} y guardados en {csv_path}")
    return csv_path

In [3]:
# Ejemplo de uso: convertir archivos txt de BBC a CSV
csv_output = convert_bbc_txt_to_csv(
    txt_folder="noticias_bbc",
    output_dir="../data_scrapeada", 
    filename="noticias_bbc.csv",
    label="Verdad",  # Cambia a "Falso" si son noticias falsas
    portal="bbc"
)

Procesados 75 artículos de noticias_bbc y guardados en ../data_scrapeada\noticias_bbc.csv


In [4]:
def preview_txt_files(txt_folder="noticias_bbc", num_files=3):
    """
    Función de utilidad para previsualizar algunos archivos txt y entender su estructura
    """
    txt_files = glob.glob(os.path.join(txt_folder, "*.txt"))[:num_files]
    
    for i, txt_file in enumerate(txt_files, 1):
        print(f"\n{'='*50}")
        print(f"ARCHIVO {i}: {os.path.basename(txt_file)}")
        print('='*50)
        
        try:
            with open(txt_file, "r", encoding="utf-8") as f:
                content = f.read().strip()
            
            lines = content.split('\n\n')
            print(f"TÍTULO: {lines[0][:100]}..." if len(lines[0]) > 100 else f"TÍTULO: {lines[0]}")
            print(f"\nDESCRIPCIÓN (primeros 200 chars): {lines[1][:200]}..." if len(lines) > 1 and len(lines[1]) > 200 else f"\nDESCRIPCIÓN: {lines[1] if len(lines) > 1 else 'N/A'}")
            print(f"\nNÚMERO TOTAL DE PÁRRAFOS: {len(lines)}")
            
        except Exception as e:
            print(f"Error leyendo {txt_file}: {e}")

# Ejecutar preview
print("Previsualizando estructura de archivos txt...")
preview_txt_files()

Previsualizando estructura de archivos txt...

ARCHIVO 1: 01_Encuentran_muertos_en_México_a_los_músicos_colombi.txt
TÍTULO: Encuentran muertos en México a los músicos colombianos B-King y DJ Regio Clown tras 6 días desaparec...

DESCRIPCIÓN (primeros 200 chars): Las autoridades confirmaron que los músicos colombianos Bayron Sánchez Salazar y Jorge Luis Herrera fueron encontrados muertos en el municipio de Cocotitlán, Estado México, a unos 50 km de la capital ...

NÚMERO TOTAL DE PÁRRAFOS: 31

ARCHIVO 2: 02_El_inédito_respaldo_que_el_gobierno_de_Trump_le_of.txt
TÍTULO: El inédito respaldo que el gobierno de Trump le ofrece a Milei en medio del deterioro de la economía...

DESCRIPCIÓN (primeros 200 chars): En un sorpresivo anuncio, el secretario del Tesoro de Estados Unidos, Scott Bessent, se comprometió este lunes a entregarle al presidente de Argentina, Javier Milei, la ayuda económica que necesite, d...

NÚMERO TOTAL DE PÁRRAFOS: 36

ARCHIVO 3: 03_Las_vecinas_que_consiguieron_que_su_p