In [2]:
from bs4 import BeautifulSoup
import chardet
import os
import re
import unicodedata

def fix_mojibake(text: str) -> str:
    """
    Arregla casos típicos de UTF-8 mal leído como latin-1 (Ã³, Ã±, etc.).
    Si el texto ya está bien, lo deja igual.
    """
    try:
        return text.encode("latin-1").decode("utf-8")
    except UnicodeError:
        # Si no se puede "arreglar", lo dejamos como está
        return text

def html_to_text(file_path):
    # Leer SIEMPRE en binario
    with open(file_path, "rb") as f:
        raw = f.read()

    # Deja a BeautifulSoup detectar la codificación
    soup = BeautifulSoup(raw, "lxml")

    # Eliminar scripts, estilos, etc.
    for tag in soup(["script", "style", "noscript"]):
        tag.extract()

    # Obtener texto limpio
    text = soup.get_text(separator=" ")

    # Limpiar saltos / espacios
    lines = (line.strip() for line in text.splitlines())
    chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
    cleaned_text = "\n".join(chunk for chunk in chunks if chunk)

    # Intentar reparar mojibake por si algún archivo ya venía mal
    cleaned_text = fix_mojibake(cleaned_text)

    return cleaned_text

def normalize_text(text):
    text = text.lower()
    text = unicodedata.normalize('NFD', text)
    text = text.encode('ascii', 'ignore').decode("utf-8")
    text = re.sub(r'[^a-z0-9\s]', '', text)
    text = re.sub(r'\s+', '_', text.strip())
    return text

In [3]:
# Crear carpeta destino si no existe
os.makedirs("all_pages_clean", exist_ok=True)

#carpeta = "./all_pages/"
carpeta = "/home/juancho/aerrors"
for nombre in os.listdir(carpeta):
    if not nombre.endswith(".html"):
        continue
    else:
        ruta_original = os.path.join(carpeta, nombre)

        if not os.path.isfile(ruta_original):
            continue

        try:
            texto = html_to_text(ruta_original)
            salida = os.path.join("all_pages_clean", nombre[:-4] + "txt")

            with open(salida, "w", encoding="utf-8") as f:
                f.write(texto)

            print(f"✅ Procesado: {nombre}")

        except Exception as e:
            print(f"⚠️ Error en {nombre}: {e}")


✅ Procesado: 0484.html
✅ Procesado: 0041.html
✅ Procesado: 0425.html
✅ Procesado: 0487.html
✅ Procesado: 0375.html
✅ Procesado: 0313.html
✅ Procesado: 0069.html
✅ Procesado: 0292.html
✅ Procesado: 0485.html
✅ Procesado: 0402.html
✅ Procesado: 0228.html
✅ Procesado: 0336.html
✅ Procesado: 0505.html
✅ Procesado: 0172.html
✅ Procesado: 0225.html


In [6]:
print(plain_name)

controlar_la_corrupción_no_es_opcional
