# üîß Recuperador de Archivos DOCX Corruptos

Este notebook te ayudar√° a intentar recuperar archivos DOCX que est√°n corruptos o da√±ados.

## üìù Instrucciones:
1. Ejecuta la primera celda para instalar las librer√≠as necesarias
2. Ejecuta la segunda celda con el c√≥digo de recuperaci√≥n
3. Sube tu archivo DOCX corrupto cuando se te pida
4. El script intentar√° recuperarlo usando varios m√©todos

In [None]:
# Celda 1: Instalaci√≥n de dependencias (si es necesario)
print("‚úÖ Librer√≠as est√°ndar de Python listas para usar")
print("No se requieren instalaciones adicionales\n")

In [None]:
# Celda 2: C√≥digo de recuperaci√≥n de DOCX

import zipfile
import os
import shutil
from pathlib import Path
import xml.etree.ElementTree as ET
from google.colab import files

def recover_corrupted_docx(input_file, output_file=None):
    """
    Intenta recuperar un archivo DOCX corrupto

    Args:
        input_file: Ruta al archivo DOCX corrupto
        output_file: Ruta para guardar el archivo recuperado (opcional)

    Returns:
        bool: True si la recuperaci√≥n fue exitosa
    """
    if output_file is None:
        base = os.path.splitext(input_file)[0]
        output_file = f"{base}_recovered.docx"

    temp_dir = "temp_docx_extraction"

    try:
        # M√©todo 1: Intentar reparar el ZIP corrupto
        print("M√©todo 1: Intentando reparar estructura ZIP...")
        if repair_zip_structure(input_file, output_file):
            print(f"‚úì Archivo recuperado exitosamente: {output_file}")
            return True

        # M√©todo 2: Extraer y reconstruir
        print("\nM√©todo 2: Extrayendo y reconstruyendo...")
        os.makedirs(temp_dir, exist_ok=True)

        # Intentar extraer con diferentes m√©todos
        extracted = False

        # Intento 1: Extracci√≥n normal
        try:
            with zipfile.ZipFile(input_file, 'r') as zip_ref:
                zip_ref.extractall(temp_dir)
            extracted = True
            print("‚úì Extracci√≥n exitosa")
        except zipfile.BadZipFile:
            print("‚úó Error en extracci√≥n normal, intentando modo permisivo...")

            # Intento 2: Extracci√≥n con allowZip64
            try:
                with zipfile.ZipFile(input_file, 'r', allowZip64=True) as zip_ref:
                    for item in zip_ref.namelist():
                        try:
                            zip_ref.extract(item, temp_dir)
                        except:
                            print(f"  - No se pudo extraer: {item}")
                extracted = True
                print("‚úì Extracci√≥n parcial exitosa")
            except Exception as e:
                print(f"‚úó Error en extracci√≥n: {e}")

        if extracted:
            # Limpiar y reparar XMLs
            print("\nReparando archivos XML...")
            fix_xml_files(temp_dir)

            # Recrear el DOCX
            print("\nReconstruyendo archivo DOCX...")
            create_docx_from_folder(temp_dir, output_file)
            print(f"‚úì Archivo reconstruido: {output_file}")
            return True

        # M√©todo 3: Extracci√≥n de texto plano
        print("\nM√©todo 3: Extrayendo solo el texto...")
        if extract_text_only(input_file, output_file):
            print(f"‚úì Texto extra√≠do y guardado: {output_file}")
            return True

        print("\n‚úó No se pudo recuperar el archivo")
        return False

    except Exception as e:
        print(f"‚úó Error durante la recuperaci√≥n: {e}")
        return False

    finally:
        # Limpiar archivos temporales
        if os.path.exists(temp_dir):
            shutil.rmtree(temp_dir)


def repair_zip_structure(input_file, output_file):
    """Intenta reparar la estructura ZIP del archivo"""
    try:
        # Leer el archivo binario
        with open(input_file, 'rb') as f:
            data = f.read()

        # Buscar el inicio del ZIP (PK signature)
        pk_start = data.find(b'PK\x03\x04')
        if pk_start == -1:
            return False

        # Si hay basura antes del inicio del ZIP, removerla
        if pk_start > 0:
            data = data[pk_start:]
            print(f"  - Removidos {pk_start} bytes de basura al inicio")

        # Buscar el final del ZIP
        pk_end = data.rfind(b'PK\x05\x06')
        if pk_end != -1:
            # Encontrar el final real del central directory
            end_data = data[pk_end:]
            if len(end_data) >= 22:  # Tama√±o m√≠nimo del End of Central Directory
                data = data[:pk_end + 22]

        # Guardar el archivo reparado
        with open(output_file, 'wb') as f:
            f.write(data)

        # Verificar si es un ZIP v√°lido ahora
        try:
            with zipfile.ZipFile(output_file, 'r') as zf:
                zf.testzip()
            return True
        except:
            os.remove(output_file)
            return False

    except Exception as e:
        print(f"  - Error en reparaci√≥n ZIP: {e}")
        return False


def fix_xml_files(directory):
    """Repara archivos XML corruptos"""
    xml_files = Path(directory).rglob('*.xml')

    for xml_file in xml_files:
        try:
            # Leer el contenido
            with open(xml_file, 'r', encoding='utf-8', errors='ignore') as f:
                content = f.read()

            # Intentar parsear
            try:
                ET.fromstring(content)
            except ET.ParseError:
                # Intentar reparar
                content = repair_xml_content(content)
                with open(xml_file, 'w', encoding='utf-8') as f:
                    f.write(content)
                print(f"  - Reparado: {xml_file.name}")
        except Exception as e:
            print(f"  - No se pudo reparar {xml_file.name}: {e}")


def repair_xml_content(content):
    """Intenta reparar contenido XML corrupto"""
    # Remover caracteres no v√°lidos
    content = ''.join(char for char in content if ord(char) >= 32 or char in '\n\r\t')

    # Asegurar que tiene declaraci√≥n XML
    if not content.strip().startswith('<?xml'):
        content = '<?xml version="1.0" encoding="UTF-8"?>\n' + content

    return content


def create_docx_from_folder(folder, output_file):
    """Crea un archivo DOCX desde una carpeta extra√≠da"""
    with zipfile.ZipFile(output_file, 'w', zipfile.ZIP_DEFLATED) as docx:
        for root, dirs, file_list in os.walk(folder):
            for file in file_list:
                file_path = os.path.join(root, file)
                arcname = os.path.relpath(file_path, folder)
                docx.write(file_path, arcname)


def extract_text_only(input_file, output_file):
    """Extrae solo el texto del DOCX corrupto"""
    try:
        with open(input_file, 'rb') as f:
            data = f.read()

        # Buscar contenido de texto en el binario
        text_parts = []

        # Buscar tags de texto XML comunes en DOCX
        patterns = [b'<w:t>', b'<w:t ']

        for pattern in patterns:
            start = 0
            while True:
                pos = data.find(pattern, start)
                if pos == -1:
                    break

                # Buscar el cierre del tag
                end_tag = data.find(b'</w:t>', pos)
                if end_tag != -1:
                    # Extraer el texto
                    text_start = data.find(b'>', pos) + 1
                    text = data[text_start:end_tag].decode('utf-8', errors='ignore')
                    if text.strip():
                        text_parts.append(text)

                start = pos + len(pattern)

        if text_parts:
            # Guardar como archivo de texto
            text_output = output_file.replace('.docx', '_recovered.txt')
            with open(text_output, 'w', encoding='utf-8') as f:
                f.write('\n'.join(text_parts))

            print(f"  - Texto extra√≠do: {len(text_parts)} fragmentos")
            print(f"  - Guardado en: {text_output}")
            return True

        return False

    except Exception as e:
        print(f"  - Error extrayendo texto: {e}")
        return False


# ==================== EJECUCI√ìN PRINCIPAL ====================

print("="*60)
print("üîß RECUPERADOR DE ARCHIVOS DOCX CORRUPTOS")
print("="*60)
print("\nüì§ Por favor, sube tu archivo DOCX corrupto...\n")

# Subir archivo
uploaded = files.upload()

if uploaded:
    filename = list(uploaded.keys())[0]
    print(f"\n‚úÖ Archivo recibido: {filename}")
    print(f"   Tama√±o: {len(uploaded[filename]) / 1024:.2f} KB")
    print("\n" + "="*60)
    print("üîß INICIANDO PROCESO DE RECUPERACI√ìN")
    print("="*60 + "\n")

    # Intentar recuperar
    success = recover_corrupted_docx(filename)

    print("\n" + "="*60)
    if success:
        print("‚úÖ PROCESO COMPLETADO EXITOSAMENTE")
        print("="*60)
        print("\nüì• Descargando archivos recuperados...\n")

        # Buscar archivos generados
        base_name = os.path.splitext(filename)[0]
        recovered_docx = f"{base_name}_recovered.docx"
        recovered_txt = f"{base_name}_recovered.txt"

        if os.path.exists(recovered_docx):
            files.download(recovered_docx)
            print(f"‚úì Descargado: {recovered_docx}")

        if os.path.exists(recovered_txt):
            files.download(recovered_txt)
            print(f"‚úì Descargado: {recovered_txt}")

    else:
        print("‚ö†Ô∏è NO SE PUDO RECUPERAR EL ARCHIVO")
        print("="*60)
        print("\nüí° Sugerencias:")
        print("  ‚Ä¢ El archivo podr√≠a estar muy da√±ado")
        print("  ‚Ä¢ Intenta con una versi√≥n diferente del archivo")
        print("  ‚Ä¢ Revisa si hay copias de respaldo")
        print("  ‚Ä¢ Considera usar herramientas de recuperaci√≥n profesionales")

else:
    print("\n‚ö†Ô∏è No se subi√≥ ning√∫n archivo")


## üìä M√©todos de Recuperaci√≥n

El script intenta 3 m√©todos diferentes:

1. **Reparaci√≥n de estructura ZIP**: Intenta reparar la estructura del archivo DOCX (que es un archivo ZIP)
2. **Extracci√≥n y reconstrucci√≥n**: Extrae el contenido y reconstruye el archivo
3. **Extracci√≥n de texto**: Como √∫ltimo recurso, extrae solo el texto plano

## üíæ Archivos Generados

- `archivo_recovered.docx`: Archivo DOCX recuperado
- `archivo_recovered.txt`: Texto extra√≠do (si no se pudo recuperar el DOCX completo)

## ‚ö†Ô∏è Notas Importantes

- No todos los archivos corruptos pueden recuperarse
- El formato podr√≠a perderse parcialmente
- Siempre mant√©n copias de respaldo de tus archivos importantes