In [1]:
def clean_text_advanced(text):
    """
    Limpia y normaliza el texto eliminando frases espec√≠ficas de formato
    """
    if not text or pd.isna(text):
        return ""

    # Convertir a string
    text = str(text).strip()

    # Lista de frases/patrones a eliminar (espec√≠ficos de tus documentos)
    phrases_to_remove = [
        r'Fundamental el nombre preciso',
        r'Slogan',
        r'hasta \d+ renglones? aprox\.?',
        r'hasta \d+ renglones?',
        r'aprox\.?',
        r'm√°ximo \d+ renglones?',
        r'm√≠nimo \d+ renglones?',
        r'\d+ renglones? como m√°ximo',
        r'\d+ renglones? como m√≠nimo',
        r'completar con.*?informaci√≥n',
        r'llenar con.*?datos',
        r'incluir.*?informaci√≥n.*?relevante',
        r'agregar.*?detalles',
        r'especificar.*?datos',
        r'indicar.*?informaci√≥n',
        r'colocar.*?datos',
        r'escribir.*?informaci√≥n',
        r'formato.*?requerido',
        r'campo.*?obligatorio',
        r'secci√≥n.*?completar',
        r'ejemplo:.*?$',
        r'ej:.*?$',
        r'nota:.*?$',
        r'observaci√≥n:.*?$',
        r'aclaraci√≥n:.*?$'
    ]

    # Eliminar frases espec√≠ficas
    for pattern in phrases_to_remove:
        text = re.sub(pattern, '', text, flags=re.IGNORECASE | re.MULTILINE)

    # Eliminar patrones comunes de formato
    format_patterns = [
        r'\*+',  # Asteriscos m√∫ltiples
        r'_{2,}',  # Guiones bajos m√∫ltiples
        r'-{2,}',  # Guiones m√∫ltiples
        r'={2,}',  # Signos igual m√∫ltiples
        r'\s*\([^)]*rengl√≥n[^)]*\)',  # Texto entre par√©ntesis que mencione "rengl√≥n"
        r'\s*\[[^\]]*rengl√≥n[^\]]*\]',  # Texto entre corchetes que mencione "rengl√≥n"
        r'^\s*[\d\.]+\s*$',  # L√≠neas que solo contengan n√∫meros
        r'^\s*[IVX]+\.\s*$',  # Numeraci√≥n romana
        r'^\s*[a-z]\)\s*$',  # Letras con par√©ntesis (a), b), etc.)
        r'\s*\.\.\.\s*',  # Puntos suspensivos
        r'(?:campo|secci√≥n|apartado)\s*\d+',  # Referencias a campos numerados
        r'ver\s+(?:anexo|ejemplo|modelo)',  # Referencias a anexos/ejemplos
    ]

    for pattern in format_patterns:
        text = re.sub(pattern, '', text, flags=re.IGNORECASE | re.MULTILINE)

    # Limpiezas generales
    text = re.sub(r'\s+', ' ', text)  # M√∫ltiples espacios a uno solo
    text = re.sub(r'\n+', ' ', text)  # M√∫ltiples saltos de l√≠nea a espacio
    text = re.sub(r'[^\w\s\-.,;:()√°√©√≠√≥√∫√º√±√Å√â√ç√ì√ö√ú√ë¬ø¬°]', '', text)  # Caracteres especiales

    # Eliminar espacios al inicio y final
    text = text.strip()

    # Si despu√©s de limpiar queda muy poco texto, devolver vac√≠o
    if len(text) < 3:
        return ""

    return text

def add_custom_cleanup_phrases(additional_phrases):
    """
    Funci√≥n para agregar m√°s frases espec√≠ficas que encuentres en tus documentos
    """
    global custom_cleanup_phrases
    custom_cleanup_phrases = additional_phrases

    print(f"‚úÖ Agregadas {len(additional_phrases)} frases adicionales para limpieza:")
    for phrase in additional_phrases:
        print(f"   - {phrase}")

def clean_dataframe(df):
    """
    Aplica la limpieza avanzada a todo el DataFrame
    """
    print("üßπ Aplicando limpieza avanzada...")

    # Campos de texto para limpiar (excluir campos t√©cnicos)
    text_fields = [col for col in df.columns
                   if col not in ['archivo_fuente']]

    # Aplicar limpieza a cada campo
    for field in text_fields:
        if field in df.columns:
            print(f"   Limpiando campo: {field}")
            df[field] = df[field].apply(clean_text_advanced)

    print("‚úÖ Limpieza completada")
    return df

def compare_before_after(df_original, df_cleaned, field='mision', sample_size=3):
    """
    Compara los datos antes y despu√©s de la limpieza
    """
    print(f"üîç COMPARACI√ìN ANTES/DESPU√âS - Campo: {field}")
    print("=" * 80)

    for i in range(min(sample_size, len(df_original))):
        if pd.notna(df_original.iloc[i][field]) and df_original.iloc[i][field] != '':
            print(f"\nüìÑ EJEMPLO {i+1}:")
            print(f"ANTES: {df_original.iloc[i][field][:200]}...")
            print(f"DESPU√âS: {df_cleaned.iloc[i][field][:200]}...")
            print("-" * 40)

# FUNCI√ìN PARA REEMPLAZAR EN TU SCRIPT ORIGINAL
def parse_ong_document_improved(text):
    """
    Versi√≥n mejorada de parse_ong_document con limpieza avanzada
    """
    # Primero aplicar limpieza avanzada al texto completo
    cleaned_text = clean_text_advanced(text)

    ong_data = {
        'nombre': '',
        'mensaje_descriptivo': '',
        'presentacion': '',
        'quienes_son': '',
        'mision': '',
        'vision': '',
        'servicios': '',
        'poblacion_beneficiaria': '',
        'que_ofrece': '',
        'periodicidad': '',
        'horarios': '',
        'condiciones_acceso': '',
        'categoria': '',
        'ubicacion': '',
        'contacto': '',
        'encargado': '',
        'texto_completo': cleaned_text
    }

    # Patrones para identificar secciones (igual que antes)
    patterns = {
        'nombre': [r'nombre.*?:?\s*(.+?)(?:\n|$)', r'^(.+?)(?:\n|mensaje|presentaci)', r'ONG\s*:?\s*(.+?)(?:\n|$)'],
        'mensaje_descriptivo': [r'mensaje\s*descriptivo.*?:?\s*(.+?)(?:\n\n|\npresentaci)', r'descripci[o√≥]n.*?:?\s*(.+?)(?:\n\n|\nquienes)'],
        'presentacion': [r'presentaci[o√≥]n.*?:?\s*(.+?)(?:\n\n|\nquienes|\nmisi)', r'presentaci[o√≥]n\s*de\s*la\s*ong.*?:?\s*(.+?)(?:\n\n|\nquienes)'],
        'quienes_son': [r'qui[e√©]nes?\s*son.*?:?\s*(.+?)(?:\n\n|\nmisi|\nvisi)', r'quienes\s*somos.*?:?\s*(.+?)(?:\n\n|\nmisi)'],
        'mision': [r'misi[o√≥]n.*?:?\s*(.+?)(?:\n\n|\nvisi|\nservici)', r'nuestra\s*misi[o√≥]n.*?:?\s*(.+?)(?:\n\n|\nvisi)'],
        'vision': [r'visi[o√≥]n.*?:?\s*(.+?)(?:\n\n|\nservici|\npoblaci)', r'nuestra\s*visi[o√≥]n.*?:?\s*(.+?)(?:\n\n|\nservici)'],
        'servicios': [r'servici.*?:?\s*(.+?)(?:\n\n|\npoblaci|\nque\s*ofrece)', r'descripci[o√≥]n.*?servici.*?:?\s*(.+?)(?:\n\n|\npoblaci)'],
        'poblacion_beneficiaria': [r'poblaci[o√≥]n\s*beneficiari.*?:?\s*(.+?)(?:\n\n|\nque\s*ofrece|\nperiodicidad)', r'beneficiari.*?:?\s*(.+?)(?:\n\n|\nque\s*ofrece)'],
        'que_ofrece': [r'qu[e√©]\s*ofrece.*?:?\s*(.+?)(?:\n\n|\nperiodicidad|\nhorari)', r'ofrecemos.*?:?\s*(.+?)(?:\n\n|\nperiodicidad)'],
        'periodicidad': [r'periodicidad.*?:?\s*(.+?)(?:\n\n|\nhorari|\ncondici)', r'frecuencia.*?:?\s*(.+?)(?:\n\n|\nhorari)'],
        'horarios': [r'horari.*?:?\s*(.+?)(?:\n\n|\ncondici|\ncategor)', r'horarios?\s*de\s*atenci[o√≥]n.*?:?\s*(.+?)(?:\n\n|\ncondici)'],
        'condiciones_acceso': [r'condici.*?acceso.*?:?\s*(.+?)(?:\n\n|\ncategor|\nubicaci)', r'requisitos.*?:?\s*(.+?)(?:\n\n|\ncategor)'],
        'categoria': [r'categor[i√≠]a.*?:?\s*(.+?)(?:\n\n|\nubicaci|\ncontact)', r'tipo.*?:?\s*(.+?)(?:\n\n|\nubicaci)'],
        'ubicacion': [r'ubicaci[o√≥]n.*?:?\s*(.+?)(?:\n\n|\ncontact|\nencargad)', r'direcci[o√≥]n.*?:?\s*(.+?)(?:\n\n|\ncontact)'],
        'contacto': [r'contact.*?:?\s*(.+?)(?:\n\n|\nencargad|$)', r'tel[e√©]fono.*?:?\s*(.+?)(?:\n\n|\nencargad)'],
        'encargado': [r'encargad.*?:?\s*(.+?)(?:\n\n|$)', r'responsable.*?:?\s*(.+?)(?:\n\n|$)']
    }

    # Normalizar texto para b√∫squeda
    text_lower = cleaned_text.lower()

    # Extraer informaci√≥n usando patrones
    for field, field_patterns in patterns.items():
        for pattern in field_patterns:
            match = re.search(pattern, text_lower, re.DOTALL | re.IGNORECASE)
            if match:
                extracted = match.group(1).strip()
                if extracted and len(extracted) > 2:
                    # Aplicar limpieza adicional al texto extra√≠do
                    clean_extracted = clean_text_advanced(extracted)
                    if clean_extracted:  # Solo si queda algo despu√©s de limpiar
                        ong_data[field] = clean_extracted[:500]  # Limitar longitud
                        break

    return ong_data

# INSTRUCCIONES DE USO
print("""
üßπ LIMPIEZA AVANZADA DE DATOS

Para usar estas funciones mejoradas:

1. Si ya tienes un DataFrame procesado:
   df_cleaned = clean_dataframe(df_original.copy())

2. Para comparar antes/despu√©s:
   compare_before_after(df_original, df_cleaned, field='mision')

3. Para agregar m√°s frases espec√≠ficas:
   frases_adicionales = ['otra frase a eliminar', 'm√°s texto innecesario']
   add_custom_cleanup_phrases(frases_adicionales)

4. Para reprocesar desde cero con limpieza mejorada:
   Reemplaza parse_ong_document() por parse_ong_document_improved()
   en tu script original

¬°Esto deber√≠a eliminar todas esas frases de formato! üéâ
""")


üßπ LIMPIEZA AVANZADA DE DATOS

Para usar estas funciones mejoradas:

1. Si ya tienes un DataFrame procesado:
   df_cleaned = clean_dataframe(df_original.copy())

2. Para comparar antes/despu√©s:
   compare_before_after(df_original, df_cleaned, field='mision')

3. Para agregar m√°s frases espec√≠ficas:
   frases_adicionales = ['otra frase a eliminar', 'm√°s texto innecesario']
   add_custom_cleanup_phrases(frases_adicionales)

4. Para reprocesar desde cero con limpieza mejorada:
   Reemplaza parse_ong_document() por parse_ong_document_improved()
   en tu script original

¬°Esto deber√≠a eliminar todas esas frases de formato! üéâ

