# Análisis y Mejora de Detección de Links

Este notebook se centra en analizar y mejorar los métodos de detección de links de la clase `DescubrirSitios`, especialmente para filtrar links irrelevantes como categorías de WordPress, posts de autores, etc.

## 1. Cargar Datos de SITIOS_RELEVANTES

In [None]:
# Instalación de dependencias
# %pip install crawl4ai beautifulsoup4 


In [None]:
# Importaciones necesarias
import sys
import os
import re
import asyncio
import nest_asyncio
nest_asyncio.apply()
from urllib.parse import urlparse, urljoin
from bs4 import BeautifulSoup
from crawl4ai import AsyncWebCrawler

# Configurar policy para Windows/VSCode
if sys.platform == "win32":
    asyncio.set_event_loop_policy(asyncio.WindowsProactorEventLoopPolicy())

if sys.platform.startswith("win") and sys.version_info >= (3, 8):

            try:
                from asyncio import (
                    WindowsProactorEventLoopPolicy,
                    WindowsSelectorEventLoopPolicy,
                )
            except ImportError:
                pass
                # not affected
            else:
                if type(asyncio.get_event_loop_policy()) is WindowsProactorEventLoopPolicy:
                    # WindowsProactorEventLoopPolicy is not compatible with tornado 6
                    # fallback to the pre-3.8 default of Selector
                    asyncio.set_event_loop_policy(WindowsSelectorEventLoopPolicy())
                    print(f'do not change to Selector Event Loop')


# Agregar el directorio padre al path
sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath('.'))))

# Importar desde el módulo
from crawler.descubrimiento import DescubrirSitios, PATRONES_INTERES, DEPARTAMENTOS_CONOCIDOS, DOMINIO, URLS_BASE

# 1. Crear instancia de la clase:
descubridor = DescubrirSitios()

## 1. Análisis del Método Original

Primero vamos a examinar el método `extraer_links_relevantes` actual y probarlo con algunos ejemplos.

In [None]:
# Crear instancia para probar
descubridor = DescubrirSitios()

# Ver los patrones actuales
print("🎯 PATRONES DE INTERÉS ACTUALES:")
for i, patron in enumerate(PATRONES_INTERES, 1):
    print(f"  {i}. {patron}")

print("\n🏛️ DEPARTAMENTOS CONOCIDOS:")
for i, depto in enumerate(DEPARTAMENTOS_CONOCIDOS, 1):
    print(f"  {i}. {depto}")

print("\n🌐 DOMINIOS PERMITIDOS:")
for i, dominio in enumerate(DOMINIO, 1):
    print(f"  {i}. {dominio}")

In [None]:
async def procesar_url_simple(url):
    async with AsyncWebCrawler() as crawler:
        resultado = await descubridor.procesar_url(crawler, url)
        return resultado

In [None]:
url_ejemplo = "https://lcd.exactas.uba.ar/"

links = asyncio.run(procesar_url_simple(url_ejemplo))
print(links)