# Documentaci√≥n de Scrapers

Este notebook contiene la documentaci√≥n y ejemplos de uso de los componentes de scraping y construcci√≥n de modelos de datos disponibles en la carpeta `src/scrapers`.

## √çndice

1. [Scraping de P√°ginas (Deep Scraper)](#scraping-de-paginas)
   - Scraping de una sola p√°gina (`page_scraper`)
   - Crawling recursivo (`page_deep_scraper`)
2. [Construcci√≥n de Modelos (Model Builder)](#construccion-de-modelos)
   - Identidad de la compa√±√≠a (`data_to_identity`)
   - Generaci√≥n del modelo completo (`from_url_model`)
3. [Utilidades de Extracci√≥n](#utilidades-de-extraccion)
   - Overview de m√≥dulos de utilidad

4. [Scraping de Perfiles Externos](#scraping-de-perfiles-externos)
   - Extracci√≥n de TheCrowdSpace (`thecrowdspace_profile_scraper`)
5. [Scrapers Espec√≠ficos](#scrapers-especificos)
   - Extracci√≥n de Favicon (`get_favicon_url`)
---

*Nota: Este documento debe actualizarse a medida que se agreguen nuevas funcionalidades al m√≥dulo de scrapers.*

## ‚öôÔ∏è Configuraci√≥n Notebook
Define el PATH para el correcto funcionamiento del notebook y la importaci√≥n de m√≥dulos.

In [None]:
# Se asume que el paquete 'src' esta instalado en el entorno (pip install -e .)
import sys
print(f"‚úÖ Python executable: {sys.executable}")


---
## 1. Scraping de P√°ginas (Deep Scraper) <a name="scraping-de-paginas"></a>

El m√≥dulo `page_deep_scraper.py` se encarga de la extracci√≥n de contenido web. Funciona en dos niveles:
1. **Nivel P√°gina**: Extrae links y textos de una URL espec√≠fica, segmentando por `head`, `header`, `main` y `footer`.
2. **Nivel Sitio (Crawler)**: Navega recursivamente por un dominio (BFS) para mapear su estructura.

In [None]:
# Importar funciones de scraping
from src.scrapers.page_deep_scraper import page_scraper, page_deep_scraper
import json

# Funci√≥n auxiliar para imprimir JSON bonito
def print_json(data):
    print(json.dumps(data, indent=2, ensure_ascii=False))

### `page_scraper(url_base)`

Extrae contenido de **una sola URL**.

**Retorna:** Un objeto de p√°gina con:
- `page`: La URL procesada.
- `links`: Diccionario con listas de URLs encontradas en `head`, `header`, `main`, `footer`.
- `texts`: Diccionario con listas de textos encontrados en las mismas secciones.

In [None]:
# Ejemplo: Scrapear una sola p√°gina
TEST_URL = "https://fraccional.cl"

try:
    page_data = await page_scraper(TEST_URL)
    
    print(f"‚úÖ P√°gina scrapeada: {page_data['page']}")
    print("\nSecciones con links:")
    for section, links in page_data['links'].items():
        print(f"  - {section}: {len(links)} links")
        
    print("\nSecciones con textos:")
    for section, texts in page_data['texts'].items():
        print(f"  - {section}: {len(texts)} textos")
        
except Exception as e:
    print(f"‚ùå Error: {e}")

### `page_deep_scraper(url_base, max_pages=100)`

Realiza un **crawl recursivo** (Breadth-First Search) comenzando desde `url_base`.

**Caracter√≠sticas:**
- Respeta el **dominio ra√≠z** (no sale del sitio).
- Detecta y evita ciclos (visita cada URL una sola vez).
- Limita la cantidad de p√°ginas visitadas con `max_pages`.
- Captura errores por p√°gina sin detener el proceso global.

**Retorna:** Un objeto resumen con:
- `rootDomain`: El dominio base.
- `pagesScraped`: Cantidad total de p√°ginas procesadas.
- `allInternalLinks`: Todos los links internos √∫nicos encontrados.
- `pages`: Diccionario con el detalle de cada p√°gina (resultado de `page_scraper`).

In [None]:
# Ejemplo: Deep Scraper (limitado a 3 p√°ginas para demo)
try:
    deep_data = await page_deep_scraper(TEST_URL, max_pages=50)
    
    print(f"üåé Root Domain: {deep_data['rootDomain']}")
    print(f"üìÑ P√°ginas scrapeadas: {deep_data['pagesScraped']}")
    print(f"üîó Total links internos √∫nicos: {len(deep_data['allInternalLinks'])}")
    print("\nURLs visitadas:")
    for url in deep_data['pages'].keys():
        print(f"  - {url}")
        
except Exception as e:
    print(f"‚ùå Error: {e}")

---
## 2. Construcci√≥n de Modelos (Model Builder) <a name="construccion-de-modelos"></a>

El m√≥dulo `model_builder.py` transforma la data "cruda" del scraper en un modelo estructurado (Company Model) listo para ser almacenado en la base de datos.

In [None]:
from src.scrapers.model_builder import data_to_identity, from_url_model, page_deep_scraped_to_dataSources

### `data_to_identity(url, name, slug, primary_domain)`

Normaliza y genera la identidad b√°sica de una compa√±√≠a (slug, name, primary_domain).

**Reglas:**
- `primaryDomain`: Se normaliza usando `tldextract` y se limpia de `www.`.
- `slug`: Se genera a partir del dominio si no se provee. Se reemplazan espacios por guiones.
- `name`: Se genera a partir del slug si no se provee (Capitalizado).

In [None]:
identity = data_to_identity(
    url="https://www.ejemplo.negocio.com/inicio",
    name=None, # Auto-generar
    slug=None  # Auto-generar
)

print("üÜî Identidad Generada:")
print_json(identity)

### `from_url_model(url, name, slug, primary_domain)`

Es la funci√≥n de alto nivel que orquesta todo el proceso:
1. Genera la identidad.
2. Ejecuta `page_deep_scraper`.
3. Convierte el resultado en una lista de `dataSources` estandarizada.
4. Retorna el objeto completo de la compa√±√≠a.

**Estructura del Output:**
```json
{
  "slug": "...",
  "name": "...",
  "primaryDomain": "...",
  "dataSources": [
     { "url": "...", "links": {...}, "texts": {...} },
     ...
  ]
}
```

In [None]:
# Ejemplo: Crear modelo completo desde una URL (con l√≠mite para demo)
# Nota: from_url_model llama a page_deep_scraper internamente.
# Para este ejemplo, simularemos una llamada r√°pida.

print("üöÄ Iniciando construcci√≥n del modelo (esto puede tardar unos segundos)...")

try:
    company_model = await from_url_model(url=TEST_URL)
    
    print("‚úÖ Modelo construido exitosamente:")
    print(f"  Nombre: {company_model['name']}")
    print(f"  Slug: {company_model['slug']}")
    print(f"  DataSources: {len(company_model['dataSources'])}")
    
    # Ver un dataSource de ejemplo
    if company_model['dataSources']:
        print("\nEjemplo de DataSource[0]:")
        first_ds = company_model['dataSources'][0]
        print(f"  URL: {first_ds['url']}")
        print(f"  Links Head: {len(first_ds.get('links', {}).get('head', []))}")

except Exception as e:
    print(f"‚ùå Error: {e}")

---
## 3. Utilidades de Extracci√≥n <a name="utilidades-de-extraccion"></a>

La carpeta `src/scrapers/utils` contiene herramientas de bajo nivel usadas por los scrapers. Estas pueden ser usadas independientemente para tareas espec√≠ficas o debugging.

### Componentes Principales:

- **`requestHTTP.py`**: Manejo de peticiones HTTP con `aiohttp` y `playwright` (en el futuro).
- **`html_spliter...py`**: Divide el HTML crudo en secciones sem√°nticas (`head`, `header`, `main`, `footer`).
- **`urls_extractor...py`**: Extrae todas las URLs crudas de un string HTML.
- **`urls_utilities_cleaner.py`**: Limpia URLs (quita espacios, caracteres inv√°lidos).
- **`text_extractor...py`**: Extrae texto visible limpio del HTML.


In [None]:
# Ejemplo: Uso directo de utilidades para debug
from src.scrapers.utils.requestHTTP import fetch_html
from src.scrapers.utils.html_spliter_head_header_main_footer import html_spliter_head_header_main_footer

try:
    # 1. Fetch HTML manual
    raw_html = await fetch_html(TEST_URL)
    print(f"HTML descargado: {len(raw_html)} caracteres")
    
    # 2. Split HTML
    sections = html_spliter_head_header_main_footer(raw_html)
    print("Tama√±o de secciones:")
    for sec, content in sections.items():
        print(f"  {sec}: {len(content)} caracteres")
        
except Exception as e:
    print(f"Error: {e}")

---
## 4. Scraping de Perfiles Externos <a name="scraping-de-perfiles-externos"></a>

Este m√≥dulo permite la extracci√≥n de informaci√≥n detallada desde perfiles de terceros, espec√≠ficamente de **TheCrowdSpace**.

In [None]:
from src.scrapers.thecrowdspace_profile_scraper import thecrowdspace_profile_scraper

### `thecrowdspace_profile_scraper(url, html_content=None)`

Extrae estructuradamente data de un perfil p√∫blico de TheCrowdSpace.

**Argumentos:**
- `url`: URL del perfil.
- `html_content`: (Opcional) HTML crudo si ya fue descargado previamente.

**Retorna:** Un diccionario completo que coincide directamente con el campo `theCrowdSpace` del modelo de las compa√±√≠as, con secciones:
- `hero`: Logo, verificaci√≥n, industrias.
- `content`: Tarjetas superiores y descripciones largas.
- `sidebar`: Estad√≠sticas, regi√≥n operativa, links sociales, estado, etc.
- `p2p`: Scores y an√°lisis de riesgos.
- `team`: Lista de miembros y cargos.

In [None]:
# Ejemplo: Scrapear un perfil de TheCrowdSpace
CROWDSPACE_URL = "https://thecrowdspace.com/platform/bergfurst"

try:
    print(f"üïµÔ∏è‚Äç‚ôÄÔ∏è Scrapeando: {CROWDSPACE_URL} ...")
    # Nota: Si devuelve vac√≠o puede ser por bloqueo de bot o URL inv√°lida.
    # Se recomienda usar headers reales o un proxy en producci√≥n.
    profile_data = thecrowdspace_profile_scraper(CROWDSPACE_URL)
    
    if profile_data:
        print("‚úÖ Data extra√≠da exitosamente!")
        
        print(f"\nüè¢ Nombre/Web detectada para: {profile_data.get('theCrowdSpaceUrl')}")
        
        if 'hero' in profile_data:
             print(f"  Industrias: {profile_data['hero'].get('industries')}")
             
        if 'sidebar' in profile_data:
             sb = profile_data['sidebar']
             print(f"  Website: {sb.get('websiteUrl')}")
             print(f"  Status: {sb.get('status')}")
             if 'operatesIn' in sb:
                 print(f"  Operates In: {sb['operatesIn'].get('countries')}")
        
        if 'team' in profile_data:
             print(f"  Team Members: {len(profile_data['team'])}")
             
    else:
        print("‚ö†Ô∏è No se pudo extraer informaci√≥n o el perfil est√° vac√≠o.")
        
except Exception as e:
    print(f"‚ùå Error: {e}")

---
## 5. Scrapers Espec√≠ficos <a name="scrapers-especificos"></a>

Scrapers dise√±ados para tareas puntuales de extracci√≥n de recursos.

In [None]:
from src.scrapers.favicon_scraper import get_favicon_url

### `get_favicon_url(url)`

Busca y valida el favicon de una URL dada. Implementa heur√≠sticas robustas:
1. Busca tags `<link rel="icon" ...>` en el HTML.
2. Manejo de rutas relativas y absolutas.
3. Fallback a `/favicon.ico` en la ra√≠z del dominio.
4. Validaci√≥n final por status HTTP 200.

**Retorna:** String con la URL absoluta del favicon o lanza Exception si falla.

In [None]:
# Ejemplo: Obtener favicon
TARGET_URL = "https://google.com"

try:
    favicon = get_favicon_url(TARGET_URL)
    print(f"‚úÖ Favicon encontrado: {favicon}")
except Exception as e:
    print(f"‚ùå Error: {e}")

---
## Extensibilidad

Para agregar nuevos scrapers o funcionalidades:

1. **Nuevos Parsers**: Agregarlos en `src/scrapers/utils/` si son utilidades gen√©ricas de limpieza o extracci√≥n.
2. **L√≥gica de Scraping**: Modificar `src/scrapers/page_deep_scraper.py` para mejorar la navegaci√≥n o la extracci√≥n de datos espec√≠fica.
3. **Modelado**: Actualizar `src/scrapers/model_builder.py` si cambia la estructura de la base de datos (DataSources).

Consulte `src/scrapers/estructura_recomendada.txt` para ver la estructura modular planificada para el futuro.