# Documentaci√≥n de Analizadores

Este notebook contiene la documentaci√≥n y ejemplos de uso de todos los analizadores disponibles en el proyecto.

## √çndice

1. [Clasificaci√≥n de Roles para DataSources](#clasificacion-roles-datasources)
   - Introducci√≥n
   - Roles Disponibles
   - Funciones Principales
   - Ejemplos de Uso
   - Extensibilidad

---

*Nota: Este documento se extiende con la documentaci√≥n de nuevos analizadores a medida que se crean.*


## 1. Clasificaci√≥n de Roles para DataSources

### Introducci√≥n

Sistema flexible y extensible para clasificar las URLs principales de los objetos en `dataSources` y asignarles roles seg√∫n criterios configurables.

**M√≥dulos principales:**
- `role_classifier.py`: M√≥dulo de clasificaci√≥n que contiene los criterios para identificar cada tipo de role.
- `datasource_role_classifier.py`: Funciones para clasificar los dataSources y actualizar la base de datos.

### ¬øQu√© hace este analizador?

Este analizador:
- Clasifica la **URL principal** de cada objeto en `dataSources` (campo `url`)
- Asigna el `role` al objeto completo del dataSource
- **NO modifica** los links dentro de `dataSources[].links`
- Usa `datasource_role()` de `companies_querys.py` para actualizar la DB
- Si no se encuentra un role, **NO agrega** el campo `role` en la DB


### Roles Disponibles (Role_Kind_Companies_Model.txt V2)

El sistema puede clasificar URLs en los siguientes roles:

- **`official_site`**: Sitio oficial de la empresa
- **`official_social_profile`**: Perfil oficial de la empresa en redes sociales
- **`official_social_content`**: Contenido oficial en redes sociales
- **`social_profile`**: Perfiles en redes sociales NO oficiales
- **`social_content`**: Contenido en redes sociales NO oficial
- **`store_listing`**: Tiendas de aplicaciones (Play Store, App Store, etc.)
- **`regulator_profile`**: Ficha/registro de la empresa en un regulador
- **`regulator_reference`**: P√°ginas de regulaci√≥n gen√©rica
- **`news_site`**: Portales de noticias y medios
- **`third_party`**: P√°ginas de terceros que referencian a la empresa
- **`web_utilities`**: Recursos internos (im√°genes, rutas internas, videos)
- **`documents`**: URLs para descargar archivos (PDF, Word, etc.)
- **`unclassified`**: URLs que no pueden ser clasificadas en ninguna categor√≠a


### **Funciones Principales**

#### ‚öôÔ∏è Configuraci√≥n Notebook

Define el PATH para el correcto funcionamiento del notebook

In [None]:
# Se asume que el paquete 'src' esta instalado en el entorno (pip install -e .)
import sys
print(f"‚úÖ Python executable: {sys.executable}")


#### Importa modulos y funciones

In [None]:
# Importar las funciones necesarias
from src.analizers.datasource_role_classifier import (
    classify_company_datasources,
    classify_single_datasource,
    get_datasources_by_role,
    clear_all_company_roles,
    clear_single_datasource_role
)
from src.analizers.role_classifier import get_available_roles

print("‚úÖ M√≥dulos importados correctamente")

#### Define aqu√≠ las variables que se usar√°n en todos los ejemplos:

- `slug`: Slug de la compa√±√≠a a analizar
- `datasource_url`: URL de un dataSource espec√≠fico para ejemplos individuales

Puedes modificar estos valores seg√∫n necesites para tus pruebas.

In [None]:
# CONFIGURACI√ìN - Modifica estos valores seg√∫n tus necesidades

SLUG = "fraccional"  # Cambiar por el slug de tu compa√±√≠a
DATASOURCE_URL = "https://fraccional.cl"  # Cambiar por la URL que quieras clasificar

print("‚úÖ Configuraci√≥n cargada:")
print(f"   üìå Slug: {SLUG}")
print(f"   üîó DataSource URL: {DATASOURCE_URL}")


#### Roles Disponibles

Primero, veamos qu√© roles est√°n disponibles en el sistema:

In [None]:
# Obtener todos los roles disponibles
roles = get_available_roles()

print("Roles disponibles para clasificaci√≥n:")
print("=" * 50)
for role in sorted(roles):
    print(f"  ‚Ä¢ {role}")

print(f"\nTotal: {len(roles)} roles disponibles")


#### 1. `classify_company_datasources(slug, target_roles=None)`

Clasifica los roles de **todos los dataSources** de una compa√±√≠a.

**Par√°metros:**
- `slug` (str): Slug de la compa√±√≠a
- `target_roles` (List[str] | None): Lista de roles a buscar. Si es `None`, busca todos los roles disponibles.

**Retorna:** Dict con estad√≠sticas:
```python
{
    "processed": <int>,      # Total de dataSources procesados
    "classified": <int>,     # DataSources que recibieron un role
    "not_classified": <int>, # DataSources sin role
    "roles_found": {<role>: <count>}, # Contador por role
    "updated": <int>         # Cantidad de dataSources actualizados en la DB
}
```


Ejemplo 1: Clasificar todos los dataSources (todos los roles)

In [None]:
# Clasificar todos los roles disponibles
stats = classify_company_datasources(
    slug=SLUG,
    target_roles=None  # None = todos los roles
)

print("üìä Estad√≠sticas de clasificaci√≥n:")
print("=" * 50)
print(f"  DataSources procesados: {stats['processed']}")
print(f"  DataSources clasificados: {stats['classified']}")
print(f"  DataSources sin clasificar: {stats['not_classified']}")
print(f"  DataSources actualizados en DB: {stats['updated']}")
print(f"\n  Roles encontrados:")
for role, count in stats['roles_found'].items():
    print(f"    ‚Ä¢ {role}: {count}")


Ejemplo 2: Clasificar solo roles espec√≠ficos

Este ejemplo muestra c√≥mo clasificar solo ciertos roles espec√≠ficos. √ötil cuando solo te interesan ciertos tipos de dataSources.


In [None]:
# Solo buscar "official_site" y "official_social_profile"
stats = classify_company_datasources(
    slug=SLUG,
    target_roles=["official_site", "official_social_profile"]
)

print("üéØ Clasificaci√≥n de roles espec√≠ficos:")
print("=" * 50)
print(f"  Roles encontrados: {stats['roles_found']}")
print(f"  DataSources clasificados: {stats['classified']}")
print(f"  DataSources actualizados: {stats['updated']}")


#### 2. `classify_single_datasource(slug, datasource_url, target_roles=None)`

Clasifica el role de **un dataSource espec√≠fico**.

**Par√°metros:**
- `slug` (str): Slug de la compa√±√≠a
- `datasource_url` (str): URL del dataSource a clasificar
- `target_roles` (List[str] | None): Lista de roles a buscar. Si es `None`, busca todos.

**Retorna:** Dict con estad√≠sticas:
```python
{
    "processed": <int>,      # Siempre 1 si se encuentra
    "classified": <int>,     # 1 si se clasific√≥, 0 si no
    "not_classified": <int>, # 0 si se clasific√≥, 1 si no
    "role": <str|None>,      # Role encontrado o None
    "updated": <bool>        # Si se actualiz√≥ la DB
}
```

##### Ejemplo: Clasificar un dataSource espec√≠fico

In [None]:
stats = classify_single_datasource(
    slug=SLUG,
    datasource_url=DATASOURCE_URL,
    target_roles=["official_site"]  #None = Todos los roles
)

print("üîç Clasificaci√≥n de un dataSource:")
print("=" * 50)
print(f"  URL: {DATASOURCE_URL}")
print(f"  Role encontrado: {stats['role']}")
print(f"  Actualizado en DB: {stats['updated']}")
if stats.get('error'):
    print(f"  ‚ö†Ô∏è Error: {stats['error']}")


#### 3. `get_datasources_by_role(slug, role=None)`

Obtiene dataSources filtrados por role.

**Par√°metros:**
- `slug` (str): Slug de la compa√±√≠a
- `role` (str | None): Role a filtrar. Si es `None`, retorna todos.

**Retorna:** Lista de dicts con formato `[{"url": "...", "role": "..."}, ...]`

Ejemplo: Obtener dataSources filtrados por role

In [None]:
# Obtener solo dataSources con role "official_site"
official_datasources = get_datasources_by_role(
    slug=SLUG,
    role="official_site"
)

# Obtener todos los dataSources
all_datasources = get_datasources_by_role(slug=SLUG, role=None)
print(f"üìä Total de dataSources: {len(all_datasources)}")
print(f"üìã DataSources con role 'official_site': {len(official_datasources)}")
print("=" * 50)
for i, ds in enumerate(official_datasources, 1):  # Mostrar todos
    print(f"  {i}. {ds['url']} (role: {ds['role']})")


#### 4. `clear_all_company_roles(slug)`

Elimina todos los roles de todos los dataSources de una compa√±√≠a.
Deja la empresa como si nunca se hubiera procesado para identificar ning√∫n role.

**Par√°metros:**
- `slug` (str): Slug de la compa√±√≠a

**Retorna:** Dict con estad√≠sticas:
```python
{
    "processed": <int>,  # Total de dataSources procesados
    "cleared": <int>,     # DataSources que ten√≠an role y fueron limpiados
    "not_found": <int>,   # DataSources que no ten√≠an role
    "updated": <int>      # Cantidad de dataSources actualizados en la DB
}
```


##### Ejemplo: Limpiar todos los roles de una empresa

In [None]:
# Limpiar todos los roles de la compa√±√≠a
stats = clear_all_company_roles(slug=SLUG)

print("üßπ Estad√≠sticas de limpieza:")
print("=" * 50)
print(f"  DataSources procesados: {stats['processed']}")
print(f"  DataSources limpiados: {stats['cleared']}")
print(f"  DataSources sin role: {stats['not_found']}")
print(f"  DataSources actualizados en DB: {stats['updated']}")
if stats.get('error'):
    print(f"  ‚ö†Ô∏è Error: {stats['error']}")


#### 5. `clear_single_datasource_role(slug, datasource_url)`


Elimina el role de un dataSource espec√≠fico de una compa√±√≠a.
Limpia solo una URL, no todo el dataSource.

**Par√°metros:**
- `slug` (str): Slug de la compa√±√≠a
- `datasource_url` (str): URL del dataSource a limpiar

**Retorna:** Dict con estad√≠sticas:
```python
{
    "processed": <int>,  # Siempre 1 si se encuentra
    "cleared": <int>,     # 1 si ten√≠a role y fue limpiado, 0 si no
    "not_found": <int>,   # 0 si ten√≠a role, 1 si no ten√≠a
    "updated": <bool>     # Si se actualiz√≥ la DB
}
```


##### Ejemplo: Limpiar el role de un dataSource espec√≠fico


In [None]:
# Limpiar el role de un dataSource espec√≠fico
stats = clear_single_datasource_role(
    slug=SLUG,
    datasource_url=DATASOURCE_URL
)

print("üßπ Limpieza de un dataSource:")
print("=" * 50)
print(f"  URL: {DATASOURCE_URL}")
print(f"  Limpiado: {stats['cleared'] == 1}")
print(f"  Actualizado en DB: {stats['updated']}")
if stats.get('error'):
    print(f"  ‚ö†Ô∏è Error: {stats['error']}")


### Estructura de Datos

Antes de la clasificaci√≥n

Los dataSources pueden tener o no el campo `role`:

```json
{
  "dataSources": [
    {
      "url": "https://realblocks.com",
      "links": {...},
      "texts": {...}
    },
    {
      "url": "https://linkedin.com/company/realblocks",
      "links": {...},
      "texts": {...}
    }
  ]
}
```

Despu√©s de la clasificaci√≥n.

Los dataSources clasificados tienen el campo `role`:

```json
{
  "dataSources": [
    {
      "url": "https://realblocks.com",
      "role": "official_site",
      "links": {...},
      "texts": {...}
    },
    {
      "url": "https://linkedin.com/company/realblocks",
      "role": "official_social_profile",
      "links": {...},
      "texts": {...}
    }
  ]
}
```


### Comportamiento del Sistema

1. **Si no se encuentra un role**: El campo `role` **NO se agrega** al dataSource en la DB.
2. **Si se encuentra un role**: Se actualiza el campo `role` del dataSource usando `datasource_role()` de `companies_querys.py`.
3. **Si se especifican `target_roles`**: Solo se buscan esos roles espec√≠ficos. Los dataSources que no cumplan con esos roles no se modifican.
4. **Si `target_roles` es `None`**: Se eval√∫an todos los roles disponibles excepto "unclassified". "unclassified" solo se aplica si est√° expl√≠citamente en `target_roles`.


### Extensibilidad

El sistema es completamente extensible. Puedes agregar nuevos roles o modificar los existentes.

#### Agregar un nuevo role

In [None]:
from src.analizers.role_classifier import register_custom_classifier

def mi_nuevo_classificador(url: str, primary_domain: str) -> bool:
    """Define la l√≥gica para identificar el nuevo role."""
    # Tu l√≥gica aqu√≠
    return "mi-dominio.com" in url.lower()

# Registrar el clasificador
register_custom_classifier("mi_nuevo_role", mi_nuevo_classificador)

#### Modificar un clasificador existente

In [None]:
from src.analizers.role_classifier import _default_classifier, remove_classifier

# Eliminar un clasificador espec√≠fico
def old_classifier(url, domain):
    return False

remove_classifier("official_site", old_classifier)

# Agregar uno nuevo
def new_classifier(url, domain):
    # Nueva l√≥gica
    return True

_default_classifier.register_classifier("official_site", new_classifier)

In [None]:
# Ejemplo de extensibilidad: Agregar un clasificador personalizado
from src.analizers.role_classifier import register_custom_classifier

def ejemplo_classificador_personalizado(url: str, primary_domain: str) -> bool:
    """
    Ejemplo de clasificador personalizado.
    Este ejemplo identifica URLs que contienen 'ejemplo' en el dominio.
    """
    url_lower = url.lower()
    return "ejemplo" in url_lower

# Descomentar para registrar el clasificador
# register_custom_classifier("ejemplo_role", ejemplo_classificador_personalizado)
# print("‚úÖ Clasificador personalizado registrado")

print("üí° Para usar este ejemplo, descomenta las l√≠neas anteriores")


---
## 2. Pr√≥ximos Analizadores
*Esta secci√≥n se extender√° con la documentaci√≥n de nuevos analizadores a medida que se creen.*


### C√≥mo agregar un nuevo analizador a esta documentaci√≥n

1. Agregar una nueva secci√≥n numerada (ej: "## 2. Nombre del Analizador")
2. Incluir:
   - Introducci√≥n y prop√≥sito
   - Funciones principales con documentaci√≥n
   - Ejemplos de uso ejecutables
   - Estructura de datos si aplica
   - Notas de comportamiento

3. Actualizar el √≠ndice al inicio del notebook

---

*√öltima actualizaci√≥n: 2025-01-XX*