# Introducci√≥n

Este proyecto utiliza la **API-FOOTBALL v3**, una API REST con informaci√≥n actualizada e hist√≥rica de m√°s de **1100 ligas y copas** (resultados, alineaciones, eventos, clasificaciones y estad√≠sticas).  
El acceso se realiza mediante solicitudes **HTTP autenticadas con API key**, con filtros por **fecha, liga, equipo o temporada**.

En este notebook se documenta y ejecuta el **pipeline ETL orquestado con Prefect**, cuya l√≥gica reside en `scripts/etl_fixtures.py`.  
Se muestra el **setup**, la **ejecuci√≥n del flow**, y c√≥mo **servir y monitorear** el flujo desde **Prefect Cloud**.

El pipeline persiste datos en un **Data Lake estructurado en capas Delta Lake** (**Bronze ‚Üí Silver ‚Üí Gold**) y genera **exportables en CSV y Parquet**.

Adem√°s, el flujo puede ejecutarse:
- üß© **Manualmente** desde este notebook, para validaciones o cargas controladas.  
- üîÅ **Autom√°ticamente**, programado una vez al d√≠a mediante Prefect (cron diario a las 06:00 UTC).


## 1. Configuraci√≥n de entorno y rutas


In [6]:
# Este bloque asegura que exista la estructura m√≠nima del datalake
# al correr el flujo desde el notebook (modo demo/documentaci√≥n).
# Nota: en el script etl_fixtures.py las rutas se definen de nuevo
# para la ejecuci√≥n real por CLI / Prefect.

import os

DATALAKE_ROOT = "data/etl_datalake"
BRONZE_FIXTURES = f"{DATALAKE_ROOT}/bronze/api_football/fixtures"
SILVER_FIXTURES = f"{DATALAKE_ROOT}/silver/api_football/fixtures"
GOLD_FIXTURES   = f"{DATALAKE_ROOT}/gold/api_football/fixtures"
EXPORTS_DIR     = f"{DATALAKE_ROOT}/exports"

for p in [BRONZE_FIXTURES, SILVER_FIXTURES, GOLD_FIXTURES, EXPORTS_DIR, "scripts"]:
    os.makedirs(p, exist_ok=True)

print("Estructura base creada/validada ‚úÖ")

Estructura base creada/validada ‚úÖ


## 2. Credenciales y configuraci√≥n


In [7]:
# Se lee la configuraci√≥n desde pipeline.conf
# Contiene dos secciones:
# [api-credentials] -> API-Football
# [prefect]         -> Prefect Cloud

from configparser import ConfigParser

parser = ConfigParser()
parser.read("pipeline.conf")

# --- API-Football ---
BASE_URL = parser["api-credentials"]["base_url"]
API_KEY  = parser["api-credentials"]["api_key"]

print("Config OK ‚úÖ")
print("BASE_URL:", BASE_URL)
print("API_KEY:  (oculto) ****")

Config OK ‚úÖ
BASE_URL: https://v3.football.api-sports.io
API_KEY:  (oculto) ****


## 3. Prefect: conexi√≥n y conceptos

Prefect permite **orquestar** un pipeline en pasos claros:

- **Flow** ‚Üí el contenedor principal del proceso ETL.  
- **Task** ‚Üí cada paso at√≥mico dentro del flow (ej. extracci√≥n, transformaci√≥n, carga).  
- **Serve / Deploy** ‚Üí maneras de ejecutar y programar flows:  
  - *Serve*: correrlo como servicio local (√∫til en desarrollo).  
  - *Deploy*: registrarlo en Prefect Cloud para programarlo y monitorearlo.  

El login en Prefect Cloud se realiza *una sola vez desde la terminal*.
Aqu√≠ solo se muestra de manera ilustrativa.


In [8]:
# Prefect requiere login en Cloud, pero este paso se hace normalmente
# desde la terminal (una √∫nica vez por entorno).
# Aqu√≠ solo mostramos c√≥mo se lee la API Key desde pipeline.conf.

prefect_credentials = parser["prefect"]
prefect_api_key = prefect_credentials["api_key"]

print("Prefect API Key cargada (oculta) ****")

# Login en Prefect Cloud (solo a modo ilustrativo; en pr√°ctica se hace una vez desde la terminal)
# !prefect cloud login -k {prefect_api_key}

Prefect API Key cargada (oculta) ****


In [9]:
import prefect
print("Prefect versi√≥n:", prefect.__version__)

Prefect versi√≥n: 2.20.9


## 4. Uso del flujo desde `scripts/etl_fixtures.py`

El flujo ETL est√° definido en `scripts/etl_fixtures.py`.  
En este notebook es posible:

- **4.1 Opci√≥n A ‚Äî Corrida √∫nica (demo one-off):** ejecuta el flow una sola vez para validar la orquestaci√≥n.  
- **4.2 Opci√≥n B ‚Äî Servir el flow (opcional):** mantiene el flow activo como servicio local.


### 4.1 Opci√≥n A ‚Äî Ejecutar una corrida orquestada (demo one-off)


In [10]:
import importlib

# Importa el script de orquestaci√≥n
etl = importlib.import_module("scripts.etl_fixtures")

# Ejecuta el flujo ETL de forma local (modo recomendado dentro del Notebook)
etl.etl_parametrizable(endpoints=["fixtures"])

# Nota:
# El mismo flujo tambi√©n puede ejecutarse desde la terminal:
#     python scripts/etl_fixtures.py
# o dentro del Notebook:
#     !python scripts/etl_fixtures.py
# Todas estas opciones llaman al mismo flow definido en scripts/etl_fixtures.py.

Datos de fixtures guardados en Bronze (2025-11-15T09:29)


[Completed(message=None, type=COMPLETED, result=UnpersistedResult(type='unpersisted', artifact_type='result', artifact_description='Unpersisted result of type `list`')),
 Completed(message=None, type=COMPLETED, result=UnpersistedResult(type='unpersisted', artifact_type='result', artifact_description='Unpersisted result of type `DataFrame`')),
 Completed(message=None, type=COMPLETED, result=UnpersistedResult(type='unpersisted', artifact_type='result', artifact_description='Unpersisted result of type `NoneType`')),
 Completed(message=None, type=COMPLETED, result=UnpersistedResult(type='unpersisted', artifact_type='result', artifact_description='Unpersisted result of type `DataFrame`')),
 Completed(message=None, type=COMPLETED, result=UnpersistedResult(type='unpersisted', artifact_type='result', artifact_description='Unpersisted result of type `DataFrame`'))]

### 4.2 Opci√≥n B ‚Äî Servir el flow como agente local (opcional)

Esta modalidad permite dejar el flujo **en ejecuci√≥n continua** y gestionarlo desde **Prefect Cloud** (ejecuciones, logs y programaci√≥n).  
‚ö†Ô∏è Al activarla, la celda quedar√° ocupada hasta que la detengas manualmente desde tu entorno (*Interrupt/Stop* del notebook).  
Por defecto, se mantiene **comentada** para evitar que se ejecute autom√°ticamente.  
En caso de habilitarla, el flujo se ejecutar√° **una vez al d√≠a (06:00 UTC)** seg√∫n la configuraci√≥n del script `etl_fixtures.py`.

```python
import importlib
etl = importlib.import_module("scripts.etl_fixtures")
# etl.etl_parametrizable.serve(
#     name="ETL-Fixtures",
#     endpoints=["fixtures"],
#     cron="0 6 * * *"  # Una vez al d√≠a, 06:00 UTC (ver https://crontab.guru)
# )

In [None]:
import importlib
etl = importlib.import_module("scripts.etl_fixtures")
# etl.etl_parametrizable.serve(name="ETL-Fixtures", endpoints=["fixtures"])

## 5. Monitoreo en Prefect

El monitoreo del flujo no se realiza desde el notebook, sino desde la **UI de Prefect Cloud**.  
Una vez que el flow se ejecuta (corrida √∫nica o servido como agente), es posible:

1. **Flows** ‚Üí ver el listado de flows registrados (ejemplo: `ETL-Fixtures`).  
2. **Run history** ‚Üí revisar el historial de ejecuciones con sus logs, tiempos y reintentos.  
3. **Blocks** ‚Üí administrar la configuraci√≥n de almacenamiento o infraestructura remota si se utiliza.  
4. **Schedules** ‚Üí programar ejecuciones autom√°ticas (requiere plan pago).
