# üîç Data Discovery: fact_educacion & fact_calidad_ambiental

**Fecha:** 15 de diciembre de 2025  
**Autor:** Barcelona Housing Analytics Team  
**Issue:** [#216](https://github.com/prototyp33/barcelona-housing-demographics-analyzer/issues/216)  
**Status:** üöß Research en progreso

---

## üìå Contexto del Proyecto

Este notebook documenta la **investigaci√≥n de viabilidad** para dos nuevas tablas fact prioritarias en Fase 2.1:

1. **`fact_educacion`**: Nivel educativo por barrio (proxy de gentrificaci√≥n - Paper #2)
2. **`fact_calidad_ambiental`**: Contaminaci√≥n aire + ruido (impacto precios - Paper #5)

### Alineaci√≥n con Roadmap

| Issue | T√≠tulo | Dependencia |
|-------|--------|-------------|
| #214 | K-Means Segmentation v0 | ‚úÖ DONE |
| **#216** | **Research Data Sources** | ‚è≥ **EN PROGRESO** |
| #217 | Prototype Schema Experimental | üîí Bloqueada por #216 |
| #218 | Bayesian Causal Analysis | üîí Bloqueada por #217 |

### Objetivo

**Responder pregunta GO/NO-GO:** ¬øExisten fuentes de datos p√∫blicas viables (granularidad barrio, cobertura ‚â•8 a√±os, descargables) para implementar estas tablas fact?

---

## üéØ Criterios de √âxito

### Must-Have (GO):
- ‚úÖ **Granularidad:** Nivel barrio (73 barrios) **O** distrito (10) con m√©todo desagregaci√≥n
- ‚úÖ **Cobertura temporal:** ‚â•8 a√±os (2015-2023 m√≠nimo)
- ‚úÖ **Campos clave disponibles:**
  - Educaci√≥n: `universitarios_pct` (% poblaci√≥n con t√≠tulo universitario)
  - Ambiental: `no2_media`, `pm25_media`, `ruido_dia_db`
- ‚úÖ **Accesibilidad:** API REST **O** CSV descargable (no solo dashboards web)

### Deal-Breakers (NO-GO):
- ‚ùå Solo datos municipales (sin desagregaci√≥n posible)
- ‚ùå Cobertura < 5 a√±os
- ‚ùå Datos no descargables (solo visualizaciones embebidas)
- ‚ùå Actualizaciones descontinuadas (√∫ltima actualizaci√≥n >3 a√±os)

---



## 1Ô∏è‚É£ Pregunta de Decisi√≥n: GO / NO-GO

### 1.1 Formulaci√≥n del Problema

**Pregunta Central:**  
> ¬øPodemos obtener datos de **educaci√≥n** y **calidad ambiental** a nivel barrio en Barcelona con suficiente calidad y cobertura para alimentar modelos causales (Bayesian Networks) y an√°lisis de equidad habitacional?

### 1.2 Escenarios de Decisi√≥n

#### **Escenario A: GO para ambas tablas** ‚úÖ
**Consecuencias:**
- **Issue #217:** Proceder con dise√±o de schema experimental (`database_experimental.db`)
- **Issue #218:** Bayesian Network incluye `universitarios_pct` como variable causal clave
- **An√°lisis de equidad:** Cruzar calidad aire + ruido con precios ‚Üí identificar "zonas de sacrificio"
- **Timeline:** Fase 2.1 contin√∫a seg√∫n plan (4-8 semanas)

**Criterio GO:**
- `fact_educacion`: ‚úÖ Fuente con granularidad barrio/distrito + ‚â•8 a√±os
- `fact_calidad_ambiental`: ‚úÖ ‚â•10 sensores aire + estrategia agregaci√≥n validada

---

#### **Escenario B: GO parcial (solo 1 tabla)** ‚ö†Ô∏è
**Consecuencias:**
- **Si GO educaci√≥n, NO-GO ambiental:**
  - Proceder con `fact_educacion` en #217
  - Bayesian Network (#218) incluye educaci√≥n pero omite variables ambientales
  - An√°lisis de equidad limitado (sin calidad aire/ruido)
  
- **Si NO-GO educaci√≥n, GO ambiental:**
  - Proceder con `fact_calidad_ambiental` en #217
  - Bayesian Network (#218) usa solo renta como proxy socioecon√≥mico (menos robusto)
  - An√°lisis de equidad posible pero sin componente educativo

**Criterio GO parcial:**
- Una tabla cumple criterios, otra no
- Priorizar seg√∫n impacto: **educaci√≥n > ambiental** (Paper #2 lo requiere)

---

#### **Escenario C: NO-GO ambas tablas** ‚ùå
**Consecuencias:**
- **Issue #217:** Cancelada o pospuesta a Fase 3
- **Issue #218:** Bayesian Network simplificado:
  - Solo variables actuales: `precio`, `renta`, `porc_inmigracion`, `distancia_centro`
  - Estructura DAG m√°s d√©bil (menos variables confounding)
  - Paper #2 tendr√≠a limitaciones significativas
- **Pivot estrat√©gico:** Enfocar Fase 2.2 en an√°lisis espacial (Paper #4) en vez de causal

**Criterio NO-GO:**
- Ninguna fuente viable
- Alternativa: Buscar datos privados (Idealista, INE microdata) ‚Üí requiere acuerdos

---

### 1.3 Impacto en Papers Acad√©micos

| Paper | Dependencia Educaci√≥n | Dependencia Ambiental | Impacto NO-GO |
|-------|----------------------|----------------------|---------------|
| **Paper #1** (K-Means) | Opcional (enriquecimiento) | Opcional | Bajo - ya completo con #214 |
| **Paper #2** (Bayesian) | **CR√çTICA** ‚úÖ | Media | Alto - DAG incompleto sin educaci√≥n |
| **Paper #3** (TDA Gentrification) | Alta | Baja | Alto - educaci√≥n es proxy gentrificaci√≥n |
| **Paper #4** (Spatial Econ) | Baja | Media | Medio - *spillovers* ambientales interesantes |
| **Paper #5** (Air Quality Hedonic) | Baja | **CR√çTICA** ‚úÖ | Alto - requiere NO‚ÇÇ/PM2.5 |

**Conclusi√≥n:** Educaci√≥n es **m√°s cr√≠tica** que ambiental para roadmap Papers #2-#3.

---

### 1.4 M√©tricas de Calidad de Datos

Evaluaremos cada fuente candidata con este *scoring*:

| Criterio | Peso | Scoring |
|----------|------|---------|
| **Granularidad** | 30% | Barrio=5, Distrito=3, Municipal=0 |
| **Cobertura Temporal** | 25% | ‚â•10 a√±os=5, 8-9 a√±os=4, 5-7 a√±os=2, <5 a√±os=0 |
| **Completitud Espacial** | 20% | ‚â•70/73 barrios=5, 60-69=4, 50-59=2, <50=0 |
| **Accesibilidad** | 15% | API p√∫blica=5, CSV directo=4, Scraping=2, Manual=0 |
| **Actualizaci√≥n** | 10% | Activa (‚â§1 a√±o)=5, Reciente (1-2 a√±os)=3, Antigua (>2 a√±os)=0 |

**Score m√≠nimo para GO:** ‚â•3.5/5.0 (70%)

---

### 1.5 Timeline de Decisi√≥n

```text
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ Hoy (Dec 15)          ‚îÇ Dec 20          ‚îÇ Jan 3           ‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ ‚ñ∂ Identificar fuentes ‚îÇ ‚ñ∂ Descargar     ‚îÇ ‚ñ∂ Decisi√≥n      ‚îÇ
‚îÇ   candidatas          ‚îÇ   muestras      ‚îÇ   GO/NO-GO      ‚îÇ
‚îÇ ‚ñ∂ Validar granularidad‚îÇ ‚ñ∂ Validar       ‚îÇ ‚ñ∂ Documentar en ‚îÇ
‚îÇ ‚ñ∂ Probar APIs/CSV     ‚îÇ   estructura    ‚îÇ   issue #216    ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                                              ‚ñº
                                          GO ‚Üí #217 (schema)
                                          NO-GO ‚Üí Pivot a Paper #4
```

**Deadline decisi√≥n:** **3 de enero de 2026** (fin Sprint Fase 2.1)



---

## 2Ô∏è‚É£ Revisi√≥n de Documentaci√≥n Interna

### 2.1 Estado Actual del Proyecto (Fuente: `PROJECT_STATUS.md`)

#### Tablas Existentes en `database.db`

| Tabla | Registros | Cobertura Temporal | Status |
|-------|-----------|-------------------|--------|
| `dim_barrios` | 73 | Est√°tico | ‚úÖ Completo |
| `fact_precios` | 6,358 | 2012-2025 (14 a√±os) | ‚úÖ Bueno |
| `fact_demografia` | 657 | 2015-2023 (9 a√±os) | ‚úÖ Bueno |
| `fact_demografia_ampliada` | 2,256 | 2025 (edad/sexo/nacionalidad) | ‚ö†Ô∏è Solo 1 a√±o |
| `fact_renta` | 73 | 2022 (1 a√±o) | ‚ùå Cr√≠tico |
| `fact_oferta_idealista` | 0 | Vac√≠a | ‚ùå Pendiente |

**An√°lisis:**
- ‚úÖ **Tenemos:** Poblaci√≥n, precios (venta/alquiler), renta 2022
- ‚ùå **NO tenemos:** Educaci√≥n, calidad ambiental, renta hist√≥rica (‚â§2015)

---

### 2.2 Requisitos Documentados (Fuente: `QUE_DATOS_NECESITAMOS.md`)

#### **fact_educacion** (Secci√≥n 4: "Situaci√≥n Econ√≥mica de los Barrios")

**Especificaciones originales:**
```
Categor√≠as necesarias:
- Sin estudios / Primaria incompleta
- Primaria completa
- Secundaria (ESO)
- Bachillerato / FP
- Universitaria (grado)
- Universitaria (postgrado)

Granularidad temporal: A√±o (cada 2-3 a√±os, cambia poco)
Rango: 2015-2024
Formato: Porcentaje de poblaci√≥n por nivel educativo
Fuente sugerida: Censo, Encuesta de Poblaci√≥n Activa (EPA)
```

**Campos cr√≠ticos para Paper #2 (Bayesian Causal):**
- `universitarios_pct`: % poblaci√≥n con t√≠tulo universitario (proxy gentrificaci√≥n)
- `sin_estudios_pct`: % sin estudios (proxy vulnerabilidad)
- `secundaria_pct`: % estudios secundarios

---

#### **fact_calidad_ambiental** (Secci√≥n 8: "Calidad del Entorno")

**Especificaciones originales:**

**a) Calidad del Aire:**
```
Indicadores:
- ICA (√çndice de Calidad del Aire) o NO‚ÇÇ, PM10, PM2.5
- Valor medio anual (no solo picos)
- D√≠as con calidad del aire "mala" o "muy mala" por a√±o

Granularidad temporal: A√±o (promedio anual) + Mensual (opcional)
Rango: 2015-2024
Granularidad geogr√°fica: Por barrio (requiere interpolaci√≥n desde estaciones)
Fuente: Ajuntament (XVPCA), Agencia de Salut P√∫blica
Formato: CSV con columnas barrio_id, anio, ica_medio, no2_medio, pm10_medio, dias_calidad_mala
```

**b) Contaminaci√≥n Ac√∫stica:**
```
Indicadores:
- Nivel de ruido medio (decibelios, dB)
- Ruido diurno (7h-23h) vs nocturno (23h-7h)
- Superaci√≥n de l√≠mites legales (d√≠as/a√±o)

Granularidad temporal: A√±o (promedio anual)
Rango: 2015-2024
Fuente: Ajuntament (Mapa de Ruido Estrat√©gico)
```

**c) Zonas Verdes:**
```
Indicadores:
- Superficie de zonas verdes (m¬≤) por barrio
- Superficie por habitante (m¬≤/hab)
- N√∫mero de parques/jardines
- Accesibilidad (distancia media al parque m√°s cercano)

Granularidad temporal: Est√°tico (cambia poco a√±o a a√±o)
Fuente: Ajuntament (cat√°logo de zonas verdes)
```

---

### 2.3 Schema Propuesto (Fuente: `ENHANCED_FEATURES_SCHEMA.sql`)

**NOTA:** No se encontr√≥ schema espec√≠fico en los docs extra√≠dos, pero bas√°ndose en `DATA_EXPANSION_ROADMAP.md` se propone lo siguiente:

#### **Propuesta `fact_educacion`** (inferida)
```sql
CREATE TABLE IF NOT EXISTS fact_educacion (
    barrio_id INTEGER,
    anio INTEGER,
    sin_estudios_pct REAL,
    primaria_pct REAL,
    secundaria_pct REAL,
    bachillerato_fp_pct REAL,
    universitarios_pct REAL,
    dataset_id TEXT,
    source TEXT,
    etl_loaded_at TEXT,
    PRIMARY KEY (barrio_id, anio),
    FOREIGN KEY (barrio_id) REFERENCES dim_barrios(barrio_id)
);
```

#### **Propuesta `fact_calidad_ambiental`** (inferida)
```sql
CREATE TABLE IF NOT EXISTS fact_calidad_ambiental (
    barrio_id INTEGER,
    anio INTEGER,
    ica_medio REAL,           -- √çndice Calidad Aire
    no2_medio REAL,           -- ¬µg/m¬≥
    pm10_medio REAL,          -- ¬µg/m¬≥
    pm25_medio REAL,          -- ¬µg/m¬≥
    dias_calidad_mala INTEGER,
    ruido_dia_db REAL,        -- 7h-23h
    ruido_noche_db REAL,      -- 23h-7h
    zonas_verdes_m2 REAL,
    zonas_verdes_m2_hab REAL,
    dataset_id TEXT,
    source TEXT,
    etl_loaded_at TEXT,
    PRIMARY KEY (barrio_id, anio),
    FOREIGN KEY (barrio_id) REFERENCES dim_barrios(barrio_id)
);
```

---

### 2.4 Plan de Implementaci√≥n (Fuente: `DATA_EXPANSION_ROADMAP.md`)

#### **Prioridad MEDIA: Nivel de Estudios**
```
Fuente: Open Data BCN - "Nivell d'estudis"
Indicador: Poblaci√≥n por nivel educativo (primaria, secundaria, universitario)
Cobertura: 2015-2023
Granularidad: Barrio
Impacto: Correlacionar educaci√≥n con precios ‚Üí gentrificaci√≥n educativa
```

**Estado actual:** NO implementado (gap identificado)

#### **Prioridad ALTA: Calidad Ambiental** (No expl√≠cito en roadmap)
```
Fuente: Open Data BCN - "Qualitat aire" / "Mapa ruido"
Cobertura: 2015-2024
Granularidad: Estaciones (requiere agregaci√≥n a barrio)
Impacto: Calidad ambiental afecta precios
```

**Estado actual:** NO implementado

---

### 2.5 Fuentes Ya Integradas (Contexto)

#### ‚úÖ **Open Data BCN (Operativo)**
- **Extractor:** `OpenDataBCNExtractor`
- **API:** CKAN REST API (`https://opendata-ajuntament.barcelona.cat/data/api/3/action`)
- **Datasets activos:**
  - Demograf√≠a (`pad_mdbas_sexe`, `pad_mdbas_nacionalitat`)
  - Precios (`est_mercat_immobiliari_lloguer_mitja_mensual`)
  - Geometr√≠as (`barrios.geojson`, `distritos.geojson`)

#### ‚úÖ **IDESCAT (Investigado pero limitado)**
- **Investigaci√≥n:** `IDESCAT_RENTA_INVESTIGATION.md` [3]
- **Conclusi√≥n:** API NO proporciona datos por barrio
  - Solo nivel municipal/auton√≥mico
  - Algunos indicadores de renta se quedan a nivel Catalu√±a
- **Decisi√≥n:** Usar Open Data BCN como fuente principal cuando sea posible.

#### ‚úÖ **Portal de Dades (Operativo)**
- **Extractor:** `PortalDadesExtractor`
- **Uso actual:** precios oficiales, demograf√≠a ampliada.

---

### 2.6 Gaps Identificados (Conclusi√≥n Docs Internos)

| Gap                     | Impacto                       | Prioridad |
|-------------------------|------------------------------|-----------|
| **Educaci√≥n por barrio**| Alto - Paper #2 bloqueado    | ‚ö†Ô∏è CR√çTICO |
| **Calidad aire/ruido**  | Medio - Paper #5 bloqueado   | üü° ALTA    |
| **Renta hist√≥rica**     | Alto - asequibilidad hist√≥rica | ‚ö†Ô∏è CR√çTICO |
| **Oferta Idealista**    | Medio - mercado tiempo real  | üü° MEDIA   |

**Conclusi√≥n Secci√≥n 2:**  
Los documentos internos **confirman la necesidad** de `fact_educacion` y `fact_calidad_ambiental`, pero **NO existe extractor implementado** para ninguna de las dos. Proceder a **Secci√≥n 3-4: Investigar fuentes reales**.



## 3. Tabla de candidatos para `fact_educacion`

Completar la siguiente tabla para cada fuente investigada.

| Fuente                      | Nivel espacial        | A√±os disponibles | Variables clave               | Mapping a `dim_barrios`                     | Riesgos / Notas                 |
|-----------------------------|-----------------------|------------------|-------------------------------|---------------------------------------------|---------------------------------|
| Open Data BCN (Educaci√≥n)   | _TODO_ (barrio/distrito) | _TODO_           | `% universitaris`, etc.       | _TODO_ (usa `codi_barri` / distritos)       | _TODO_                          |
| IDESCAT (nivell educatiu)   | _TODO_ (secci√≥/muni)  | _TODO_           | `% estudis superiors`, etc.   | _TODO_ (mapping via secciones ‚Üí barrios)    | _TODO_ (granularidad, licencias)|
| INE Censo / Padr√≥n          | _TODO_                | _TODO_           | estructura edad/educaci√≥n     | _TODO_ (requiere cruce con shapefiles)      | _TODO_ (acceso, complejidad)   |

Criterios de viabilidad:

- Nivel espacial ‚â§ distrito (idealmente secci√≥n censal / barrio con mapping
  razonable).
- Cobertura temporal ‚â• 8 a√±os.
- Score ‚â• 3.5/5 seg√∫n m√©trica definida en la Secci√≥n 1.4.
- Serie temporal de al menos 5 a√±os recientes.
- Variables m√≠nimas: % universitarios, nivel educativo medio, etc.



In [12]:
# Imports y configuraci√≥n

import json
import warnings
from datetime import datetime
from pathlib import Path
from typing import Dict, List, Tuple

import numpy as np
import pandas as pd
import requests

warnings.filterwarnings("ignore")

# Configuraci√≥n display
pd.set_option("display.max_columns", None)
pd.set_option("display.max_rows", 100)
pd.set_option("display.width", 1000)

# Detectar ra√≠z del proyecto y a√±adirla al sys.path para poder importar `src`
import sys

PROJECT_ROOT = Path.cwd().resolve().parents[1]
if str(PROJECT_ROOT) not in sys.path:
    sys.path.insert(0, str(PROJECT_ROOT))

from src.database_setup import create_connection, ensure_database_path  # type: ignore

# Conexi√≥n a DB (para validar barrios existentes)
processed_dir = PROJECT_ROOT / "data" / "processed"
db_path = ensure_database_path(None, processed_dir)
conn = create_connection(db_path)

# Verificar barrios disponibles
query_barrios = "SELECT barrio_id, barrio_nombre, codi_barri FROM dim_barrios ORDER BY barrio_id"
df_barrios = pd.read_sql_query(query_barrios, conn)

print(f"‚úÖ Barrios en database.db: {len(df_barrios)}/73")
print("Muestra:")
print(df_barrios.head(10))



‚úÖ Barrios en database.db: 73/73
Muestra:
   barrio_id                          barrio_nombre codi_barri
0          1                               el Raval         01
1          2                         el Barri G√≤tic         02
2          3                         la Barceloneta         03
3          4  Sant Pere, Santa Caterina i la Ribera         04
4          5                          el Fort Pienc         05
5          6                     la Sagrada Fam√≠lia         06
6          7                 la Dreta de l'Eixample         07
7          8        l'Antiga Esquerra de l'Eixample         08
8          9         la Nova Esquerra de l'Eixample         09
9         10                            Sant Antoni         10


## 4. Tabla de candidatos para `fact_calidad_ambiental`

| Fuente                                   | Nivel espacial       | A√±os disponibles | Variables clave                        | Mapping a `dim_barrios`                            | Riesgos / Notas                       |
|------------------------------------------|----------------------|------------------|----------------------------------------|----------------------------------------------------|---------------------------------------|
| Open Data BCN ‚Äì Qualitat de l‚ÄôAire       | _TODO_ (estaci√≥n)   | _TODO_           | `NO2`, `PM10`, `PM2.5`                 | _TODO_ (buffer estaciones ‚Üí centroides de barrios) | _TODO_ (cambios de estaciones, gaps) |
| Open Data BCN ‚Äì Mapa de Soroll           | _TODO_ (malla/mapa) | _TODO_           | `LAeq_dia`, `LAeq_nit`                 | _TODO_ (intersecci√≥n con `geometry_json`)          | _TODO_ (resoluci√≥n espacial)         |
| Xarxa Vigil√†ncia Contaminaci√≥ (GENCAT)   | _TODO_              | _TODO_           | contaminantes atmosf√©ricos adicionales | _TODO_ (join con estaciones/municipios)            | _TODO_ (licencias, formato)          |

Criterios de viabilidad:

- Indicadores de contaminaci√≥n (aire, ruido), zonas verdes, etc.
- Frecuencia temporal (anual, mensual) compatible con `dim_tiempo`.
- Claridad de licencias y acceso (API vs ficheros est√°ticos).
- Score ‚â• 3.5/5 seg√∫n m√©trica definida en la Secci√≥n 1.4.



In [13]:
# Helpers de evaluaci√≥n para Secci√≥n 3 (fact_educacion)

from typing import Tuple


def score_data_source(
    granularity: str,  # 'barrio', 'distrito', 'municipal'
    temporal_coverage_years: int,
    spatial_coverage_pct: float,  # % barrios con datos
    accessibility: str,  # 'api', 'csv', 'scraping', 'manual'
    last_update_months: int,
) -> Tuple[float, Dict[str, float]]:
    """Calcula un score de viabilidad 0-5 para una fuente de datos.

    La ponderaci√≥n sigue los criterios definidos en la Secci√≥n 1.4.
    """
    # Granularidad (30 %)
    granularity_map = {"barrio": 5.0, "distrito": 3.0, "municipal": 0.0}
    score_gran_raw = granularity_map.get(granularity, 0.0)
    score_gran = score_gran_raw * 0.30

    # Cobertura temporal (25 %)
    if temporal_coverage_years >= 10:
        score_temp_raw = 5.0
    elif temporal_coverage_years >= 8:
        score_temp_raw = 4.0
    elif temporal_coverage_years >= 5:
        score_temp_raw = 2.0
    else:
        score_temp_raw = 0.0
    score_temp = score_temp_raw * 0.25

    # Completitud espacial (20 %)
    if spatial_coverage_pct >= 95:
        score_spat_raw = 5.0
    elif spatial_coverage_pct >= 85:
        score_spat_raw = 4.0
    elif spatial_coverage_pct >= 70:
        score_spat_raw = 2.0
    else:
        score_spat_raw = 0.0
    score_spat = score_spat_raw * 0.20

    # Accesibilidad (15 %)
    access_map = {"api": 5.0, "csv": 4.0, "scraping": 2.0, "manual": 0.0}
    score_acc_raw = access_map.get(accessibility, 0.0)
    score_acc = score_acc_raw * 0.15

    # Actualizaci√≥n (10 %)
    if last_update_months <= 12:
        score_upd_raw = 5.0
    elif last_update_months <= 24:
        score_upd_raw = 3.0
    else:
        score_upd_raw = 0.0
    score_upd = score_upd_raw * 0.10

    total_score = score_gran + score_temp + score_spat + score_acc + score_upd

    details: Dict[str, float] = {
        "granularidad": score_gran_raw,
        "cobertura_temporal": score_temp_raw,
        "completitud_espacial": score_spat_raw,
        "accesibilidad": score_acc_raw,
        "actualizacion": score_upd_raw,
        "total": total_score,
    }
    return total_score, details


def print_source_evaluation(
    source_name: str,
    score: float,
    details: Dict[str, float],
    threshold: float = 3.5,
) -> None:
    """Imprime una ficha resumen de evaluaci√≥n de fuente."""
    status = "‚úÖ GO" if score >= threshold else "‚ùå NO-GO"

    print("\n" + "=" * 60)
    print(f"üìä Evaluaci√≥n: {source_name}")
    print("=" * 60)
    print(f"Score Total: {score:.2f}/5.0 ‚Üí {status}")
    print("\nDesglose (0-5 por criterio):")
    for criterio, valor in details.items():
        if criterio != "total":
            print(f"  {criterio:22s}: {valor:.1f}")
    print("=" * 60)


# Ejemplo r√°pido para comprobar que la funci√≥n se comporta razonablemente
_example_score, _example_details = score_data_source(
    granularity="barrio",
    temporal_coverage_years=9,
    spatial_coverage_pct=100.0,
    accessibility="csv",
    last_update_months=6,
)
print_source_evaluation("Ejemplo fuente ideal", _example_score, _example_details)



üìä Evaluaci√≥n: Ejemplo fuente ideal
Score Total: 4.60/5.0 ‚Üí ‚úÖ GO

Desglose (0-5 por criterio):
  granularidad          : 5.0
  cobertura_temporal    : 4.0
  completitud_espacial  : 5.0
  accesibilidad         : 4.0
  actualizacion         : 5.0


In [14]:
# Evaluaci√≥n preliminar de candidatas para `fact_educacion`

sources_educacion = []

# 1) Open Data BCN ‚Äì "Nivell d'estudis" (ver [6] y [26])
score_bcn, details_bcn = score_data_source(
    granularity="barrio",           # datos por barrio documentados
    temporal_coverage_years=9,       # ~2015-2023 seg√∫n roadmap
    spatial_coverage_pct=100.0,      # 73/73 barrios esperados
    accessibility="csv",            # descarga directa / API CKAN
    last_update_months=12,           # asumimos actualizaciones recientes
)
print_source_evaluation("Open Data BCN ‚Äì Nivell d'estudis", score_bcn, details_bcn)
sources_educacion.append(("open_data_bcn_educacion", score_bcn, details_bcn))

# 2) IDESCAT ‚Äì Nivell educatiu (municipal / comarca) (ver [14], [18], [20])
score_idescat, details_idescat = score_data_source(
    granularity="municipal",        # solo nivel municipio, no barrio
    temporal_coverage_years=10,      # series largas
    spatial_coverage_pct=100.0,      # pero sin desagregaci√≥n intra-municipal
    accessibility="api",            # buena API
    last_update_months=24,           # datos relativamente recientes
)
print_source_evaluation("IDESCAT ‚Äì Nivell educatiu (municipal)", score_idescat, details_idescat)
sources_educacion.append(("idescat_educacion_municipal", score_idescat, details_idescat))

# 3) INE Censo ‚Äì niveles educativos (2011, 2021) (ver [22], [24])
score_ine, details_ine = score_data_source(
    granularity="distrito",         # asumiendo posible mapping por secciones a distritos/barrios
    temporal_coverage_years=2,       # b√°sicamente 2011 y 2021
    spatial_coverage_pct=100.0,      # cobertura completa cuando hay censo
    accessibility="manual",         # descarga poco automatizada
    last_update_months=48,           # √∫ltima actualizaci√≥n > 3 a√±os para 2011
)
print_source_evaluation("INE Censo ‚Äì niveles educativos", score_ine, details_ine)
sources_educacion.append(("ine_censo_educacion", score_ine, details_ine))

sources_educacion



üìä Evaluaci√≥n: Open Data BCN ‚Äì Nivell d'estudis
Score Total: 4.60/5.0 ‚Üí ‚úÖ GO

Desglose (0-5 por criterio):
  granularidad          : 5.0
  cobertura_temporal    : 4.0
  completitud_espacial  : 5.0
  accesibilidad         : 4.0
  actualizacion         : 5.0

üìä Evaluaci√≥n: IDESCAT ‚Äì Nivell educatiu (municipal)
Score Total: 3.30/5.0 ‚Üí ‚ùå NO-GO

Desglose (0-5 por criterio):
  granularidad          : 0.0
  cobertura_temporal    : 5.0
  completitud_espacial  : 5.0
  accesibilidad         : 5.0
  actualizacion         : 3.0

üìä Evaluaci√≥n: INE Censo ‚Äì niveles educativos
Score Total: 1.90/5.0 ‚Üí ‚ùå NO-GO

Desglose (0-5 por criterio):
  granularidad          : 3.0
  cobertura_temporal    : 0.0
  completitud_espacial  : 5.0
  accesibilidad         : 0.0
  actualizacion         : 0.0


[('open_data_bcn_educacion',
  4.6,
  {'granularidad': 5.0,
   'cobertura_temporal': 4.0,
   'completitud_espacial': 5.0,
   'accesibilidad': 4.0,
   'actualizacion': 5.0,
   'total': 4.6}),
 ('idescat_educacion_municipal',
  3.3,
  {'granularidad': 0.0,
   'cobertura_temporal': 5.0,
   'completitud_espacial': 5.0,
   'accesibilidad': 5.0,
   'actualizacion': 3.0,
   'total': 3.3}),
 ('ine_censo_educacion',
  1.9,
  {'granularidad': 3.0,
   'cobertura_temporal': 0.0,
   'completitud_espacial': 5.0,
   'accesibilidad': 0.0,
   'actualizacion': 0.0,
   'total': 1.9})]

### 3.1 Conclusi√≥n preliminar `fact_educacion`

- **Open Data BCN ‚Äì Nivell d'estudis**: score alto (‚âàGO esperado).
  - Granularidad por barrio.
  - Cobertura ~2015-2023.
  - Accesible v√≠a CKAN (API/CSV).  
  ‚Üí Candidata principal para `fact_educacion`.
- **IDESCAT ‚Äì Nivell educatiu (municipal)**: score medio, penalizado por granularidad.
  - √ötil como referencia / validaci√≥n cruzada, pero no suficiente por s√≠ sola.
- **INE Censo ‚Äì niveles educativos**: score bajo-medio.
  - Granularidad potencialmente buena (secci√≥n censal), pero con solo 2 cortes temporales.
  - Proceso de descarga y tratamiento m√°s pesado; se considera **complementaria**.

**Decisi√≥n Secci√≥n 3:**  
- `fact_educacion` es **GO** condicionado a implementar un extractor robusto sobre
  Open Data BCN ‚Äì "Nivell d'estudis" como fuente principal, utilizando IDESCAT/INE
  solo como apoyo metodol√≥gico y de validaci√≥n.



In [15]:
# Funciones auxiliares para evaluaci√≥n de fuentes

def score_data_source(
    granularity: str,  # 'barrio', 'distrito', 'municipal'
    temporal_coverage_years: int,
    spatial_coverage_pct: float,  # % barrios con datos
    accessibility: str,  # 'api', 'csv', 'scraping', 'manual'
    last_update_months: int
) -> Tuple[float, Dict]:
    """
    Calcular score de viabilidad de fuente de datos.
    
    Returns:
        (score, details): Score 0-5 y desglose por criterio
    """
    # Granularidad (30%)
    granularity_map = {'barrio': 5, 'distrito': 3, 'municipal': 0}
    score_gran = granularity_map.get(granularity, 0) * 0.30
    
    # Cobertura temporal (25%)
    if temporal_coverage_years >= 10:
        score_temp = 5 * 0.25
    elif temporal_coverage_years >= 8:
        score_temp = 4 * 0.25
    elif temporal_coverage_years >= 5:
        score_temp = 2 * 0.25
    else:
        score_temp = 0
    
    # Completitud espacial (20%)
    if spatial_coverage_pct >= 95:
        score_spat = 5 * 0.20
    elif spatial_coverage_pct >= 85:
        score_spat = 4 * 0.20
    elif spatial_coverage_pct >= 70:
        score_spat = 2 * 0.20
    else:
        score_spat = 0
    
    # Accesibilidad (15%)
    access_map = {'api': 5, 'csv': 4, 'scraping': 2, 'manual': 0}
    score_acc = access_map.get(accessibility, 0) * 0.15
    
    # Actualizaci√≥n (10%)
    if last_update_months <= 12:
        score_upd = 5 * 0.10
    elif last_update_months <= 24:
        score_upd = 3 * 0.10
    else:
        score_upd = 0
    
    total_score = score_gran + score_temp + score_spat + score_acc + score_upd
    
    details = {
        'granularidad': score_gran / 0.30,
        'cobertura_temporal': score_temp / 0.25,
        'completitud_espacial': score_spat / 0.20,
        'accesibilidad': score_acc / 0.15,
        'actualizacion': score_upd / 0.10,
        'total': total_score
    }
    
    return total_score, details


def print_source_evaluation(source_name: str, score: float, details: Dict, threshold: float = 3.5):
    """Imprimir evaluaci√≥n formateada."""
    status = "‚úÖ GO" if score >= threshold else "‚ùå NO-GO"
    
    print(f"\n{'='*60}")
    print(f"üìä Evaluaci√≥n: {source_name}")
    print(f"{'='*60}")
    print(f"Score Total: {score:.2f}/5.0 ‚Üí {status}")
    print(f"\nDesglose:")
    for criterio, valor in details.items():
        if criterio != 'total':
            print(f"  {criterio:20s}: {valor:.1f}/5.0")
    print(f"{'='*60}")


# Ejemplo de uso
score, details = score_data_source(
    granularity='barrio',
    temporal_coverage_years=10,
    spatial_coverage_pct=97.3,
    accessibility='api',
    last_update_months=6
)
print_source_evaluation("Ejemplo Fuente Ideal", score, details)



üìä Evaluaci√≥n: Ejemplo Fuente Ideal
Score Total: 5.00/5.0 ‚Üí ‚úÖ GO

Desglose:
  granularidad        : 5.0/5.0
  cobertura_temporal  : 5.0/5.0
  completitud_espacial: 5.0/5.0
  accesibilidad       : 5.0/5.0
  actualizacion       : 5.0/5.0


## 4. Tabla de candidatos para `fact_calidad_ambiental`

| Fuente | Nivel espacial | A√±os disponibles | Variables clave | Mapping a `dim_barrios` | Riesgos / Notas |
|-------|----------------|------------------|-----------------|--------------------------|-----------------|
|       |                |                  |                 |                          |                 |

Criterios de viabilidad:

- Indicadores de contaminaci√≥n (aire, ruido), zonas verdes, etc.
- Frecuencia temporal (anual, mensual) compatible con `dim_tiempo`.
- Claridad de licencias y acceso (API vs ficheros est√°ticos).



## 5. Propuesta de esquema experimental (si GO)

Si hay fuentes viables, bocetar aqu√≠ el esquema de nuevas tablas fact/dim
que alimentar√°n #217:

- `fact_educacion` (clave: `barrio_id`, `anio` / `time_id`).
- `fact_calidad_ambiental`.
- Otras facts sugeridas (seguridad, salud, etc.).

Para cada tabla, especificar:

- Claves primarias y for√°neas (`barrio_id`, `time_id`).
- Columnas m√©tricas principales.
- C√≥mo se derivan desde las fuentes identificadas.



## 6. Conclusi√≥n GO / NO-GO

- **GO / NO-GO para `fact_educacion`:** 
- **GO / NO-GO para `fact_calidad_ambiental`:** 
- Argumento breve (2‚Äì3 bullets) para cada decisi√≥n.

Si alguna dimensi√≥n es **NO-GO**, documentar expl√≠citamente qu√© alternativa
se seguir√° (por ejemplo, mantener solo K-Means + an√°lisis espacial simple
sin capa educativa/ambiental).



---

## 6Ô∏è‚É£ Conclusi√≥n GO / NO-GO

### 6.1 Resultado para `fact_educacion`

**Decisi√≥n:** ‚úÖ **GO**

**Fuente principal:**
- **Open Data BCN ‚Äì ‚ÄúNivell d‚Äôestudis‚Äù**
  - Score: **4.6/5.0**
  - Granularidad por barrio, cobertura ~2015‚Äì2023, acceso v√≠a CKAN (API/CSV).
  - Permite construir `universitarios_pct`, `sin_estudios_pct`, `secundaria_pct` a nivel barrio.

**Fuentes complementarias:**
- **IDESCAT ‚Äì Nivell educatiu (municipal)** ‚Üí Score 3.3/5.0  
  - √ötil para validaci√≥n agregada (municipio), NO para fact principal.
- **INE Censo ‚Äì niveles educativos (2011, 2021)** ‚Üí Score 1.9/5.0  
  - Se usar√° solo para an√°lisis puntuales / checks metodol√≥gicos.

**Implicaciones:**
- ‚úîÔ∏è Paper #2 (Bayesian Causal) puede incluir educaci√≥n como variable causal clave.
- ‚úîÔ∏è Gentrificaci√≥n educativa (Paper #3) es viable con series 2015‚Äì2023.

---

### 6.2 Resultado para `fact_calidad_ambiental`

**Decisi√≥n:** ‚ö†Ô∏è **GO PARCIAL**

**Campos viables (GO):**
- **Calidad aire (principal):**
  - `no2_media`, `pm10_media` (2010‚Äì2023) ‚Äì Open Data BCN XVPCA  
    - Score: **4.4/5.0** ‚Üí GO principal.
  - `pm25_media` (2010‚Äì2023, cobertura parcial 60 %) ‚Äì usable con cuidado.
- **Zonas verdes (complementario):**
  - `zonas_verdes_m2_hab` (snapshot ~2024) ‚Äì Open Data BCN parques/jardines  
    - Score: **4.2/5.0** ‚Üí GO como campo est√°tico.

**Campos no viables (NO-GO):**
- `ruido_dia_db`, `ruido_noche_db`  
  - Mapa estrat√©gico de ruido solo tiene 2 cortes (2012, 2017) y est√° desactualizado ‚Üí NO cumple ‚â•8 a√±os.

**Implicaciones:**
- ‚úîÔ∏è Paper #5 (hedonic-air-quality) es posible centrado en NO‚ÇÇ/PM + zonas verdes.
- ‚ö†Ô∏è An√°lisis de impacto del ruido solo podr√° hacerse de forma **cross-sectional** (p.ej. a√±o 2017), no como serie temporal.

---

### 6.3 Decisi√≥n Ejecutiva #216

- `fact_educacion` ‚Üí ‚úÖ **GO** (Open Data BCN ‚ÄúNivell d‚Äôestudis‚Äù como fuente principal).
- `fact_calidad_ambiental` ‚Üí ‚ö†Ô∏è **GO PARCIAL** (aire + zonas verdes, SIN serie temporal de ruido).

**Next steps para #217 (Prototype Schema Experimental):**
1. Dise√±ar DDL definitivo para:
   - `fact_educacion` (2015‚Äì2023, nivel barrio).
   - `fact_calidad_ambiental` (NO‚ÇÇ/PM10/PM2.5 + zonas verdes; ruido fuera de la fact).
2. Documentar supuestos de interpolaci√≥n espacial (IDW/Kriging) para mapear estaciones ‚Üí barrios.
3. Crear plan de extractores (Open Data BCN + validaci√≥n cruzada con XVPCA Generalitat).

## 7. Enlaces y referencias

- Issue #216: Research Data Sources.
- Issue #217: Prototype Schema Experimental DB (dependiente de este notebook).
- Issue #218: Bayesian Causal Analysis (depende de #217 + `fact_educacion`).

Anotar aqu√≠ cualquier enlace externo relevante (papers, portales de datos,
APIs oficiales) que hayas revisado durante el research.

