In [16]:
# 1. Setup entorno y conexión
import os, sys, json, pandas as pd, geopandas as gpd
from pathlib import Path
from sqlalchemy import create_engine, text
from dotenv import load_dotenv
load_dotenv()
RAW = Path('../data/raw')
PROCESSED = Path('../data/processed')
POSTGRES_USER=os.getenv('POSTGRES_USER'); POSTGRES_PASSWORD=os.getenv('POSTGRES_PASSWORD')
POSTGRES_HOST=os.getenv('POSTGRES_HOST','localhost'); POSTGRES_PORT=os.getenv('POSTGRES_PORT','5432')
POSTGRES_DB=os.getenv('POSTGRES_DB')
engine = create_engine(f'postgresql://{POSTGRES_USER}:{POSTGRES_PASSWORD}@{POSTGRES_HOST}:{POSTGRES_PORT}/{POSTGRES_DB}')
print('Conexión lista:', engine)

Conexión lista: Engine(postgresql://geouser:***@postgis:5432/geodatabase)


In [17]:
# 2. Verificación de fuentes mínimas locales
expected_files = {
 'manzanas_censales.geojson': RAW/'manzanas_censales.geojson',
 'uso_suelo_minvu.geojson': RAW/'uso_suelo_minvu.geojson',
 'comuna_boundaries_oficial.geojson': RAW/'comuna_boundaries_oficial.geojson',
 'Censo2017_Manzanas.csv': RAW/'Censo2017_ManzanaEntidad_CSV'/'Censo2017_16R_ManzanaEntidad_CSV'/'Censo2017_Manzanas.csv'
}
status_rows=[]
for name, path in expected_files.items():
    status_rows.append({'archivo': name, 'existe': path.exists(), 'path': str(path)})
pd.DataFrame(status_rows)

Unnamed: 0,archivo,existe,path
0,manzanas_censales.geojson,True,../data/raw/manzanas_censales.geojson
1,uso_suelo_minvu.geojson,True,../data/raw/uso_suelo_minvu.geojson
2,comuna_boundaries_oficial.geojson,True,../data/raw/comuna_boundaries_oficial.geojson
3,Censo2017_Manzanas.csv,True,../data/raw/Censo2017_ManzanaEntidad_CSV/Censo...


## Fuentes de Datos Mínimas (Mapa de Requerimientos)
La guía exige las siguientes fuentes y usos:

| Tipo | Archivo esperado / recurso | Fuente | Uso | Estado |
|------|----------------------------|--------|-----|--------|
| Límites administrativos | comuna_boundaries_oficial.geojson | IDE Chile | Base cartográfica | (ver abajo) |
| Manzanas censales | manzanas_censales.geojson | INE | Unidad de análisis | (ver abajo) |
| DEM | srtm_dem.tif / copernicus_dem.tif (+ reproyección) | SRTM / Copernicus | Topografía, derivados | (ver abajo) |
| Sentinel-2 | sentinel*_B04.tif / sentinel*_B08.tif | Copernicus | NDVI / índices | (ver abajo) |
| Red vial | osm_network.graphml / osm_network.geojson | OpenStreetMap | Accesibilidad / métricas | (ver abajo) |
| Censo 2017 | Censo2017_Manzanas.csv | INE | Variables socioeconómicas | (ver abajo) |
| Uso del suelo | uso_suelo_minvu.geojson | IDE Minvu | Planificación / zonificación | (ver abajo) |

Las verificaciones siguientes rellenan el estado de cada fila.


### Nota
Si faltan archivos, ejecute su pipeline de descarga (cuando esté implementado) antes de continuar.

### Sección: Límites Administrativos
Archivo: `comuna_boundaries_oficial.geojson`
Uso: Base cartográfica, recorte de DEM.

### Sección: Manzanas Censales
Archivo: `manzanas_censales.geojson`
Uso: Unidad espacial principal; joins con censo y uso de suelo; cálculo métricas.

### Sección: Uso del Suelo
Archivo: `uso_suelo_minvu.geojson`
Uso: Proporciones por manzana, tipificación territorial.

### Sección: Censo 2017
Archivo: `Censo2017_Manzanas.csv` (microdatos manzana-entidad)
Uso: Variables socioeconómicas agregadas espacialmente.

### Sección: DEM
Archivos esperados: `srtm_dem.tif` y opcional `copernicus_dem.tif` + reproyectados `_32719` y derivados `slope.tif`, `aspect.tif`.
Uso: Topografía y potencial correlación con variables socioambientales.

### Sección: Sentinel-2
Bandas esperadas: `sentinel_B04.tif` / `sentinel_B08.tif` o variantes `sentinel2_*.tif`.
Uso: Cálculo NDVI y otros índices si se extiende.

### Sección: Red Vial
Archivo esperado: `osm_network.graphml` (preferido) o `osm_network.geojson`.
Uso: Métricas de accesibilidad y centralidad por manzana.


In [18]:
# 3. Ejecutar ingest mínima (opcional si ya se corrió).
# Ajuste: la CLI utiliza rutas relativas al directorio raíz del repositorio.
# Desde este notebook (carpeta notebooks/) debemos ejecutar con cwd='..' para que encuentre data/raw.
import subprocess, shlex, pathlib
root = pathlib.Path('..').resolve()
cmd = 'python scripts/process_data.py --ingest-minimum --srid 32719'
print('Ejecutando (desde raíz):', cmd)
result = subprocess.run(shlex.split(cmd), capture_output=True, text=True, cwd=root)
print(result.stdout)
print(result.stderr)
# Si los archivos ya existían se verán advertencias de ausencia sólo si realmente faltan.


Ejecutando (desde raíz): python scripts/process_data.py --ingest-minimum --srid 32719

INFO:__main__:Tabla raw_data.comuna_boundaries_oficial creada exitosamente
INFO:__main__:Tabla raw_data.manzanas_censales creada exitosamente
INFO:__main__:Añadida columna duplicada manzent (lowercase) en manzanas_censales.
INFO:__main__:Tabla raw_data.uso_suelo_minvu creada exitosamente
INFO:__main__:Renombrado alias de clave ID_MANZENT -> MANZENT (ingest mínima)
INFO:__main__:Ingestado microdatos censo como raw_data.censo_microdatos
INFO:__main__:Añadida columna duplicada manzent (lowercase) en censo_microdatos.
INFO:__main__:Microdatos sin geometría (post-ingest mínima): 1
INFO:__main__:Cobertura microdatos con geometría (%): 99.87
INFO:__main__:Cobertura manzanas con microdatos (%): 100.00
INFO:__main__:Catalogados 4 rasters base en raw_data.raster_catalog
INFO:__main__:Procesamiento completado!



In [19]:
# 4. Metadatos y cobertura (raw_data)
with engine.begin() as conn:
    orphan_sql = text("SELECT COUNT(*) FROM raw_data.censo_microdatos c LEFT JOIN raw_data.manzanas_censales m ON c.manzent = m.manzent WHERE m.manzent IS NULL")
    micro_sin_geom = conn.execute(orphan_sql).scalar()
    cov_micro = conn.execute(text("SELECT ROUND(100.0 * (SELECT COUNT(*) FROM raw_data.censo_microdatos c JOIN raw_data.manzanas_censales m ON c.manzent=m.manzent)/ NULLIF((SELECT COUNT(*) FROM raw_data.censo_microdatos),0),2)")).scalar()
    cov_manz = conn.execute(text("SELECT ROUND(100.0 * (SELECT COUNT(DISTINCT m.manzent) FROM raw_data.manzanas_censales m JOIN raw_data.censo_microdatos c ON c.manzent=m.manzent)/ NULLIF((SELECT COUNT(*) FROM raw_data.manzanas_censales),0),2)")).scalar()
quality = pd.DataFrame([{'microdatos_sin_geometria': micro_sin_geom,'pct_micro_con_geom': cov_micro,'pct_manz_con_micro': cov_manz}])
quality

Unnamed: 0,microdatos_sin_geometria,pct_micro_con_geom,pct_manz_con_micro
0,1,99.87,100.0


In [20]:
# 4b. Listar microdatos huérfanos (sin geometría)
import subprocess, shlex, pathlib, pandas as pd
root = pathlib.Path('..').resolve()
cmd = 'python scripts/report_orphans.py --output data/processed/orphans_microdatos.csv'
print('Ejecutando reporte huérfanos:', cmd)
res = subprocess.run(shlex.split(cmd), capture_output=True, text=True, cwd=root)
print(res.stdout)
if res.stderr.strip():
    print('STDERR:', res.stderr)
# Cargar CSV si existe
orph_path = pathlib.Path('../data/processed/orphans_microdatos.csv')
if orph_path.exists():
    df_orph = pd.read_csv(orph_path)
    print(f'Registros huérfanos: {len(df_orph)}')
    df_orph.head()
else:
    print('No se generó archivo de huérfanos.')

Ejecutando reporte huérfanos: python scripts/report_orphans.py --output data/processed/orphans_microdatos.csv
Huérfanos encontrados: 1
Guardado CSV en: data/processed/orphans_microdatos.csv
Primeras filas:
   REGION  PROVINCIA  COMUNA  ...  COMUNA_15R  ID_MANZENT_15R         manzent
0      13        131   13129  ...       13129  13129991999999  13129991999999

[1 rows x 60 columns]

Registros huérfanos: 1


In [21]:
# 5. Verificar alias 'manzent' presencia en tablas clave
tables = [('raw_data','censo_microdatos'), ('raw_data','manzanas_censales')]
rows=[]
with engine.begin() as conn:
    for sch, tbl in tables:
        q = text("SELECT column_name FROM information_schema.columns WHERE table_schema=:s AND table_name=:t AND column_name='manzent'")
        exists = conn.execute(q, {'s': sch, 't': tbl}).fetchone() is not None
        rows.append({'schema': sch,'table': tbl,'has_manzent': exists})
pd.DataFrame(rows)

Unnamed: 0,schema,table,has_manzent
0,raw_data,censo_microdatos,True
1,raw_data,manzanas_censales,True


In [22]:
# 5b. Verificación adicional de DEM, Sentinel y red vial
from pathlib import Path
raw_root = Path('../data/raw')
checks = {
    'DEM srtm_dem.tif': raw_root/'srtm_dem.tif',
    'DEM copernicus_dem.tif': raw_root/'copernicus_dem.tif',
    'Slope (processed)': Path('../data/processed/slope.tif'),
    'Aspect (processed)': Path('../data/processed/aspect.tif'),
    'Sentinel B04': raw_root/'sentinel_B04.tif',
    'Sentinel B08': raw_root/'sentinel_B08.tif',
    'Sentinel2 B04': raw_root/'sentinel2_B04.tif',
    'Sentinel2 B08': raw_root/'sentinel2_B08.tif',
    'OSM network graphml': raw_root/'osm_network.graphml',
    'OSM network geojson': raw_root/'osm_network.geojson'
}
rows=[]
for label, p in checks.items():
    rows.append({'recurso': label, 'existe': p.exists(), 'ruta': str(p)})
extra_df = pd.DataFrame(rows)
extra_df

Unnamed: 0,recurso,existe,ruta
0,DEM srtm_dem.tif,True,../data/raw/srtm_dem.tif
1,DEM copernicus_dem.tif,False,../data/raw/copernicus_dem.tif
2,Slope (processed),True,../data/processed/slope.tif
3,Aspect (processed),True,../data/processed/aspect.tif
4,Sentinel B04,False,../data/raw/sentinel_B04.tif
5,Sentinel B08,False,../data/raw/sentinel_B08.tif
6,Sentinel2 B04,True,../data/raw/sentinel2_B04.tif
7,Sentinel2 B08,True,../data/raw/sentinel2_B08.tif
8,OSM network graphml,True,../data/raw/osm_network.graphml
9,OSM network geojson,False,../data/raw/osm_network.geojson


In [23]:
# 6. Resumen CRS de capas vectoriales cargadas
vector_tables = ['manzanas_censales','uso_suelo_minvu','comuna_boundaries_oficial']
crs_rows=[]
for tbl in vector_tables:
    try:
        gdf = gpd.read_postgis(f'SELECT * FROM raw_data.{tbl} LIMIT 5', engine, geom_col='geometry')
        crs_rows.append({'tabla': tbl, 'crs': gdf.crs.to_string() if gdf.crs else None})
    except Exception as e:
        crs_rows.append({'tabla': tbl, 'crs': None, 'error': str(e)})
pd.DataFrame(crs_rows)

Unnamed: 0,tabla,crs
0,manzanas_censales,EPSG:32719
1,uso_suelo_minvu,EPSG:32719
2,comuna_boundaries_oficial,EPSG:32719


In [24]:
# 7. Guardar tabla de calidad a CSV (tracking)
out_csv = PROCESSED/'quality_acquisition_summary.csv'
quality.to_csv(out_csv, index=False)
print('Guardado resumen calidad en', out_csv)

Guardado resumen calidad en ../data/processed/quality_acquisition_summary.csv


## Checklist de Adquisición
- [x] Conexión PostGIS establecida
- [x] Fuentes mínimas verificadas
- [x] Ingest mínima ejecutada
- [x] Alias `manzent` presente en tablas clave
- [x] Cobertura y huérfanas calculadas
- [x] Metadatos CRS revisados
## Próximos pasos
Continuar con `02_exploratory_analysis.ipynb` para análisis descriptivo y construcción de mapas temáticos iniciales.