# 05 - ETL: Infraestructura Petrolera (SPATIAL JOIN)

**Objetivo:** Procesar datos de infraestructura petrolera y asignarlos a parroquias mediante an√°lisis espacial

**Estrategia:** SPATIAL JOIN usando coordenadas geogr√°ficas (shapefiles)

**Entradas:**
- Shapefiles Petr√≥leo: `Pozos.shp` y `v_aa011_contaminacion_hidrocarburo_pMPoint.shp`
- Shapefile Parroquias: `nxparroquia.shp` (CONALI)
- CSV procesado: `parroquias_con_salud.csv` (del Notebook 04)

**Salidas:**
- CSV: `infraestructura_petrolera_procesada.csv` (infraestructura con c√≥digo de parroquia)
- CSV: `parroquias_con_petroleo.csv` (tabla agregada por parroquia)

---

## 1. Setup e Imports

In [1]:
# Imports
import pandas as pd
import numpy as np
import geopandas as gpd
from pathlib import Path
import warnings

warnings.filterwarnings('ignore')

# Rutas
BASE_DIR = Path('../data')
RAW_PETROLEO = BASE_DIR / 'raw' / 'maate_petroleo'
RAW_CONALI = BASE_DIR / 'raw' / 'conali_limites'  # ‚Üê RUTA CORREGIDA
PROCESSED_DIR = BASE_DIR / 'processed'

print("‚úÖ Librer√≠as cargadas")
print(f"üìÅ Directorio petr√≥leo: {RAW_PETROLEO}")
print(f"üìÅ Directorio CONALI: {RAW_CONALI}")
print(f"üìÅ Directorio processed: {PROCESSED_DIR}")

# Verificar directorios
for dir_path, name in [(RAW_PETROLEO, 'Petr√≥leo'), (RAW_CONALI, 'CONALI')]:
    if dir_path.exists():
        print(f"‚úÖ Directorio {name} encontrado")
    else:
        print(f"‚ö†Ô∏è Directorio {name} NO encontrado")

‚úÖ Librer√≠as cargadas
üìÅ Directorio petr√≥leo: ../data/raw/maate_petroleo
üìÅ Directorio CONALI: ../data/raw/conali_limites
üìÅ Directorio processed: ../data/processed
‚úÖ Directorio Petr√≥leo encontrado
‚úÖ Directorio CONALI encontrado


---
## 2. Cargar Shapefiles de Petr√≥leo

In [2]:
print("üó∫Ô∏è CARGANDO SHAPEFILES DE PETR√ìLEO\n")
print("="*70)

# Cargar pozos
pozos = gpd.read_file(RAW_PETROLEO / 'Pozos.shp')
print(f"‚úÖ Pozos cargados: {len(pozos):,} registros")
print(f"   CRS: {pozos.crs}")

# Cargar sitios contaminados
contaminacion = gpd.read_file(RAW_PETROLEO / 'v_aa011_contaminacion_hidrocarburo_pMPoint.shp')
print(f"‚úÖ Sitios contaminados cargados: {len(contaminacion):,} registros")
print(f"   CRS: {contaminacion.crs}")

# Cargar otras infraestructuras (opcional)
gasoductos = gpd.read_file(RAW_PETROLEO / 'Gasoductos_Petroecuador.shp')
poliductos = gpd.read_file(RAW_PETROLEO / 'Poliductos_Petroecuador.shp')
refinerias = gpd.read_file(RAW_PETROLEO / 'Refinerias2.shp')

print(f"‚úÖ Gasoductos cargados: {len(gasoductos)} registros")
print(f"‚úÖ Poliductos cargados: {len(poliductos)} registros")
print(f"‚úÖ Refiner√≠as cargadas: {len(refinerias)} registros")

print("\n" + "="*70)

üó∫Ô∏è CARGANDO SHAPEFILES DE PETR√ìLEO

‚úÖ Pozos cargados: 6,287 registros
   CRS: EPSG:4326
‚úÖ Sitios contaminados cargados: 7,850 registros
   CRS: EPSG:32717
‚úÖ Gasoductos cargados: 19 registros
‚úÖ Poliductos cargados: 10 registros
‚úÖ Refiner√≠as cargadas: 3 registros



---
## 3. Explorar Estructura de Pozos

In [3]:
print("üìã ESTRUCTURA DE POZOS:\n")
print(f"Columnas: {list(pozos.columns)}")
print(f"\nüìä Primeros 5 registros:")
print(pozos.head())

print(f"\nüìç Informaci√≥n geom√©trica:")
print(f"   Tipo de geometr√≠a: {pozos.geometry.type.unique()}")
print(f"   CRS: {pozos.crs}")
print(f"   Bounds: {pozos.total_bounds}")

üìã ESTRUCTURA DE POZOS:

Columnas: ['nombre', 'cuenca', 'provincia', 'bloq', 'campo', 'operad', 'x', 'y', 'st_coord', 'datum', 'official_n', 'original_o', 'well_class', 'well_geome', 'geometry']

üìä Primeros 5 registros:
             nombre   cuenca  provincia  bloq         campo  \
0  Johanna Este-019  Oriente  Sucumbios  B062  Johanna Este   
1  Drago Norte-D055  Oriente  Sucumbios  B057   Drago Norte   
2         Auca-Q164  Oriente   Orellana  B061          Auca   
3  Johanna Este-023  Oriente  Sucumbios  B062  Johanna Este   
4     Anaconda-A010  Oriente   Orellana  B061      Anaconda   

                         operad          x           y   st_coord    datum  \
0  Andes Petroleum Ecuador Ltd.  333670.14  9986292.97  UTM18 Sur  PSAD 56   
1              Petroamazonas EP  305275.25  9983034.13  UTM18 Sur  PSAD 56   
2              Petroamazonas EP  290251.50  9917768.51  UTM18 Sur  PSAD 56   
3  Andes Petroleum Ecuador Ltd.  334723.25  9990189.81  UTM18 Sur  PSAD 56   
4     

---
## 4. Explorar Estructura de Contaminaci√≥n

In [4]:
print("üìã ESTRUCTURA DE SITIOS CONTAMINADOS:\n")
print(f"Columnas: {list(contaminacion.columns)}")
print(f"\nüìä Primeros 5 registros:")
print(contaminacion.head())

print(f"\nüìç Informaci√≥n geom√©trica:")
print(f"   Tipo de geometr√≠a: {contaminacion.geometry.type.unique()}")
print(f"   CRS: {contaminacion.crs}")
print(f"   Bounds: {contaminacion.total_bounds}")

üìã ESTRUCTURA DE SITIOS CONTAMINADOS:

Columnas: ['codigo_de_', 'nombre', 'bloque_pet', 'anio_de_re', 'coordenada', 'tipo_fuent', 'coordenad0', 'estado', 'anio_elimi', 'area_rehab', 'operadora', 'texto_asoc', 'nombre_ter', 'geometry']

üìä Primeros 5 registros:
  codigo_de_             nombre bloque_pet  anio_de_re     coordenada  \
0      AA011  TERMINAL BEATERIO       None           0  773878.000000   
1      AA011               None  BLOQUE 57           0  983972.488824   
2      AA011               None  BLOQUE 57           0  983972.488824   
3      AA011               None  BLOQUE 57           0  984572.135169   
4      AA011               None  BLOQUE 57           0  984633.044999   

  tipo_fuent    coordenad0        estado anio_elimi  area_rehab operadora  \
0    PISCINA  9.964097e+06  NO REMEDIADO       2017      2057.0      None   
1    PISCINA  9.971217e+06     REMEDIADO          0         0.0      None   
2    PISCINA  9.971217e+06     REMEDIADO          0         0.0  

---
## 5. Cargar Shapefile de Parroquias (CONALI)

In [5]:
print("üó∫Ô∏è CARGANDO SHAPEFILE DE PARROQUIAS (CONALI)\n")
print("="*70)

# Cargar parroquias
parroquias_shp = gpd.read_file(RAW_CONALI / 'LIMITE_PARROQUIAL_CONALI_CNE_2022.shp')
print(f"‚úÖ Parroquias cargadas: {len(parroquias_shp):,} registros")
print(f"   CRS: {parroquias_shp.crs}")

print(f"\nüìã Columnas disponibles:")
print(list(parroquias_shp.columns))

print(f"\nüìä Primeras 3 parroquias:")
print(parroquias_shp[['CODPAR', 'PROVINCIA', 'CANTON', 'PARROQUIA', 'geometry']].head(3))

print("\n" + "="*70)

üó∫Ô∏è CARGANDO SHAPEFILE DE PARROQUIAS (CONALI)

‚úÖ Parroquias cargadas: 1,236 registros
   CRS: EPSG:32717

üìã Columnas disponibles:
['OBJECTID', 'CODPRO', 'PROVINCIA', 'CODCAN', 'CANTON', 'CODPAR', 'PARROQUIA', 'ESTADO', 'Shape_Leng', 'Shape_Area', 'geometry']

üìä Primeras 3 parroquias:
  CODPAR PROVINCIA  CANTON        PARROQUIA  \
0   0285     AZUAY  CUENCA            BA√ëOS   
1   0730     AZUAY  CUENCA            CUMBE   
2   0845     AZUAY  CUENCA  CHAUCHA / ANGAS   

                                            geometry  
0  POLYGON ((714383.483 9679807.792, 714390.309 9...  
1  POLYGON ((719475.594 9663878.887, 719478.891 9...  
2  POLYGON ((685768.602 9685990.681, 685768.699 9...  



---
## 6. Reprojectar CRS (Sistema de Coordenadas)

**Importante:** Todos los GeoDataFrames deben tener el mismo CRS para hacer spatial join

In [6]:
print("üîÑ REPROYECTANDO CRS\n")
print("="*70)

# CRS objetivo: usar el de las parroquias (t√≠picamente EPSG:4326 - WGS84)
target_crs = parroquias_shp.crs
print(f"CRS objetivo: {target_crs}")

# Reprojectar pozos
print(f"\nPozos:")
print(f"  CRS original: {pozos.crs}")
pozos_reproj = pozos.to_crs(target_crs)
print(f"  CRS reproyectado: {pozos_reproj.crs}")
print(f"  ‚úÖ Pozos reproyectados")

# Reprojectar contaminaci√≥n
print(f"\nContaminaci√≥n:")
print(f"  CRS original: {contaminacion.crs}")
contaminacion_reproj = contaminacion.to_crs(target_crs)
print(f"  CRS reproyectado: {contaminacion_reproj.crs}")
print(f"  ‚úÖ Contaminaci√≥n reproyectada")

print("\n" + "="*70)
print("‚úÖ TODOS LOS DATOS EN EL MISMO CRS")

üîÑ REPROYECTANDO CRS

CRS objetivo: EPSG:32717

Pozos:
  CRS original: EPSG:4326
  CRS reproyectado: EPSG:32717
  ‚úÖ Pozos reproyectados

Contaminaci√≥n:
  CRS original: EPSG:32717
  CRS reproyectado: EPSG:32717
  ‚úÖ Contaminaci√≥n reproyectada

‚úÖ TODOS LOS DATOS EN EL MISMO CRS


---
## 7. SPATIAL JOIN: Pozos con Parroquias

Asignar cada pozo a su parroquia usando el predicado espacial `within` (dentro de)

In [7]:
print("üéØ SPATIAL JOIN: POZOS ‚Üí PARROQUIAS\n")
print("="*70)

# Spatial join: pozos dentro de parroquias
pozos_con_parroquia = gpd.sjoin(
    pozos_reproj,
    parroquias_shp[['CODPAR', 'PROVINCIA', 'CANTON', 'PARROQUIA', 'geometry']],
    how='left',
    predicate='within'
)

# Revisar resultados
print(f"‚úÖ Spatial join completado")
print(f"\nüìä Estad√≠sticas:")
print(f"   Total pozos: {len(pozos_reproj):,}")
print(f"   Pozos asignados a parroquia: {pozos_con_parroquia['CODPAR'].notna().sum():,}")
print(f"   Pozos NO asignados: {pozos_con_parroquia['CODPAR'].isna().sum():,}")

# Calcular tasa de asignaci√≥n
tasa_asignacion = (pozos_con_parroquia['CODPAR'].notna().sum() / len(pozos_reproj)) * 100
print(f"   Tasa de asignaci√≥n: {tasa_asignacion:.1f}%")

print(f"\nüìã Columnas resultantes:")
print(list(pozos_con_parroquia.columns))

print("\n" + "="*70)

üéØ SPATIAL JOIN: POZOS ‚Üí PARROQUIAS

‚úÖ Spatial join completado

üìä Estad√≠sticas:
   Total pozos: 6,287
   Pozos asignados a parroquia: 6,250
   Pozos NO asignados: 37
   Tasa de asignaci√≥n: 99.4%

üìã Columnas resultantes:
['nombre', 'cuenca', 'provincia', 'bloq', 'campo', 'operad', 'x', 'y', 'st_coord', 'datum', 'official_n', 'original_o', 'well_class', 'well_geome', 'geometry', 'index_right', 'CODPAR', 'PROVINCIA', 'CANTON', 'PARROQUIA']



---
## 8. SPATIAL JOIN: Contaminaci√≥n con Parroquias

In [8]:
print("üéØ SPATIAL JOIN: CONTAMINACI√ìN ‚Üí PARROQUIAS\n")
print("="*70)

# Spatial join: sitios contaminados dentro de parroquias
contaminacion_con_parroquia = gpd.sjoin(
    contaminacion_reproj,
    parroquias_shp[['CODPAR', 'PROVINCIA', 'CANTON', 'PARROQUIA', 'geometry']],
    how='left',
    predicate='within'
)

# Revisar resultados
print(f"‚úÖ Spatial join completado")
print(f"\nüìä Estad√≠sticas:")
print(f"   Total sitios contaminados: {len(contaminacion_reproj):,}")
print(f"   Sitios asignados a parroquia: {contaminacion_con_parroquia['CODPAR'].notna().sum():,}")
print(f"   Sitios NO asignados: {contaminacion_con_parroquia['CODPAR'].isna().sum():,}")

# Calcular tasa de asignaci√≥n
tasa_asignacion = (contaminacion_con_parroquia['CODPAR'].notna().sum() / len(contaminacion_reproj)) * 100
print(f"   Tasa de asignaci√≥n: {tasa_asignacion:.1f}%")

print("\n" + "="*70)

üéØ SPATIAL JOIN: CONTAMINACI√ìN ‚Üí PARROQUIAS

‚úÖ Spatial join completado

üìä Estad√≠sticas:
   Total sitios contaminados: 7,850
   Sitios asignados a parroquia: 7,842
   Sitios NO asignados: 8
   Tasa de asignaci√≥n: 99.9%



---
## 9. Consolidar Infraestructura Petrolera

Combinar pozos y sitios contaminados en una sola tabla

In [9]:
print("üîó CONSOLIDANDO INFRAESTRUCTURA PETROLERA\n")
print("="*70)

# Crear columna de tipo de infraestructura
pozos_con_parroquia['tipo_infraestructura'] = 'Pozo'
contaminacion_con_parroquia['tipo_infraestructura'] = 'Sitio Contaminado'

# Seleccionar columnas comunes
cols_comunes = ['CODPAR', 'PROVINCIA', 'CANTON', 'PARROQUIA', 'tipo_infraestructura', 'geometry']

# Concatenar ambos GeoDataFrames
infraestructura_total = pd.concat([
    pozos_con_parroquia[cols_comunes],
    contaminacion_con_parroquia[cols_comunes]
], ignore_index=True)

print(f"‚úÖ Infraestructura consolidada")
print(f"\nüìä Total registros: {len(infraestructura_total):,}")
print(f"\nDistribuci√≥n por tipo:")
print(infraestructura_total['tipo_infraestructura'].value_counts())

# Filtrar solo los que tienen parroquia asignada
infraestructura_asignada = infraestructura_total[infraestructura_total['CODPAR'].notna()].copy()
print(f"\nüìç Infraestructura con parroquia asignada: {len(infraestructura_asignada):,}")

print("\n" + "="*70)

üîó CONSOLIDANDO INFRAESTRUCTURA PETROLERA

‚úÖ Infraestructura consolidada

üìä Total registros: 14,137

Distribuci√≥n por tipo:
tipo_infraestructura
Sitio Contaminado    7850
Pozo                 6287
Name: count, dtype: int64

üìç Infraestructura con parroquia asignada: 14,092



---
## 10. Agregar por Parroquia

Contar infraestructura petrolera por parroquia

In [10]:
print("üìä AGREGANDO INFRAESTRUCTURA POR PARROQUIA\n")
print("="*70)

# Contar total de infraestructura por parroquia
infraestructura_por_parroquia = infraestructura_asignada.groupby('CODPAR').size().reset_index(name='num_infraestructura_petrolera')

# Contar por tipo
pozos_por_parroquia = infraestructura_asignada[infraestructura_asignada['tipo_infraestructura'] == 'Pozo'].groupby('CODPAR').size().reset_index(name='num_pozos')
contaminacion_por_parroquia = infraestructura_asignada[infraestructura_asignada['tipo_infraestructura'] == 'Sitio Contaminado'].groupby('CODPAR').size().reset_index(name='num_sitios_contaminados')

# Merge de conteos
infraestructura_por_parroquia = infraestructura_por_parroquia.merge(
    pozos_por_parroquia, on='CODPAR', how='left'
).merge(
    contaminacion_por_parroquia, on='CODPAR', how='left'
)

# Rellenar NaN con 0
infraestructura_por_parroquia['num_pozos'].fillna(0, inplace=True)
infraestructura_por_parroquia['num_sitios_contaminados'].fillna(0, inplace=True)
infraestructura_por_parroquia['num_pozos'] = infraestructura_por_parroquia['num_pozos'].astype(int)
infraestructura_por_parroquia['num_sitios_contaminados'] = infraestructura_por_parroquia['num_sitios_contaminados'].astype(int)

print(f"‚úÖ Agregaci√≥n completada")
print(f"\nüìä Parroquias con infraestructura petrolera: {len(infraestructura_por_parroquia)}")
print(f"\nüìà Estad√≠sticas:")
print(infraestructura_por_parroquia[['num_infraestructura_petrolera', 'num_pozos', 'num_sitios_contaminados']].describe())

print(f"\nüîù TOP 10 PARROQUIAS CON M√ÅS INFRAESTRUCTURA:")
top_10 = infraestructura_por_parroquia.nlargest(10, 'num_infraestructura_petrolera')
print(top_10)

print("\n" + "="*70)

üìä AGREGANDO INFRAESTRUCTURA POR PARROQUIA

‚úÖ Agregaci√≥n completada

üìä Parroquias con infraestructura petrolera: 126

üìà Estad√≠sticas:
       num_infraestructura_petrolera    num_pozos  num_sitios_contaminados
count                      126.00000   126.000000               126.000000
mean                       111.84127    49.603175                62.238095
std                        263.25718   151.397177               177.079166
min                          1.00000     0.000000                 0.000000
25%                          2.00000     1.000000                 0.000000
50%                          7.50000     3.000000                 2.000000
75%                         70.25000    39.750000                31.500000
max                       1511.00000  1363.000000              1062.000000

üîù TOP 10 PARROQUIAS CON M√ÅS INFRAESTRUCTURA:
    CODPAR  num_infraestructura_petrolera  num_pozos  num_sitios_contaminados
30    1300                           1511       136

---
## 11. Cargar Tabla Base (Etnia + Salud)

In [11]:
print("üìÇ CARGANDO TABLA BASE (Etnia + Salud)\n")
print("="*70)

# Cargar parroquias con etnia y salud
parroquias_salud = pd.read_csv(PROCESSED_DIR / 'parroquias_con_salud.csv')

print(f"‚úÖ Tabla base cargada: {len(parroquias_salud)} parroquias")
print(f"\nüìã Columnas disponibles:")
print(list(parroquias_salud.columns))

# Verificar que existe codigo_dpa
if 'codigo_dpa' in parroquias_salud.columns:
    print(f"\n‚úÖ Columna 'codigo_dpa' encontrada para hacer merge")
else:
    print(f"\n‚ö†Ô∏è No se encuentra 'codigo_dpa', columnas disponibles: {list(parroquias_salud.columns)}")

print("\n" + "="*70)

üìÇ CARGANDO TABLA BASE (Etnia + Salud)

‚úÖ Tabla base cargada: 1236 parroquias

üìã Columnas disponibles:
['codigo_dpa', 'nombre_provincia', 'nombre_canton', 'nombre_parroquia', 'centroide_lon', 'centroide_lat', 'area_km2', 'poblacion_total', 'poblacion_afro', 'pct_poblacion_afro', 'num_establecimientos', 'densidad_establecimientos_km2', 'establecimientos_por_10k_hab']

‚úÖ Columna 'codigo_dpa' encontrada para hacer merge



---
## 12. Integrar Petr√≥leo con Tabla Base

Merge de infraestructura petrolera con la tabla que tiene etnia + salud

In [12]:
print("üîó INTEGRANDO PETR√ìLEO CON TABLA BASE\n")
print("="*70)

# Renombrar CODPAR a codigo_dpa para hacer merge
infraestructura_por_parroquia.rename(columns={'CODPAR': 'codigo_dpa'}, inplace=True)

# CR√çTICO: Convertir codigo_dpa a string en ambas tablas
infraestructura_por_parroquia['codigo_dpa'] = infraestructura_por_parroquia['codigo_dpa'].astype(str)
parroquias_salud['codigo_dpa'] = parroquias_salud['codigo_dpa'].astype(str)

print(f"üîç Verificando tipos de datos:")
print(f"   parroquias_salud['codigo_dpa']: {parroquias_salud['codigo_dpa'].dtype}")
print(f"   infraestructura_por_parroquia['codigo_dpa']: {infraestructura_por_parroquia['codigo_dpa'].dtype}")

# Merge con tabla base
parroquias_completas = parroquias_salud.merge(
    infraestructura_por_parroquia,
    on='codigo_dpa',
    how='left'
)

# Rellenar NaN con 0 (parroquias sin infraestructura petrolera)
cols_petroleo = ['num_infraestructura_petrolera', 'num_pozos', 'num_sitios_contaminados']
for col in cols_petroleo:
    parroquias_completas[col].fillna(0, inplace=True)
    parroquias_completas[col] = parroquias_completas[col].astype(int)

# Crear variable binaria (tiene/no tiene petr√≥leo)
parroquias_completas['tiene_petroleo'] = (parroquias_completas['num_infraestructura_petrolera'] > 0).astype(int)

print(f"\n‚úÖ Integraci√≥n completada")
print(f"\nüìä RESUMEN:")
print(f"   Total parroquias: {len(parroquias_completas)}")
print(f"   Con infraestructura petrolera: {(parroquias_completas['tiene_petroleo'] == 1).sum()}")
print(f"   Sin infraestructura petrolera: {(parroquias_completas['tiene_petroleo'] == 0).sum()}")
print(f"\n   Total pozos: {parroquias_completas['num_pozos'].sum():,}")
print(f"   Total sitios contaminados: {parroquias_completas['num_sitios_contaminados'].sum():,}")
print(f"   Total infraestructura: {parroquias_completas['num_infraestructura_petrolera'].sum():,}")

print("\n" + "="*70)

üîó INTEGRANDO PETR√ìLEO CON TABLA BASE

üîç Verificando tipos de datos:
   parroquias_salud['codigo_dpa']: object
   infraestructura_por_parroquia['codigo_dpa']: object

‚úÖ Integraci√≥n completada

üìä RESUMEN:
   Total parroquias: 1236
   Con infraestructura petrolera: 106
   Sin infraestructura petrolera: 1130

   Total pozos: 4,716
   Total sitios contaminados: 7,026
   Total infraestructura: 11,742



---
## 13. Calcular Densidad de Infraestructura

Densidad = infraestructura / √°rea (km¬≤)

In [13]:
print("üìä CALCULANDO DENSIDAD DE INFRAESTRUCTURA\n")
print("="*70)

# Verificar que existe la columna area_km2
if 'area_km2' in parroquias_completas.columns:
    # Calcular densidad
    parroquias_completas['densidad_petroleo_km2'] = (
        parroquias_completas['num_infraestructura_petrolera'] / parroquias_completas['area_km2']
    ).round(4)
    
    print("‚úÖ Densidad calculada")
    print(f"\nüìä Estad√≠sticas de densidad:")
    print(parroquias_completas['densidad_petroleo_km2'].describe())
    
    print(f"\nüîù TOP 10 PARROQUIAS CON MAYOR DENSIDAD:")
    top_densidad = parroquias_completas.nlargest(10, 'densidad_petroleo_km2')[
        ['nombre_provincia', 'nombre_canton', 'nombre_parroquia', 
         'num_infraestructura_petrolera', 'area_km2', 'densidad_petroleo_km2']
    ]
    print(top_densidad.to_string())
else:
    print("‚ö†Ô∏è No se encontr√≥ la columna 'area_km2'. Saltando c√°lculo de densidad.")

print("\n" + "="*70)

üìä CALCULANDO DENSIDAD DE INFRAESTRUCTURA

‚úÖ Densidad calculada

üìä Estad√≠sticas de densidad:
count    1236.000000
mean        0.075093
std         0.862476
min         0.000000
25%         0.000000
50%         0.000000
75%         0.000000
max        22.977500
Name: densidad_petroleo_km2, dtype: float64

üîù TOP 10 PARROQUIAS CON MAYOR DENSIDAD:
     nombre_provincia       nombre_canton         nombre_parroquia  num_infraestructura_petrolera  area_km2  densidad_petroleo_km2
849       SANTA ELENA         SANTA ELENA        SAN JOSE DE ANCON                           1511     65.76                22.9775
858       SANTA ELENA             SALINAS   CARLOS ESPINOZA LARREA                             36      2.88                12.5000
854       SANTA ELENA         LA LIBERTAD              LA LIBERTAD                            264     25.28                10.4430
851       SANTA ELENA             SALINAS  JOSE LUIS TAMAYO / MUEY                            157     29.07            

---
## 14. Validaciones

In [14]:
print("‚úÖ VALIDACIONES FINALES\n")
print("="*70)

try:
    # 1. Total registros
    assert len(parroquias_completas) > 1200, f"Debe haber >1200 parroquias, hay {len(parroquias_completas)}"
    print(f"‚úÖ 1. Total registros correcto ({len(parroquias_completas)})")
    
    # 2. No hay valores negativos
    assert (parroquias_completas['num_infraestructura_petrolera'] >= 0).all(), "No debe haber valores negativos"
    print("‚úÖ 2. No hay valores negativos en infraestructura")
    
    # 3. Variable binaria correcta
    assert parroquias_completas['tiene_petroleo'].isin([0, 1]).all(), "Variable binaria debe ser 0 o 1"
    print("‚úÖ 3. Variable binaria correcta")
    
    # 4. Coherencia binaria
    coherencia = ((parroquias_completas['num_infraestructura_petrolera'] > 0) == 
                  (parroquias_completas['tiene_petroleo'] == 1)).all()
    assert coherencia, "Variable binaria debe ser coherente con conteo"
    print("‚úÖ 4. Variable binaria coherente con conteo")
    
    # 5. Suma de pozos y contaminaci√≥n = total
    suma_check = (parroquias_completas['num_pozos'] + parroquias_completas['num_sitios_contaminados'] == 
                  parroquias_completas['num_infraestructura_petrolera']).all()
    assert suma_check, "Suma de pozos + contaminaci√≥n debe = total infraestructura"
    print("‚úÖ 5. Suma de componentes es coherente")
    
    print("\nüéâ Todas las validaciones pasaron exitosamente")
    
except AssertionError as e:
    print(f"\n‚ùå Error en validaci√≥n: {e}")

print("\n" + "="*70)

‚úÖ VALIDACIONES FINALES

‚úÖ 1. Total registros correcto (1236)
‚úÖ 2. No hay valores negativos en infraestructura
‚úÖ 3. Variable binaria correcta
‚úÖ 4. Variable binaria coherente con conteo
‚úÖ 5. Suma de componentes es coherente

üéâ Todas las validaciones pasaron exitosamente



---
## 15. Exportar Datos Procesados

In [15]:
print("üíæ EXPORTANDO DATOS PROCESADOS\n")
print("="*70)

# 1. Infraestructura con parroquia asignada (detallado)
output_infraestructura = PROCESSED_DIR / 'infraestructura_petrolera_procesada.csv'
infraestructura_asignada_export = infraestructura_asignada.drop(columns=['geometry'])  # Remover geometr√≠a para CSV
infraestructura_asignada_export.to_csv(output_infraestructura, index=False, encoding='utf-8')
print(f"‚úÖ 1. Infraestructura detallada: {output_infraestructura.name}")
print(f"      Registros: {len(infraestructura_asignada_export):,}")

# 2. Tabla final integrada (Etnia + Salud + Petr√≥leo)
output_final = PROCESSED_DIR / 'parroquias_con_petroleo.csv'
parroquias_completas.to_csv(output_final, index=False, encoding='utf-8')
print(f"\n‚úÖ 2. Tabla final integrada: {output_final.name}")
print(f"      Parroquias: {len(parroquias_completas):,}")

print("\nüéâ EXPORTACI√ìN COMPLETADA")
print("\n" + "="*70)

üíæ EXPORTANDO DATOS PROCESADOS

‚úÖ 1. Infraestructura detallada: infraestructura_petrolera_procesada.csv
      Registros: 14,092

‚úÖ 2. Tabla final integrada: parroquias_con_petroleo.csv
      Parroquias: 1,236

üéâ EXPORTACI√ìN COMPLETADA



---
## 16. Resumen Final

In [16]:
print("\n" + "="*70)
print("üìä RESUMEN DEL ETL - INFRAESTRUCTURA PETROLERA (SPATIAL JOIN)")
print("="*70)

print("\n‚úÖ TAREAS COMPLETADAS:")
print("  1. Shapefiles de petr√≥leo cargados (pozos + contaminaci√≥n)")
print("  2. Shapefile de parroquias CONALI cargado")
print("  3. CRS reproyectado (todos al mismo sistema de coordenadas)")
print("  4. SPATIAL JOIN ejecutado (pozos ‚Üí parroquias)")
print("  5. SPATIAL JOIN ejecutado (contaminaci√≥n ‚Üí parroquias)")
print("  6. Infraestructura consolidada y agregada por parroquia")
print("  7. Integraci√≥n con tabla base (Etnia + Salud + Petr√≥leo)")
print("  8. Variables calculadas (conteos, binaria, densidad)")
print("  9. Validaciones exitosas")
print(" 10. Datos exportados")

print("\nüìä ESTAD√çSTICAS FINALES:")
print(f"  ‚Ä¢ Total parroquias: {len(parroquias_completas):,}")
print(f"  ‚Ä¢ Parroquias con petr√≥leo: {(parroquias_completas['tiene_petroleo'] == 1).sum():,} ({(parroquias_completas['tiene_petroleo'] == 1).sum()/len(parroquias_completas)*100:.1f}%)")
print(f"  ‚Ä¢ Total infraestructura asignada: {parroquias_completas['num_infraestructura_petrolera'].sum():,}")
print(f"    - Pozos: {parroquias_completas['num_pozos'].sum():,}")
print(f"    - Sitios contaminados: {parroquias_completas['num_sitios_contaminados'].sum():,}")
print(f"  ‚Ä¢ Promedio infraestructura/parroquia (con petr√≥leo): {parroquias_completas[parroquias_completas['tiene_petroleo']==1]['num_infraestructura_petrolera'].mean():.2f}")

print("\nüìÅ ARCHIVOS GENERADOS:")
print(f"  ‚Ä¢ {output_infraestructura.name} (infraestructura detallada)")
print(f"  ‚Ä¢ {output_final.name} (TABLA FINAL INTEGRADA)")

print("\nüéâ TABLA FINAL INTEGRADA:")
print("  Incluye: Etnia + Salud + Petr√≥leo por parroquia")
print("  Variables clave de petr√≥leo:")
print("    - num_infraestructura_petrolera (total)")
print("    - num_pozos")
print("    - num_sitios_contaminados")
print("    - tiene_petroleo (binaria 0/1)")
print("    - densidad_petroleo_km2")

print("\nüöÄ PR√ìXIMO PASO:")
print("  Notebook 06: An√°lisis Espacial y Clustering")
print("  ‚Ä¢ Clustering espacial (K-means / DBSCAN)")
print("  ‚Ä¢ Mapas coropl√©ticos")
print("  ‚Ä¢ An√°lisis de correlaciones")
print("  ‚Ä¢ Identificaci√≥n de hotspots")

print("\n" + "="*70)


üìä RESUMEN DEL ETL - INFRAESTRUCTURA PETROLERA (SPATIAL JOIN)

‚úÖ TAREAS COMPLETADAS:
  1. Shapefiles de petr√≥leo cargados (pozos + contaminaci√≥n)
  2. Shapefile de parroquias CONALI cargado
  3. CRS reproyectado (todos al mismo sistema de coordenadas)
  4. SPATIAL JOIN ejecutado (pozos ‚Üí parroquias)
  5. SPATIAL JOIN ejecutado (contaminaci√≥n ‚Üí parroquias)
  6. Infraestructura consolidada y agregada por parroquia
  7. Integraci√≥n con tabla base (Etnia + Salud + Petr√≥leo)
  8. Variables calculadas (conteos, binaria, densidad)
  9. Validaciones exitosas
 10. Datos exportados

üìä ESTAD√çSTICAS FINALES:
  ‚Ä¢ Total parroquias: 1,236
  ‚Ä¢ Parroquias con petr√≥leo: 106 (8.6%)
  ‚Ä¢ Total infraestructura asignada: 11,742
    - Pozos: 4,716
    - Sitios contaminados: 7,026
  ‚Ä¢ Promedio infraestructura/parroquia (con petr√≥leo): 110.77

üìÅ ARCHIVOS GENERADOS:
  ‚Ä¢ infraestructura_petrolera_procesada.csv (infraestructura detallada)
  ‚Ä¢ parroquias_con_petroleo.csv (TABLA FI