# 04 - ETL: Establecimientos de Salud (RAS)

**Objetivo:** Procesar datos de establecimientos de salud y asignarlos a parroquias

**Estrategia:** JOIN por nombres (provincia-cant√≥n-parroquia) - sin coordenadas geogr√°ficas

**Entradas:**
- CSV RAS: `RAS_2020.csv` (Registro de Atenci√≥n en Salud - MSP)
- CSV procesado: `parroquias_con_etnia.csv` (del Notebook 03)

**Salidas:**
- CSV: `establecimientos_salud_procesados.csv` (establecimientos con c√≥digo de parroquia)
- CSV: `parroquias_con_salud.csv` (tabla agregada por parroquia)

---

## 1. Setup e Imports

In [1]:
# Imports
import pandas as pd
import numpy as np
import unicodedata
from pathlib import Path
import warnings

warnings.filterwarnings('ignore')

# Rutas
BASE_DIR = Path('../data')
RAW_SALUD = BASE_DIR / 'raw' / 'msp_ras_2020'
PROCESSED_DIR = BASE_DIR / 'processed'

print("‚úÖ Librer√≠as cargadas")
print(f"üìÅ Directorio salud: {RAW_SALUD}")
print(f"üìÅ Directorio processed: {PROCESSED_DIR}")

‚úÖ Librer√≠as cargadas
üìÅ Directorio salud: ../data/raw/msp_ras_2020
üìÅ Directorio processed: ../data/processed


---
## 2. Cargar Datos RAS

In [2]:
# Cargar datos RAS (con separador punto y coma)
print("üìÇ Cargando datos de establecimientos de salud...")

ras = pd.read_csv(
    RAW_SALUD / 'RAS_2020.csv',
    encoding='utf-8',
    sep=';',
    on_bad_lines='skip'
)

print(f"‚úÖ Archivo cargado")
print(f"üìä Dimensiones: {ras.shape}")
print(f"\nüìã Columnas de ubicaci√≥n:")
print(['secuencial', 'prov_ubi', 'cant_ubi', 'parr_ubi', 'clase', 'entidad', 'sector'])

üìÇ Cargando datos de establecimientos de salud...
‚úÖ Archivo cargado
üìä Dimensiones: (4136, 1931)

üìã Columnas de ubicaci√≥n:
['secuencial', 'prov_ubi', 'cant_ubi', 'parr_ubi', 'clase', 'entidad', 'sector']


In [3]:
# Exploraci√≥n inicial
print("üîç EXPLORACI√ìN INICIAL\n")
print("üìä Primeras filas:")
print(ras[['secuencial', 'prov_ubi', 'cant_ubi', 'parr_ubi', 'clase', 'entidad', 'sector']].head(10))

print(f"\nüìä Valores √∫nicos:")
print(f"   Provincias: {ras['prov_ubi'].nunique()}")
print(f"   Cantones: {ras['cant_ubi'].nunique()}")
print(f"   Parroquias: {ras['parr_ubi'].nunique()}")
print(f"   Tipos de establecimiento: {ras['clase'].nunique()}")

üîç EXPLORACI√ìN INICIAL

üìä Primeras filas:
   secuencial   prov_ubi         cant_ubi  \
0           1    Bol√≠var        Chillanes   
1           2     Manab√≠      San Vicente   
2           3   Imbabura         Cotacahi   
3           4      Ca√±ar          Biblian   
4           5       Loja           Macar√°   
5           6  Pichincha            Quito   
6           7   Cotopaxi           Pujil√≠   
7           8  Sucumb√≠os  Gonzalo Pizarro   
8           9     Manab√≠            Jun√≠n   
9          10       Loja         Quilanga   

                                    parr_ubi  \
0                                  Chillanes   
1                                      Canoa   
2    Vacas Galindo (Cab. En San Miguel Alto)   
3                                    Bibli√°n   
4  Macar√° (Manuel Enrique Rengel Suquilanda)   
5                                   Puellaro   
6                                     Pujil√≠   
7                            Gonzalo Pizarro   
8            

---
## 3. Limpiar y Filtrar Datos

In [4]:
# Seleccionar columnas relevantes
print("üîÑ SELECCIONANDO COLUMNAS RELEVANTES\n")

ras_clean = ras[['secuencial', 'prov_ubi', 'cant_ubi', 'parr_ubi', 'clase', 'entidad', 'sector']].copy()

# Renombrar para claridad
ras_clean.columns = ['id_establecimiento', 'provincia', 'canton', 'parroquia', 'tipo_establecimiento', 'institucion', 'sector']

print("‚úÖ Columnas seleccionadas y renombradas")
print(f"\nüìä Datos limpios: {ras_clean.shape}")

üîÑ SELECCIONANDO COLUMNAS RELEVANTES

‚úÖ Columnas seleccionadas y renombradas

üìä Datos limpios: (4136, 7)


In [5]:
# Filtrar registros con ubicaci√≥n v√°lida
print("üîÑ FILTRANDO REGISTROS V√ÅLIDOS\n")

# Eliminar filas con ubicaci√≥n nula
ras_validos = ras_clean[
    ras_clean['provincia'].notna() &
    ras_clean['canton'].notna() &
    ras_clean['parroquia'].notna()
].copy()

print(f"Filtro - Con ubicaci√≥n v√°lida: {len(ras_clean)} ‚Üí {len(ras_validos)}")
print(f"\n‚úÖ Total establecimientos v√°lidos: {len(ras_validos)}")

üîÑ FILTRANDO REGISTROS V√ÅLIDOS

Filtro - Con ubicaci√≥n v√°lida: 4136 ‚Üí 4136

‚úÖ Total establecimientos v√°lidos: 4136


In [6]:
# Estandarizar nombres (may√∫sculas, espacios)
print("üîÑ ESTANDARIZANDO NOMBRES\n")

def limpiar_nombre(texto):
    if pd.isna(texto):
        return texto
    return str(texto).strip().upper()

ras_validos['provincia'] = ras_validos['provincia'].apply(limpiar_nombre)
ras_validos['canton'] = ras_validos['canton'].apply(limpiar_nombre)
ras_validos['parroquia'] = ras_validos['parroquia'].apply(limpiar_nombre)

print("‚úÖ Nombres estandarizados")
print(f"\nüìä Muestra:")
print(ras_validos[['provincia', 'canton', 'parroquia']].head(10))

üîÑ ESTANDARIZANDO NOMBRES

‚úÖ Nombres estandarizados

üìä Muestra:
   provincia           canton                                  parroquia
0    BOL√çVAR        CHILLANES                                  CHILLANES
1     MANAB√ç      SAN VICENTE                                      CANOA
2   IMBABURA         COTACAHI    VACAS GALINDO (CAB. EN SAN MIGUEL ALTO)
3      CA√ëAR          BIBLIAN                                    BIBLI√ÅN
4       LOJA           MACAR√Å  MACAR√Å (MANUEL ENRIQUE RENGEL SUQUILANDA)
5  PICHINCHA            QUITO                                   PUELLARO
6   COTOPAXI           PUJIL√ç                                     PUJIL√ç
7  SUCUMB√çOS  GONZALO PIZARRO                            GONZALO PIZARRO
8     MANAB√ç            JUN√çN                                      JUN√çN
9       LOJA         QUILANGA                                   QUILANGA


---
## 4. Diccionario de Mapeo y Normalizaci√≥n

Aplicamos la misma estrategia del Notebook 03

In [7]:
# Diccionario de mapeo (casos especiales)
print("üîß CREANDO DICCIONARIO DE MAPEO\n")

MAPEO_PROVINCIAS = {
    'SANTO DOMINGO DE LOS TS√ÅCHILAS': 'STO DGO TSACHILAS',
    'SANTO DOMINGO DE LOS TSACHILAS': 'STO DGO TSACHILAS',
}

def aplicar_mapeo_provincia(nombre):
    if pd.isna(nombre):
        return nombre
    nombre_upper = str(nombre).upper().strip()
    return MAPEO_PROVINCIAS.get(nombre_upper, nombre_upper)

# Aplicar mapeo
ras_validos['provincia'] = ras_validos['provincia'].apply(aplicar_mapeo_provincia)

print("‚úÖ Mapeo aplicado")

# Verificar Santo Domingo
santo_ras = ras_validos[ras_validos['provincia'].str.contains('STO DGO', na=False)]
print(f"\nüîç Santo Domingo en RAS: {len(santo_ras)} establecimientos")

# 2Ô∏è‚É£ DESPU√âS: Mapeo de CANTONES
MAPEO_CANTONES = {
    'COTACAHI': 'COTACACHI',
}

def aplicar_mapeo_canton(nombre):
    if pd.isna(nombre):
        return nombre
    nombre_upper = str(nombre).upper().strip()
    return MAPEO_CANTONES.get(nombre_upper, nombre_upper)

# Aplicar mapeo de cantones
ras_validos['canton'] = ras_validos['canton'].apply(aplicar_mapeo_canton)

print("‚úÖ Mapeo de cantones aplicado")

# Verificar
cotacachi_ras = ras_validos[ras_validos['canton'].str.contains('COTACACHI', na=False)]
print(f"üîç COTACACHI en RAS: {len(cotacachi_ras)} establecimientos")



üîß CREANDO DICCIONARIO DE MAPEO

‚úÖ Mapeo aplicado

üîç Santo Domingo en RAS: 112 establecimientos
‚úÖ Mapeo de cantones aplicado
üîç COTACACHI en RAS: 23 establecimientos


In [8]:
# Funci√≥n de normalizaci√≥n (igual que Notebook 03)
def normalizar_nombre(nombre):
    """
    Normalizaci√≥n h√≠brida:
    - Quita tildes
    - Elimina caracteres especiales
    - Toma primera palabra significativa (>2 letras)
    """
    if pd.isna(nombre):
        return nombre
    
    nombre = str(nombre)
    
    # Quitar tildes/acentos
    nombre = ''.join(
        c for c in unicodedata.normalize('NFD', nombre)
        if unicodedata.category(c) != 'Mn'
    )
    
    # Reemplazar separadores por espacio
    nombre = nombre.replace('/', ' ').replace('-', ' ')
    
    # Limpiar puntuaci√≥n
    nombre = nombre.replace('.', '').replace(',', '')
    
    # Normalizar espacios
    nombre = ' '.join(nombre.split())
    nombre = nombre.upper().strip()
    
    # Tomar primera palabra significativa (m√°s de 2 letras)
    palabras = nombre.split()
    for palabra in palabras:
        if len(palabra) > 2:
            return palabra
    
    return palabras[0] if palabras else nombre

print("‚úÖ Funci√≥n de normalizaci√≥n definida")

‚úÖ Funci√≥n de normalizaci√≥n definida


In [9]:
# Aplicar normalizaci√≥n
print("üîÑ APLICANDO NORMALIZACI√ìN\n")

ras_validos['provincia_norm'] = ras_validos['provincia'].apply(normalizar_nombre)
ras_validos['canton_norm'] = ras_validos['canton'].apply(normalizar_nombre)
ras_validos['parroquia_norm'] = ras_validos['parroquia'].apply(normalizar_nombre)

print("‚úÖ Normalizaci√≥n aplicada")
print(f"\nüìä Ejemplos:")
print(ras_validos[['provincia', 'provincia_norm', 'parroquia', 'parroquia_norm']].head(10))

üîÑ APLICANDO NORMALIZACI√ìN

‚úÖ Normalizaci√≥n aplicada

üìä Ejemplos:
   provincia provincia_norm                                  parroquia  \
0    BOL√çVAR        BOLIVAR                                  CHILLANES   
1     MANAB√ç         MANABI                                      CANOA   
2   IMBABURA       IMBABURA    VACAS GALINDO (CAB. EN SAN MIGUEL ALTO)   
3      CA√ëAR          CANAR                                    BIBLI√ÅN   
4       LOJA           LOJA  MACAR√Å (MANUEL ENRIQUE RENGEL SUQUILANDA)   
5  PICHINCHA      PICHINCHA                                   PUELLARO   
6   COTOPAXI       COTOPAXI                                     PUJIL√ç   
7  SUCUMB√çOS      SUCUMBIOS                            GONZALO PIZARRO   
8     MANAB√ç         MANABI                                      JUN√çN   
9       LOJA           LOJA                                   QUILANGA   

  parroquia_norm  
0      CHILLANES  
1          CANOA  
2          VACAS  
3        BIBLIAN  
4     

---
## 5. Cargar Tabla Base de Parroquias

In [10]:
# Cargar tabla con etnia (del Notebook 03)
print("üìÇ Cargando tabla base de parroquias (con etnia)...")

parroquias_etnia = pd.read_csv(PROCESSED_DIR / 'parroquias_con_etnia.csv')

print(f"‚úÖ Tabla cargada: {len(parroquias_etnia)} parroquias")
print(f"\nüìã Columnas:")
print(parroquias_etnia.columns.tolist())

üìÇ Cargando tabla base de parroquias (con etnia)...
‚úÖ Tabla cargada: 1236 parroquias

üìã Columnas:
['codigo_dpa', 'nombre_provincia', 'nombre_canton', 'nombre_parroquia', 'centroide_lon', 'centroide_lat', 'area_km2', 'poblacion_total', 'poblacion_afro', 'pct_poblacion_afro']


In [11]:
# Aplicar MISMO mapeo y normalizaci√≥n a tabla base
print("üîÑ NORMALIZANDO TABLA BASE (para consistency)\n")

# Mapeo
parroquias_etnia['nombre_provincia'] = parroquias_etnia['nombre_provincia'].apply(aplicar_mapeo_provincia)

# Normalizaci√≥n
parroquias_etnia['provincia_norm'] = parroquias_etnia['nombre_provincia'].apply(normalizar_nombre)
parroquias_etnia['canton_norm'] = parroquias_etnia['nombre_canton'].apply(normalizar_nombre)
parroquias_etnia['parroquia_norm'] = parroquias_etnia['nombre_parroquia'].apply(normalizar_nombre)

print("‚úÖ Normalizaci√≥n aplicada a tabla base")

üîÑ NORMALIZANDO TABLA BASE (para consistency)

‚úÖ Normalizaci√≥n aplicada a tabla base


---
## 6. JOIN: RAS ‚Üî Parroquias

In [12]:
# Deduplicar RAS (por si hay duplicados)
print("üîç VERIFICANDO DUPLICADOS EN RAS\n")

dup_antes = ras_validos.duplicated(subset=['provincia_norm', 'canton_norm', 'parroquia_norm']).sum()
print(f"Duplicados en RAS: {dup_antes}")

# No deduplicamos porque queremos CONTAR todos los establecimientos
print("\nüí° NO deduplicamos RAS - queremos contar todos los establecimientos")

üîç VERIFICANDO DUPLICADOS EN RAS

Duplicados en RAS: 3054

üí° NO deduplicamos RAS - queremos contar todos los establecimientos


In [14]:
# JOIN
print("üîó EJECUTANDO JOIN\n")
print("="*70)

# Merge con parroquias
ras_con_codigo = ras_validos.merge(
    parroquias_etnia[['codigo_dpa', 'provincia_norm', 'canton_norm', 'parroquia_norm']],
    on=['provincia_norm', 'canton_norm', 'parroquia_norm'],
    how='left'
)

# Contar asignaciones
asignados = ras_con_codigo['codigo_dpa'].notna().sum()
no_asignados = ras_con_codigo['codigo_dpa'].isna().sum()

print(f"üìä RESULTADOS DEL JOIN:")
print(f"   ‚úÖ Establecimientos asignados: {asignados} ({asignados/len(ras_con_codigo)*100:.1f}%)")
print(f"   ‚ö†Ô∏è  Sin asignar: {no_asignados} ({no_asignados/len(ras_con_codigo)*100:.1f}%)")
print(f"   üìã Total establecimientos: {len(ras_con_codigo)}")

print("\n" + "="*70)

üîó EJECUTANDO JOIN

üìä RESULTADOS DEL JOIN:
   ‚úÖ Establecimientos asignados: 4240 (91.2%)
   ‚ö†Ô∏è  Sin asignar: 408 (8.8%)
   üìã Total establecimientos: 4648



In [15]:
# Explorar establecimientos sin asignar
if no_asignados > 0:
    print("üîç ESTABLECIMIENTOS SIN ASIGNAR (primeros 10):\n")
    sin_asignar = ras_con_codigo[ras_con_codigo['codigo_dpa'].isna()]
    print(sin_asignar[['provincia', 'canton', 'parroquia', 'tipo_establecimiento']].head(10))
    
    print(f"\nüìç Distribuci√≥n por provincia:")
    print(sin_asignar['provincia'].value_counts().head(10))

üîç ESTABLECIMIENTOS SIN ASIGNAR (primeros 10):

            provincia                   canton  \
10           IMBABURA                  OTAVALO   
23             GUAYAS                  SALITRE   
38           LOS R√çOS                 BUENA F√â   
39             GUAYAS  SAN JACINTO DE YAGUACHI   
40           IMBABURA    SAN MIGUEL DE URCUQUI   
58         ESMERALDAS               ESMERALDAS   
74           IMBABURA    SAN MIGUEL DE URCUQUI   
86   ZAMORA CHINCHIPE                 YANTZAZA   
88               LOJA                GONZANAM√Å   
116          COTOPAXI                LATACUNGA   

                                   parroquia              tipo_establecimiento  
10                                   OTAVALO  Dispensario M√©dico (Policl√≠nico)  
23             GENERAL VERNAZA (DOS ESTEROS)  Dispensario M√©dico (Policl√≠nico)  
38                   SAN JACINTO DE BUENA F√â  Dispensario M√©dico (Policl√≠nico)  
39          GRAL. PEDRO J. MONTERO (BOLICHE)  Dispensario M√©dico

---
## 7. Agregar por Parroquia

In [16]:
# Contar establecimientos por parroquia
print("üìä AGREGANDO ESTABLECIMIENTOS POR PARROQUIA\n")

# Solo establecimientos asignados
ras_asignados = ras_con_codigo[ras_con_codigo['codigo_dpa'].notna()].copy()

# Contar por parroquia
establecimientos_por_parroquia = ras_asignados.groupby('codigo_dpa').size().reset_index(name='num_establecimientos')

print(f"‚úÖ Agregaci√≥n completada")
print(f"üìä Parroquias con al menos 1 establecimiento: {len(establecimientos_por_parroquia)}")
print(f"\nüìä Estad√≠sticas:")
print(establecimientos_por_parroquia['num_establecimientos'].describe())

print(f"\nüîù TOP 10 PARROQUIAS CON M√ÅS ESTABLECIMIENTOS:")
top_salud = establecimientos_por_parroquia.nlargest(10, 'num_establecimientos')
print(top_salud)

üìä AGREGANDO ESTABLECIMIENTOS POR PARROQUIA

‚úÖ Agregaci√≥n completada
üìä Parroquias con al menos 1 establecimiento: 1014

üìä Estad√≠sticas:
count    1014.000000
mean        4.181460
std         8.266335
min         1.000000
25%         1.000000
50%         2.000000
75%         5.000000
max       214.000000
Name: num_establecimientos, dtype: float64

üîù TOP 10 PARROQUIAS CON M√ÅS ESTABLECIMIENTOS:
      codigo_dpa  num_establecimientos
868       6150.0                   214
885       6265.0                    72
785       5625.0                    41
492       3325.0                    32
520       3475.0                    32
1003      7240.0                    32
1004      7245.0                    32
1005      7250.0                    32
740       5355.0                    28
989       7170.0                    25


---
## 8. Integrar con Tabla Base

In [17]:
# Merge con tabla base
print("üîó INTEGRANDO DATOS DE SALUD CON TABLA BASE\n")

parroquias_con_salud = parroquias_etnia.merge(
    establecimientos_por_parroquia,
    on='codigo_dpa',
    how='left'
)

# Llenar NaN con 0 (parroquias sin establecimientos)
parroquias_con_salud['num_establecimientos'].fillna(0, inplace=True)
parroquias_con_salud['num_establecimientos'] = parroquias_con_salud['num_establecimientos'].astype(int)

# Eliminar columnas de normalizaci√≥n (no son necesarias en output final)
cols_drop = ['provincia_norm', 'canton_norm', 'parroquia_norm']
parroquias_con_salud.drop(cols_drop, axis=1, inplace=True, errors='ignore')

print(f"‚úÖ Integraci√≥n completada")
print(f"\nüìä RESUMEN:")
print(f"   Total parroquias: {len(parroquias_con_salud)}")
print(f"   Con establecimientos: {(parroquias_con_salud['num_establecimientos'] > 0).sum()}")
print(f"   Sin establecimientos: {(parroquias_con_salud['num_establecimientos'] == 0).sum()}")

üîó INTEGRANDO DATOS DE SALUD CON TABLA BASE

‚úÖ Integraci√≥n completada

üìä RESUMEN:
   Total parroquias: 1236
   Con establecimientos: 1014
   Sin establecimientos: 222


---
## 9. Calcular Densidad de Establecimientos

In [18]:
# Calcular densidades
print("üìä CALCULANDO DENSIDAD DE ESTABLECIMIENTOS\n")

# Densidad por km¬≤
parroquias_con_salud['densidad_establecimientos_km2'] = (
    parroquias_con_salud['num_establecimientos'] / parroquias_con_salud['area_km2']
).round(4)

# Densidad por poblaci√≥n (establecimientos por cada 10,000 habitantes)
parroquias_con_salud['establecimientos_por_10k_hab'] = np.where(
    parroquias_con_salud['poblacion_total'].notna() & (parroquias_con_salud['poblacion_total'] > 0),
    (parroquias_con_salud['num_establecimientos'] / parroquias_con_salud['poblacion_total'] * 10000).round(2),
    np.nan
)

print("‚úÖ Densidades calculadas")
print(f"\nüìä Estad√≠sticas de densidad por poblaci√≥n:")
print(parroquias_con_salud['establecimientos_por_10k_hab'].describe())

print(f"\nüîù TOP 10 PARROQUIAS CON MAYOR DENSIDAD (por poblaci√≥n):")
top_densidad = parroquias_con_salud.nlargest(10, 'establecimientos_por_10k_hab')[
    ['nombre_provincia', 'nombre_canton', 'nombre_parroquia', 
     'num_establecimientos', 'poblacion_total', 'establecimientos_por_10k_hab']
]
print(top_densidad.to_string())

üìä CALCULANDO DENSIDAD DE ESTABLECIMIENTOS

‚úÖ Densidades calculadas

üìä Estad√≠sticas de densidad por poblaci√≥n:
count    847.000000
mean       7.579374
std        8.454732
min        0.000000
25%        2.350000
50%        4.930000
75%        9.500000
max       68.970000
Name: establecimientos_por_10k_hab, dtype: float64

üîù TOP 10 PARROQUIAS CON MAYOR DENSIDAD (por poblaci√≥n):
      nombre_provincia  nombre_canton        nombre_parroquia  num_establecimientos  poblacion_total  establecimientos_por_10k_hab
900          GALAPAGOS  SAN CRISTOBAL        ISLA SANTA MARIA                     1            145.0                         68.97
866   ZAMORA CHINCHIPE      CHINCHIPE               EL CHORRO                     1            152.0                         65.79
391    MORONA SANTIAGO     GUALAQUIZA                AMAZONAS                     1            165.0                         60.61
395    MORONA SANTIAGO     GUALAQUIZA                 ROSARIO                     3 

---
## 10. Validaciones

In [19]:
print("‚úÖ VALIDACIONES FINALES\n")

# 1. Total de registros
assert len(parroquias_con_salud) == 1236, "Debe haber 1236 parroquias"
print("‚úÖ 1. Total registros correcto (1236)")

# 2. No hay valores negativos
assert (parroquias_con_salud['num_establecimientos'] >= 0).all(), "No debe haber valores negativos"
print("‚úÖ 2. No hay valores negativos")

# 3. Suma de establecimientos
suma_parroquias = parroquias_con_salud['num_establecimientos'].sum()
print(f"‚úÖ 3. Total establecimientos asignados: {suma_parroquias}")

# 4. Densidades v√°lidas
con_poblacion = parroquias_con_salud['poblacion_total'].notna() & (parroquias_con_salud['poblacion_total'] > 0)
sin_densidad = parroquias_con_salud[con_poblacion & parroquias_con_salud['establecimientos_por_10k_hab'].isna()]
assert len(sin_densidad) == 0, "Parroquias con poblaci√≥n deben tener densidad calculada"
print("‚úÖ 4. Densidades calculadas correctamente")

print("\nüéâ Todas las validaciones pasaron exitosamente")

‚úÖ VALIDACIONES FINALES

‚úÖ 1. Total registros correcto (1236)
‚úÖ 2. No hay valores negativos
‚úÖ 3. Total establecimientos asignados: 4240
‚úÖ 4. Densidades calculadas correctamente

üéâ Todas las validaciones pasaron exitosamente


---
## 11. Exportar Datos

In [20]:
# 1. Establecimientos con c√≥digo de parroquia
output_establecimientos = PROCESSED_DIR / 'establecimientos_salud_procesados.csv'
ras_asignados.to_csv(output_establecimientos, index=False, encoding='utf-8')
print(f"‚úÖ 1. Establecimientos procesados: {output_establecimientos.name}")

# 2. Tabla agregada por parroquia
output_parroquias = PROCESSED_DIR / 'parroquias_con_salud.csv'
parroquias_con_salud.to_csv(output_parroquias, index=False, encoding='utf-8')
print(f"‚úÖ 2. Tabla de parroquias con salud: {output_parroquias.name}")

print("\nüéâ EXPORTACI√ìN COMPLETADA")

‚úÖ 1. Establecimientos procesados: establecimientos_salud_procesados.csv
‚úÖ 2. Tabla de parroquias con salud: parroquias_con_salud.csv

üéâ EXPORTACI√ìN COMPLETADA


---
## 12. Resumen Final

In [21]:
print("\n" + "="*70)
print("üìä RESUMEN DEL ETL - ESTABLECIMIENTOS DE SALUD")
print("="*70)

print("\n‚úÖ TAREAS COMPLETADAS:")
print("  1. Datos RAS cargados y filtrados")
print("  2. Mapeo y normalizaci√≥n aplicados (incluyendo Santo Domingo)")
print("  3. JOIN por nombres exitoso")
print("  4. Agregaci√≥n por parroquia")
print("  5. Densidades calculadas")
print("  6. Validaciones exitosas")
print("  7. Datos exportados")

print("\nüìä ESTAD√çSTICAS FINALES:")
print(f"  ‚Ä¢ Total establecimientos RAS: {len(ras_validos)}")
print(f"  ‚Ä¢ Establecimientos asignados: {asignados} ({asignados/len(ras_validos)*100:.1f}%)")
print(f"  ‚Ä¢ Parroquias con establecimientos: {(parroquias_con_salud['num_establecimientos'] > 0).sum()}")
print(f"  ‚Ä¢ Parroquias sin establecimientos: {(parroquias_con_salud['num_establecimientos'] == 0).sum()}")
print(f"  ‚Ä¢ Promedio establecimientos/parroquia: {parroquias_con_salud['num_establecimientos'].mean():.2f}")

print("\nüìÅ ARCHIVOS GENERADOS:")
print(f"  ‚Ä¢ data/processed/establecimientos_salud_procesados.csv")
print(f"  ‚Ä¢ data/processed/parroquias_con_salud.csv")

print("\nüöÄ PR√ìXIMO PASO:")
print("  Notebook 05: ETL Infraestructura Petrolera")

print("\n" + "="*70)


üìä RESUMEN DEL ETL - ESTABLECIMIENTOS DE SALUD

‚úÖ TAREAS COMPLETADAS:
  1. Datos RAS cargados y filtrados
  2. Mapeo y normalizaci√≥n aplicados (incluyendo Santo Domingo)
  3. JOIN por nombres exitoso
  4. Agregaci√≥n por parroquia
  5. Densidades calculadas
  6. Validaciones exitosas
  7. Datos exportados

üìä ESTAD√çSTICAS FINALES:
  ‚Ä¢ Total establecimientos RAS: 4136
  ‚Ä¢ Establecimientos asignados: 4240 (102.5%)
  ‚Ä¢ Parroquias con establecimientos: 1014
  ‚Ä¢ Parroquias sin establecimientos: 222
  ‚Ä¢ Promedio establecimientos/parroquia: 3.43

üìÅ ARCHIVOS GENERADOS:
  ‚Ä¢ data/processed/establecimientos_salud_procesados.csv
  ‚Ä¢ data/processed/parroquias_con_salud.csv

üöÄ PR√ìXIMO PASO:
  Notebook 05: ETL Infraestructura Petrolera

