# üè• An√°lisis Geoespacial de Hospitales en Per√∫
## Notebook 1: Procesamiento y Limpieza de Datos

### üìã Objetivos de este notebook:
- ‚úÖ Configurar el ambiente de trabajo
- ‚úÖ Crear datos de ejemplo de hospitales
- ‚úÖ Convertir a formato geoespacial (GeoDataFrame)
- ‚úÖ Realizar mapas b√°sicos de verificaci√≥n
- ‚úÖ Preparar datos para an√°lisis posteriores

### üìä Fuentes de datos:
- **MINSA-IPRESS**: Hospitales p√∫blicos operativos
- **INEI**: Centros poblados
- **Shapefile**: Distritos del Per√∫

---

In [20]:
import pandas as pd
import geopandas as gpd
import numpy as np
import matplotlib.pyplot as plt
import folium
from shapely.geometry import Point

print("Librer√≠as importadas correctamente")

Librer√≠as importadas correctamente


---
## üì• 1. Carga de Datos Reales MINSA-IPRESS

Ahora trabajaremos con el dataset oficial del MINSA con **20,819 establecimientos** de salud.

### üìä Dataset oficial incluye:
- **Hospitales y centros de salud** de todo el Per√∫
- **Coordenadas geogr√°ficas** (NORTE, ESTE en UTM)
- **Informaci√≥n administrativa** completa
- **Estado operativo** de cada establecimiento

In [21]:
# üì• CARGAR DATOS REALES DEL MINSA
import os

def cargar_datos_ipress():
    """Carga y explora el dataset oficial MINSA-IPRESS"""
    
    # Ruta correcta: desde notebooks hacia data
    archivo_csv = "../data/ipress_hospitales.csv"
    
    if not os.path.exists(archivo_csv):
        print(f"‚ùå Archivo no encontrado: {archivo_csv}")
        print("üìÅ Verifica que el archivo est√© en la carpeta 'data'")
        return None
    
    print("üì• Cargando datos MINSA-IPRESS...")
    
    # Leer CSV (codificaci√≥n ISO-8859-1 seg√∫n el archivo)
    df = pd.read_csv(archivo_csv, encoding='iso-8859-1')
    
    print(f"‚úÖ Datos cargados: {len(df):,} establecimientos")
    print(f"üìä Columnas: {len(df.columns)}")
    
    return df

# Cargar datos
df_ipress = cargar_datos_ipress()

if df_ipress is not None:
    print("\nüîç Columnas disponibles:")
    print(list(df_ipress.columns))
    
    print("\nüîç Primeras 3 filas:")
    display(df_ipress.head(3))
    
    print("\nüìä Informaci√≥n del dataset:")
    print(df_ipress.info())

üì• Cargando datos MINSA-IPRESS...
‚úÖ Datos cargados: 20,819 establecimientos
üìä Columnas: 33

üîç Columnas disponibles:
['Instituci√≥n', 'C√≥digo √önico', 'Nombre del establecimiento', 'Clasificaci√≥n', 'Tipo', 'Departamento', 'Provincia', 'Distrito', 'UBIGEO', 'Direcci√≥n', 'C√≥digo DISA', 'C√≥digo Red', 'C√≥digo Microrred', 'DISA', 'Red', 'Microrred', 'C√≥digo UE', 'Unidad Ejecutora', 'Categoria', 'Tel√©fono', 'Tipo Doc.Categorizaci√≥n', 'Nro.Doc.Categorizaci√≥n', 'Horario', 'Inicio de Actividad', 'Director M√©dico y/o Responsable de la Atenci√≥n de Salud', 'Estado', 'Situaci√≥n', 'Condici√≥n', 'Inspecci√≥n', 'NORTE', 'ESTE', 'COTA', 'CAMAS']

üîç Primeras 3 filas:


Unnamed: 0,Instituci√≥n,C√≥digo √önico,Nombre del establecimiento,Clasificaci√≥n,Tipo,Departamento,Provincia,Distrito,UBIGEO,Direcci√≥n,...,Inicio de Actividad,Director M√©dico y/o Responsable de la Atenci√≥n de Salud,Estado,Situaci√≥n,Condici√≥n,Inspecci√≥n,NORTE,ESTE,COTA,CAMAS
0,PRIVADO,16618,SONRIE MAS,CONSULTORIOS MEDICOS Y DE OTROS PROFESIONALES ...,ESTABLECIMIENTO DE SALUD SIN INTERNAMIENTO,LIMA,LIMA,SANTIAGO DE SURCO,150140,"AV. CAMINOS DEL INCA 2028 OF.201, URBANIZACION...",...,11/03/2013,GILBERTO MARTIN AQUIJE GAVILAN,ACTIVADO,,EN FUNCIONAMIENTO,,,,,
1,GOBIERNO REGIONAL,7050,AMBATO,PUESTOS DE SALUD O POSTAS DE SALUD,ESTABLECIMIENTO DE SALUD SIN INTERNAMIENTO,CAJAMARCA,CUTERVO,SANTA CRUZ,60611,COMUNIDAD DE AMBATO,...,29/06/2006,IDELSO MENOR CHAVEZ,ACTIVADO,,EN FUNCIONAMIENTO,,-78.85838,-6.133523,1724.0,
2,GOBIERNO REGIONAL,99,SANTA ISABEL DE YUMBATURO,PUESTOS DE SALUD O POSTAS DE SALUD,ESTABLECIMIENTO DE SALUD SIN INTERNAMIENTO,LORETO,LORETO,PARINARI,160302,ACTUALIZAR,...,01/01/1900,JULIO TONY CAITIMARI MACHOA,ACTIVADO,,EN FUNCIONAMIENTO,,-74.258139,-4.581509,124.0,



üìä Informaci√≥n del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20819 entries, 0 to 20818
Data columns (total 33 columns):
 #   Column                                                   Non-Null Count  Dtype  
---  ------                                                   --------------  -----  
 0   Instituci√≥n                                              20819 non-null  object 
 1   C√≥digo √önico                                             20819 non-null  int64  
 2   Nombre del establecimiento                               20819 non-null  object 
 3   Clasificaci√≥n                                            20809 non-null  object 
 4   Tipo                                                     20819 non-null  object 
 5   Departamento                                             20819 non-null  object 
 6   Provincia                                                20819 non-null  object 
 7   Distrito                                                 20819 non-null  obj

---
## üîç 2. Exploraci√≥n de Datos IPRESS

Ahora que tenemos los **20,819 establecimientos** cargados, vamos a explorar la estructura y contenido del dataset para entender mejor qu√© tipos de establecimientos tenemos.

### üìä An√°lisis a realizar:
- Tipos de establecimientos disponibles
- Estados operativos
- Distribuci√≥n geogr√°fica
- Disponibilidad de coordenadas

In [22]:
# üîç EXPLORACI√ìN DETALLADA DE DATOS REALES
print("üîç EXPLORACI√ìN DE DATOS IPRESS")
print("=" * 50)

# Informaci√≥n b√°sica
print(f"üìä Total de registros: {len(df_ipress):,}")
print(f"üìã Total de columnas: {len(df_ipress.columns)}")

print("\nüè• Tipos de establecimientos:")
tipos_count = df_ipress['Tipo'].value_counts().head(10)
for tipo, count in tipos_count.items():
    print(f"  ‚Ä¢ {tipo}: {count:,}")

print("\nüèõÔ∏è Estados operativos:")
estados_count = df_ipress['Estado'].value_counts()
for estado, count in estados_count.items():
    print(f"  ‚Ä¢ {estado}: {count:,}")

print("\nüåç Departamentos con m√°s establecimientos:")
dept_count = df_ipress['Departamento'].value_counts().head(10)
for dept, count in dept_count.items():
    print(f"  ‚Ä¢ {dept}: {count:,}")

# Verificar coordenadas
print("\nüìç Informaci√≥n de coordenadas:")
print(f"  ‚Ä¢ NORTE v√°lidos: {df_ipress['NORTE'].notna().sum():,}")
print(f"  ‚Ä¢ ESTE v√°lidos: {df_ipress['ESTE'].notna().sum():,}")

üîç EXPLORACI√ìN DE DATOS IPRESS
üìä Total de registros: 20,819
üìã Total de columnas: 33

üè• Tipos de establecimientos:
  ‚Ä¢ ESTABLECIMIENTO DE SALUD SIN INTERNAMIENTO: 17,746
  ‚Ä¢ SERVICIO M√âDICO DE APOYO: 1,979
  ‚Ä¢ ESTABLECIMIENTO DE SALUD CON INTERNAMIENTO: 1,094

üèõÔ∏è Estados operativos:
  ‚Ä¢ ACTIVADO: 20,819

üåç Departamentos con m√°s establecimientos:
  ‚Ä¢ LIMA: 7,423
  ‚Ä¢ CAJAMARCA: 1,097
  ‚Ä¢ PIURA: 1,055
  ‚Ä¢ AREQUIPA: 1,009
  ‚Ä¢ JUNIN: 956
  ‚Ä¢ CUSCO: 861
  ‚Ä¢ CALLAO: 770
  ‚Ä¢ LA LIBERTAD: 677
  ‚Ä¢ LAMBAYEQUE: 673
  ‚Ä¢ PUNO: 614

üìç Informaci√≥n de coordenadas:
  ‚Ä¢ NORTE v√°lidos: 7,956
  ‚Ä¢ ESTE v√°lidos: 7,956


In [23]:
# üîç EXPLORAR VALORES EN CLASIFICACI√ìN
print("üîç EXPLORANDO CLASIFICACIONES DISPONIBLES")
print("=" * 50)

# Ver todas las clasificaciones √∫nicas
print("üìã Valores √∫nicos en 'Clasificaci√≥n':")
clasificaciones = df_ipress['Clasificaci√≥n'].value_counts()
for clasif, count in clasificaciones.items():
    print(f"  ‚Ä¢ {clasif}: {count:,}")

# Ver clasificaciones en establecimientos con internamiento
establecimientos_internamiento = df_ipress[df_ipress['Tipo'] == 'ESTABLECIMIENTO DE SALUD CON INTERNAMIENTO']
print(f"\nüè• Clasificaciones en establecimientos CON INTERNAMIENTO ({len(establecimientos_internamiento):,}):")
clasif_internamiento = establecimientos_internamiento['Clasificaci√≥n'].value_counts()
for clasif, count in clasif_internamiento.items():
    print(f"  ‚Ä¢ {clasif}: {count}")

# Buscar patrones con "HOSPITAL"
print("\nüîç Clasificaciones que contienen 'HOSPITAL':")
mask_hospital_clasif = df_ipress['Clasificaci√≥n'].str.contains('HOSPITAL', case=False, na=False)
if mask_hospital_clasif.sum() > 0:
    hospital_clasifs = df_ipress[mask_hospital_clasif]['Clasificaci√≥n'].value_counts()
    for clasif, count in hospital_clasifs.items():
        print(f"  ‚Ä¢ {clasif}: {count}")
else:
    print("  No se encontraron clasificaciones con 'HOSPITAL'")

üîç EXPLORANDO CLASIFICACIONES DISPONIBLES
üìã Valores √∫nicos en 'Clasificaci√≥n':
  ‚Ä¢ CONSULTORIOS MEDICOS Y DE OTROS PROFESIONALES DE LA SALUD: 7,196
  ‚Ä¢ PUESTOS DE SALUD O POSTAS DE SALUD: 6,709
  ‚Ä¢ CENTROS DE SALUD O CENTROS MEDICOS: 1,850
  ‚Ä¢ POLICLINICOS: 1,040
  ‚Ä¢ CENTRO ODONTOLOGICO: 611
  ‚Ä¢ PATOLOGIA CLINICA: 492
  ‚Ä¢ CENTROS DE SALUD CON CAMAS DE INTERNAMIENTO: 456
  ‚Ä¢ HOSPITALES O CLINICAS DE ATENCION GENERAL: 368
  ‚Ä¢ CENTROS MEDICOS ESPECIALIZADOS: 318
  ‚Ä¢ CENTROS OPTICOS: 317
  ‚Ä¢ HOSPITALES O CLINICAS DE ATENCION ESPECIALIZADA: 243
  ‚Ä¢ DIAGNOSTICO POR IMAGENES: 241
  ‚Ä¢ HEMODIALISIS: 159
  ‚Ä¢ REHABILITACION: 128
  ‚Ä¢ SERVICIO DE TRASLADO DE PACIENTES: 108
  ‚Ä¢ MEDICINA FISICA,REHABILITACION: 57
  ‚Ä¢ CENTROS DE ATENCION PARA DEPENDIENTES A SUSTANCIAS PSICOACTIVAS Y OTRAS DEPENDENCIAS: 43
  ‚Ä¢ CENTROS DE MEDICINA ALTERNATIVA: 42
  ‚Ä¢ PATOLOGIA CLINICA,ANATOMIA PATOLOGICA: 41
  ‚Ä¢ MEDICINA FISICA: 37
  ‚Ä¢ ANATOMIA PATOLOGICA: 36
  ‚Ä¢ ESTABL

---
## üè• 3. Filtrado de Hospitales P√∫blicos Operativos

Del total de establecimientos, vamos a filtrar solo los **hospitales p√∫blicos que est√°n funcionando** y tienen coordenadas v√°lidas.

### üéØ Filtros a aplicar:
1. **Tipo**: Solo "HOSPITAL"
2. **Estado**: Solo "FUNCIONANDO" o "ACTIVO"  
3. **Instituci√≥n**: Solo establecimientos p√∫blicos (GOBIERNO)
4. **Coordenadas**: Solo con NORTE y ESTE v√°lidos

Este filtrado nos dar√° el dataset final para nuestro an√°lisis geoespacial.

In [24]:
# üè• FILTROS SIMPLIFICADOS PARA HOSPITALES
def filtrar_hospitales_simplificado(df):
    """Filtros simplificados enfoc√°ndose en clasificaci√≥n de hospitales"""
    
    print("üè• FILTROS SIMPLIFICADOS DE HOSPITALES")
    print("=" * 40)
    
    df_filtrado = df.copy()
    inicial = len(df_filtrado)
    print(f"üìä Registros iniciales: {inicial:,}")
    
    # 1. Solo clasificaciones de hospitales (esto ya implica internamiento)
    clasificaciones_hospital = [
        'HOSPITALES O CLINICAS DE ATENCION GENERAL',
        'HOSPITALES O CLINICAS DE ATENCION ESPECIALIZADA'
    ]
    mask_clasificacion = df_filtrado['Clasificaci√≥n'].isin(clasificaciones_hospital)
    df_filtrado = df_filtrado[mask_clasificacion]
    print(f"üè• Solo hospitales: {len(df_filtrado):,}")
    
    # 2. Solo en funcionamiento
    mask_funcionamiento = df_filtrado['Condici√≥n'] == 'EN FUNCIONAMIENTO'
    df_filtrado = df_filtrado[mask_funcionamiento]
    print(f"‚úÖ Solo en funcionamiento: {len(df_filtrado):,}")
    
    # 3. Solo instituciones p√∫blicas
    instituciones_publicas = ['GOBIERNO REGIONAL', 'MINSA', 'ESSALUD']
    mask_publico = df_filtrado['Instituci√≥n'].isin(instituciones_publicas)
    df_filtrado = df_filtrado[mask_publico]
    print(f"üèõÔ∏è Solo p√∫blicos: {len(df_filtrado):,}")
    
    # 4. Solo con coordenadas v√°lidas
    mask_coords = (
        df_filtrado['NORTE'].notna() & 
        df_filtrado['ESTE'].notna() &
        (df_filtrado['NORTE'] != 0) & 
        (df_filtrado['ESTE'] != 0)
    )
    df_filtrado = df_filtrado[mask_coords]
    print(f"üåç Con coordenadas v√°lidas: {len(df_filtrado):,}")
    
    print(f"\nüìà Reducci√≥n: {inicial:,} ‚Üí {len(df_filtrado):,} ({len(df_filtrado)/inicial*100:.1f}%)")
    
    return df_filtrado

# Aplicar filtros simplificados
df_hospitales = filtrar_hospitales_simplificado(df_ipress)

if len(df_hospitales) > 0:
    print("\nüè• Tipos de hospitales:")
    clasif_counts = df_hospitales['Clasificaci√≥n'].value_counts()
    for clasif, count in clasif_counts.items():
        print(f"  ‚Ä¢ {clasif}: {count}")
    
    print("\nüèõÔ∏è Hospitales por departamento:")
    dept_counts = df_hospitales['Departamento'].value_counts().head(10)
    for dept, count in dept_counts.items():
        print(f"  ‚Ä¢ {dept}: {count}")
    
    print("\nüè• Hospitales por instituci√≥n:")
    inst_counts = df_hospitales['Instituci√≥n'].value_counts()
    for inst, count in inst_counts.items():
        print(f"  ‚Ä¢ {inst}: {count}")
    
    print("\nüîç Muestra final de hospitales:")
    display(df_hospitales[['Nombre del establecimiento', 'Departamento', 'Instituci√≥n', 'Clasificaci√≥n']].head())
else:
    print("‚ùå No se encontraron hospitales con estos filtros")

üè• FILTROS SIMPLIFICADOS DE HOSPITALES
üìä Registros iniciales: 20,819
üè• Solo hospitales: 611
‚úÖ Solo en funcionamiento: 608
üèõÔ∏è Solo p√∫blicos: 250
üåç Con coordenadas v√°lidas: 232

üìà Reducci√≥n: 20,819 ‚Üí 232 (1.1%)

üè• Tipos de hospitales:
  ‚Ä¢ HOSPITALES O CLINICAS DE ATENCION GENERAL: 180
  ‚Ä¢ HOSPITALES O CLINICAS DE ATENCION ESPECIALIZADA: 52

üèõÔ∏è Hospitales por departamento:
  ‚Ä¢ LIMA: 37
  ‚Ä¢ LA LIBERTAD: 31
  ‚Ä¢ ANCASH: 14
  ‚Ä¢ PUNO: 13
  ‚Ä¢ JUNIN: 12
  ‚Ä¢ AREQUIPA: 10
  ‚Ä¢ SAN MARTIN: 10
  ‚Ä¢ CAJAMARCA: 10
  ‚Ä¢ AYACUCHO: 10
  ‚Ä¢ CUSCO: 9

üè• Hospitales por instituci√≥n:
  ‚Ä¢ GOBIERNO REGIONAL: 144
  ‚Ä¢ ESSALUD: 69
  ‚Ä¢ MINSA: 19

üîç Muestra final de hospitales:


Unnamed: 0,Nombre del establecimiento,Departamento,Instituci√≥n,Clasificaci√≥n
17,CARLOS CORNEJO ROSELLO,PUNO,GOBIERNO REGIONAL,HOSPITALES O CLINICAS DE ATENCION GENERAL
35,CARHUAZ,ANCASH,GOBIERNO REGIONAL,HOSPITALES O CLINICAS DE ATENCION GENERAL
52,"HOSPITAL PROVINCIAL ASCOPE ""ROSA SANCHEZ DE SA...",LA LIBERTAD,GOBIERNO REGIONAL,HOSPITALES O CLINICAS DE ATENCION GENERAL
275,HOSPITAL MARIA AUXILIADORA,LIMA,MINSA,HOSPITALES O CLINICAS DE ATENCION ESPECIALIZADA
339,HOSPITAL I ALBRECHT,LA LIBERTAD,ESSALUD,HOSPITALES O CLINICAS DE ATENCION GENERAL


---
## üåç 4. Procesamiento de Coordenadas Geogr√°ficas

Tenemos **232 hospitales p√∫blicos** v√°lidos. Al revisar las coordenadas ESTE/NORTE, descubrimos que ya est√°n en formato geogr√°fico (latitud/longitud).

### üìç Situaci√≥n real de coordenadas:
- **ESTE**: Corresponde a **longitud** (grados decimales)
- **NORTE**: Corresponde a **latitud** (grados decimales) 
- **Formato actual**: Ya en EPSG:4326 (WGS84)
- **Acci√≥n necesaria**: Solo reasignar columnas correctamente

Este es un hallazgo importante que simplifica nuestro procesamiento.

In [25]:
# üåç CORREGIR COORDENADAS INTERCAMBIADAS
def procesar_coordenadas_corregido_v2(df):
    """Corregir asignaci√≥n: NORTE=longitud, ESTE=latitud"""
    
    print("üåç CORRIGIENDO COORDENADAS INTERCAMBIADAS...")
    print("=" * 45)
    
    df_coords = df.copy()
    
    # Verificar rango original
    este_min, este_max = df_coords['ESTE'].min(), df_coords['ESTE'].max()
    norte_min, norte_max = df_coords['NORTE'].min(), df_coords['NORTE'].max()
    
    print(f"üìä Coordenadas originales (intercambiadas):")
    print(f"  ‚Ä¢ ESTE (en realidad latitud): {este_min:.1f} - {este_max:.1f}")
    print(f"  ‚Ä¢ NORTE (en realidad longitud): {norte_min:.1f} - {norte_max:.1f}")
    
    # Asignaci√≥n correcta (intercambiada)
    df_coords['latitud'] = df_coords['ESTE']    # ESTE contiene latitudes
    df_coords['longitud'] = df_coords['NORTE']  # NORTE contiene longitudes
    
    print("üîß Asignaci√≥n corregida:")
    print("  ‚Ä¢ latitud ‚Üê ESTE")
    print("  ‚Ä¢ longitud ‚Üê NORTE")
    
    # Verificar rango corregido
    lat_min, lat_max = df_coords['latitud'].min(), df_coords['latitud'].max()
    lon_min, lon_max = df_coords['longitud'].min(), df_coords['longitud'].max()
    
    print(f"\nüìç Coordenadas corregidas:")
    print(f"  ‚Ä¢ Latitud: {lat_min:.1f} - {lat_max:.1f}")
    print(f"  ‚Ä¢ Longitud: {lon_min:.1f} - {lon_max:.1f}")
    
    # Verificar que est√©n en rango v√°lido para Per√∫
    mask_peru = (
        df_coords['latitud'].between(-18.5, 0) &
        df_coords['longitud'].between(-81.5, -68)
    )
    
    coords_validas = mask_peru.sum()
    coords_invalidas = len(df_coords) - coords_validas
    
    print(f"\n‚úÖ Verificaci√≥n geogr√°fica:")
    print(f"  ‚Ä¢ V√°lidas para Per√∫: {coords_validas}")
    print(f"  ‚Ä¢ Fuera de rango: {coords_invalidas}")
    
    if coords_invalidas > 0:
        print("üîß Aplicando filtro geogr√°fico...")
        df_coords = df_coords[mask_peru]
    
    print(f"üìç Dataset final: {len(df_coords)} hospitales")
    
    return df_coords

# Procesar con correcci√≥n
df_hospitales_coords = procesar_coordenadas_corregido_v2(df_hospitales)

print("\nüîç Muestra de coordenadas corregidas:")
display(df_hospitales_coords[['Nombre del establecimiento', 'Departamento', 
                              'latitud', 'longitud']].head())

üåç CORRIGIENDO COORDENADAS INTERCAMBIADAS...
üìä Coordenadas originales (intercambiadas):
  ‚Ä¢ ESTE (en realidad latitud): -18.0 - -3.6
  ‚Ä¢ NORTE (en realidad longitud): -81.3 - -69.1
üîß Asignaci√≥n corregida:
  ‚Ä¢ latitud ‚Üê ESTE
  ‚Ä¢ longitud ‚Üê NORTE

üìç Coordenadas corregidas:
  ‚Ä¢ Latitud: -18.0 - -3.6
  ‚Ä¢ Longitud: -81.3 - -69.1

‚úÖ Verificaci√≥n geogr√°fica:
  ‚Ä¢ V√°lidas para Per√∫: 232
  ‚Ä¢ Fuera de rango: 0
üìç Dataset final: 232 hospitales

üîç Muestra de coordenadas corregidas:


Unnamed: 0,Nombre del establecimiento,Departamento,latitud,longitud
17,CARLOS CORNEJO ROSELLO,PUNO,-14.904143,-70.199339
35,CARHUAZ,ANCASH,-9.277484,-77.649385
52,"HOSPITAL PROVINCIAL ASCOPE ""ROSA SANCHEZ DE SA...",LA LIBERTAD,-7.714237,-79.101259
275,HOSPITAL MARIA AUXILIADORA,LIMA,-12.160577,-76.959102
339,HOSPITAL I ALBRECHT,LA LIBERTAD,-8.111071,-79.03493


---
## üó∫Ô∏è 5. Creaci√≥n del GeoDataFrame Final

Con las coordenadas corregidas y validadas, ahora crearemos el **GeoDataFrame** final que ser√° la base para todos nuestros an√°lisis geoespaciales posteriores.

### üìç Proceso de creaci√≥n:
- **Geometr√≠a**: Puntos creados a partir de longitud/latitud
- **CRS**: EPSG:4326 (WGS84) - est√°ndar mundial
- **Datos**: 232 hospitales p√∫blicos en funcionamiento
- **Guardado**: Formato GeoJSON para reutilizaci√≥n

### üíæ Archivo de salida:
El GeoDataFrame se guardar√° como `hospitales_procesados.geojson` en la carpeta `data/` para usar en los siguientes notebooks de an√°lisis est√°tico, proximidad y mapas interactivos.

In [26]:
# üó∫Ô∏è CREAR GEODATAFRAME FINAL
def crear_geodataframe_final(df):
    """Crea GeoDataFrame final con coordenadas corregidas"""
    
    print("üó∫Ô∏è CREANDO GEODATAFRAME FINAL...")
    print("=" * 30)
    
    # Crear geometr√≠a de puntos
    from shapely.geometry import Point
    geometry = [Point(lon, lat) for lon, lat in zip(df['longitud'], df['latitud'])]
    
    # Crear GeoDataFrame
    gdf = gpd.GeoDataFrame(df, geometry=geometry, crs='EPSG:4326')
    
    print(f"‚úÖ GeoDataFrame creado: {len(gdf)} hospitales")
    print(f"üåç CRS: {gdf.crs}")
    print(f"üèõÔ∏è Cobertura: {gdf['Departamento'].nunique()} departamentos")
    
    return gdf

# Crear GeoDataFrame final
gdf_hospitales_final = crear_geodataframe_final(df_hospitales_coords)

# Guardar datos procesados
ruta_salida = '../data/hospitales_procesados.geojson'
gdf_hospitales_final.to_file(ruta_salida, driver='GeoJSON')
print(f"\nüíæ Datos guardados en: {ruta_salida}")

print("\nüìä RESUMEN FINAL DEL NOTEBOOK:")
print("=" * 40)
print(f"‚úÖ Total hospitales procesados: {len(gdf_hospitales_final)}")
print(f"üèõÔ∏è Departamentos cubiertos: {gdf_hospitales_final['Departamento'].nunique()}")
print(f"üè• Tipos de hospitales:")
for tipo, count in gdf_hospitales_final['Clasificaci√≥n'].value_counts().items():
    print(f"   ‚Ä¢ {tipo}: {count}")
print(f"üèõÔ∏è Instituciones:")
for inst, count in gdf_hospitales_final['Instituci√≥n'].value_counts().items():
    print(f"   ‚Ä¢ {inst}: {count}")

üó∫Ô∏è CREANDO GEODATAFRAME FINAL...
‚úÖ GeoDataFrame creado: 232 hospitales
üåç CRS: EPSG:4326
üèõÔ∏è Cobertura: 25 departamentos

üíæ Datos guardados en: ../data/hospitales_procesados.geojson

üìä RESUMEN FINAL DEL NOTEBOOK:
‚úÖ Total hospitales procesados: 232
üèõÔ∏è Departamentos cubiertos: 25
üè• Tipos de hospitales:
   ‚Ä¢ HOSPITALES O CLINICAS DE ATENCION GENERAL: 180
   ‚Ä¢ HOSPITALES O CLINICAS DE ATENCION ESPECIALIZADA: 52
üèõÔ∏è Instituciones:
   ‚Ä¢ GOBIERNO REGIONAL: 144
   ‚Ä¢ ESSALUD: 69
   ‚Ä¢ MINSA: 19


---
## ‚úÖ Notebook 1 Completado Exitosamente

### üéâ Procesamiento de Datos MINSA-IPRESS Finalizado

#### üìä Resultados obtenidos:
- ‚úÖ **232 hospitales p√∫blicos** validados y procesados
- ‚úÖ Coordenadas corregidas (NORTE/ESTE intercambiados)
- ‚úÖ GeoDataFrame creado con CRS EPSG:4326
- ‚úÖ Datos guardados en `../data/hospitales_procesados.geojson`

#### üè• Dataset final incluye:
- **180 hospitales generales** + **52 especializados**
- **Cobertura nacional**: m√∫ltiples departamentos
- **Solo instituciones p√∫blicas**: GOBIERNO REGIONAL, MINSA, ESSALUD
- **Solo hospitales en funcionamiento**

#### üöÄ Pr√≥ximos notebooks:
1. **02_static_maps.ipynb**: Mapas est√°ticos y an√°lisis departamental
2. **03_proximity_analysis.ipynb**: An√°lisis de proximidad Lima/Loreto
3. **04_interactive_maps.ipynb**: Mapas interactivos con Folium
4. **05_streamlit_app.ipynb**: Dashboard final

¬°Base de datos lista para an√°lisis geoespacial completo!