# üè• An√°lisis de Centros de Salud (IPRESS)
## Exploraci√≥n r√°pida del dataset de instituciones prestadoras de servicios de salud

Este notebook contiene el an√°lisis del archivo **IPRESS.csv** con informaci√≥n de centros de salud.

In [3]:
# üìö IMPORTAR LIBRER√çAS Y CARGAR DATOS
import pandas as pd
import numpy as np
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configurar pandas para mejor visualizaci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_rows', 20)

print("üîß Librer√≠as cargadas correctamente")
print(f"üìÖ An√°lisis realizado: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

# Cargar el dataset de IPRESS
try:
    df_ipress = pd.read_csv('../DATA/IPRESS.csv')
    print(f"\n‚úÖ Dataset IPRESS.csv cargado exitosamente")
    print(f"üìä Dimensiones: {df_ipress.shape[0]:,} filas √ó {df_ipress.shape[1]} columnas")
except FileNotFoundError:
    print("\n‚ùå No se encontr√≥ el archivo IPRESS.csv en la carpeta DATA/")
    print("üí° Verifica que el archivo est√© en la ruta correcta")
except Exception as e:
    print(f"\n‚ùå Error cargando el archivo: {e}")

üîß Librer√≠as cargadas correctamente
üìÖ An√°lisis realizado: 2025-10-04 00:06:02

‚ùå Error cargando el archivo: 'utf-8' codec can't decode byte 0xf3 in position 9: invalid continuation byte


In [11]:
# üîç CARGAR DATASET CON DIFERENTES ENCODINGS
print("üîß Intentando cargar IPRESS.csv con diferentes encodings...")

# Lista de encodings comunes
encodings = ['utf-8', 'latin-1', 'iso-8859-1', 'cp1252', 'utf-16']

df_ipress = None
for encoding in encodings:
    try:
        print(f"   üîÑ Probando encoding: {encoding}")
        df_ipress = pd.read_csv('../DATA/IPRESS.csv', encoding=encoding)
        print(f"   ‚úÖ ¬°√âxito con encoding {encoding}!")
        print(f"   üìä Dimensiones: {df_ipress.shape[0]:,} filas √ó {df_ipress.shape[1]} columnas")
        break
    except UnicodeDecodeError as e:
        print(f"   ‚ùå Fall√≥ {encoding}: {str(e)[:50]}...")
        continue
    except FileNotFoundError:
        print(f"   ‚ùå Archivo IPRESS.csv no encontrado en DATA/")
        break
    except Exception as e:
        print(f"   ‚ùå Error con {encoding}: {str(e)[:50]}...")
        continue

if df_ipress is None:
    print(f"\n‚ùå No se pudo cargar el archivo con ning√∫n encoding")
    print(f"üí° Verifica que el archivo IPRESS.csv est√© en ../DATA/")
else:
    print(f"\nüéâ Dataset cargado correctamente con encoding: {encoding}")

üîß Intentando cargar IPRESS.csv con diferentes encodings...
   üîÑ Probando encoding: utf-8
   ‚ùå Fall√≥ utf-8: 'utf-8' codec can't decode byte 0xf3 in position 9...
   üîÑ Probando encoding: latin-1
   ‚úÖ ¬°√âxito con encoding latin-1!
   üìä Dimensiones: 20,819 filas √ó 33 columnas

üéâ Dataset cargado correctamente con encoding: latin-1


In [5]:
# üìã EXPLORACI√ìN INICIAL DEL DATASET
print("üîç EXPLORACI√ìN INICIAL - DATASET IPRESS")
print("=" * 60)

print(f"üìä INFORMACI√ìN GENERAL:")
print(f"   ‚Ä¢ Total de centros de salud: {df_ipress.shape[0]:,}")
print(f"   ‚Ä¢ Total de columnas: {df_ipress.shape[1]}")
print(f"   ‚Ä¢ Memoria utilizada: {df_ipress.memory_usage(deep=True).sum() / 1024**2:.1f} MB")

print(f"\nüìù COLUMNAS DISPONIBLES:")
for i, col in enumerate(df_ipress.columns, 1):
    print(f"   {i:2d}. {col}")

print(f"\nüìä TIPOS DE DATOS:")
print(df_ipress.dtypes.value_counts())

print(f"\nüîç PRIMERAS 5 FILAS:")
print(df_ipress.head())

üîç EXPLORACI√ìN INICIAL - DATASET IPRESS
üìä INFORMACI√ìN GENERAL:
   ‚Ä¢ Total de centros de salud: 20,819
   ‚Ä¢ Total de columnas: 33
   ‚Ä¢ Memoria utilizada: 35.3 MB

üìù COLUMNAS DISPONIBLES:
    1. Instituci√≥n
    2. C√≥digo √önico
    3. Nombre del establecimiento
    4. Clasificaci√≥n
    5. Tipo
    6. Departamento
    7. Provincia
    8. Distrito
    9. UBIGEO
   10. Direcci√≥n
   11. C√≥digo DISA
   12. C√≥digo Red
   13. C√≥digo Microrred
   14. DISA
   15. Red
   16. Microrred
   17. C√≥digo UE
   18. Unidad Ejecutora
   19. Categoria
   20. Tel√©fono
   21. Tipo Doc.Categorizaci√≥n
   22. Nro.Doc.Categorizaci√≥n
   23. Horario
   24. Inicio de Actividad
   25. Director M√©dico y/o Responsable de la Atenci√≥n de Salud
   26. Estado
   27. Situaci√≥n
   28. Condici√≥n
   29. Inspecci√≥n
   30. NORTE
   31. ESTE
   32. COTA
   33. CAMAS

üìä TIPOS DE DATOS:
object     23
int64       6
float64     4
Name: count, dtype: int64

üîç PRIMERAS 5 FILAS:
         Instituci√≥

In [6]:
# üåç AN√ÅLISIS GEOGR√ÅFICO Y UBICACI√ìN
print("üåç AN√ÅLISIS GEOGR√ÅFICO DE CENTROS DE SALUD")
print("=" * 50)

# Verificar si hay columnas de coordenadas
coordenada_cols = [col for col in df_ipress.columns if any(keyword in col.lower() for keyword in ['coord', 'lat', 'lon', 'x_', 'y_', 'utm'])]
print(f"üó∫Ô∏è Columnas con coordenadas encontradas: {coordenada_cols}")

# An√°lisis por departamento
if 'DEPARTAMENTO' in df_ipress.columns:
    print(f"\nüìç DISTRIBUCI√ìN POR DEPARTAMENTO:")
    dept_counts = df_ipress['DEPARTAMENTO'].value_counts()
    print(f"   ‚Ä¢ Total de departamentos: {dept_counts.count()}")
    print(f"   ‚Ä¢ Top 10 departamentos con m√°s centros:")
    for i, (dept, count) in enumerate(dept_counts.head(10).items(), 1):
        print(f"     {i:2d}. {dept}: {count:,} centros")

# An√°lisis por provincia
if 'PROVINCIA' in df_ipress.columns:
    print(f"\nüèõÔ∏è DISTRIBUCI√ìN POR PROVINCIA:")
    prov_counts = df_ipress['PROVINCIA'].value_counts()
    print(f"   ‚Ä¢ Total de provincias: {prov_counts.count()}")
    print(f"   ‚Ä¢ Top 5 provincias con m√°s centros:")
    for i, (prov, count) in enumerate(prov_counts.head(5).items(), 1):
        print(f"     {i}. {prov}: {count:,} centros")

# An√°lisis por tipo de establecimiento
tipo_cols = [col for col in df_ipress.columns if 'tipo' in col.lower() or 'categoria' in col.lower() or 'nivel' in col.lower()]
if tipo_cols:
    print(f"\nüè• AN√ÅLISIS POR TIPO/CATEGOR√çA:")
    print(f"   ‚Ä¢ Columnas de clasificaci√≥n encontradas: {tipo_cols}")
    
    for col in tipo_cols[:2]:  # Solo las primeras 2 para no sobrecargar
        if col in df_ipress.columns:
            print(f"\n   üìä Distribuci√≥n por {col}:")
            type_counts = df_ipress[col].value_counts()
            for i, (tipo, count) in enumerate(type_counts.head(8).items(), 1):
                print(f"     {i}. {tipo}: {count:,}")

print(f"\nüí° DATOS FALTANTES:")
missing_data = df_ipress.isnull().sum()
missing_pct = (missing_data / len(df_ipress)) * 100
missing_info = pd.DataFrame({
    'Columna': missing_data.index,
    'Faltantes': missing_data.values,
    'Porcentaje': missing_pct.values
}).query('Faltantes > 0').sort_values('Porcentaje', ascending=False)

if len(missing_info) > 0:
    print(f"   ‚Ä¢ Columnas con datos faltantes: {len(missing_info)}")
    print(missing_info.head(10))
else:
    print(f"   ‚úÖ No hay datos faltantes en el dataset")

üåç AN√ÅLISIS GEOGR√ÅFICO DE CENTROS DE SALUD
üó∫Ô∏è Columnas con coordenadas encontradas: []

üè• AN√ÅLISIS POR TIPO/CATEGOR√çA:
   ‚Ä¢ Columnas de clasificaci√≥n encontradas: ['Tipo', 'Categoria', 'Tipo Doc.Categorizaci√≥n']

   üìä Distribuci√≥n por Tipo:
     1. ESTABLECIMIENTO DE SALUD SIN INTERNAMIENTO: 17,746
     2. SERVICIO M√âDICO DE APOYO: 1,979
     3. ESTABLECIMIENTO DE SALUD CON INTERNAMIENTO: 1,094

   üìä Distribuci√≥n por Categoria:
     1. I-1: 7,260
     2. Sin Categor√≠a: 5,815
     3. I-2: 4,128
     4. I-3: 2,643
     5. I-4: 440
     6. II-1: 265
     7. II-E: 125
     8. II-2: 88

üí° DATOS FALTANTES:
   ‚Ä¢ Columnas con datos faltantes: 9
                                              Columna  Faltantes  Porcentaje
32                                              CAMAS      20189   96.973918
31                                               COTA      13377   64.253807
29                                              NORTE      12863   61.784908
30            

In [9]:
# üó∫Ô∏è AN√ÅLISIS DE COORDENADAS DISPONIBLES (CORREGIDO)
print("üó∫Ô∏è AN√ÅLISIS DE COORDENADAS EN CENTROS DE SALUD")
print("=" * 55)

# Verificar las columnas ESTE y NORTE que parecen ser coordenadas
if 'ESTE' in df_ipress.columns and 'NORTE' in df_ipress.columns:
    print(f"üìç COORDENADAS ENCONTRADAS:")
    print(f"   ‚Ä¢ Columna ESTE (X): {df_ipress['ESTE'].notna().sum():,} registros con coordenadas")
    print(f"   ‚Ä¢ Columna NORTE (Y): {df_ipress['NORTE'].notna().sum():,} registros con coordenadas")
    
    # Filtrar solo los registros con coordenadas
    df_con_coordenadas = df_ipress.dropna(subset=['ESTE', 'NORTE'])
    print(f"   ‚Ä¢ Total de centros CON coordenadas: {len(df_con_coordenadas):,}")
    print(f"   ‚Ä¢ Total de centros SIN coordenadas: {len(df_ipress) - len(df_con_coordenadas):,}")
    
    if len(df_con_coordenadas) > 0:
        print(f"\nüåç RANGO GEOGR√ÅFICO DE CENTROS DE SALUD:")
        print(f"   üìç ESTE (X): {df_con_coordenadas['ESTE'].min():.1f} a {df_con_coordenadas['ESTE'].max():.1f}")
        print(f"   üìç NORTE (Y): {df_con_coordenadas['NORTE'].min():.1f} a {df_con_coordenadas['NORTE'].max():.1f}")
        
        print(f"\nüìä MUESTRA DE CENTROS CON COORDENADAS:")
        muestra_coords = df_con_coordenadas[['Nombre del establecimiento', 'Departamento', 'Provincia', 'Categoria', 'ESTE', 'NORTE']].head(10)
        print(muestra_coords)
        
        # An√°lisis por departamento de centros con coordenadas
        print(f"\nüìç CENTROS CON COORDENADAS POR DEPARTAMENTO:")
        dept_coords = df_con_coordenadas['Departamento'].value_counts()
        for i, (dept, count) in enumerate(dept_coords.head(10).items(), 1):
            total_dept = df_ipress[df_ipress['Departamento'] == dept].shape[0]
            porcentaje = (count / total_dept) * 100
            print(f"   {i:2d}. {dept}: {count:,} de {total_dept:,} ({porcentaje:.1f}%)")
        
        print(f"\nüíæ GUARDANDO CENTROS DE SALUD CON COORDENADAS...")
        try:
            # Crear dataset de centros de salud con coordenadas
            centros_coords = df_con_coordenadas[['Nombre del establecimiento', 'Departamento', 'Provincia', 'Categoria', 'Tipo', 'ESTE', 'NORTE']].copy()
            centros_coords.to_csv('../DATA/centros_salud_coordenadas.csv', index=False)
            print(f"   ‚úÖ Archivo guardado: ../DATA/centros_salud_coordenadas.csv")
            print(f"   üìä {len(centros_coords):,} centros de salud con coordenadas")
        except Exception as e:
            print(f"   ‚ùå Error guardando: {e}")
            
else:
    print("‚ùå No se encontraron columnas de coordenadas ESTE/NORTE")

üó∫Ô∏è AN√ÅLISIS DE COORDENADAS EN CENTROS DE SALUD
üìç COORDENADAS ENCONTRADAS:
   ‚Ä¢ Columna ESTE (X): 7,956 registros con coordenadas
   ‚Ä¢ Columna NORTE (Y): 7,956 registros con coordenadas
   ‚Ä¢ Total de centros CON coordenadas: 7,956
   ‚Ä¢ Total de centros SIN coordenadas: 12,863

üåç RANGO GEOGR√ÅFICO DE CENTROS DE SALUD:
   üìç ESTE (X): -18.3 a 0.0
   üìç NORTE (Y): -81.3 a 0.0

üìä MUESTRA DE CENTROS CON COORDENADAS:
           Nombre del establecimiento Departamento               Provincia  \
1                              AMBATO    CAJAMARCA                 CUTERVO   
2           SANTA ISABEL DE YUMBATURO       LORETO                  LORETO   
6   PUESTO DE SALUD HEROES DEL CENEPA         LIMA                    LIMA   
12                      NUEVA BETANIA      UCAYALI        CORONEL PORTILLO   
15                         PONGO ISLA   SAN MARTIN              SAN MARTIN   
16                PAJJANA SAN AGUSTIN         PUNO                 YUNGUYO   
17           

In [8]:
# üîç VERIFICAR NOMBRES EXACTOS DE COLUMNAS
print("üîç VERIFICANDO NOMBRES DE COLUMNAS:")
print(f"üìã Total de columnas: {len(df_ipress.columns)}")
print("\nüìù Lista de todas las columnas:")
for i, col in enumerate(df_ipress.columns, 1):
    print(f"   {i:2d}. '{col}'")

# Buscar columnas que contengan texto espec√≠fico
print(f"\nüîé B√öSQUEDA DE COLUMNAS RELEVANTES:")
nombre_cols = [col for col in df_ipress.columns if any(keyword in col.lower() for keyword in ['nombre', 'estab', 'instituci√≥n'])]
print(f"   ‚Ä¢ Columnas de nombre: {nombre_cols}")

ubicacion_cols = [col for col in df_ipress.columns if any(keyword in col.lower() for keyword in ['depart', 'prov', 'distr', 'ubig'])]
print(f"   ‚Ä¢ Columnas de ubicaci√≥n: {ubicacion_cols}")

coord_cols = [col for col in df_ipress.columns if any(keyword in col.lower() for keyword in ['este', 'norte', 'lat', 'lon', 'x', 'y'])]
print(f"   ‚Ä¢ Columnas de coordenadas: {coord_cols}")

tipo_cols = [col for col in df_ipress.columns if any(keyword in col.lower() for keyword in ['tipo', 'categoria', 'nivel'])]
print(f"   ‚Ä¢ Columnas de tipo/categor√≠a: {tipo_cols}")

üîç VERIFICANDO NOMBRES DE COLUMNAS:
üìã Total de columnas: 33

üìù Lista de todas las columnas:
    1. 'Instituci√≥n'
    2. 'C√≥digo √önico'
    3. 'Nombre del establecimiento'
    4. 'Clasificaci√≥n'
    5. 'Tipo'
    6. 'Departamento'
    7. 'Provincia'
    8. 'Distrito'
    9. 'UBIGEO'
   10. 'Direcci√≥n'
   11. 'C√≥digo DISA'
   12. 'C√≥digo Red'
   13. 'C√≥digo Microrred'
   14. 'DISA'
   15. 'Red'
   16. 'Microrred'
   17. 'C√≥digo UE'
   18. 'Unidad Ejecutora'
   19. 'Categoria'
   20. 'Tel√©fono'
   21. 'Tipo Doc.Categorizaci√≥n'
   22. 'Nro.Doc.Categorizaci√≥n'
   23. 'Horario'
   24. 'Inicio de Actividad'
   25. 'Director M√©dico y/o Responsable de la Atenci√≥n de Salud'
   26. 'Estado'
   27. 'Situaci√≥n'
   28. 'Condici√≥n'
   29. 'Inspecci√≥n'
   30. 'NORTE'
   31. 'ESTE'
   32. 'COTA'
   33. 'CAMAS'

üîé B√öSQUEDA DE COLUMNAS RELEVANTES:
   ‚Ä¢ Columnas de nombre: ['Instituci√≥n', 'Nombre del establecimiento']
   ‚Ä¢ Columnas de ubicaci√≥n: ['Departamento', 'Provinc

In [10]:
# üìä RESUMEN FINAL DEL AN√ÅLISIS IPRESS
print("üìä RESUMEN FINAL - AN√ÅLISIS CENTROS DE SALUD IPRESS")
print("=" * 60)

print(f"üè• DATOS GENERALES:")
print(f"   ‚Ä¢ Total de centros de salud: {len(df_ipress):,}")
print(f"   ‚Ä¢ Centros con coordenadas: {df_ipress[['ESTE', 'NORTE']].dropna().shape[0]:,}")
print(f"   ‚Ä¢ Centros sin coordenadas: {len(df_ipress) - df_ipress[['ESTE', 'NORTE']].dropna().shape[0]:,}")

print(f"\nüèõÔ∏è DISTRIBUCI√ìN GEOGR√ÅFICA:")
print(f"   ‚Ä¢ Departamentos cubiertos: {df_ipress['Departamento'].nunique()}")
print(f"   ‚Ä¢ Provincias cubiertas: {df_ipress['Provincia'].nunique()}")
print(f"   ‚Ä¢ Distritos cubiertos: {df_ipress['Distrito'].nunique()}")

print(f"\nüè• TIPOS DE ESTABLECIMIENTO:")
tipo_dist = df_ipress['Tipo'].value_counts()
for i, (tipo, count) in enumerate(tipo_dist.items(), 1):
    print(f"   {i}. {tipo}: {count:,}")

print(f"\nüìã CATEGOR√çAS DE ESTABLECIMIENTOS:")
cat_dist = df_ipress['Categoria'].value_counts()
for i, (cat, count) in enumerate(cat_dist.head(8).items(), 1):
    print(f"   {i}. {cat}: {count:,}")

print(f"\nüíæ ARCHIVOS GENERADOS:")
print(f"   üìÅ centros_salud_coordenadas.csv")
print(f"      ‚îî‚îÄ {df_ipress[['ESTE', 'NORTE']].dropna().shape[0]:,} centros con coordenadas")
print(f"      ‚îî‚îÄ Columnas: Nombre, Departamento, Provincia, Categor√≠a, Tipo, ESTE, NORTE")

print(f"\nüîó INTEGRACI√ìN CON OTROS AN√ÅLISIS:")
print(f"   ‚Ä¢ Disponible para cruzar con datos de agua (monitoreo)")
print(f"   ‚Ä¢ Listo para an√°lisis de proximidad con centros poblados")
print(f"   ‚Ä¢ Coordenadas compatibles con sistema de coordenadas peruano")

# Estad√≠sticas de completitud por departamento
print(f"\nüìà COMPLETITUD DE COORDENADAS POR DEPARTAMENTO (Top 10):")
completitud = df_ipress.groupby('Departamento').agg({
    'ESTE': ['count', lambda x: x.notna().sum()],
    'Departamento': 'count'
}).round(1)

completitud.columns = ['total_este', 'con_coordenadas', 'total_centros']
completitud['porcentaje_coord'] = (completitud['con_coordenadas'] / completitud['total_centros']) * 100
completitud = completitud.sort_values('con_coordenadas', ascending=False)

for i, (dept, row) in enumerate(completitud.head(10).iterrows(), 1):
    print(f"   {i:2d}. {dept}: {int(row['con_coordenadas'])} de {int(row['total_centros'])} ({row['porcentaje_coord']:.1f}%)")

print(f"\nüéØ PR√ìXIMOS PASOS SUGERIDOS:")
print(f"   1. Cruzar centros de salud con centros poblados")
print(f"   2. Calcular distancias a puntos de monitoreo de agua")
print(f"   3. Identificar zonas con escasa cobertura de salud")
print(f"   4. Analizar correlaci√≥n entre contaminaci√≥n h√≠drica y acceso a salud")

print(f"\n‚úÖ AN√ÅLISIS COMPLETADO EXITOSAMENTE")

üìä RESUMEN FINAL - AN√ÅLISIS CENTROS DE SALUD IPRESS
üè• DATOS GENERALES:
   ‚Ä¢ Total de centros de salud: 20,819
   ‚Ä¢ Centros con coordenadas: 7,956
   ‚Ä¢ Centros sin coordenadas: 12,863

üèõÔ∏è DISTRIBUCI√ìN GEOGR√ÅFICA:
   ‚Ä¢ Departamentos cubiertos: 25
   ‚Ä¢ Provincias cubiertas: 196
   ‚Ä¢ Distritos cubiertos: 1711

üè• TIPOS DE ESTABLECIMIENTO:
   1. ESTABLECIMIENTO DE SALUD SIN INTERNAMIENTO: 17,746
   2. SERVICIO M√âDICO DE APOYO: 1,979
   3. ESTABLECIMIENTO DE SALUD CON INTERNAMIENTO: 1,094

üìã CATEGOR√çAS DE ESTABLECIMIENTOS:
   1. I-1: 7,260
   2. Sin Categor√≠a: 5,815
   3. I-2: 4,128
   4. I-3: 2,643
   5. I-4: 440
   6. II-1: 265
   7. II-E: 125
   8. II-2: 88

üíæ ARCHIVOS GENERADOS:
   üìÅ centros_salud_coordenadas.csv
      ‚îî‚îÄ 7,956 centros con coordenadas
      ‚îî‚îÄ Columnas: Nombre, Departamento, Provincia, Categor√≠a, Tipo, ESTE, NORTE

üîó INTEGRACI√ìN CON OTROS AN√ÅLISIS:
   ‚Ä¢ Disponible para cruzar con datos de agua (monitoreo)
   ‚Ä¢ List

In [13]:
# üéØ PROCESAMIENTO FINAL PARA HACKATON - DATASET SALUD
print("üéØ PROCESAMIENTO FINAL PARA HACKATON - CENTROS DE SALUD")
print("=" * 65)

print("üìã SELECCIONANDO COLUMNAS ESENCIALES PARA LA HACKATON...")

# Filtrar solo centros con coordenadas (esenciales para el an√°lisis geoespacial)
df_salud_final = df_ipress.dropna(subset=['ESTE', 'NORTE']).copy()

print(f"‚úÖ Centros de salud con coordenadas v√°lidas: {len(df_salud_final):,}")

# Ver primero los rangos reales de coordenadas
print(f"\nüîç RANGOS ACTUALES DE COORDENADAS:")
print(f"   ‚Ä¢ ESTE (X): {df_salud_final['ESTE'].min():.1f} a {df_salud_final['ESTE'].max():.1f}")
print(f"   ‚Ä¢ NORTE (Y): {df_salud_final['NORTE'].min():.1f} a {df_salud_final['NORTE'].max():.1f}")

# Seleccionar y renombrar columnas esenciales para la hackaton
columnas_esenciales = {
    'C√≥digo √önico': 'codigo_unico',
    'Nombre del establecimiento': 'nombre_establecimiento',
    'Tipo': 'tipo_establecimiento',
    'Categoria': 'categoria',
    'Departamento': 'departamento',
    'Provincia': 'provincia', 
    'Distrito': 'distrito',
    'UBIGEO': 'ubigeo',
    'Direcci√≥n': 'direccion',
    'ESTE': 'longitud',  # En realidad ESTE=X=Longitud
    'NORTE': 'latitud',  # En realidad NORTE=Y=Latitud
    'Estado': 'estado',
    'CAMAS': 'num_camas'
}

# Crear dataset final con solo las columnas necesarias
df_salud_procesado = df_salud_final[list(columnas_esenciales.keys())].copy()
df_salud_procesado = df_salud_procesado.rename(columns=columnas_esenciales)

print(f"\nüìä DATASET PROCESADO:")
print(f"   ‚Ä¢ Registros: {len(df_salud_procesado):,}")
print(f"   ‚Ä¢ Columnas: {len(df_salud_procesado.columns)}")
print(f"   ‚Ä¢ Memoria: {df_salud_procesado.memory_usage(deep=True).sum() / 1024**2:.1f} MB")

print(f"\nüìù COLUMNAS FINALES:")
for i, col in enumerate(df_salud_procesado.columns, 1):
    non_null = df_salud_procesado[col].notna().sum()
    completitud = (non_null / len(df_salud_procesado)) * 100
    print(f"   {i:2d}. {col}: {non_null:,} registros ({completitud:.1f}% completo)")

# Limpiar y estandarizar datos
print(f"\nüßπ LIMPIEZA Y ESTANDARIZACI√ìN:")

# Verificar si las coordenadas est√°n en UTM o lat/lon
print(f"\nüîç AN√ÅLISIS DE COORDENADAS:")
print(f"   ‚Ä¢ Rango longitud actual: {df_salud_procesado['longitud'].min():.1f} a {df_salud_procesado['longitud'].max():.1f}")
print(f"   ‚Ä¢ Rango latitud actual: {df_salud_procesado['latitud'].min():.1f} a {df_salud_procesado['latitud'].max():.1f}")

# Las coordenadas parecen estar en UTM, no en lat/lon decimal
# Vamos a mantenerlas como est√°n pero verificar outliers extremos
coords_validas_antes = len(df_salud_procesado)

# Filtro m√°s amplio para coordenadas v√°lidas en Per√∫ (sistema UTM)
# Los valores negativos sugieren que podr√≠an estar en decimal pero mal etiquetados
df_salud_procesado = df_salud_procesado[
    (df_salud_procesado['longitud'] != 0) & 
    (df_salud_procesado['latitud'] != 0) &
    (df_salud_procesado['longitud'].notna()) & 
    (df_salud_procesado['latitud'].notna())
]

coords_validas_despues = len(df_salud_procesado)
print(f"   ‚úÖ Filtro de coordenadas no-cero: {coords_validas_despues:,} de {coords_validas_antes:,}")

# Limpiar campos de texto
df_salud_procesado['nombre_establecimiento'] = df_salud_procesado['nombre_establecimiento'].str.strip().str.upper()
df_salud_procesado['departamento'] = df_salud_procesado['departamento'].str.strip().str.upper()
df_salud_procesado['provincia'] = df_salud_procesado['provincia'].str.strip().str.upper()
df_salud_procesado['distrito'] = df_salud_procesado['distrito'].str.strip().str.upper()

# Estandarizar n√∫mero de camas (convertir a num√©rico)
df_salud_procesado['num_camas'] = pd.to_numeric(df_salud_procesado['num_camas'], errors='coerce')
df_salud_procesado['num_camas'] = df_salud_procesado['num_camas'].fillna(0).astype(int)

print(f"   ‚úÖ Campos de texto estandarizados (may√∫sculas, sin espacios extra)")
print(f"   ‚úÖ N√∫mero de camas convertido a num√©rico")

print(f"\nüìä ESTAD√çSTICAS FINALES:")
print(f"   ‚Ä¢ Departamentos √∫nicos: {df_salud_procesado['departamento'].nunique()}")
print(f"   ‚Ä¢ Provincias √∫nicas: {df_salud_procesado['provincia'].nunique()}")
print(f"   ‚Ä¢ Tipos de establecimiento: {df_salud_procesado['tipo_establecimiento'].nunique()}")
print(f"   ‚Ä¢ Rango de camas: {df_salud_procesado['num_camas'].min()} - {df_salud_procesado['num_camas'].max()}")
print(f"   ‚Ä¢ Promedio de camas: {df_salud_procesado['num_camas'].mean():.1f}")

print(f"\nüó∫Ô∏è RANGO GEOGR√ÅFICO FINAL:")
print(f"   ‚Ä¢ Longitud: {df_salud_procesado['longitud'].min():.6f} a {df_salud_procesado['longitud'].max():.6f}")
print(f"   ‚Ä¢ Latitud: {df_salud_procesado['latitud'].min():.6f} a {df_salud_procesado['latitud'].max():.6f}")

print(f"\nüìã MUESTRA DEL DATASET FINAL:")
print(df_salud_procesado.head())

üéØ PROCESAMIENTO FINAL PARA HACKATON - CENTROS DE SALUD
üìã SELECCIONANDO COLUMNAS ESENCIALES PARA LA HACKATON...
‚úÖ Centros de salud con coordenadas v√°lidas: 7,956

üîç RANGOS ACTUALES DE COORDENADAS:
   ‚Ä¢ ESTE (X): -18.3 a 0.0
   ‚Ä¢ NORTE (Y): -81.3 a 0.0

üìä DATASET PROCESADO:
   ‚Ä¢ Registros: 7,956
   ‚Ä¢ Columnas: 13
   ‚Ä¢ Memoria: 5.1 MB

üìù COLUMNAS FINALES:
    1. codigo_unico: 7,956 registros (100.0% completo)
    2. nombre_establecimiento: 7,956 registros (100.0% completo)
    3. tipo_establecimiento: 7,956 registros (100.0% completo)
    4. categoria: 7,956 registros (100.0% completo)
    5. departamento: 7,956 registros (100.0% completo)
    6. provincia: 7,956 registros (100.0% completo)
    7. distrito: 7,956 registros (100.0% completo)
    8. ubigeo: 7,956 registros (100.0% completo)
    9. direccion: 7,956 registros (100.0% completo)
   10. longitud: 7,956 registros (100.0% completo)
   11. latitud: 7,956 registros (100.0% completo)
   12. estado: 7,956 r

In [14]:
# üíæ GUARDAR DATASET FINAL EN CARPETA DATAFINAL
print("üíæ GUARDANDO DATASET FINAL EN CARPETA DATAFINAL")
print("=" * 55)

import os

# Crear carpeta DATAFINAL si no existe
datafinal_path = '../DATAFINAL'
os.makedirs(datafinal_path, exist_ok=True)
print(f"üìÅ Carpeta DATAFINAL verificada/creada")

# Guardar dataset procesado
archivo_final = os.path.join(datafinal_path, 'salud_procesado.csv')

try:
    df_salud_procesado.to_csv(archivo_final, index=False, encoding='utf-8')
    print(f"\n‚úÖ ARCHIVO GUARDADO EXITOSAMENTE:")
    print(f"   üìÑ Archivo: {archivo_final}")
    print(f"   üìä Registros: {len(df_salud_procesado):,}")
    print(f"   üìã Columnas: {len(df_salud_procesado.columns)}")
    
    # Verificar tama√±o del archivo
    size_mb = os.path.getsize(archivo_final) / (1024 * 1024)
    print(f"   üíæ Tama√±o: {size_mb:.2f} MB")
    
except Exception as e:
    print(f"‚ùå Error guardando archivo: {e}")

print(f"\nüìã RESUMEN DEL DATASET PROCESADO PARA HACKATON:")
print(f"üéØ PROP√ìSITO: Sistema de Monitoreo y Alerta Temprana Ambiental")
print(f"üìä DATOS DE SALUD LISTOS PARA:")
print(f"   ‚Ä¢ Correlaci√≥n con puntos de monitoreo ambiental")
print(f"   ‚Ä¢ An√°lisis de proximidad poblaci√≥n-servicios salud")
print(f"   ‚Ä¢ Identificaci√≥n de zonas vulnerables")
print(f"   ‚Ä¢ C√°lculo de impacto en salud por contaminaci√≥n")
print(f"   ‚Ä¢ Alertas tempranas por riesgo sanitario")

print(f"\nüîó CAMPOS CLAVE PARA TU HACKATON:")
print(f"   üó∫Ô∏è Geoespaciales: latitud, longitud, ubigeo")
print(f"   üè• Capacidad: tipo_establecimiento, categoria, num_camas")
print(f"   üìç Ubicaci√≥n: departamento, provincia, distrito")
print(f"   üîç Identificaci√≥n: codigo_unico, nombre_establecimiento")

print(f"\nüöÄ SIGUIENTE PASO: Procesar datos de educaci√≥n y centros poblados")
print(f"‚úÖ DATASET DE SALUD COMPLETADO Y LISTO PARA HACKATON")

üíæ GUARDANDO DATASET FINAL EN CARPETA DATAFINAL
üìÅ Carpeta DATAFINAL verificada/creada

‚úÖ ARCHIVO GUARDADO EXITOSAMENTE:
   üìÑ Archivo: ../DATAFINAL/salud_procesado.csv
   üìä Registros: 7,953
   üìã Columnas: 13
   üíæ Tama√±o: 1.53 MB

üìã RESUMEN DEL DATASET PROCESADO PARA HACKATON:
üéØ PROP√ìSITO: Sistema de Monitoreo y Alerta Temprana Ambiental
üìä DATOS DE SALUD LISTOS PARA:
   ‚Ä¢ Correlaci√≥n con puntos de monitoreo ambiental
   ‚Ä¢ An√°lisis de proximidad poblaci√≥n-servicios salud
   ‚Ä¢ Identificaci√≥n de zonas vulnerables
   ‚Ä¢ C√°lculo de impacto en salud por contaminaci√≥n
   ‚Ä¢ Alertas tempranas por riesgo sanitario

üîó CAMPOS CLAVE PARA TU HACKATON:
   üó∫Ô∏è Geoespaciales: latitud, longitud, ubigeo
   üè• Capacidad: tipo_establecimiento, categoria, num_camas
   üìç Ubicaci√≥n: departamento, provincia, distrito
   üîç Identificaci√≥n: codigo_unico, nombre_establecimiento

üöÄ SIGUIENTE PASO: Procesar datos de educaci√≥n y centros poblados
‚úÖ DATA