#An√°lisis de Datos Geoespaciales - Centros Poblados (CCPP)

Este notebook est√° dise√±ado para **extraer, explorar y visualizar** los datos geoespaciales contenidos en la carpeta `CCPP_0`.

##  **Tipos de Archivos Detectados:**

Los archivos en tu carpeta `CCPP_0` son **Shapefiles**, un formato est√°ndar para datos vectoriales geoespaciales:



## üìä CARGA Y EXPLORACI√ìN DE DATOS SHAPEFILE

Ahora que tenemos el entorno configurado, vamos a cargar y explorar los datos de Centros Poblados.

## üìã EXPLORACI√ìN DE ATRIBUTOS Y COORDENADAS

Los archivos Shapefile contienen **AMBOS**: datos tabulares (columnas) Y geometr√≠as (coordenadas). Vamos a explorar qu√© informaci√≥n contienen usando m√©todos alternativos.

In [1]:
# üîç EXPLORAR ATRIBUTOS USANDO ARCHIVO .DBF
print("üîç EXPLORANDO ATRIBUTOS Y COORDENADAS DEL SHAPEFILE")
print("=" * 60)


# Vamos a leer el archivo .dbf que contiene los atributos
DBF_PATH = '../CCPP_0/CCPP_IGN100K.dbf'

print("üìã M√âTODO 1: Explorando archivo .DBF (datos tabulares)")
print("-" * 50)

try:
    # Intentar con pandas y diferentes encoding
    encodings_to_try = ['utf-8', 'latin1', 'cp1252', 'iso-8859-1']
    
    for encoding in encodings_to_try:
        try:
            # Usando pandas para leer DBF como archivo binario
            print(f"üîÑ Intentando encoding: {encoding}")
            
            # M√©todo alternativo: usar struct para leer DBF
            import struct
            
            with open(DBF_PATH, 'rb') as f:
                # Leer header del DBF
                header = f.read(32)
                if len(header) >= 32:
                    # Extraer informaci√≥n del header
                    version = header[0]
                    year = header[1] + 1900 if header[1] > 0 else 2000 + header[1]
                    month = header[2]
                    day = header[3]
                    num_records = struct.unpack('<L', header[4:8])[0]
                    header_length = struct.unpack('<H', header[8:10])[0]
                    record_length = struct.unpack('<H', header[10:12])[0]
                    
                    print(f"‚úÖ DBF Header le√≠do exitosamente!")
                    print(f"   üìä N√∫mero de registros: {num_records:,}")
                    print(f"   üìè Longitud de registro: {record_length} bytes")
                    print(f"   üìÖ Fecha de modificaci√≥n: {day}/{month}/{year}")
                    
                    # Calcular n√∫mero de campos
                    num_fields = (header_length - 33) // 32
                    print(f"   üìã N√∫mero de campos/columnas: {num_fields}")
                    
                    # Leer descriptores de campos
                    print(f"\nüìù COLUMNAS DETECTADAS:")
                    fields = []
                    for i in range(num_fields):
                        field_desc = f.read(32)
                        if len(field_desc) >= 32:
                            field_name = field_desc[:11].decode('utf-8', errors='ignore').rstrip('\x00')
                            field_type = chr(field_desc[11])
                            field_length = field_desc[16]
                            field_decimal = field_desc[17]
                            
                            fields.append({
                                'name': field_name,
                                'type': field_type,
                                'length': field_length,
                                'decimal': field_decimal
                            })
                            
                            print(f"   {i+1:2d}. {field_name:<12} | Tipo: {field_type} | Longitud: {field_length}")
                    
                    break  # Si llegamos aqu√≠, fue exitoso
            
        except Exception as e:
            print(f"   ‚ùå Error con {encoding}: {str(e)[:50]}...")
            continue
    
    print(f"\nüéØ RESUMEN DE CONTENIDO:")
    print(f"   ‚Ä¢ El shapefile contiene {num_records:,} centros poblados")
    print(f"   ‚Ä¢ Cada centro poblado tiene {num_fields} atributos/columnas")
    print(f"   ‚Ä¢ Adem√°s de coordenadas geogr√°ficas (geometr√≠a)")
    
except Exception as e:
    print(f"‚ùå Error general: {e}")
    print("üîß Intentando m√©todo alternativo...")

print(f"\nüí° EXPLICACI√ìN:")
print(f"   üóÇÔ∏è  Los archivos Shapefile son H√çBRIDOS:")
print(f"       üìä Datos tabulares (como CSV) = atributos de cada lugar")
print(f"       üó∫Ô∏è  Datos geoespaciales = coordenadas y geometr√≠as") 
print(f"   üìç Cada fila representa un centro poblado CON:")
print(f"       üìù Atributos (nombre, c√≥digo, poblaci√≥n, etc.)")
print(f"       üåç Coordenadas geogr√°ficas (latitud, longitud)")

üîç EXPLORANDO ATRIBUTOS Y COORDENADAS DEL SHAPEFILE
üìã M√âTODO 1: Explorando archivo .DBF (datos tabulares)
--------------------------------------------------
üîÑ Intentando encoding: utf-8
‚úÖ DBF Header le√≠do exitosamente!
   üìä N√∫mero de registros: 136,587
   üìè Longitud de registro: 418 bytes
   üìÖ Fecha de modificaci√≥n: 24/9/2018
   üìã N√∫mero de campos/columnas: 13

üìù COLUMNAS DETECTADAS:
    1. OBJECTID     | Tipo: N | Longitud: 10
    2. NOM_POBLAD   | Tipo: C | Longitud: 60
    3. FUENTE       | Tipo: C | Longitud: 5
    4. C√ìDIGO       | Tipo: C | Longitud: 10
    5. CAT_POBLAD   | Tipo: C | Longitud: 25
    6. DIST         | Tipo: C | Longitud: 60
    7. PROV         | Tipo: C | Longitud: 50
    8. DEP          | Tipo: C | Longitud: 50
    9. C√ìD_INT      | Tipo: C | Longitud: 4
   10. CATEGORIA    | Tipo: C | Longitud: 25
   11. X            | Tipo: N | Longitud: 19
   12. Y            | Tipo: N | Longitud: 19
   13. N_BUSQDA     | Tipo: C | Longitud: 8

In [8]:
# üìä EXTRAER COORDENADAS Y DATOS ESPEC√çFICOS
print("üìä EXTRAYENDO COORDENADAS Y DATOS DE LOS CENTROS POBLADOS")
print("=" * 70)

# Intentar extraer una muestra de datos del DBF
print("üîÑ Extrayendo muestra de datos...")

try:
    with open(DBF_PATH, 'rb') as f:
        # Saltar header (32 bytes) + descriptores de campos (13 * 32 bytes) + terminador (1 byte)
        header_size = 32 + 13 * 32 + 1
        f.seek(header_size)
        
        print(f"üìã MUESTRA DE DATOS (primeros 5 registros):")
        print("-" * 70)
        
        for record_num in range(min(5, num_records)):
            # Leer un registro
            record = f.read(record_length)
            if len(record) >= record_length:
                # Procesar el registro (simplificado)
                # El primer byte es el indicador de borrado
                if record[0] != ord('*'):  # No est√° borrado
                    
                    # Extraer campos b√°sicos (aproximado, puede variar seg√∫n la estructura exacta)
                    try:
                        # Campo OBJECTID (posici√≥n aproximada)
                        object_id = record[1:11].decode('utf-8', errors='ignore').strip()
                        
                        # Campo NOM_POBLAD (posici√≥n aproximada)
                        nom_poblad = record[11:71].decode('utf-8', errors='ignore').strip()
                        
                        # Campo X (coordenada - posici√≥n aproximada)
                        x_start = 1 + 10 + 60 + 5 + 10 + 25 + 60 + 50 + 50 + 4 + 25  # Suma de longitudes anteriores
                        x_raw = record[x_start:x_start+19].decode('utf-8', errors='ignore').strip()
                        
                        # Campo Y (coordenada - posici√≥n aproximada)
                        y_start = x_start + 19
                        y_raw = record[y_start:y_start+19].decode('utf-8', errors='ignore').strip()
                        
                        print(f"   {record_num + 1}. ID: {object_id}")
                        print(f"      üìç Nombre: {nom_poblad[:40]}{'...' if len(nom_poblad) > 40 else ''}")
                        print(f"      üåç Coordenada X: {x_raw}")
                        print(f"      üåç Coordenada Y: {y_raw}")
                        print()
                        
                    except Exception as e:
                        print(f"      ‚ö†Ô∏è  Error procesando registro {record_num + 1}: {str(e)[:30]}...")
                        
    print("‚úÖ Extracci√≥n de muestra completada!")
    
except Exception as e:
    print(f"‚ùå Error extrayendo datos: {e}")

print(f"\nüó∫Ô∏è INFORMACI√ìN SOBRE LAS COORDENADAS:")
print(f"   üìê Las columnas X e Y contienen coordenadas geogr√°ficas")
print(f"   üåç Estas coordenadas representan la ubicaci√≥n exacta de cada centro poblado")
print(f"   üìä Hay {num_records:,} centros poblados con sus respectivas coordenadas")

print(f"\nüìã COLUMNAS DISPONIBLES PARA AN√ÅLISIS:")
print(f"   1. üìç NOM_POBLAD - Nombre del centro poblado")
print(f"   2. üèõÔ∏è  DIST - Distrito")
print(f"   3. üó∫Ô∏è  PROV - Provincia") 
print(f"   4. üè¥ DEP - Departamento")
print(f"   5. üè∑Ô∏è  CATEGORIA - Categor√≠a del centro poblado")
print(f"   6. üåç X, Y - Coordenadas geogr√°ficas (CLAVE PARA TU AN√ÅLISIS)")

print(f"\nüéØ PARA TU AN√ÅLISIS DE RIESGO H√çDRICO:")
print(f"   ‚Ä¢ Puedes usar las coordenadas X, Y para ubicar geogr√°ficamente los centros poblados")
print(f"   ‚Ä¢ Cruzar con tus datos de monitoreo de agua usando proximidad geogr√°fica")
print(f"   ‚Ä¢ Identificar qu√© centros poblados est√°n cerca de zonas de alto riesgo")
print(f"   ‚Ä¢ Analizar por departamento, provincia o distrito")

üìä EXTRAYENDO COORDENADAS Y DATOS DE LOS CENTROS POBLADOS
üîÑ Extrayendo muestra de datos...
üìã MUESTRA DE DATOS (primeros 5 registros):
----------------------------------------------------------------------
   1. ID: 1
      üìç Nombre: PANDISHARI
      üåç Coordenada X: -74.06462000
      üåç Coordenada Y: -10.37129000

   2. ID: 2
      üìç Nombre: CHICOSA
      üåç Coordenada X: -74.06153000
      üåç Coordenada Y: -10.37852000

   3. ID: 3
      üìç Nombre: RAYA
      üåç Coordenada X: -72.94118000
      üåç Coordenada Y: -10.33043000

   4. ID: 4
      üìç Nombre: PENSILVANIA
      üåç Coordenada X: -74.05988000
      üåç Coordenada Y: -10.40401000

   5. ID: 5
      üìç Nombre: PONTE VEDRA
      üåç Coordenada X: -74.03788000
      üåç Coordenada Y: -10.41809000

‚úÖ Extracci√≥n de muestra completada!

üó∫Ô∏è INFORMACI√ìN SOBRE LAS COORDENADAS:
   üìê Las columnas X e Y contienen coordenadas geogr√°ficas
   üåç Estas coordenadas representan la ubicaci√≥n e

In [3]:
# üíæ CONVERTIR A FORMATO TABULAR (CSV/DataFrame)
print("üíæ CONVIRTIENDO SHAPEFILE A FORMATO TABULAR")
print("=" * 60)

# Definir la ruta del shapefile
SHAPEFILE_PATH = '../CCPP_0/CCPP_IGN100K.shp'

# Instalar y usar pyshp como alternativa m√°s simple
print("üîÑ Instalando pyshp para leer shapefiles...")
import subprocess
import sys

try:
    subprocess.check_call([sys.executable, "-m", "pip", "install", "pyshp"])
    print("‚úÖ pyshp instalado exitosamente")
    
    import shapefile
    import pandas as pd
    
    # Leer el shapefile
    print("üîÑ Leyendo shapefile con pyshp...")
    
    with shapefile.Reader(SHAPEFILE_PATH) as shp:
        # Obtener informaci√≥n b√°sica
        print(f"‚úÖ Shapefile abierto exitosamente!")
        print(f"üìä N√∫mero de registros: {len(shp):,}")
        print(f"üìê Tipo de geometr√≠a: {shp.shapeType}")
        print(f"üìè L√≠mites: {shp.bbox}")
        
        # Obtener nombres de campos
        field_names = [field[0] for field in shp.fields[1:]]  # El primer campo es siempre 'DeletionFlag'
        print(f"üìã Campos: {field_names}")
        
        # Crear DataFrame con una muestra
        print(f"\nüîÑ Extrayendo muestra de 1000 registros...")
        
        records_sample = []
        coords_sample = []
        
        # Leer una muestra de registros
        for i, (record, shape) in enumerate(zip(shp.records(), shp.shapes())):
            if i >= 1000:  # Solo procesar 1000 registros como muestra
                break
                
            # Extraer coordenadas del punto
            if shape.points:
                x, y = shape.points[0]  # Primer punto (para puntos, solo hay uno)
                coords_sample.append([x, y])
                
                # Agregar record con coordenadas
                record_dict = dict(zip(field_names, record))
                record_dict['COORD_X'] = x
                record_dict['COORD_Y'] = y
                records_sample.append(record_dict)
        
        # Crear DataFrame
        df_ccpp_sample = pd.DataFrame(records_sample)
        
        print(f"‚úÖ Muestra extra√≠da: {len(df_ccpp_sample):,} registros")
        print(f"üìã Columnas disponibles: {list(df_ccpp_sample.columns)}")
        
        # Mostrar informaci√≥n de la muestra
        print(f"\nüìä INFORMACI√ìN DE LA MUESTRA:")
        print(f"   üìç Rango de coordenadas X: {df_ccpp_sample['COORD_X'].min():.5f} a {df_ccpp_sample['COORD_X'].max():.5f}")
        print(f"   üìç Rango de coordenadas Y: {df_ccpp_sample['COORD_Y'].min():.5f} a {df_ccpp_sample['COORD_Y'].max():.5f}")
        
        # Mostrar primeras filas
        print(f"\nüëÄ PRIMERAS 5 FILAS:")
        display_cols = ['NOM_POBLAD', 'DIST', 'DEP', 'COORD_X', 'COORD_Y']
        print(df_ccpp_sample[display_cols].head())
        
        # An√°lisis por departamento
        print(f"\nüè¥ DISTRIBUCI√ìN POR DEPARTAMENTO (Top 10):")
        dep_counts = df_ccpp_sample['DEP'].value_counts().head(10)
        for dep, count in dep_counts.items():
            print(f"   ‚Ä¢ {dep}: {count:,} centros poblados")
        
        print(f"\nüíæ OPCIONES PARA EXPORTAR:")
        print(f"   1. üíø Guardar como CSV: df_ccpp_sample.to_csv('centros_poblados.csv')")
        print(f"   2. üîó Usar para an√°lisis geoespacial con tus datos de agua")
        print(f"   3. üìä Crear visualizaciones de distribuci√≥n geogr√°fica")
        
except Exception as e:
    print(f"‚ùå Error: {e}")
    print("üí° M√©todo alternativo disponible si es necesario")

üíæ CONVIRTIENDO SHAPEFILE A FORMATO TABULAR
üîÑ Instalando pyshp para leer shapefiles...
‚úÖ pyshp instalado exitosamente
‚úÖ pyshp instalado exitosamente



A module that was compiled using NumPy 1.x cannot be run in
NumPy 2.3.3 as it may crash. To support both 1.x and 2.x
versions of NumPy, modules must be compiled with NumPy 2.0.
Some module may need to rebuild instead e.g. with 'pybind11>=2.12'.

If you are a user of the module, the easiest solution will be to
downgrade to 'numpy<2' or try to upgrade the affected module.
We expect that some modules will need time to support NumPy 2.

Traceback (most recent call last):  File "<frozen runpy>", line 198, in _run_module_as_main
  File "<frozen runpy>", line 88, in _run_code
  File "/Users/jleandrojm/anaconda3/lib/python3.11/site-packages/ipykernel_launcher.py", line 17, in <module>
    app.launch_new_instance()
  File "/Users/jleandrojm/anaconda3/lib/python3.11/site-packages/traitlets/config/application.py", line 992, in launch_instance
    app.start()
  File "/Users/jleandrojm/anaconda3/lib/python3.11/site-packages/ipykernel/kernelapp.py", line 711, in start
    self.io_loop.start()
  Fil

AttributeError: _ARRAY_API not found


A module that was compiled using NumPy 1.x cannot be run in
NumPy 2.3.3 as it may crash. To support both 1.x and 2.x
versions of NumPy, modules must be compiled with NumPy 2.0.
Some module may need to rebuild instead e.g. with 'pybind11>=2.12'.

If you are a user of the module, the easiest solution will be to
downgrade to 'numpy<2' or try to upgrade the affected module.
We expect that some modules will need time to support NumPy 2.

Traceback (most recent call last):  File "<frozen runpy>", line 198, in _run_module_as_main
  File "<frozen runpy>", line 88, in _run_code
  File "/Users/jleandrojm/anaconda3/lib/python3.11/site-packages/ipykernel_launcher.py", line 17, in <module>
    app.launch_new_instance()
  File "/Users/jleandrojm/anaconda3/lib/python3.11/site-packages/traitlets/config/application.py", line 992, in launch_instance
    app.start()
  File "/Users/jleandrojm/anaconda3/lib/python3.11/site-packages/ipykernel/kernelapp.py", line 711, in start
    self.io_loop.start()
  Fil

AttributeError: _ARRAY_API not found


A module that was compiled using NumPy 1.x cannot be run in
NumPy 2.3.3 as it may crash. To support both 1.x and 2.x
versions of NumPy, modules must be compiled with NumPy 2.0.
Some module may need to rebuild instead e.g. with 'pybind11>=2.12'.

If you are a user of the module, the easiest solution will be to
downgrade to 'numpy<2' or try to upgrade the affected module.
We expect that some modules will need time to support NumPy 2.

Traceback (most recent call last):  File "<frozen runpy>", line 198, in _run_module_as_main
  File "<frozen runpy>", line 88, in _run_code
  File "/Users/jleandrojm/anaconda3/lib/python3.11/site-packages/ipykernel_launcher.py", line 17, in <module>
    app.launch_new_instance()
  File "/Users/jleandrojm/anaconda3/lib/python3.11/site-packages/traitlets/config/application.py", line 992, in launch_instance
    app.start()
  File "/Users/jleandrojm/anaconda3/lib/python3.11/site-packages/ipykernel/kernelapp.py", line 711, in start
    self.io_loop.start()
  Fil

AttributeError: _ARRAY_API not found


A module that was compiled using NumPy 1.x cannot be run in
NumPy 2.3.3 as it may crash. To support both 1.x and 2.x
versions of NumPy, modules must be compiled with NumPy 2.0.
Some module may need to rebuild instead e.g. with 'pybind11>=2.12'.

If you are a user of the module, the easiest solution will be to
downgrade to 'numpy<2' or try to upgrade the affected module.
We expect that some modules will need time to support NumPy 2.

Traceback (most recent call last):  File "<frozen runpy>", line 198, in _run_module_as_main
  File "<frozen runpy>", line 88, in _run_code
  File "/Users/jleandrojm/anaconda3/lib/python3.11/site-packages/ipykernel_launcher.py", line 17, in <module>
    app.launch_new_instance()
  File "/Users/jleandrojm/anaconda3/lib/python3.11/site-packages/traitlets/config/application.py", line 992, in launch_instance
    app.start()
  File "/Users/jleandrojm/anaconda3/lib/python3.11/site-packages/ipykernel/kernelapp.py", line 711, in start
    self.io_loop.start()
  Fil

AttributeError: _ARRAY_API not found

üîÑ Leyendo shapefile con pyshp...
‚úÖ Shapefile abierto exitosamente!
üìä N√∫mero de registros: 136,587
üìê Tipo de geometr√≠a: 1
üìè L√≠mites: [-81.31011402699994, -18.344071732999964, -68.65995945699996, -0.030712728999958472]
üìã Campos: ['OBJECTID', 'NOM_POBLAD', 'FUENTE', 'C√ìDIGO', 'CAT_POBLAD', 'DIST', 'PROV', 'DEP', 'C√ìD_INT', 'CATEGORIA', 'X', 'Y', 'N_BUSQDA']

üîÑ Extrayendo muestra de 1000 registros...
‚úÖ Muestra extra√≠da: 1,000 registros
üìã Columnas disponibles: ['OBJECTID', 'NOM_POBLAD', 'FUENTE', 'C√ìDIGO', 'CAT_POBLAD', 'DIST', 'PROV', 'DEP', 'C√ìD_INT', 'CATEGORIA', 'X', 'Y', 'N_BUSQDA', 'COORD_X', 'COORD_Y']

üìä INFORMACI√ìN DE LA MUESTRA:
   üìç Rango de coordenadas X: -76.27700 a -69.57727
   üìç Rango de coordenadas Y: -11.49074 a -10.00100

üëÄ PRIMERAS 5 FILAS:
    NOM_POBLAD      DIST      DEP    COORD_X    COORD_Y
0   PANDISHARI  RAYMONDI  UCAYALI -74.064617 -10.371287
1      CHICOSA  RAYMONDI  UCAYALI -74.061529 -10.378517
2         RAYA  RAYMO

In [18]:
df_ccpp_sample['CATEGORIA'].value_counts()

CATEGORIA
Centro Poblado Menor    987
Capital de Distrito      13
Name: count, dtype: int64

In [13]:
# üìä INFORMACI√ìN COMPLETA DE TUS DATOS DE CENTROS POBLADOS
print("üìä RESUMEN COMPLETO DE TUS DATOS DE CENTROS POBLADOS")
print("=" * 60)

print(f"üóÇÔ∏è DATOS TOTALES DISPONIBLES:")
print(f"   üìÅ Archivo completo: {num_records:,} centros poblados")
print(f"   üìä Muestra cargada: {len(df_ccpp_sample):,} registros")
print(f"   üìà Porcentaje de muestra: {(len(df_ccpp_sample)/num_records)*100:.2f}%")

print(f"\nüåç COORDENADAS DISPONIBLES:")
print(f"   ‚Ä¢ En la muestra: {len(df_ccpp_sample):,} pares de coordenadas (X, Y)")
print(f"   ‚Ä¢ En total disponibles: {num_records:,} pares de coordenadas")

print(f"\nüìç INFORMACI√ìN DE COORDENADAS (MUESTRA):")
print(f"   ‚Ä¢ Coordenada X (Longitud): {df_ccpp_sample['COORD_X'].min():.6f} a {df_ccpp_sample['COORD_X'].max():.6f}")
print(f"   ‚Ä¢ Coordenada Y (Latitud): {df_ccpp_sample['COORD_Y'].min():.6f} a {df_ccpp_sample['COORD_Y'].max():.6f}")

# Mostrar solo las coordenadas
coordenadas_muestra = df_ccpp_sample[['NOM_POBLAD', 'COORD_X', 'COORD_Y']].copy()
print(f"\nüìã EJEMPLO DE COORDENADAS (primeras 10):")
print(coordenadas_muestra.head(10))

print(f"\nüéØ PARA OBTENER TODAS LAS COORDENADAS ({num_records:,} registros):")
print(f"   1. üîÑ Usar el c√≥digo de abajo para extraer todo el dataset")
print(f"   2. ‚ö†Ô∏è  Advertencia: Cargar todos los registros puede tomar varios minutos")
print(f"   3. üíæ Recomendaci√≥n: Exportar a CSV para uso futuro")

üìä RESUMEN COMPLETO DE TUS DATOS DE CENTROS POBLADOS
üóÇÔ∏è DATOS TOTALES DISPONIBLES:
   üìÅ Archivo completo: 136,587 centros poblados
   üìä Muestra cargada: 1,000 registros
   üìà Porcentaje de muestra: 0.73%

üåç COORDENADAS DISPONIBLES:
   ‚Ä¢ En la muestra: 1,000 pares de coordenadas (X, Y)
   ‚Ä¢ En total disponibles: 136,587 pares de coordenadas

üìç INFORMACI√ìN DE COORDENADAS (MUESTRA):
   ‚Ä¢ Coordenada X (Longitud): -76.277002 a -69.577269
   ‚Ä¢ Coordenada Y (Latitud): -11.490744 a -10.001002

üìã EJEMPLO DE COORDENADAS (primeras 10):
             NOM_POBLAD    COORD_X    COORD_Y
0            PANDISHARI -74.064617 -10.371287
1               CHICOSA -74.061529 -10.378517
2                  RAYA -72.941178 -10.330434
3           PENSILVANIA -74.059879 -10.404008
4           PONTE VEDRA -74.037875 -10.418090
5               GALILEA -73.985168 -10.453842
6         NUEVO EL POZO -74.026564 -10.463330
7           BOCA COCANI -74.023100 -10.478250
8      PUERTO ESPERANZ

In [4]:
# üöÄ EXTRAER TODAS LAS COORDENADAS (136,587 REGISTROS)
print("üöÄ EXTRAYENDO TODAS LAS COORDENADAS DEL DATASET COMPLETO")
print("=" * 60)

import time
start_time = time.time()

print(f"üîÑ Procesando {num_records:,} centros poblados...")
print("   ‚è≥ Esto puede tomar varios minutos...")

try:
    with shapefile.Reader(SHAPEFILE_PATH) as shp:
        
        # Obtener nombres de campos
        field_names = [field[0] for field in shp.fields[1:]]
        
        # Inicializar listas para almacenar datos
        all_records = []
        total_processed = 0
        
        # Procesar todos los registros
        for i, (record, shape) in enumerate(zip(shp.records(), shp.shapes())):
            
            # Mostrar progreso cada 10,000 registros
            if i % 10000 == 0:
                elapsed_time = time.time() - start_time
                print(f"   üìä Procesados: {i:,} / {num_records:,} ({(i/num_records)*100:.1f}%) - Tiempo: {elapsed_time:.1f}s")
            
            # Extraer coordenadas del punto
            if shape.points:
                x, y = shape.points[0]  # Primer punto (para puntos, solo hay uno)
                
                # Solo guardar los datos esenciales: nombre y coordenadas
                record_data = {
                    'OBJECTID': record[0] if len(record) > 0 else None,
                    'NOM_POBLAD': record[1] if len(record) > 1 else None,
                    'DIST': record[5] if len(record) > 5 else None,
                    'PROV': record[6] if len(record) > 6 else None,
                    'DEP': record[7] if len(record) > 7 else None,
                    'COORD_X': x,
                    'COORD_Y': y
                }
                
                all_records.append(record_data)
                total_processed += 1
        
        # Crear DataFrame con todos los datos
        df_ccpp_completo = pd.DataFrame(all_records)
        
        elapsed_time = time.time() - start_time
        
        print(f"\n‚úÖ EXTRACCI√ìN COMPLETADA!")
        print(f"   üìä Total procesado: {len(df_ccpp_completo):,} centros poblados")
        print(f"   ‚è±Ô∏è Tiempo total: {elapsed_time:.1f} segundos")
        print(f"   üíæ Memoria utilizada: {df_ccpp_completo.memory_usage(deep=True).sum() / 1024 / 1024:.1f} MB")
        
        # Informaci√≥n de las coordenadas completas
        print(f"\nüåç COORDENADAS COMPLETAS:")
        print(f"   üìç Rango X (Longitud): {df_ccpp_completo['COORD_X'].min():.6f} a {df_ccpp_completo['COORD_X'].max():.6f}")
        print(f"   üìç Rango Y (Latitud): {df_ccpp_completo['COORD_Y'].min():.6f} a {df_ccpp_completo['COORD_Y'].max():.6f}")
        
        # Estad√≠sticas por departamento
        print(f"\nüè¥ DISTRIBUCI√ìN POR DEPARTAMENTO (Top 10):")
        dep_counts_completo = df_ccpp_completo['DEP'].value_counts().head(10)
        for dep, count in dep_counts_completo.items():
            print(f"   ‚Ä¢ {dep}: {count:,} centros poblados")
        
        print(f"\nüíæ PARA GUARDAR TODAS LAS COORDENADAS:")
        print(f"   # Exportar solo coordenadas")
        print(f"   coordenadas_completas = df_ccpp_completo[['NOM_POBLAD', 'COORD_X', 'COORD_Y']]")
        print(f"   coordenadas_completas.to_csv('../DATA/coordenadas_centros_poblados_completo.csv', index=False)")
        print(f"   ")
        print(f"   # O exportar todo el dataset")
        print(f"   df_ccpp_completo.to_csv('../DATA/centros_poblados_completo.csv', index=False)")
        
except Exception as e:
    print(f"‚ùå Error durante la extracci√≥n: {e}")
    print("üí° Si hay problemas de memoria, usa la muestra de 1000 registros")

üöÄ EXTRAYENDO TODAS LAS COORDENADAS DEL DATASET COMPLETO
üîÑ Procesando 136,587 centros poblados...
   ‚è≥ Esto puede tomar varios minutos...
   üìä Procesados: 0 / 136,587 (0.0%) - Tiempo: 0.8s
   üìä Procesados: 10,000 / 136,587 (7.3%) - Tiempo: 0.8s
   üìä Procesados: 20,000 / 136,587 (14.6%) - Tiempo: 0.8s
   üìä Procesados: 30,000 / 136,587 (22.0%) - Tiempo: 0.8s
   üìä Procesados: 40,000 / 136,587 (29.3%) - Tiempo: 0.8s
   üìä Procesados: 50,000 / 136,587 (36.6%) - Tiempo: 0.8s
   üìä Procesados: 60,000 / 136,587 (43.9%) - Tiempo: 0.8s
   üìä Procesados: 70,000 / 136,587 (51.2%) - Tiempo: 0.8s
   üìä Procesados: 80,000 / 136,587 (58.6%) - Tiempo: 0.8s
   üìä Procesados: 90,000 / 136,587 (65.9%) - Tiempo: 0.8s
   üìä Procesados: 100,000 / 136,587 (73.2%) - Tiempo: 0.9s
   üìä Procesados: 110,000 / 136,587 (80.5%) - Tiempo: 0.9s
   üìä Procesados: 120,000 / 136,587 (87.9%) - Tiempo: 0.9s
   üìä Procesados: 130,000 / 136,587 (95.2%) - Tiempo: 0.9s

‚úÖ EXTRACCI√ìN C

In [16]:
# üíæ GUARDAR Y MOSTRAR RESUMEN FINAL
print("üíæ GUARDANDO COORDENADAS Y MOSTRANDO RESUMEN FINAL")
print("=" * 60)

# Crear dataset solo con coordenadas
coordenadas_completas = df_ccpp_completo[['NOM_POBLAD', 'COORD_X', 'COORD_Y']].copy()

print(f"üìä RESUMEN FINAL DE TUS COORDENADAS:")
print(f"   üóÇÔ∏è Total de centros poblados: {len(df_ccpp_completo):,}")
print(f"   üåç Total de coordenadas: {len(coordenadas_completas):,} pares (X, Y)")
print(f"   üìê Cobertura geogr√°fica completa del Per√∫")

print(f"\nüåç RANGO GEOGR√ÅFICO COMPLETO:")
print(f"   üìç Longitud (X): {df_ccpp_completo['COORD_X'].min():.6f} a {df_ccpp_completo['COORD_X'].max():.6f}")
print(f"   üìç Latitud (Y): {df_ccpp_completo['COORD_Y'].min():.6f} a {df_ccpp_completo['COORD_Y'].max():.6f}")

print(f"\nüìã MUESTRA DE COORDENADAS (primeras 10):")
print(coordenadas_completas.head(10))

print(f"\nüìà ESTAD√çSTICAS:")
print(f"   ‚Ä¢ Departamentos cubiertos: {df_ccpp_completo['DEP'].nunique()}")
print(f"   ‚Ä¢ Provincias cubiertas: {df_ccpp_completo['PROV'].nunique()}")
print(f"   ‚Ä¢ Distritos cubiertos: {df_ccpp_completo['DIST'].nunique()}")

# Guardar archivos
print(f"\nüíæ GUARDANDO ARCHIVOS:")

try:
    # Guardar solo coordenadas
    coord_file = '../DATA/coordenadas_centros_poblados_completo.csv'
    coordenadas_completas.to_csv(coord_file, index=False)
    print(f"   ‚úÖ Coordenadas guardadas: {coord_file}")
    
    # Guardar dataset completo
    full_file = '../DATA/centros_poblados_completo.csv'
    df_ccpp_completo.to_csv(full_file, index=False)
    print(f"   ‚úÖ Dataset completo guardado: {full_file}")
    
    print(f"\nüìä ARCHIVOS CREADOS:")
    print(f"   üìÅ {coord_file}")
    print(f"      ‚îî‚îÄ {len(coordenadas_completas):,} filas √ó 3 columnas (nombre + coordenadas)")
    print(f"   üìÅ {full_file}") 
    print(f"      ‚îî‚îÄ {len(df_ccpp_completo):,} filas √ó {len(df_ccpp_completo.columns)} columnas (info completa)")
    
except Exception as e:
    print(f"   ‚ùå Error guardando archivos: {e}")
    print(f"   üí° Verifica que la carpeta DATA/ exista")

print(f"\nüéØ LISTO PARA TU AN√ÅLISIS DE RIESGO H√çDRICO:")
print(f"   ‚Ä¢ Tienes {len(coordenadas_completas):,} coordenadas de centros poblados")
print(f"   ‚Ä¢ Datos guardados en formato CSV para f√°cil uso")
print(f"   ‚Ä¢ Listos para cruzar con tus datos de monitoreo de agua")
print(f"   ‚Ä¢ Cobertura completa del territorio peruano")

print(f"\nüöÄ PR√ìXIMO PASO: Integrar con tu Radar de Riesgo H√≠drico")

üíæ GUARDANDO COORDENADAS Y MOSTRANDO RESUMEN FINAL
üìä RESUMEN FINAL DE TUS COORDENADAS:
   üóÇÔ∏è Total de centros poblados: 136,587
   üåç Total de coordenadas: 136,587 pares (X, Y)
   üìê Cobertura geogr√°fica completa del Per√∫

üåç RANGO GEOGR√ÅFICO COMPLETO:
   üìç Longitud (X): -81.310114 a -68.659959
   üìç Latitud (Y): -18.344072 a -0.030713

üìã MUESTRA DE COORDENADAS (primeras 10):
             NOM_POBLAD    COORD_X    COORD_Y
0            PANDISHARI -74.064617 -10.371287
1               CHICOSA -74.061529 -10.378517
2                  RAYA -72.941178 -10.330434
3           PENSILVANIA -74.059879 -10.404008
4           PONTE VEDRA -74.037875 -10.418090
5               GALILEA -73.985168 -10.453842
6         NUEVO EL POZO -74.026564 -10.463330
7           BOCA COCANI -74.023100 -10.478250
8      PUERTO ESPERANZA -73.973340 -10.472008
9  TAHUARAPA SHEREMASHI -73.977674 -10.489965

üìà ESTAD√çSTICAS:
   ‚Ä¢ Departamentos cubiertos: 28
   ‚Ä¢ Provincias cubiertas: 208

## üéØ RESUMEN EJECUTIVO Y PR√ìXIMOS PASOS

### ‚úÖ **LO QUE HEMOS DESCUBIERTO:**

Tu archivo `CCPP_0` contiene un **Shapefile con datos geoespaciales** de **136,587 centros poblados** del Per√∫, incluyendo:

#### üìä **Datos Disponibles:**
- **üìç Coordenadas exactas** (X, Y) de cada centro poblado
- **üè∑Ô∏è Nombres** de centros poblados
- **üó∫Ô∏è Divisi√≥n administrativa** (Departamento, Provincia, Distrito)
- **üèòÔ∏è Categor√≠a** del centro poblado

#### üåç **Coordenadas Geogr√°ficas:**
- **Formato**: Latitud/Longitud decimal
- **Cobertura**: Todo el territorio peruano
- **Precisi√≥n**: Coordenadas exactas para ubicaci√≥n geoespacial

### üöÄ **INTEGRACI√ìN CON TU RADAR DE RIESGO H√çDRICO:**

Estos datos de centros poblados son **PERFECTOS** para tu an√°lisis porque te permiten:

1. **üéØ Identificar poblaci√≥n en riesgo**: Saber qu√© centros poblados est√°n cerca de zonas de contaminaci√≥n
2. **üìè Calcular proximidad**: Determinar distancia entre centros poblados y puntos de monitoreo de agua
3. **üìä Priorizar intervenciones**: Enfocar recursos en √°reas con mayor densidad poblacional
4. **üó∫Ô∏è Visualizar geogr√°ficamente**: Crear mapas de riesgo que muestren poblaci√≥n afectada

In [10]:
# üîó EJEMPLO DE INTEGRACI√ìN CON DATOS DE AGUA
print("üîó C√ìMO INTEGRAR CON TU RADAR DE RIESGO H√çDRICO")
print("=" * 60)

# Simulaci√≥n de c√≥mo combinar con datos de agua
print("üí° EJEMPLO DE C√ìDIGO PARA INTEGRACI√ìN:")
print("-" * 40)

ejemplo_codigo = '''
# 1. Cargar ambos datasets
df_centros_poblados = df_ccpp_sample  # Del shapefile
df_agua_superficial = df_agua_superficial  # De tu an√°lisis anterior

# 2. Funci√≥n para calcular proximidad geogr√°fica
from math import radians, cos, sin, asin, sqrt

def calcular_distancia(lat1, lon1, lat2, lon2):
    """Calcular distancia en km entre dos puntos"""
    R = 6371  # Radio de la Tierra en km
    lat1, lon1, lat2, lon2 = map(radians, [lat1, lon1, lat2, lon2])
    dlat = lat2 - lat1
    dlon = lon2 - lon1
    a = sin(dlat/2)**2 + cos(lat1) * cos(lat2) * sin(dlon/2)**2
    return 2 * R * asin(sqrt(a))

# 3. Encontrar centros poblados cerca de puntos de monitoreo
def encontrar_poblados_en_riesgo(df_poblados, df_agua, radio_km=10):
    poblados_riesgo = []
    
    for _, punto_agua in df_agua.iterrows():
        if pd.notna(punto_agua['COORD_ESTE']) and pd.notna(punto_agua['COORD_NORTE']):
            for _, poblado in df_poblados.iterrows():
                distancia = calcular_distancia(
                    punto_agua['COORD_NORTE'], punto_agua['COORD_ESTE'],
                    poblado['COORD_Y'], poblado['COORD_X']
                )
                
                if distancia <= radio_km:
                    poblados_riesgo.append({
                        'poblado': poblado['NOM_POBLAD'],
                        'departamento': poblado['DEP'],
                        'distrito': poblado['DIST'],
                        'distancia_km': distancia,
                        'punto_monitoreo': punto_agua['EXPEDIENTE'],
                        'coordinacion': punto_agua['COORDINACION']
                    })
    
    return pd.DataFrame(poblados_riesgo)

# 4. Ejemplo de uso
# poblados_en_riesgo = encontrar_poblados_en_riesgo(df_centros_poblados, df_agua_superficial)
'''

print(ejemplo_codigo)

print("\nüéØ M√âTRICAS QUE PUEDES CALCULAR:")
print("   ‚Ä¢ üë• Poblaci√≥n en riesgo por zona de contaminaci√≥n")
print("   ‚Ä¢ üìè Distancia promedio entre centros poblados y puntos de monitoreo")
print("   ‚Ä¢ üó∫Ô∏è Departamentos/provincias con mayor exposici√≥n")
print("   ‚Ä¢ üö® Centros poblados en zona de riesgo cr√≠tico")

print(f"\nüìä POTENCIAL DE TUS DATOS:")
print(f"   ‚Ä¢ {len(df_ccpp_sample):,} centros poblados (muestra)")
print(f"   ‚Ä¢ Coordenadas precisas para an√°lisis geoespacial")
print(f"   ‚Ä¢ Divisi√≥n administrativa completa")
print(f"   ‚Ä¢ Listo para cruzar con datos de monitoreo de agua")

print(f"\nüíæ PARA GUARDAR LOS DATOS:")
print(f"   # Exportar a CSV para uso posterior")
print(f"   df_ccpp_sample.to_csv('../DATA/centros_poblados_muestra.csv', index=False)")
print(f"   # O cargar todo el shapefile si necesitas m√°s datos")

print(f"\nüöÄ PR√ìXIMO PASO RECOMENDADO:")
print(f"   Integrar estos datos de poblaci√≥n con tu an√°lisis de hotspots")
print(f"   para crear un 'Radar de Riesgo Poblacional' m√°s completo")

üîó C√ìMO INTEGRAR CON TU RADAR DE RIESGO H√çDRICO
üí° EJEMPLO DE C√ìDIGO PARA INTEGRACI√ìN:
----------------------------------------

# 1. Cargar ambos datasets
df_centros_poblados = df_ccpp_sample  # Del shapefile
df_agua_superficial = df_agua_superficial  # De tu an√°lisis anterior

# 2. Funci√≥n para calcular proximidad geogr√°fica
from math import radians, cos, sin, asin, sqrt

def calcular_distancia(lat1, lon1, lat2, lon2):
    """Calcular distancia en km entre dos puntos"""
    R = 6371  # Radio de la Tierra en km
    lat1, lon1, lat2, lon2 = map(radians, [lat1, lon1, lat2, lon2])
    dlat = lat2 - lat1
    dlon = lon2 - lon1
    a = sin(dlat/2)**2 + cos(lat1) * cos(lat2) * sin(dlon/2)**2
    return 2 * R * asin(sqrt(a))

# 3. Encontrar centros poblados cerca de puntos de monitoreo
def encontrar_poblados_en_riesgo(df_poblados, df_agua, radio_km=10):
    poblados_riesgo = []
    
    for _, punto_agua in df_agua.iterrows():
        if pd.notna(punto_agua['COORD_ESTE']) and pd.n

In [6]:
# üéØ PROCESAMIENTO FINAL PARA HACKATON - DATASET CENTROS POBLADOS
print("üéØ PROCESAMIENTO FINAL PARA HACKATON - CENTROS POBLADOS")
print("=" * 65)

print("üìã SELECCIONANDO COLUMNAS ESENCIALES PARA LA HACKATON...")

# Ya tenemos el dataset completo cargado en df_ccpp_completo
print(f"‚úÖ Centros poblados cargados: {len(df_ccpp_completo):,}")

print(f"\nüîç COLUMNAS DISPONIBLES:")
print(f"   {list(df_ccpp_completo.columns)}")

print(f"\nüîç RANGOS ACTUALES DE COORDENADAS:")
print(f"   ‚Ä¢ Longitud (COORD_X): {df_ccpp_completo['COORD_X'].min():.6f} a {df_ccpp_completo['COORD_X'].max():.6f}")
print(f"   ‚Ä¢ Latitud (COORD_Y): {df_ccpp_completo['COORD_Y'].min():.6f} a {df_ccpp_completo['COORD_Y'].max():.6f}")

# Seleccionar y renombrar columnas esenciales para la hackaton (ajustado a las columnas disponibles)
columnas_esenciales = {
    'OBJECTID': 'id_centro_poblado',
    'NOM_POBLAD': 'nombre_centro_poblado',
    'DIST': 'distrito',
    'PROV': 'provincia', 
    'DEP': 'departamento',
    'COORD_X': 'longitud',
    'COORD_Y': 'latitud'
}

# Verificar qu√© columnas existen realmente
columnas_disponibles = {}
for col_orig, col_nueva in columnas_esenciales.items():
    if col_orig in df_ccpp_completo.columns:
        columnas_disponibles[col_orig] = col_nueva
    else:
        print(f"   ‚ö†Ô∏è Columna {col_orig} no encontrada")

print(f"\nüìã COLUMNAS SELECCIONADAS:")
for col_orig, col_nueva in columnas_disponibles.items():
    print(f"   ‚Ä¢ {col_orig} ‚Üí {col_nueva}")

# Crear dataset final con solo las columnas disponibles
df_poblacion_procesado = df_ccpp_completo[list(columnas_disponibles.keys())].copy()
df_poblacion_procesado = df_poblacion_procesado.rename(columns=columnas_disponibles)

print(f"\nüìä DATASET PROCESADO:")
print(f"   ‚Ä¢ Registros: {len(df_poblacion_procesado):,}")
print(f"   ‚Ä¢ Columnas: {len(df_poblacion_procesado.columns)}")
print(f"   ‚Ä¢ Memoria: {df_poblacion_procesado.memory_usage(deep=True).sum() / 1024**2:.1f} MB")

print(f"\nüìù COLUMNAS FINALES:")
for i, col in enumerate(df_poblacion_procesado.columns, 1):
    non_null = df_poblacion_procesado[col].notna().sum()
    completitud = (non_null / len(df_poblacion_procesado)) * 100
    print(f"   {i:2d}. {col}: {non_null:,} registros ({completitud:.1f}% completo)")

print(f"\nüìã MUESTRA DEL DATASET INICIAL:")
print(df_poblacion_procesado.head())

üéØ PROCESAMIENTO FINAL PARA HACKATON - CENTROS POBLADOS
üìã SELECCIONANDO COLUMNAS ESENCIALES PARA LA HACKATON...
‚úÖ Centros poblados cargados: 136,587

üîç COLUMNAS DISPONIBLES:
   ['OBJECTID', 'NOM_POBLAD', 'DIST', 'PROV', 'DEP', 'COORD_X', 'COORD_Y']

üîç RANGOS ACTUALES DE COORDENADAS:
   ‚Ä¢ Longitud (COORD_X): -81.310114 a -68.659959
   ‚Ä¢ Latitud (COORD_Y): -18.344072 a -0.030713

üìã COLUMNAS SELECCIONADAS:
   ‚Ä¢ OBJECTID ‚Üí id_centro_poblado
   ‚Ä¢ NOM_POBLAD ‚Üí nombre_centro_poblado
   ‚Ä¢ DIST ‚Üí distrito
   ‚Ä¢ PROV ‚Üí provincia
   ‚Ä¢ DEP ‚Üí departamento
   ‚Ä¢ COORD_X ‚Üí longitud
   ‚Ä¢ COORD_Y ‚Üí latitud

üìä DATASET PROCESADO:
   ‚Ä¢ Registros: 136,587
   ‚Ä¢ Columnas: 7
   ‚Ä¢ Memoria: 37.9 MB

üìù COLUMNAS FINALES:
    1. id_centro_poblado: 136,587 registros (100.0% completo)
    2. nombre_centro_poblado: 136,587 registros (100.0% completo)
    3. distrito: 136,587 registros (100.0% completo)
    4. provincia: 136,587 registros (100.0% completo)
    

In [7]:
# üßπ VALIDACI√ìN DE COORDENADAS Y LIMPIEZA DE DATOS
print("üßπ VALIDACI√ìN DE COORDENADAS Y LIMPIEZA DE DATOS")
print("=" * 55)

print("üîç AN√ÅLISIS DE COORDENADAS ANTES DEL FILTRO:")
coords_antes = len(df_poblacion_procesado)
print(f"   ‚Ä¢ Total de centros poblados: {coords_antes:,}")
print(f"   ‚Ä¢ Rango longitud: {df_poblacion_procesado['longitud'].min():.6f} a {df_poblacion_procesado['longitud'].max():.6f}")
print(f"   ‚Ä¢ Rango latitud: {df_poblacion_procesado['latitud'].min():.6f} a {df_poblacion_procesado['latitud'].max():.6f}")

# Verificar coordenadas (0, 0)
coords_cero = ((df_poblacion_procesado['longitud'] == 0) & (df_poblacion_procesado['latitud'] == 0)).sum()
print(f"   ‚Ä¢ Coordenadas (0, 0): {coords_cero:,}")

# Verificar coordenadas nulas
coords_null_lon = df_poblacion_procesado['longitud'].isnull().sum()
coords_null_lat = df_poblacion_procesado['latitud'].isnull().sum()
print(f"   ‚Ä¢ Longitudes nulas: {coords_null_lon:,}")
print(f"   ‚Ä¢ Latitudes nulas: {coords_null_lat:,}")

print(f"\nüåç APLICANDO FILTRO DE COORDENADAS V√ÅLIDAS PARA PER√ö:")
print(f"   ‚Ä¢ Longitud: -81.5¬∞ a -68.0¬∞ (territorio peruano)")
print(f"   ‚Ä¢ Latitud: -18.5¬∞ a 0.5¬∞ (territorio peruano)")
print(f"   ‚Ä¢ Excluyendo coordenadas (0, 0)")

# Filtro para coordenadas v√°lidas en territorio peruano
df_poblacion_procesado = df_poblacion_procesado[
    (df_poblacion_procesado['longitud'] >= -81.5) & 
    (df_poblacion_procesado['longitud'] <= -68.0) &
    (df_poblacion_procesado['latitud'] >= -18.5) & 
    (df_poblacion_procesado['latitud'] <= 0.5) &
    (df_poblacion_procesado['longitud'] != 0) &
    (df_poblacion_procesado['latitud'] != 0) &
    (df_poblacion_procesado['longitud'].notna()) &
    (df_poblacion_procesado['latitud'].notna())
]

coords_despues = len(df_poblacion_procesado)
coords_eliminados = coords_antes - coords_despues

print(f"\n‚úÖ RESULTADO DEL FILTRO:")
print(f"   ‚Ä¢ Centros poblados v√°lidos: {coords_despues:,}")
print(f"   ‚Ä¢ Centros poblados eliminados: {coords_eliminados:,}")
print(f"   ‚Ä¢ Porcentaje conservado: {(coords_despues/coords_antes)*100:.2f}%")

print(f"\nüó∫Ô∏è RANGO GEOGR√ÅFICO DESPU√âS DEL FILTRO:")
print(f"   ‚Ä¢ Longitud: {df_poblacion_procesado['longitud'].min():.6f} a {df_poblacion_procesado['longitud'].max():.6f}")
print(f"   ‚Ä¢ Latitud: {df_poblacion_procesado['latitud'].min():.6f} a {df_poblacion_procesado['latitud'].max():.6f}")

print(f"\nüßπ LIMPIEZA Y ESTANDARIZACI√ìN DE CAMPOS DE TEXTO:")

# Limpiar campos de texto
df_poblacion_procesado['nombre_centro_poblado'] = df_poblacion_procesado['nombre_centro_poblado'].str.strip().str.upper()
df_poblacion_procesado['departamento'] = df_poblacion_procesado['departamento'].str.strip().str.upper()
df_poblacion_procesado['provincia'] = df_poblacion_procesado['provincia'].str.strip().str.upper()
df_poblacion_procesado['distrito'] = df_poblacion_procesado['distrito'].str.strip().str.upper()

print(f"   ‚úÖ Campos de texto estandarizados (may√∫sculas, sin espacios extra)")

print(f"\nüìä ESTAD√çSTICAS FINALES:")
print(f"   ‚Ä¢ Departamentos √∫nicos: {df_poblacion_procesado['departamento'].nunique()}")
print(f"   ‚Ä¢ Provincias √∫nicas: {df_poblacion_procesado['provincia'].nunique()}")
print(f"   ‚Ä¢ Distritos √∫nicos: {df_poblacion_procesado['distrito'].nunique()}")

print(f"\nüè¥ DISTRIBUCI√ìN POR DEPARTAMENTO (Top 10):")
dep_counts = df_poblacion_procesado['departamento'].value_counts().head(10)
for i, (dep, count) in enumerate(dep_counts.items(), 1):
    porcentaje = (count / len(df_poblacion_procesado)) * 100
    print(f"   {i:2d}. {dep}: {count:,} ({porcentaje:.1f}%)")

print(f"\nüìã MUESTRA DEL DATASET LIMPIO:")
print(df_poblacion_procesado.head())

üßπ VALIDACI√ìN DE COORDENADAS Y LIMPIEZA DE DATOS
üîç AN√ÅLISIS DE COORDENADAS ANTES DEL FILTRO:
   ‚Ä¢ Total de centros poblados: 136,587
   ‚Ä¢ Rango longitud: -81.310114 a -68.659959
   ‚Ä¢ Rango latitud: -18.344072 a -0.030713
   ‚Ä¢ Coordenadas (0, 0): 0
   ‚Ä¢ Longitudes nulas: 0
   ‚Ä¢ Latitudes nulas: 0

üåç APLICANDO FILTRO DE COORDENADAS V√ÅLIDAS PARA PER√ö:
   ‚Ä¢ Longitud: -81.5¬∞ a -68.0¬∞ (territorio peruano)
   ‚Ä¢ Latitud: -18.5¬∞ a 0.5¬∞ (territorio peruano)
   ‚Ä¢ Excluyendo coordenadas (0, 0)

‚úÖ RESULTADO DEL FILTRO:
   ‚Ä¢ Centros poblados v√°lidos: 136,587
   ‚Ä¢ Centros poblados eliminados: 0
   ‚Ä¢ Porcentaje conservado: 100.00%

üó∫Ô∏è RANGO GEOGR√ÅFICO DESPU√âS DEL FILTRO:
   ‚Ä¢ Longitud: -81.310114 a -68.659959
   ‚Ä¢ Latitud: -18.344072 a -0.030713

üßπ LIMPIEZA Y ESTANDARIZACI√ìN DE CAMPOS DE TEXTO:
   ‚úÖ Campos de texto estandarizados (may√∫sculas, sin espacios extra)

üìä ESTAD√çSTICAS FINALES:
   ‚Ä¢ Departamentos √∫nicos: 28
   ‚Ä¢ Provincias 

In [8]:
# üíæ GUARDAR DATASET CENTROS POBLADOS EN CARPETA DATAFINAL
print("üíæ GUARDANDO DATASET FINAL EN CARPETA DATAFINAL")
print("=" * 60)

import os

# Crear carpeta DATAFINAL si no existe
datafinal_path = '../DATAFINAL'
os.makedirs(datafinal_path, exist_ok=True)
print(f"üìÅ Carpeta DATAFINAL verificada/creada")

# Guardar dataset procesado
archivo_final = os.path.join(datafinal_path, 'poblacion_procesado.csv')

try:
    df_poblacion_procesado.to_csv(archivo_final, index=False, encoding='utf-8')
    print(f"\n‚úÖ ARCHIVO GUARDADO EXITOSAMENTE:")
    print(f"   üìÑ Archivo: {archivo_final}")
    print(f"   üìä Registros: {len(df_poblacion_procesado):,}")
    print(f"   üìã Columnas: {len(df_poblacion_procesado.columns)}")
    
    # Verificar tama√±o del archivo
    size_mb = os.path.getsize(archivo_final) / (1024 * 1024)
    print(f"   üíæ Tama√±o: {size_mb:.2f} MB")
    
except Exception as e:
    print(f"‚ùå Error guardando archivo: {e}")

print(f"\nüìã RESUMEN DEL DATASET PROCESADO PARA HACKATON:")
print(f"üéØ PROP√ìSITO: Sistema de Monitoreo y Alerta Temprana Ambiental")
print(f"üìä DATOS DE POBLACI√ìN LISTOS PARA:")
print(f"   ‚Ä¢ Correlaci√≥n con puntos de monitoreo ambiental")
print(f"   ‚Ä¢ An√°lisis de densidad poblacional en zonas de riesgo")
print(f"   ‚Ä¢ Identificaci√≥n de centros poblados vulnerables")
print(f"   ‚Ä¢ C√°lculo de poblaci√≥n afectada por contaminaci√≥n")
print(f"   ‚Ä¢ Alertas tempranas para comunidades")

print(f"\nüîó CAMPOS CLAVE PARA TU HACKATON:")
print(f"   üó∫Ô∏è Geoespaciales: latitud, longitud")
print(f"   üèòÔ∏è Identificaci√≥n: id_centro_poblado, nombre_centro_poblado")
print(f"   üìç Ubicaci√≥n: departamento, provincia, distrito")

print(f"\nüèõÔ∏è DISTRIBUCI√ìN GEOGR√ÅFICA (Top 5):")
top_deptos = df_poblacion_procesado['departamento'].value_counts().head(5)
for i, (depto, count) in enumerate(top_deptos.items(), 1):
    porcentaje = (count / len(df_poblacion_procesado)) * 100
    print(f"   {i}. {depto}: {count:,} ({porcentaje:.1f}%)")

print(f"\nüåç COBERTURA GEOGR√ÅFICA:")
print(f"   ‚Ä¢ Departamentos: {df_poblacion_procesado['departamento'].nunique()}")
print(f"   ‚Ä¢ Provincias: {df_poblacion_procesado['provincia'].nunique()}")
print(f"   ‚Ä¢ Distritos: {df_poblacion_procesado['distrito'].nunique()}")

print(f"\nüìä COMPARACI√ìN CON OTROS DATASETS:")
print(f"   üè• Centros de salud: ~7,953 registros")
print(f"   üéì Instituciones educativas: ~177,871 registros") 
print(f"   üèòÔ∏è Centros poblados: {len(df_poblacion_procesado):,} registros")

print(f"\nüóÇÔ∏è ARCHIVOS EN DATAFINAL:")
datafinal_files = os.listdir(datafinal_path) if os.path.exists(datafinal_path) else []
for i, file in enumerate(datafinal_files, 1):
    if file.endswith('.csv'):
        file_path = os.path.join(datafinal_path, file)
        file_size = os.path.getsize(file_path) / (1024 * 1024)
        print(f"   {i}. {file} ({file_size:.1f} MB)")

print(f"\nüöÄ DATASETS COMPLETADOS PARA HACKATON:")
print(f"   ‚úÖ Salud: salud_procesado.csv")
print(f"   ‚úÖ Educaci√≥n: educacion_procesado.csv") 
print(f"   ‚úÖ Poblaci√≥n: poblacion_procesado.csv")

print(f"\nüéØ PR√ìXIMO PASO: Integrar todos los datasets para an√°lisis conjunto")
print(f"‚úÖ DATASET DE CENTROS POBLADOS COMPLETADO Y LISTO PARA HACKATON")

üíæ GUARDANDO DATASET FINAL EN CARPETA DATAFINAL
üìÅ Carpeta DATAFINAL verificada/creada

‚úÖ ARCHIVO GUARDADO EXITOSAMENTE:
   üìÑ Archivo: ../DATAFINAL/poblacion_procesado.csv
   üìä Registros: 136,587
   üìã Columnas: 7
   üíæ Tama√±o: 10.82 MB

üìã RESUMEN DEL DATASET PROCESADO PARA HACKATON:
üéØ PROP√ìSITO: Sistema de Monitoreo y Alerta Temprana Ambiental
üìä DATOS DE POBLACI√ìN LISTOS PARA:
   ‚Ä¢ Correlaci√≥n con puntos de monitoreo ambiental
   ‚Ä¢ An√°lisis de densidad poblacional en zonas de riesgo
   ‚Ä¢ Identificaci√≥n de centros poblados vulnerables
   ‚Ä¢ C√°lculo de poblaci√≥n afectada por contaminaci√≥n
   ‚Ä¢ Alertas tempranas para comunidades

üîó CAMPOS CLAVE PARA TU HACKATON:
   üó∫Ô∏è Geoespaciales: latitud, longitud
   üèòÔ∏è Identificaci√≥n: id_centro_poblado, nombre_centro_poblado
   üìç Ubicaci√≥n: departamento, provincia, distrito

üèõÔ∏è DISTRIBUCI√ìN GEOGR√ÅFICA (Top 5):
   1. PUNO: 16,804 (12.3%)
   2. CUSCO: 13,496 (9.9%)
   3. ANCASH: 10,658