## Integrantes
- Montoya Sol√≥rzano, Leonardo Alfredo
- Salazar Medina, Breysi Fernanda
- Villarreal Falc√≥n, Mishelle Stephany

## Aquisici√≥n de datos - Parte 1 (Web scraping)

Este script realiza la extracci√≥n automatizada de registros s√≠smicos del portal oficial del Instituto Geof√≠sico del Per√∫ (IGP), utilizando Selenium WebDriver para navegar din√°micamente por la interfaz web.

üîπ **Objetivo**

Recolectar todos los eventos s√≠smicos registrados por el IGP entre los a√±os 2020 y 2025, incluyendo informaci√≥n detallada de cada sismo (fecha, magnitud, ubicaci√≥n, latitud, longitud y profundidad), para su posterior an√°lisis y visualizaci√≥n.

üîπ **Flujo general del proceso**

1. Inicializaci√≥n del navegador

    - Se configura webdriver.Chrome() y se define la URL base del portal de sismos.

2. Recorrido por a√±os (2025‚Äì2020)

    - Se selecciona cada a√±o desde el men√∫ desplegable.

    - Luego, se cambia la cantidad de registros mostrados por p√°gina a 100.

3. Extracci√≥n de datos por p√°gina

    - Se recorren todas las p√°ginas de resultados mediante el bot√≥n ‚ÄúSiguiente‚Äù, hasta completar el conjunto anual.

    - De cada fila de la tabla se extraen: reporte, referencia, fecha_hora, magnitud y el enlace (href) al reporte detallado.

4. Obtenci√≥n de detalles adicionales

    - Para cada reporte individual, el script abre el enlace en una nueva pesta√±a y extrae: latitud, longitud y profundidad.

    - Estos valores se buscan en los elementos de la p√°gina de detalle.

5. Construcci√≥n del dataset final

    - Todos los registros se consolidan en un DataFrame de Pandas.

    - Se exporta el resultado a un archivo CSV llamado sismos_igp.csv.

6. Cierre del proceso

    - Se cierra el navegador y se imprime el n√∫mero total de registros extra√≠dos.

In [3]:
import pandas as pd
import numpy as np
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import Select

In [None]:
# Definir la URL
url = 'https://ultimosismo.igp.gob.pe/ultimo-sismo/sismos-reportados'

# Configurar Selenium WebDriver
driver = webdriver.Chrome()
wait = WebDriverWait(driver, 15)

driver.get(url)

# Lista de a√±os (de 2025 a 2020)
years = ["2025", "2024", "2023", "2022", "2021", "2020"]

entries = []

for year in years:
    print(f"\nüîπ Procesando a√±o {year}...")

    # Seleccionar el a√±o en el combo <select id="year">
    wait.until(EC.presence_of_element_located((By.ID, "year")))
    # Crear el objeto Select y elegir el a√±o
    select_year = Select(driver.find_element(By.ID, "year"))
    select_year.select_by_value(year)

    # Esperar a que cambie el contenido de la tabla
    wait.until(EC.presence_of_element_located((By.ID, "show")))
    time.sleep(2)

    # Crear el objeto Select y elegir el valor "12"
    wait.until(EC.presence_of_element_located((By.ID, "show")))
    select_show = Select(driver.find_element(By.ID, "show"))
    select_show.select_by_value("12")

    # Crear el objeto Select y elegir el valor "100"
    wait.until(EC.presence_of_element_located((By.ID, "show")))
    select_show = Select(driver.find_element(By.ID, "show"))
    select_show.select_by_value("100")

    # Esperar a que la tabla de resultados est√© presente
    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "table tbody tr")))
    time.sleep(2)

    while True:
        # Esperar a que la tabla de resultados est√© presente
        wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "table tbody tr")))

        # Extraer de la tabla los datos visibles
        rows = driver.find_elements(By.CSS_SELECTOR, "table tbody tr")

        for r in rows:
            try:
                cols = r.find_elements(By.TAG_NAME, "td")
                reporte = cols[0].text.strip()
                referencia = cols[1].text.strip()
                fecha_hora = cols[2].text.strip()
                magnitud = cols[3].text.strip()

                # Busca todos los enlaces en la columna de descargas
                anchors = cols[4].find_elements(By.TAG_NAME, "a")
                
                href = None
                
                # Recorremos los enlaces
                for a in anchors:
                    txt = (a.text or "").lower()
                    h = a.get_attribute("href")
                    # preferimos el que tiene 'reporte' en el texto
                    if 'reporte' in txt:
                        href = h
                        break

                # Agregamos los datos del evento a la lista de entradas    
                entries.append({
                    "anio": year,
                    "reporte": reporte,
                    "referencia": referencia,
                    "fecha_hora": fecha_hora,
                    "magnitud": magnitud,
                    "href": href
                })
            
            except Exception as e:
                print("Salteando fila por error:", e)
                continue

        # Intentar encontrar y hacer clic en "Siguiente"
        try:
            next_button = driver.find_element(By.XPATH, "//button[contains(., 'Siguiente')]")

            # Si el bot√≥n est√° deshabilitado, terminamos
            if not next_button.is_enabled():
                print(f"Fin de p√°ginas del a√±o {year}.")
                break

            # Hacer clic en el bot√≥n "Siguiente"
            driver.execute_script("arguments[0].click();", next_button)
            print("Pasando a la siguiente p√°gina...")
            # Esperar que se actualice la tabla (detectando cambio de primera celda)
            wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "table tbody tr td")))
            time.sleep(3)  # esperar que cargue la nueva tabla

        except Exception as e:
            print("No se encontr√≥ el bot√≥n 'Siguiente' o ya no hay m√°s p√°ginas:", e)
            break

print(f"Total registros encontrados: {len(entries)}")

# Abrir cada link en una pesta√±a nueva y extraer latitud-longitud y profundidad
data = []

# Guardar el identificador de la ventana principal
main_handle = driver.current_window_handle

# Iterar sobre las entradas y abrir cada link
for ent in entries:
    href = ent["href"]
    lat_lon = ""
    profundidad = ""
    
    if not href:
        # no hay link, agregamos vac√≠o y seguimos
        data.append([ent["reporte"], ent["referencia"], ent["fecha_hora"], ent["magnitud"], lat_lon, profundidad, None])
        continue

    # abrir nueva pesta√±a con el href
    driver.execute_script("window.open(arguments[0]);", href)
    # cambiar el control a la pesta√±a nueva (-1 es la ultima)
    driver.switch_to.window(driver.window_handles[-1])

    try:
        # esperar que cargue la p√°gina de detalle (b.text-dark existe)
        wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "b.text-dark")))

        # Buscar los <b class="text-dark">
        b_elems = driver.find_elements(By.CSS_SELECTOR, "b.text-dark")

        # Recorremos los <b> para encontrar latitud y profundidad
        for b in b_elems:
            txt = (b.text or "").lower()
            try:
                if "latitud" in txt:
                    # Si contiene "latitud", tomar el siguiente <span>
                    lat_lon = b.find_element(By.XPATH, "./following-sibling::span").text.strip()
                    # Si contiene "profundidad", tomar el siguiente <span>
                if "profundidad" in txt:
                    profundidad = b.find_element(By.XPATH, "./following-sibling::span").text.strip()
            except Exception:
                # si no encuentra el sibling o hay otro formato, ignorar
                pass

        # Agregar los datos extra√≠dos a la data general
        data.append([ent["reporte"], ent["referencia"], ent["fecha_hora"], ent["magnitud"], lat_lon, profundidad, href])

    # En caso de error, agregar la entrada con lat_lon y profundidad vac√≠os
    except Exception as e:
        print("Error al abrir detalle:", href, e)
        data.append([ent["reporte"], ent["referencia"], ent["fecha_hora"], ent["magnitud"], lat_lon, profundidad, href])

    # Cerrar pesta√±a de detalle
    driver.close()

    # volver a la ventana principal
    driver.switch_to.window(main_handle)
    
    # Esperar que la tabla est√© presente antes de pasar al siguiente sismo
    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "table tbody tr")))

# 3) Guardar a DataFrame / CSV
df = pd.DataFrame(data, columns=["reporte","referencia","fecha_hora","magnitud","lat_lon","profundidad","href"])
df.to_csv("../data/processed/sismos_igp.csv", index=False, encoding="utf-8-sig")

print("Extra√≠do:", len(df), "filas. CSV -> sismos_igp.csv")

driver.quit()


üîπ Procesando a√±o 2025...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Fin de p√°ginas del a√±o 2025.

üîπ Procesando a√±o 2024...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Fin de p√°ginas del a√±o 2024.

üîπ Procesando a√±o 2023...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Fin de p√°ginas del a√±o 2023.

üîπ Procesando a√±o 2022...
Pasando a la siguiente p√°gina...
Pasando a la siguiente p√°gina...
Pasan

In [7]:
# Verificar el CSV cargando el DataFrame
df = pd.read_csv("../data/processed/sismos_igp.csv")
df.head()

Unnamed: 0,reporte,referencia,fecha_hora,magnitud,lat_lon,profundidad,href
0,IGP/CENSIS/RS\n2025-0718,"42 km al NO de Satipo, Satipo - Jun√≠n",29/10/2025 05:45:16,3.6,"-10.91, -74.81",16 Km,https://ultimosismo.igp.gob.pe/evento/2025-0718
1,IGP/CENSIS/RS\n2025-0717,"46 km al NO de Satipo, Satipo - Jun√≠n",29/10/2025 04:45:21,3.8,"-10.89, -74.84",18 Km,https://ultimosismo.igp.gob.pe/evento/2025-0717
2,IGP/CENSIS/RS\n2025-0716,"71 km al SO de Tacna, Tacna - Tacna",29/10/2025 03:22:58,3.8,"-18.56, -70.6",37 Km,https://ultimosismo.igp.gob.pe/evento/2025-0716
3,IGP/CENSIS/RS\n2025-0715,"16 km al NO de Zorritos, Contralmirante Villar...",28/10/2025 15:44:06,3.8,"-3.61, -80.79",20 Km,https://ultimosismo.igp.gob.pe/evento/2025-0715
4,IGP/CENSIS/RS\n2025-0714,"23 km al O de Marcona, Nasca - Ica",26/10/2025 23:52:15,4.1,"-15.42, -75.37",34 Km,https://ultimosismo.igp.gob.pe/evento/2025-0714


## Aquisici√≥n de datos - Parte 2 (INEI)

Esta parte constituye la segunda fase del proyecto de extracci√≥n y an√°lisis s√≠smico, enfocada en enriquecer los datos obtenidos del IGP mediante la integraci√≥n de informaci√≥n geogr√°fica (distritos) y la proyecci√≥n sociodemogr√°fica (2018-2025) obtenida del INEI.
Su prop√≥sito es localizar espacialmente cada sismo dentro del territorio peruano, asignarle su distrito correspondiente, y vincularlo con variables territoriales y poblacionales.

üîπ **Objetivo general**

Combinar los datos s√≠smicos con capas geogr√°ficas y censales para obtener un dataset georreferenciado y contextualizado, que permita realizar an√°lisis espaciales, estimaciones de riesgo y visualizaciones por distrito.

üîπ **Flujo general del proceso**

1. Carga y preparaci√≥n inicial

    - Se carga el archivo sismos_igp.csv generado en la fase anterior.

    - Se separa la columna lat_lon en dos nuevas columnas: latitud y longitud.

    - Se genera una columna geom√©trica geometry con objetos Point(longitud, latitud).

2. Creaci√≥n del GeoDataFrame

    - Se convierte el DataFrame en un GeoDataFrame (gdf_sismos) con el sistema de referencia geogr√°fico EPSG:4326 (WGS84), est√°ndar para coordenadas GPS.

3. Asignaci√≥n de distritos mediante spatial join

    - Se carga la capa geogr√°fica DISTRITO.gpkg (GeoPackage oficial de distritos del Per√∫).

    - Se reproyecta tanto en grados (EPSG:4326) como en metros (EPSG:32718) para c√°lculos de √°rea.

    - Cada sismo se asocia con el distrito dentro del cual ocurri√≥.

    - Se renombran los campos geogr√°ficos: departamento, provincia, distrito, y ubigeo.

4. C√°lculo del √°rea distrital

    - En la proyecci√≥n m√©trica (EPSG:32718), se calcula el √°rea de cada distrito en kil√≥metros cuadrados (km¬≤).

    - Se crea una tabla con ubigeo, departamento, provincia, distrito y area_km2.

5. Integraci√≥n demogr√°fica

    - Se carga el archivo reporte_estadist.xlsx con informaci√≥n poblacional por distrito desde el 2018 hasta el 2025.

    - Se ordena el encabezado, se renombran columnas y se estandariza el c√≥digo ubigeo a texto de 6 d√≠gitos.

    - Se realiza un merge con los datos s√≠smicos por el campo com√∫n ubigeo.

    - Se identifica el a√±o en que ocurri√≥ el sismo y se utiliza para identificar la poblaci√≥n (**En caso que el valor de la poblaci√≥n en ese a√±o sea nulo se busca en el a√±o m√°s pr√≥ximo del mismo distrito**)

    - Finalmente, eliminamos las columas con la poblaci√≥n de cada a√±o, qued√°ndonos con las columnas anterior a este proceso y la nueva columna adicional del poblaci√≥n.

6. Generaci√≥n del dataset final

    - El DataFrame resultante (sismos_poblacion) combina informaci√≥n de:

    - Sismo: magnitud, fecha, profundidad, coordenadas

    - Ubicaci√≥n geogr√°fica: distrito, provincia, departamento, √°rea km¬≤

    - Demograf√≠a: poblaci√≥n del distrito

In [8]:
import osmnx as ox
import geopandas as gpd
from shapely.geometry import Point
import os

In [9]:
# Crear una copia del DataFrame original
sismos = df.copy()

In [10]:
# Separar la columan "lat_lon" en dos columnas "latitud" y "longitud"
coordenates = sismos["lat_lon"].str.split(",", expand=True)

# Renombrar las nuevas columnas
coordenates.columns = ["latitud", "longitud"]

# Unir con el DataFrame original
sismos = pd.concat([sismos, coordenates], axis=1)

In [11]:
# Crear geometr√≠a (latitud y longitud deben estar en columnas)
sismos["geometry"] = sismos.apply(lambda row: Point(row["longitud"], row["latitud"]), axis=1)
gdf_sismos = gpd.GeoDataFrame(sismos, geometry="geometry", crs="EPSG:4326")

In [12]:
# Cargar el GeoPackage de distritos
distritos_general = gpd.read_file("../data/raw/DISTRITO.gpkg")
distritos = distritos_general.to_crs("EPSG:4326")
distritos_km = distritos_general.to_crs("EPSG:32718")

In [13]:
# Hacer el join espacial para asignar distritos a los sismos
sismos_con_dist = gpd.sjoin(gdf_sismos, distritos, how="left", predicate="within")
sismos_con_dist.rename(columns={
    "NOMBDEP": "departamento",
    "NOMBPROV": "provincia",
    "NOMBDIST": "distrito",
    "UBIGEO": "ubigeo"
}, inplace=True)

# Seleccionar solo las columnas necesarias
sismos_con_dist = sismos_con_dist[[
    "reporte", "referencia", "fecha_hora", "magnitud", "profundidad",
    "latitud", "longitud", "ubigeo", "geometry"
]]

In [14]:
# Calcular √°rea en km¬≤
distritos_km["area_km2"] = distritos_km.geometry.area / 1e6

In [15]:
# Seleccionar y renombrar columnas relevantes
distritos_km = distritos_km.rename(columns={
    "NOMBDEP": "departamento",
    "NOMBPROV": "provincia",
    "NOMBDIST": "distrito",
    "UBIGEO": "ubigeo"
})[["departamento", "provincia", "distrito", "ubigeo", "area_km2"]]

# Verificar
distritos_km.head()

Unnamed: 0,departamento,provincia,distrito,ubigeo,area_km2
0,APURIMAC,ANDAHUAYLAS,JOSE MARIA ARGUEDAS,30220,175.238434
1,APURIMAC,AYMARAES,TINTAY,30415,142.422772
2,APURIMAC,AYMARAES,LUCRE,30409,103.775032
3,APURIMAC,ANDAHUAYLAS,SAN MIGUEL DE CHACCRAMPA,30214,84.908979
4,APURIMAC,ANDAHUAYLAS,HUAYANA,30206,95.301065


In [16]:
# Unir sismos con km¬≤ de distritos
sismos_poblacion = sismos_con_dist.merge(distritos_km, on="ubigeo", how="left")

In [17]:
# Verificar la union de tablas
sismos_poblacion.head()

Unnamed: 0,reporte,referencia,fecha_hora,magnitud,profundidad,latitud,longitud,ubigeo,geometry,departamento,provincia,distrito,area_km2
0,IGP/CENSIS/RS\n2025-0718,"42 km al NO de Satipo, Satipo - Jun√≠n",29/10/2025 05:45:16,3.6,16 Km,-10.91,-74.81,120303.0,POINT (-74.81 -10.91),JUNIN,CHANCHAMAYO,PICHANAQUI,1242.381349
1,IGP/CENSIS/RS\n2025-0717,"46 km al NO de Satipo, Satipo - Jun√≠n",29/10/2025 04:45:21,3.8,18 Km,-10.89,-74.84,120303.0,POINT (-74.84 -10.89),JUNIN,CHANCHAMAYO,PICHANAQUI,1242.381349
2,IGP/CENSIS/RS\n2025-0716,"71 km al SO de Tacna, Tacna - Tacna",29/10/2025 03:22:58,3.8,37 Km,-18.56,-70.6,,POINT (-70.6 -18.56),,,,
3,IGP/CENSIS/RS\n2025-0715,"16 km al NO de Zorritos, Contralmirante Villar...",28/10/2025 15:44:06,3.8,20 Km,-3.61,-80.79,,POINT (-80.79 -3.61),,,,
4,IGP/CENSIS/RS\n2025-0714,"23 km al O de Marcona, Nasca - Ica",26/10/2025 23:52:15,4.1,34 Km,-15.42,-75.37,,POINT (-75.37 -15.42),,,,


In [19]:
# Cargar el archivo de poblaci√≥n
poblacion = pd.read_excel('../data/raw/reporte_estadist.xlsx')

In [20]:
# Eliminar filas con Ubigeo nulo
poblacion = poblacion[poblacion['Ubigeo'].notna()]

# Renombrar columnas
poblacion = poblacion.rename(columns={
    "Ubigeo": "ubigeo",
    "Unnamed: 8": "2020",
    "Unnamed: 9": "2021",
    "Unnamed: 10": "2022",
    "Unnamed: 11": "2023",
    "Unnamed: 12": "2024",
    "Unnamed: 13": "2025"
})

# Mantener solo las columnas necesarias
poblacion = poblacion[["ubigeo", "2020", "2021", "2022", "2023", "2024", "2025"]]

# Reemplazar valores 0 por None
poblacion.replace({0: np.nan}, inplace=True)

In [21]:
# Convertir ubigeo a entero y luego a texto de 6 d√≠gitos
poblacion["ubigeo"] = (
    poblacion["ubigeo"]
    .astype(float)
    .astype("Int64")
    .astype(str)
    .str.zfill(6)
)

In [22]:
# Unir los datos de poblaci√≥n con los sismos
sismos_poblacion = sismos_poblacion.merge(
    poblacion,
    on="ubigeo",
    how="left"
)

In [23]:
# Verificar la union de tablas
sismos_poblacion.head()

Unnamed: 0,reporte,referencia,fecha_hora,magnitud,profundidad,latitud,longitud,ubigeo,geometry,departamento,provincia,distrito,area_km2,2020,2021,2022,2023,2024,2025
0,IGP/CENSIS/RS\n2025-0718,"42 km al NO de Satipo, Satipo - Jun√≠n",29/10/2025 05:45:16,3.6,16 Km,-10.91,-74.81,120303.0,POINT (-74.81 -10.91),JUNIN,CHANCHAMAYO,PICHANAQUI,1242.381349,42869.0,42209.0,41498.0,40752.0,39986.0,39213.0
1,IGP/CENSIS/RS\n2025-0717,"46 km al NO de Satipo, Satipo - Jun√≠n",29/10/2025 04:45:21,3.8,18 Km,-10.89,-74.84,120303.0,POINT (-74.84 -10.89),JUNIN,CHANCHAMAYO,PICHANAQUI,1242.381349,42869.0,42209.0,41498.0,40752.0,39986.0,39213.0
2,IGP/CENSIS/RS\n2025-0716,"71 km al SO de Tacna, Tacna - Tacna",29/10/2025 03:22:58,3.8,37 Km,-18.56,-70.6,,POINT (-70.6 -18.56),,,,,,,,,,
3,IGP/CENSIS/RS\n2025-0715,"16 km al NO de Zorritos, Contralmirante Villar...",28/10/2025 15:44:06,3.8,20 Km,-3.61,-80.79,,POINT (-80.79 -3.61),,,,,,,,,,
4,IGP/CENSIS/RS\n2025-0714,"23 km al O de Marcona, Nasca - Ica",26/10/2025 23:52:15,4.1,34 Km,-15.42,-75.37,,POINT (-75.37 -15.42),,,,,,,,,,


In [24]:
# Agregar columna de a√±o extra√≠da de fecha_hora
sismos_poblacion["anio"] = pd.to_datetime(sismos_poblacion["fecha_hora"], errors="coerce", dayfirst=True).dt.year

In [25]:
def obtener_poblacion_fila(row):
    year = row["anio"]
    columnas_anio = [2020, 2021, 2022, 2023, 2024, 2025]
    
    # Si el a√±o del sismo est√° dentro del rango
    if year in columnas_anio and not pd.isna(row[str(year)]):
        return row[str(year)]
    
    # Si no hay dato exacto, buscar el m√°s cercano con valor no nulo
    disponibles = [a for a in columnas_anio if not pd.isna(row[str(a)])]
    if not disponibles:
        return None
    closest_year = min(disponibles, key=lambda x: abs(x - year))
    return row[str(closest_year)]

In [26]:
# Aplicar la funci√≥n
sismos_poblacion["poblacion"] = sismos_poblacion.apply(obtener_poblacion_fila, axis=1)

In [27]:
# Eliminar columnas de a√±os y anio
sismos_poblacion.drop(columns=["2020", "2021", "2022", "2023", "2024", "2025","anio"], inplace=True)

In [28]:
# Verificar el DataFrame final
sismos_poblacion.head()

Unnamed: 0,reporte,referencia,fecha_hora,magnitud,profundidad,latitud,longitud,ubigeo,geometry,departamento,provincia,distrito,area_km2,poblacion
0,IGP/CENSIS/RS\n2025-0718,"42 km al NO de Satipo, Satipo - Jun√≠n",29/10/2025 05:45:16,3.6,16 Km,-10.91,-74.81,120303.0,POINT (-74.81 -10.91),JUNIN,CHANCHAMAYO,PICHANAQUI,1242.381349,39213.0
1,IGP/CENSIS/RS\n2025-0717,"46 km al NO de Satipo, Satipo - Jun√≠n",29/10/2025 04:45:21,3.8,18 Km,-10.89,-74.84,120303.0,POINT (-74.84 -10.89),JUNIN,CHANCHAMAYO,PICHANAQUI,1242.381349,39213.0
2,IGP/CENSIS/RS\n2025-0716,"71 km al SO de Tacna, Tacna - Tacna",29/10/2025 03:22:58,3.8,37 Km,-18.56,-70.6,,POINT (-70.6 -18.56),,,,,
3,IGP/CENSIS/RS\n2025-0715,"16 km al NO de Zorritos, Contralmirante Villar...",28/10/2025 15:44:06,3.8,20 Km,-3.61,-80.79,,POINT (-80.79 -3.61),,,,,
4,IGP/CENSIS/RS\n2025-0714,"23 km al O de Marcona, Nasca - Ica",26/10/2025 23:52:15,4.1,34 Km,-15.42,-75.37,,POINT (-75.37 -15.42),,,,,


## Adquisici√≥n de datos - Parte 3 (OpenStreetMap)

Este script ampl√≠a la informaci√≥n s√≠smica y geogr√°fica previa mediante la incorporaci√≥n de informaci√≥n sobre infraestructuras sensibles y de respuesta ante emergencias disponibles en el entorno de cada evento s√≠smico.
El objetivo es evaluar la proximidad de servicios esenciales (como hospitales, estaciones de polic√≠a o bomberos) respecto a los puntos donde ocurrieron los sismos, usando datos abiertos del proyecto OpenStreetMap (OSM).

üîπ **Objetivo general**

Determinar la cantidad y tipo de instituciones clave ubicadas en un radio de 10 km alrededor de cada sismo, con el fin de medir la exposici√≥n de infraestructuras cr√≠ticas a eventos s√≠smicos y facilitar la planificaci√≥n territorial y de emergencia.

üîπ **Flujo general del proceso**

1. Carga de datos s√≠smicos

    - Se importa el archivo sismos_igp_2.csv (producto de la fase anterior).

    - Se construye la columna geometry y se transforma en un GeoDataFrame con el sistema de referencia EPSG:4326 (coordenadas geogr√°ficas).

2. Definici√≥n de categor√≠as de infraestructura

    - Se establece un diccionario categorias con los principales grupos de servicios a analizar, definidos por etiquetas (amenity) de OpenStreetMap:

        - Salud: hospitales, cl√≠nicas, policl√≠nicos, SISOL, postas y otros centros de salud.

        - Bomberos: estaciones de bomberos.

        - Polic√≠a: comisar√≠as o unidades policiales.

3. Obtenci√≥n de instituciones cercanas (OSM)

    - Mediante la funci√≥n obtener_instituciones_cercanas, se consulta la API de OSMnx (ox.features_from_point) para cada categor√≠a y cada punto s√≠smico.

    - Se define un radio de b√∫squeda de 10 km (10 000 metros) alrededor de la ubicaci√≥n del sismo.

    - Nos aseguramos que el lugar encontrado tenga terminos que nos aseguren que corresponden a los centros mencionados en el anterior punto.

    - Si no se encuentran instituciones en una categor√≠a, se maneja la excepci√≥n InsufficientResponseError para continuar sin interrupciones.

    - **Nota 1: El asegurar el nombre de los centros encontrados genera una mayor demora en la extracci√≥n de los datos, pero nos ayuda a asegurar que el establecimiento encontrado tenga m√°s posibilidades de soportar concentrtaciones de personas antes sismos de magnitud considerable**

    - **Nota 2: Se valid√≥ de manera manual varios casos obtenidos por el OSM, todos esos conincidieron con lo encontrado en google maps**

4. Procesamiento y conteo de instituciones

    - La funci√≥n procesar_sismo ejecuta los siguientes pasos para cada sismo:

        - Verifica si el punto ya fue procesado (para evitar reprocesos).

        - Obtiene las instituciones dentro del radio definido.

        - Calcula el conteo por categor√≠a (salud, bomberos, policia).

        - Registra los resultados en un archivo incremental conteo_instituciones.csv para evitar reprocesos.

5. Ejecuci√≥n iterativa

    - Se recorre cada sismo del GeoDataFrame para aplicar el proceso de b√∫squeda y conteo.

    - Este enfoque modular permite pausar y continuar el proceso sin perder los resultados previos.

6. Integraci√≥n final

    - Se cargan los conteos resultantes y se realiza un merge con los datos s√≠smicos, conservando las coordenadas (latitud, longitud) como clave de uni√≥n.

    - El resultado es un nuevo dataframe, que agrega a cada evento s√≠smico los valores de:

        - N√∫mero de hospitales o cl√≠nicas cercanas (salud)

        - Estaciones de bomberos (bomberos)

        - Comisar√≠as o unidades policiales (policia)

In [29]:
# Sacamos una copia del dataframe
sismos = sismos_poblacion.copy()

In [30]:
# Asegurarse de que latitud y longitud sean num√©ricos
gdf_sismos["latitud"] = pd.to_numeric(gdf_sismos["latitud"], errors="coerce")
gdf_sismos["longitud"] = pd.to_numeric(gdf_sismos["longitud"], errors="coerce")

In [31]:
# Definir categor√≠as de inter√©s
categorias = {
    "salud": {
        "amenity": ["hospital", "clinic", "polyclinic"],
        "healthcare": ["hospital", "clinic"]
    },
    "bomberos": {
        "amenity": ["fire_station"]
    },
    "policia": {
        "amenity": ["police"]
    }
}

In [32]:
# Funci√≥n para obtener instituciones cercanas
def obtener_instituciones_cercanas(lat, lon, categorias, radio=10000):
    gdfs = []
    for nombre_cat, tags in categorias.items():
        # Obtener datos de OSM
        try:
            # Buscar instituciones cercanas
            gdf = ox.features_from_point((lat, lon), tags=tags, dist=radio)
            if not gdf.empty:
                gdf["categoria"] = nombre_cat
                gdfs.append(gdf)
                
        # Manejar el caso cuando no se encuentran resultados
        except ox._errors.InsufficientResponseError:
            print(f"No se encontraron resultados para {nombre_cat}")

    if not gdfs:
        print("No se encontraron instituciones en este radio.")
        return gpd.GeoDataFrame(columns=["name", "amenity", "categoria", "geometry"])
    
    # Combinar resultados
    instituciones_cerca = gpd.GeoDataFrame(pd.concat(gdfs, ignore_index=True))

    # Limpiar datos

    # Asegurar columnas clave
    for col in ["name", "amenity", "categoria", "geometry"]:
        if col not in instituciones_cerca.columns:
            instituciones_cerca[col] = None

    # Mantener registros con nombre o etiqueta significativa
    instituciones_cerca = instituciones_cerca[
        instituciones_cerca["name"].notna() | instituciones_cerca["amenity"].notna()
    ]

    # Mantener puntos y pol√≠gonos principales
    instituciones_cerca = instituciones_cerca[
        instituciones_cerca.geometry.type.isin(["Point", "Polygon"])
    ]

    # Eliminar duplicados por nombre
    instituciones_cerca = instituciones_cerca.drop_duplicates(subset=["name"])

    # Definir patrones de b√∫squeda para cada categor√≠a
    filtros = {
        "salud": r"hospital|cl√≠nica|clinica|policl√≠nico|policlinico|sisol|posta|minsa|essalud|centro de salud|centro medico|centro m√©dico|puesto de salud|centro de atencion|establecimiento de salud|p.s",
        "policia": r"comisar√≠a|comisaria|policial",
        "bomberos": r"bomberos|compa√±ia|compa√±√≠a"
    }

    # Aplicar filtros espec√≠ficos por categor√≠a
    filtradas = []
    for cat, patron in filtros.items():
        subset = instituciones_cerca[instituciones_cerca["categoria"] == cat]

        if "name" in subset.columns:  # Asegurar que la columna exista
            subset = subset[subset["name"].str.contains(patron, case=False, na=False)] # Filtrar por patr√≥n
        filtradas.append(subset)

    # Si la lista no est√° vac√≠a, crear el GeoDataFrame final
    if filtradas:
        instituciones_filtradas = gpd.GeoDataFrame(pd.concat(filtradas, ignore_index=True))
    # Si no hay filtradas, retornar GeoDataFrame vac√≠o con columnas correctas
    else:
        instituciones_filtradas = gpd.GeoDataFrame(columns=["name", "amenity", "categoria", "geometry"])

    return instituciones_filtradas

In [33]:
# Funci√≥n para procesar un sismo y guardar conteo en CSV
def procesar_sismo(sismo, categorias, radio=10000, archivo_csv="../data/raw/conteo_instituciones.csv"):
    lat, lon = sismo.latitud, sismo.longitud

    # Verificar si ya fue procesado y si el archivo no est√° vac√≠o
    if os.path.exists(archivo_csv):
        df_existente = pd.read_csv(archivo_csv)
        if ((df_existente["latitud"] == lat) & (df_existente["longitud"] == lon)).any():
            print(f"Punto ({lat}, {lon}) ya procesado, se omite.")
            return

    # Obtener instituciones cercanas
    instituciones_cerca = obtener_instituciones_cercanas(lat, lon, categorias, radio)

    # Conteo de instituciones por categor√≠a, manejar caso vac√≠o
    conteo = instituciones_cerca["categoria"].value_counts() if not instituciones_cerca.empty else pd.Series()
    # Reordenar e incluir todas las categorias, incluso si el conteo es 0
    conteo = conteo.reindex(categorias.keys(), fill_value=0)

    # Crear fila con lat/lon + conteos
    fila = {"latitud": lat, "longitud": lon}
    for cat in categorias.keys():
        fila[cat] = conteo[cat]

    # Guardar resultados en CSV
    df_fila = pd.DataFrame([fila])
    if os.path.exists(archivo_csv):
        df_fila.to_csv(archivo_csv, mode="a", header=False, index=False)
    else:
        df_fila.to_csv(archivo_csv, index=False)

    print(f"Procesado sismo en ({lat}, {lon}) ‚Äî resultados guardados en {archivo_csv}")


In [34]:
# Procesar cada sismo
for _, sismo in gdf_sismos.iterrows():
    procesar_sismo(sismo, categorias, radio=10000)

Punto (-10.91, -74.81) ya procesado, se omite.
Punto (-10.89, -74.84) ya procesado, se omite.
Punto (-18.56, -70.6) ya procesado, se omite.
Punto (-3.61, -80.79) ya procesado, se omite.
Punto (-15.42, -75.37) ya procesado, se omite.
Punto (-12.73, -76.47) ya procesado, se omite.
Punto (-18.26, -71.53) ya procesado, se omite.
Punto (-14.48, -75.62) ya procesado, se omite.
Punto (-14.3, -75.71) ya procesado, se omite.
Punto (-14.1, -76.02) ya procesado, se omite.
Punto (-16.75, -71.55) ya procesado, se omite.
Punto (-14.25, -74.43) ya procesado, se omite.
Punto (-3.65, -80.02) ya procesado, se omite.
Punto (-6.19, -81.21) ya procesado, se omite.
Punto (-16.55, -72.75) ya procesado, se omite.
Punto (-15.73, -71.88) ya procesado, se omite.
Punto (-9.08, -79.15) ya procesado, se omite.
Punto (-3.65, -79.99) ya procesado, se omite.
Punto (-15.7, -72.1) ya procesado, se omite.
Punto (-12.4, -77.23) ya procesado, se omite.
Punto (-9.41, -79.28) ya procesado, se omite.
Punto (-10.62, -74.57) ya

In [35]:
# Cargar el conteo final de instituciones
instituciones = pd.read_csv("../data/raw/conteo_instituciones.csv")

In [36]:
# Verificar el dataframe cargado
instituciones.head()

Unnamed: 0,latitud,longitud,salud,bomberos,policia
0,-10.91,-74.81,1,0,1
1,-10.89,-74.84,1,0,1
2,-18.56,-70.6,0,0,0
3,-3.61,-80.79,0,0,0
4,-15.42,-75.37,0,0,0


In [37]:
# Asegurarse de que latitud y longitud sean num√©ricos para luego unir
sismos["latitud"] = pd.to_numeric(sismos["latitud"], errors="coerce")
sismos["longitud"] = pd.to_numeric(sismos["longitud"], errors="coerce")

In [38]:
# Merge de los datos de sismos con el conteo de instituciones
sismos_poblacion_conteo = sismos.merge(
    instituciones,
    on=["latitud", "longitud"],
    how="left"
)

In [39]:
# Verificar el dataframe final
sismos_poblacion_conteo.head()

Unnamed: 0,reporte,referencia,fecha_hora,magnitud,profundidad,latitud,longitud,ubigeo,geometry,departamento,provincia,distrito,area_km2,poblacion,salud,bomberos,policia
0,IGP/CENSIS/RS\n2025-0718,"42 km al NO de Satipo, Satipo - Jun√≠n",29/10/2025 05:45:16,3.6,16 Km,-10.91,-74.81,120303.0,POINT (-74.81 -10.91),JUNIN,CHANCHAMAYO,PICHANAQUI,1242.381349,39213.0,1,0,1
1,IGP/CENSIS/RS\n2025-0717,"46 km al NO de Satipo, Satipo - Jun√≠n",29/10/2025 04:45:21,3.8,18 Km,-10.89,-74.84,120303.0,POINT (-74.84 -10.89),JUNIN,CHANCHAMAYO,PICHANAQUI,1242.381349,39213.0,1,0,1
2,IGP/CENSIS/RS\n2025-0716,"71 km al SO de Tacna, Tacna - Tacna",29/10/2025 03:22:58,3.8,37 Km,-18.56,-70.6,,POINT (-70.6 -18.56),,,,,,0,0,0
3,IGP/CENSIS/RS\n2025-0715,"16 km al NO de Zorritos, Contralmirante Villar...",28/10/2025 15:44:06,3.8,20 Km,-3.61,-80.79,,POINT (-80.79 -3.61),,,,,,0,0,0
4,IGP/CENSIS/RS\n2025-0714,"23 km al O de Marcona, Nasca - Ica",26/10/2025 23:52:15,4.1,34 Km,-15.42,-75.37,,POINT (-75.37 -15.42),,,,,,0,0,0


## Limpieza de datos

En esta fase se realiza el proceso de depuraci√≥n y normalizaci√≥n final del conjunto de datos s√≠smicos integrados (sismos_igp_3.csv), con el prop√≥sito de obtener una base de datos lista.

üîπ **Objetivo general**

Optimizar la calidad del dataset mediante la eliminaci√≥n de redundancias, tratamiento de valores faltantes, normalizaci√≥n de unidades y creaci√≥n de variables derivadas que mejoren la capacidad anal√≠tica del conjunto de datos.

üîπ **Flujo general del proceso**

1. depuraci√≥n inicial

    - Se eliminan columnas que no aportan valor directo al an√°lisis, tales como: reporte, referencia, geometry, ubigeo.

2. Correcci√≥n de ubicaciones sin departamento

    - Algunos eventos s√≠smicos se ubican fuera del territorio continental peruano o sobre el mar, generando valores NaN en los campos de ubicaci√≥n.

    - Se define un rango geogr√°fico aproximado del mar peruano (lat: -19 a -3, lon: -84 a -70) para clasificar dichos eventos:

        - MAR: sismos ocurridos dentro del rango mar√≠timo peruano.

        - EXTRANJERO_{PAIS}: Se definen promedios de los limites fronterizos de cada pa√≠s lim√≠trofe y su dominio mar√≠timo.

    - Estas etiquetas se asignan a las columnas departamento, provincia y distrito para una categorizaci√≥n homog√©nea.

3. C√°lculo de densidad poblacional

    - Se crea la variable densidad como el cociente entre poblaci√≥n y √°rea:

        $$
        densidad = \frac {poblacion} {area_{km^2}}
        $$	‚Äã

    - Esta m√©trica permite estimar la exposici√≥n poblacional potencial ante eventos s√≠smicos seg√∫n la zona.

4. Clasificaci√≥n de magnitud

    - Se construye una variable categ√≥rica rango_magnitud con tres niveles de intensidad:

        - Leve: $magnitud < 4.5$

        - Moderada: $4.5 \ge magnitud < 6$

        - Fuerte: $magnitud \ge 6$

    - Esta clasificaci√≥n facilita el an√°lisis cualitativo y la segmentaci√≥n de riesgos.

5. Tratamiento de valores faltantes y formatos

    - Los valores ausentes en area_km2, poblacion y densidad se reemplazan por 0.

    - Se eliminan textos como " Km" de la columna profundidad para convertirla a tipo num√©rico (int).

    - Los valores de area_km2 y densidad se redondean a 4 decimales para mantener consistencia.

    - Se convierte fecha_hora a tipo datetime usando el formato d√≠a/mes/a√±o.

6. Conversi√≥n de tipos de datos

    - Las variables num√©ricas (poblacion, densidad, profundidad) se transforman a tipos enteros o flotantes seg√∫n corresponda, asegurando compatibilidad con an√°lisis estad√≠sticos y modelado.

7. Exportaci√≥n del dataset final

    - Se guarda el resultado como IGP_clean.csv, con codificaci√≥n utf-8-sig.

    - Este archivo constituye la versi√≥n limpia, normalizada y enriquecida del conjunto s√≠smico completo listo para an√°lisis exploratorio y visualizaci√≥n.

In [40]:
# Sacamos una copia del dataframe
df = sismos_poblacion_conteo.copy()

In [41]:
# Eliminamos las columnas innecesarias
df.drop(columns=['reporte','referencia', 'geometry', 'ubigeo'], inplace=True)

In [42]:
# Definir los l√≠mites aproximados del mar peruano
lon_min, lon_max = -84, -70
lat_min, lat_max = -19, -3

# crear mascara de mar peruano
es_mar = (
    df["departamento"].isna() &
    df["longitud"].between(lon_min, lon_max) &
    df["latitud"].between(lat_min, lat_max)
)

# definir extranjero general
es_extranjero = df["departamento"].isna() & (~es_mar)

# mascaras con las fronteras
es_chile = es_extranjero & (df["latitud"] < -17.5) & (df["longitud"] > -71.5)
es_bolivia = es_extranjero & (df["latitud"].between(-18.0, -14.0)) & (df["longitud"] > -70.2)
es_brasil = es_extranjero & (df["latitud"].between(-12.0, -5.0)) & (df["longitud"] > -70.0)
es_ecuador = es_extranjero & (df["latitud"] > -4.0) & (df["longitud"] > -81.3)
es_colombia = es_extranjero & (df["latitud"] > -3.0) & (df["longitud"] > -76.0)

# Asignar etiquetas
df.loc[es_mar, ["departamento", "provincia", "distrito"]] = ["MAR", "MAR", "MAR"]
df.loc[es_chile, ["departamento", "provincia", "distrito"]] = ["FRONTERA_CHILE", "FRONTERA_CHILE", "FRONTERA_CHILE"]
df.loc[es_bolivia, ["departamento", "provincia", "distrito"]] = ["FRONTERA_BOLIVIA", "FRONTERA_BOLIVIA", "FRONTERA_BOLIVIA"]
df.loc[es_brasil, ["departamento", "provincia", "distrito"]] = ["FRONTERA_BRASIL", "FRONTERA_BRASIL", "FRONTERA_BRASIL"]
df.loc[es_ecuador, ["departamento", "provincia", "distrito"]] = ["FRONTERA_ECUADOR", "FRONTERA_ECUADOR", "FRONTERA_ECUADOR"]
df.loc[es_colombia, ["departamento", "provincia", "distrito"]] = ["FRONTERA_COLOMBIA", "FRONTERA_COLOMBIA", "FRONTERA_COLOMBIA"]

# Los que quedan como extranjero
df.loc[es_extranjero & ~(es_chile | es_bolivia | es_brasil | es_ecuador | es_colombia),
       ["departamento", "provincia", "distrito"]] = ["EXTRANJERO", "EXTRANJERO", "EXTRANJERO"]

In [43]:
# Verificar conteos por frontera
df[df['departamento'].str.startswith('FRONTERA')]['departamento'].value_counts()

departamento
FRONTERA_CHILE      112
FRONTERA_ECUADOR     37
FRONTERA_BOLIVIA     22
Name: count, dtype: int64

In [44]:
# Calcular densidad poblacional
df["densidad"] = df["poblacion"] / df["area_km2"]

# Clasificar magnitud
df["rango_magnitud"] = df["magnitud"].map(
    lambda x: "Fuerte" if x >= 6 else "Leve" if x < 4.5 else "Moderada"
)

In [45]:
# Llenar valores NaN en area_km¬≤ con 0
df["area_km2"] = df["area_km2"].fillna(0)

In [46]:
# Eliminar ' Km' de la columna 'profundidad'
df['profundidad'] = df['profundidad'].str.replace(' Km', '')

In [47]:
# Redondear valores de area_km2 y densidad a 4 decimales
df['area_km2'] = df['area_km2'].round(4)
df['densidad'] = df['densidad'].round(4)

In [48]:
# Convertir 'fecha_hora' a formato datetime
df['fecha_hora'] = pd.to_datetime(df['fecha_hora'], errors='coerce', dayfirst=True)

# Convertir 'profundidad' a entero
df['profundidad'] = df['profundidad'].astype(float).astype(int)

# Llenar valores NaN en 'poblacion' con 0 y convertir a entero
df['poblacion'] = df['poblacion'].fillna(0).astype(int)

# Llenar valores NaN en 'poblacion' con 0
df['densidad'] = df['densidad'].fillna(0)

In [49]:
# Verificar el dataframe final
df.head()

Unnamed: 0,fecha_hora,magnitud,profundidad,latitud,longitud,departamento,provincia,distrito,area_km2,poblacion,salud,bomberos,policia,densidad,rango_magnitud
0,2025-10-29 05:45:16,3.6,16,-10.91,-74.81,JUNIN,CHANCHAMAYO,PICHANAQUI,1242.3813,39213,1,0,1,31.5628,Leve
1,2025-10-29 04:45:21,3.8,18,-10.89,-74.84,JUNIN,CHANCHAMAYO,PICHANAQUI,1242.3813,39213,1,0,1,31.5628,Leve
2,2025-10-29 03:22:58,3.8,37,-18.56,-70.6,MAR,MAR,MAR,0.0,0,0,0,0,0.0,Leve
3,2025-10-28 15:44:06,3.8,20,-3.61,-80.79,MAR,MAR,MAR,0.0,0,0,0,0,0.0,Leve
4,2025-10-26 23:52:15,4.1,34,-15.42,-75.37,MAR,MAR,MAR,0.0,0,0,0,0,0.0,Leve


In [50]:
# Guardar el DataFrame final con la data ya limpia a un nuevo archivo CSV
df.to_csv("IGP_clean.csv", index=False, encoding="utf-8-sig")