IMT 2200 - Introducción a Ciencia de Datos<br>
**Pontificia Universidad Católica de Chile**<br>
**Instituto de Ingeniería Matemática y Computacional**<br>
**Semestre 2025-S2**<br>
**Profesor:** Rodrigo A. Carrasco <br>

---

## Proyecto de Investigación – Terremotos en Chile





## Contexto y motivación

Chile está ubicado en el cinturón de fuego del Pacífico, una cadena tectónica que abarca más de 40 mil kilómetros, una zona de intensa actividad geológica que se extiende a lo largo de la costa del océano Pacífico y se caracteriza por la convergencia de placas tectónicas. Esta interacción es la causa de que en Chile ocurran la mayoría de los terremotos acontecidos en el país a través de los años.

Debido a esto al largo de la historia del país se han producido miles de terremotos, algunos de tal magnitud que han afectado severamente al país entre los cuales podemos destacar dos eventos: el 27 de febrero del 2010 cuyo epicentro fue en la costa centro-sur del país, y el terremoto más fuerte del que se tenga registro, de 9,5 de Valdivia en 1960, matando a 1655 personas y dejando sin hogar a más de 2 millones de personas. Estos inclusos están catalogados dentro del top 10 mayores terremotos en el mundo. Pueden encontrar más información en https://www.usgs.gov/media/images/10-largest-earthquakes-ever-recorded.

Por esta situación nos hemos planteado poder identificar las regiones de Chile que más se han visto afectadas, así como también sus respuestas frente a estos sucesos, de modo que podamos reconocer los sectores que menos preparados se encuentran para un eventual sismo; las autoridades regionales se beneficiarían de esta información pues les ayuda a medir su preparación para posibles terremotos, la población también se beneficia por el conocimiento de esta información. Queremos calcular las zonas de mayor riesgo y observar cada cierto tiempo ocurren. Esperamos poder conseguir un método que pueda ayudar a predecir la eventual ocurrencia de estas catástrofes.


## Preguntas objetivos

**-Obtener información de terremotos en Chile**<br>
**-Calcular los mayores terremotos por región**<br> 
**-Analizar los terremotos acontecidos en el país y obtener las regiones y ciudades de mayores riesgos, permitiendo calcular el área de mayor riesgo en el país**<br> 
**-Crear un promedio de tiempo en el que pueda predecir cada cuanto puede acontecer un terremoto**<br>
**-Crear un modelo que pueda predecir en base a las estadísticas los posibles lugares de riegos**<br>

## Datos

Los datos serán extraídos de https://www.usgs.gov/programs/earthquake-hazards/earthquakes. Principalmente del link, https://earthquake.usgs.gov/earthquakes/search/ . Donde se pueden filtrar los terremotos por zonas, año  y magnitud, generando un archivo .csv con la información.

In [None]:
import pandas as pd
from pathlib import Path

## Limpieza de datos

La apertura del documento descargado podemos observar que el Data Frame generado cuenta con más de 10.000 filas, y con 22 columnas, con información de tiempo, ubicación, magnitud, entre otros.

In [2]:
ruta = Path("data//query.csv")
df = pd.read_csv(ruta) 
df.columns


Index(['time', 'latitude', 'longitude', 'depth', 'mag', 'magType', 'nst',
       'gap', 'dmin', 'rms', 'net', 'id', 'updated', 'place', 'type',
       'horizontalError', 'depthError', 'magError', 'magNst', 'status',
       'locationSource', 'magSource'],
      dtype='object')

In [39]:
print(f"El documento posee un total de {len(df.columns)} columnas y un total de {len(df)} filas")
print("Ademas el tipo de dato por columna es el siguiente")
df.info()

El documento posee un total de 22 columnas y un total de 10407 filas
Ademas el tipo de dato por columna es el siguiente
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10407 entries, 0 to 10406
Data columns (total 22 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   time             10407 non-null  object 
 1   latitude         10407 non-null  float64
 2   longitude        10407 non-null  float64
 3   depth            10407 non-null  float64
 4   mag              10407 non-null  float64
 5   magType          10407 non-null  object 
 6   nst              4033 non-null   float64
 7   gap              5882 non-null   float64
 8   dmin             2799 non-null   float64
 9   rms              8082 non-null   float64
 10  net              10407 non-null  object 
 11  id               10407 non-null  object 
 12  updated          10407 non-null  object 
 13  place            10407 non-null  object 
 14  type             10407 non-nul

In [40]:
df.head()

Unnamed: 0,time,latitude,longitude,depth,mag,magType,nst,gap,dmin,rms,...,updated,place,type,horizontalError,depthError,magError,magNst,status,locationSource,magSource
0,2025-09-01T13:48:01.759Z,-30.6105,-71.2446,61.209,4.6,mb,50.0,71.0,0.342,0.81,...,2025-09-01T17:26:31.440Z,"4 km WSW of Ovalle, Chile",earthquake,5.13,5.452,0.109,25.0,reviewed,us,us
1,2025-08-29T21:48:43.387Z,-18.9492,-69.4232,114.517,4.6,mb,53.0,103.0,0.616,0.98,...,2025-08-30T03:24:45.040Z,"40 km N of Camiña, Chile",earthquake,5.16,5.411,0.079,49.0,reviewed,us,us
2,2025-08-25T18:01:03.119Z,-21.7142,-68.4897,118.465,4.7,mb,44.0,63.0,0.704,1.19,...,2025-08-25T18:16:37.040Z,"59 km SSW of Ollagüe, Chile",earthquake,4.54,5.964,0.06,85.0,reviewed,us,us
3,2025-08-24T03:44:08.460Z,-19.3888,-69.2674,100.534,5.0,mb,59.0,104.0,0.287,1.04,...,2025-08-24T15:32:52.214Z,"18 km ESE of Camiña, Chile",earthquake,6.76,5.716,0.029,391.0,reviewed,us,us
4,2025-08-23T09:07:59.103Z,-32.5045,-71.5221,53.111,4.7,mb,49.0,133.0,0.527,0.84,...,2025-08-24T15:09:12.040Z,"27 km WSW of La Ligua, Chile",earthquake,2.93,5.576,0.097,32.0,reviewed,us,us


Observando los datos vamos a partir editando la columnas de time para crear 2 columnas nuevas, una con el nombre "date" con la fecha del terremoto y la otra como "hour" con la hora, ambas columnas las transformaremos al formato de fecha.

In [41]:
df_copy = df.copy()
df_copy["dates"] = df_copy["time"].apply(lambda x: x.split("T"))
df_copy["date"] = df_copy["dates"].apply(lambda x:  pd.to_datetime(x[0]).strftime("%Y-%m-%d"))
df_copy["hour"] = df_copy["dates"].apply(lambda x: pd.to_datetime(x[1][:-1]).strftime("%H:%M:%S"))
df_copy

Unnamed: 0,time,latitude,longitude,depth,mag,magType,nst,gap,dmin,rms,...,horizontalError,depthError,magError,magNst,status,locationSource,magSource,dates,date,hour
0,2025-09-01T13:48:01.759Z,-30.6105,-71.2446,61.209,4.60,mb,50.0,71.0,0.342,0.81,...,5.13,5.452,0.109,25.0,reviewed,us,us,"[2025-09-01, 13:48:01.759Z]",2025-09-01,13:48:01
1,2025-08-29T21:48:43.387Z,-18.9492,-69.4232,114.517,4.60,mb,53.0,103.0,0.616,0.98,...,5.16,5.411,0.079,49.0,reviewed,us,us,"[2025-08-29, 21:48:43.387Z]",2025-08-29,21:48:43
2,2025-08-25T18:01:03.119Z,-21.7142,-68.4897,118.465,4.70,mb,44.0,63.0,0.704,1.19,...,4.54,5.964,0.060,85.0,reviewed,us,us,"[2025-08-25, 18:01:03.119Z]",2025-08-25,18:01:03
3,2025-08-24T03:44:08.460Z,-19.3888,-69.2674,100.534,5.00,mb,59.0,104.0,0.287,1.04,...,6.76,5.716,0.029,391.0,reviewed,us,us,"[2025-08-24, 03:44:08.460Z]",2025-08-24,03:44:08
4,2025-08-23T09:07:59.103Z,-32.5045,-71.5221,53.111,4.70,mb,49.0,133.0,0.527,0.84,...,2.93,5.576,0.097,32.0,reviewed,us,us,"[2025-08-23, 09:07:59.103Z]",2025-08-23,09:07:59
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10402,1906-10-02T14:33:45.430Z,-32.1750,-71.7630,15.000,6.35,mw,,,,,...,,13.100,0.200,,reviewed,iscgem,iscgem,"[1906-10-02, 14:33:45.430Z]",1906-10-02,14:33:45
10403,1906-08-19T09:34:08.360Z,-39.2280,-72.7210,15.000,6.74,mw,,,,,...,,25.000,0.200,,reviewed,iscgemsup,iscgemsup,"[1906-08-19, 09:34:08.360Z]",1906-08-19,09:34:08
10404,1906-08-17T00:40:04.250Z,-32.4000,-71.4000,35.000,8.20,mw,,,,,...,,11.100,0.200,,reviewed,iscgemsup,iscgemsup,"[1906-08-17, 00:40:04.250Z]",1906-08-17,00:40:04
10405,1904-12-11T17:05:42.720Z,-32.3120,-73.7060,10.000,6.72,mw,,,,,...,,25.000,0.230,,reviewed,iscgemsup,iscgemsup,"[1904-12-11, 17:05:42.720Z]",1904-12-11,17:05:42


In [42]:
df_copy["status"].astype("category")
df_copy["status"].unique()

array(['reviewed', 'automatic'], dtype=object)

In [43]:
df_copy["locationSource"].astype("category")
df_copy["locationSource"].unique()

array(['us', 'guc', 'sja', 'us_guc', 'us_sja', 'iscgem', 'iscgemsup'],
      dtype=object)

In [44]:
df_copy["net"].astype("category")
df_copy["net"].unique()

array(['us', 'iscgem', 'official', 'iscgemsup'], dtype=object)

In [45]:
df_copy["magSource"].astype("category")
df_copy["magSource"].unique()

array(['us', 'guc', 'gcmt', 'us_guc', 'sja', 'iscgem', 'official', 'hrv',
       'san', 'nc', 'iscgemsup'], dtype=object)

In [46]:
df_copy["type"].astype("category")
df_copy["type"].unique()

array(['earthquake'], dtype=object)

In [47]:
df_copy[["time", "updated"]]

Unnamed: 0,time,updated
0,2025-09-01T13:48:01.759Z,2025-09-01T17:26:31.440Z
1,2025-08-29T21:48:43.387Z,2025-08-30T03:24:45.040Z
2,2025-08-25T18:01:03.119Z,2025-08-25T18:16:37.040Z
3,2025-08-24T03:44:08.460Z,2025-08-24T15:32:52.214Z
4,2025-08-23T09:07:59.103Z,2025-08-24T15:09:12.040Z
...,...,...
10402,1906-10-02T14:33:45.430Z,2022-04-25T20:40:47.117Z
10403,1906-08-19T09:34:08.360Z,2022-05-09T15:12:00.619Z
10404,1906-08-17T00:40:04.250Z,2024-12-13T06:53:22.309Z
10405,1904-12-11T17:05:42.720Z,2022-05-09T15:22:32.530Z


Observando los datos podemos ver 5 columnas que no aportan información para nuestra investigación, tenemos "locationSource", "iscgem" y "magSource", que son solo información sobre las fuentes de la información, por otro lado, la columna "type" solo existe una categoría que es earthqueake. Por otro lado, tenemos la columna "updated" que es solo la fecha en la que fue actualizada la información. Como consideramos que no es útil para nuestra investigación vamos a descartar estas columnas.

In [48]:
df_copy = df_copy.drop(columns= ["time", "dates", "status", "locationSource", "net", "updated", "magSource", "type"])

In [49]:
df_copy

Unnamed: 0,latitude,longitude,depth,mag,magType,nst,gap,dmin,rms,id,place,horizontalError,depthError,magError,magNst,date,hour
0,-30.6105,-71.2446,61.209,4.60,mb,50.0,71.0,0.342,0.81,us7000qt0p,"4 km WSW of Ovalle, Chile",5.13,5.452,0.109,25.0,2025-09-01,13:48:01
1,-18.9492,-69.4232,114.517,4.60,mb,53.0,103.0,0.616,0.98,us7000qs9z,"40 km N of Camiña, Chile",5.16,5.411,0.079,49.0,2025-08-29,21:48:43
2,-21.7142,-68.4897,118.465,4.70,mb,44.0,63.0,0.704,1.19,us7000qqvr,"59 km SSW of Ollagüe, Chile",4.54,5.964,0.060,85.0,2025-08-25,18:01:03
3,-19.3888,-69.2674,100.534,5.00,mb,59.0,104.0,0.287,1.04,us6000r3fa,"18 km ESE of Camiña, Chile",6.76,5.716,0.029,391.0,2025-08-24,03:44:08
4,-32.5045,-71.5221,53.111,4.70,mb,49.0,133.0,0.527,0.84,us6000r3as,"27 km WSW of La Ligua, Chile",2.93,5.576,0.097,32.0,2025-08-23,09:07:59
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10402,-32.1750,-71.7630,15.000,6.35,mw,,,,,iscgem610548661,"58 km WNW of La Ligua, Chile",,13.100,0.200,,1906-10-02,14:33:45
10403,-39.2280,-72.7210,15.000,6.74,mw,,,,,iscgemsup16957914,"17 km NNW of Loncoche, Chile",,25.000,0.200,,1906-08-19,09:34:08
10404,-32.4000,-71.4000,35.000,8.20,mw,,,,,iscgemsup16957911,"The 1906 Valparaiso, Chile Earthquake",,11.100,0.200,,1906-08-17,00:40:04
10405,-32.3120,-73.7060,10.000,6.72,mw,,,,,iscgemsup610548593,"210 km WNW of Valparaíso, Chile",,25.000,0.230,,1904-12-11,17:05:42


Ahora como nuestra investigación se da solo en Chile filtraremos por la columna de "place" dejando solo aquellas con el nombre de Chile en ellas.

In [50]:
df_copy = df_copy[df_copy["place"].str.contains("Chile", na=False)].reset_index()
df_copy

Unnamed: 0,index,latitude,longitude,depth,mag,magType,nst,gap,dmin,rms,id,place,horizontalError,depthError,magError,magNst,date,hour
0,0,-30.6105,-71.2446,61.209,4.60,mb,50.0,71.0,0.342,0.81,us7000qt0p,"4 km WSW of Ovalle, Chile",5.13,5.452,0.109,25.0,2025-09-01,13:48:01
1,1,-18.9492,-69.4232,114.517,4.60,mb,53.0,103.0,0.616,0.98,us7000qs9z,"40 km N of Camiña, Chile",5.16,5.411,0.079,49.0,2025-08-29,21:48:43
2,2,-21.7142,-68.4897,118.465,4.70,mb,44.0,63.0,0.704,1.19,us7000qqvr,"59 km SSW of Ollagüe, Chile",4.54,5.964,0.060,85.0,2025-08-25,18:01:03
3,3,-19.3888,-69.2674,100.534,5.00,mb,59.0,104.0,0.287,1.04,us6000r3fa,"18 km ESE of Camiña, Chile",6.76,5.716,0.029,391.0,2025-08-24,03:44:08
4,4,-32.5045,-71.5221,53.111,4.70,mb,49.0,133.0,0.527,0.84,us6000r3as,"27 km WSW of La Ligua, Chile",2.93,5.576,0.097,32.0,2025-08-23,09:07:59
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9479,10402,-32.1750,-71.7630,15.000,6.35,mw,,,,,iscgem610548661,"58 km WNW of La Ligua, Chile",,13.100,0.200,,1906-10-02,14:33:45
9480,10403,-39.2280,-72.7210,15.000,6.74,mw,,,,,iscgemsup16957914,"17 km NNW of Loncoche, Chile",,25.000,0.200,,1906-08-19,09:34:08
9481,10404,-32.4000,-71.4000,35.000,8.20,mw,,,,,iscgemsup16957911,"The 1906 Valparaiso, Chile Earthquake",,11.100,0.200,,1906-08-17,00:40:04
9482,10405,-32.3120,-73.7060,10.000,6.72,mw,,,,,iscgemsup610548593,"210 km WNW of Valparaíso, Chile",,25.000,0.230,,1904-12-11,17:05:42


In [51]:
df_copy["place"] = df_copy["place"].apply(lambda x: x.split(",")[0])

In [52]:
df_copy

Unnamed: 0,index,latitude,longitude,depth,mag,magType,nst,gap,dmin,rms,id,place,horizontalError,depthError,magError,magNst,date,hour
0,0,-30.6105,-71.2446,61.209,4.60,mb,50.0,71.0,0.342,0.81,us7000qt0p,4 km WSW of Ovalle,5.13,5.452,0.109,25.0,2025-09-01,13:48:01
1,1,-18.9492,-69.4232,114.517,4.60,mb,53.0,103.0,0.616,0.98,us7000qs9z,40 km N of Camiña,5.16,5.411,0.079,49.0,2025-08-29,21:48:43
2,2,-21.7142,-68.4897,118.465,4.70,mb,44.0,63.0,0.704,1.19,us7000qqvr,59 km SSW of Ollagüe,4.54,5.964,0.060,85.0,2025-08-25,18:01:03
3,3,-19.3888,-69.2674,100.534,5.00,mb,59.0,104.0,0.287,1.04,us6000r3fa,18 km ESE of Camiña,6.76,5.716,0.029,391.0,2025-08-24,03:44:08
4,4,-32.5045,-71.5221,53.111,4.70,mb,49.0,133.0,0.527,0.84,us6000r3as,27 km WSW of La Ligua,2.93,5.576,0.097,32.0,2025-08-23,09:07:59
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9479,10402,-32.1750,-71.7630,15.000,6.35,mw,,,,,iscgem610548661,58 km WNW of La Ligua,,13.100,0.200,,1906-10-02,14:33:45
9480,10403,-39.2280,-72.7210,15.000,6.74,mw,,,,,iscgemsup16957914,17 km NNW of Loncoche,,25.000,0.200,,1906-08-19,09:34:08
9481,10404,-32.4000,-71.4000,35.000,8.20,mw,,,,,iscgemsup16957911,The 1906 Valparaiso,,11.100,0.200,,1906-08-17,00:40:04
9482,10405,-32.3120,-73.7060,10.000,6.72,mw,,,,,iscgemsup610548593,210 km WNW of Valparaíso,,25.000,0.230,,1904-12-11,17:05:42


In [53]:
df_copy.sample(5)

Unnamed: 0,index,latitude,longitude,depth,mag,magType,nst,gap,dmin,rms,id,place,horizontalError,depthError,magError,magNst,date,hour
6012,6539,-21.837,-68.348,120.6,4.8,mb,,,,1.15,usp0009ney,90 km NE of Calama,,8.9,,18.0,2000-02-14,11:58:26
7077,7717,-22.26,-68.606,108.8,4.7,mb,,,,1.3,usp0004vuz,39 km ENE of Calama,,19.3,,1.0,1991-08-25,14:38:46
4813,5182,-33.801,-72.721,0.3,4.6,ml,20.0,193.1,,,usp000gryj,105 km WSW of San Antonio,,,,,2009-01-01,03:56:28
8376,9150,-30.816,-71.456,81.0,4.6,mb,,,,,usp0001axf,34 km SW of Ovalle,,,,,1980-11-22,13:37:51
7638,8338,-22.699,-70.69,50.3,4.8,mb,,,,1.3,usp00030ny,84 km SW of Tocopilla,,15.3,,1.0,1986-12-06,15:42:05


Ahora necesitamos filtrar por ciudad y comuna. Vemos que la columna place tiene en comun "of" que lo podemos usar para separar nuestra zona

In [54]:
df_copy["zone"] = df_copy["place"].str.split("of")
df_copy["zone"] = df_copy["zone"].apply(lambda x: x[-1])
df_copy

Unnamed: 0,index,latitude,longitude,depth,mag,magType,nst,gap,dmin,rms,id,place,horizontalError,depthError,magError,magNst,date,hour,zone
0,0,-30.6105,-71.2446,61.209,4.60,mb,50.0,71.0,0.342,0.81,us7000qt0p,4 km WSW of Ovalle,5.13,5.452,0.109,25.0,2025-09-01,13:48:01,Ovalle
1,1,-18.9492,-69.4232,114.517,4.60,mb,53.0,103.0,0.616,0.98,us7000qs9z,40 km N of Camiña,5.16,5.411,0.079,49.0,2025-08-29,21:48:43,Camiña
2,2,-21.7142,-68.4897,118.465,4.70,mb,44.0,63.0,0.704,1.19,us7000qqvr,59 km SSW of Ollagüe,4.54,5.964,0.060,85.0,2025-08-25,18:01:03,Ollagüe
3,3,-19.3888,-69.2674,100.534,5.00,mb,59.0,104.0,0.287,1.04,us6000r3fa,18 km ESE of Camiña,6.76,5.716,0.029,391.0,2025-08-24,03:44:08,Camiña
4,4,-32.5045,-71.5221,53.111,4.70,mb,49.0,133.0,0.527,0.84,us6000r3as,27 km WSW of La Ligua,2.93,5.576,0.097,32.0,2025-08-23,09:07:59,La Ligua
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9479,10402,-32.1750,-71.7630,15.000,6.35,mw,,,,,iscgem610548661,58 km WNW of La Ligua,,13.100,0.200,,1906-10-02,14:33:45,La Ligua
9480,10403,-39.2280,-72.7210,15.000,6.74,mw,,,,,iscgemsup16957914,17 km NNW of Loncoche,,25.000,0.200,,1906-08-19,09:34:08,Loncoche
9481,10404,-32.4000,-71.4000,35.000,8.20,mw,,,,,iscgemsup16957911,The 1906 Valparaiso,,11.100,0.200,,1906-08-17,00:40:04,The 1906 Valparaiso
9482,10405,-32.3120,-73.7060,10.000,6.72,mw,,,,,iscgemsup610548593,210 km WNW of Valparaíso,,25.000,0.230,,1904-12-11,17:05:42,Valparaíso


Ahora esta columna zona la podemos transformar en categoría y observamos los casos que puede haber un error o que no deberían ser tomados en cuenta.

In [55]:
df_copy["zone"].astype("category")
df_copy["zone"].unique()

array([' Ovalle', ' Camiña', ' Ollagüe', ' La Ligua', ' La Serena',
       ' Aisen', ' Copiapó', ' Carahue', ' Calama', ' Machalí',
       ' Coquimbo', ' Colchane', ' Puerto Chacabuco', 'agasta',
       ' Vallenar', ' Taltal', ' San Antonio', ' Illapel', ' Chonchi',
       ' Diego de Almagro', ' Salamanca', ' Cartagena', ' Castro',
       ' Tocopilla', ' Constitución', ' Puerto Natales', ' La Tirana',
       ' Corral', ' Valparaíso', ' Lebu', ' Monte Patria', ' Mejillones',
       ' Los Andes', ' Puerto', ' Villarrica', ' Pozo Almonte', ' Molina',
       ' Cochrane', ' Huara', ' Talcahuano', ' Puerto Cisnes', ' Arauco',
       ' San Pedro de Atacama', ' Chicureo Abajo', ' Pucón',
       ' Puente Alto', ' Chiguayante', ' Tomé', ' Cuya', ' Viña del Mar',
       ' Rengo', ' Coronel', ' Cañete', ' San Felipe', ' Ollag?e',
       ' Panguipulli', ' Quirihue', ' Bio-Bio', 'Tarapaca',
       'Chile-Argentina border region', ' La Junta', ' Ancud',
       ' Curanilahue', ' Colbún', ' Araucania',

Vemos un conjunto de nombre mal escritos, los cuales corregiremos, y también vemos otros que vamos a descartar ya que son fronterizos con otros países o que no poseen una zona específica los cuales descartaremos

In [56]:
correcciones = {"Ollag?e": "Ollagüe", 
 ' Cami?a': "Camiña", 
 "agasta": "Antofagasta",
 "Maule - Bio-Bio border region": "Maule", 
 '2010 Maule': "Maule",' Copiap?': "Copiapó", 
 ' Quell?n': 'Quellón', 
 '1960 Great Chilean Earthquake (Valdivia Earthquake)': "Valdivia", 
 'The 1906 Valparaiso': "Valparaíso", 
 'Offshore Valparaiso': ' Valparaíso', 
 ' Valparaiso': 'Valparaíso',
 "Libertador General Bernardo O'Higgins": "Libertador O'Higgins"
}
limiters = ('Chile-Argentina border region', "'Bio-Bio - Araucania border region'", 'Chile-Bolivia border region' , 'agasta-Atacama border region')
df_copy = df_copy[~df_copy["zone"].isin(limiters)]
df_copy['zone'] = df_copy['zone'].map(lambda nombre: correcciones.get(nombre, nombre))
df_copy["zone"] = df_copy["zone"].str.strip()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_copy['zone'] = df_copy['zone'].map(lambda nombre: correcciones.get(nombre, nombre))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_copy["zone"] = df_copy["zone"].str.strip()


In [57]:
df_copy["zone"].unique()
#verificamos de nuevo los datos

array(['Ovalle', 'Camiña', 'Ollagüe', 'La Ligua', 'La Serena', 'Aisen',
       'Copiapó', 'Carahue', 'Calama', 'Machalí', 'Coquimbo', 'Colchane',
       'Puerto Chacabuco', 'Antofagasta', 'Vallenar', 'Taltal',
       'San Antonio', 'Illapel', 'Chonchi', 'Diego de Almagro',
       'Salamanca', 'Cartagena', 'Castro', 'Tocopilla', 'Constitución',
       'Puerto Natales', 'La Tirana', 'Corral', 'Valparaíso', 'Lebu',
       'Monte Patria', 'Mejillones', 'Los Andes', 'Puerto', 'Villarrica',
       'Pozo Almonte', 'Molina', 'Cochrane', 'Huara', 'Talcahuano',
       'Puerto Cisnes', 'Arauco', 'San Pedro de Atacama',
       'Chicureo Abajo', 'Pucón', 'Puente Alto', 'Chiguayante', 'Tomé',
       'Cuya', 'Viña del Mar', 'Rengo', 'Coronel', 'Cañete', 'San Felipe',
       'Ollag?e', 'Panguipulli', 'Quirihue', 'Bio-Bio', 'Tarapaca',
       'La Junta', 'Ancud', 'Curanilahue', 'Colbún', 'Araucania', 'Teno',
       'Santa Cruz', 'Maule', 'Atacama', 'Melipilla', 'María Elena',
       'Arica', 'San Cleme

In [58]:
comunas_por_region = {
    "Arica y Parinacota": {
        "comunas": [
            "Arica", "Camarones", "Putre", "General Lagos"
        ],
        "numero_region": "XV"
    },
    "Tarapacá": {
        "comunas": [
            "Iquique", "Alto Hospicio", "Pozo Almonte", "Camiña", "Colchane", "Huara", "Pica"
        ],
        "numero_region": "I"
    },
    "Antofagasta": {
        "comunas": [
            "Antofagasta", "Mejillones", "Sierra Gorda", "Taltal", "Calama", "Ollagüe", 
            "San Pedro de Atacama", "Tocopilla", "María Elena"
        ],
        "numero_region": "II"
    },
    "Atacama": {
        "comunas": [
            "Copiapó", "Caldera", "Tierra Amarilla", "Chañaral", "Diego de Almagro", 
            "Vallenar", "Alto del Carmen", "Freirina", "Huasco"
        ],
        "numero_region": "III"
    },
    "Coquimbo": {
        "comunas": [
            "La Serena", "Coquimbo", "Andacollo", "La Higuera", "Paiguano", "Vicuña", 
            "Illapel", "Canela", "Los Vilos", "Salamanca", "Ovalle", "Combarbalá", 
            "Monte Patria", "Punitaqui", "Río Hurtado"
        ],
        "numero_region": "IV"
    },
    "Valparaíso": {
        "comunas": [
            "Valparaíso", "Casablanca", "Concón", "Juan Fernández", "Puchuncaví", 
            "Quintero", "Viña del Mar", "Isla de Pascua", "Los Andes", "Calle Larga", 
            "Rinconada", "San Esteban", "La Ligua", "Cabildo", "Papudo", "Petorca", 
            "Zapallar", "Quillota", "Calera", "Hijuelas", "La Cruz", "Nogales", 
            "San Antonio", "Algarrobo", "Cartagena", "El Quisco", "El Tabo", 
            "Santo Domingo", "San Felipe", "Catemu", "Llaillay", "Panquehue", 
            "Putaendo", "Santa María", "Quilpué", "Limache", "Olmué", "Villa Alemana"
        ],
        "numero_region": "V"
    },
    "Región Metropolitana": {
        "comunas": [
            "Santiago", "Cerrillos", "Cerro Navia", "Conchalí", "El Bosque", "Estación Central",
            "Huechuraba", "Independencia", "La Cisterna", "La Florida", "La Granja", "La Pintana",
            "La Reina", "Las Condes", "Lo Barnechea", "Lo Espejo", "Lo Prado", "Macul", "Maipú",
            "Ñuñoa", "Pedro Aguirre Cerda", "Peñalolén", "Providencia", "Pudahuel", "Quilicura",
            "Quinta Normal", "Recoleta", "Renca", "San Joaquín", "San Miguel", "San Ramón",
            "Vitacura", "Puente Alto", "Pirque", "San José de Maipo", "Colina", "Lampa",
            "Tiltil", "San Bernardo", "Buin", "Calera de Tango", "Paine", "Melipilla",
            "Alhué", "Curacaví", "María Pinto", "San Pedro", "Talagante", "El Monte",
            "Isla de Maipo", "Padre Hurtado", "Peñaflor"
        ],
        "numero_region": "RM"
    },
    "Libertador General Bernardo O'Higgins": {
        "comunas": [
            "Rancagua", "Codegua", "Coinco", "Coltauco", "Doñihue", "Graneros", "Las Cabras",
            "Machalí", "Malloa", "Mostazal", "Olivar", "Peumo", "Pichidegua", "Quinta de Tilcoco",
            "Rengo", "Requínoa", "San Vicente", "Pichilemu", "La Estrella", "Litueche", "Marchihue",
            "Navidad", "Paredones", "San Fernando", "Chépica", "Chimbarongo", "Lolol", "Nancagua",
            "Palmilla", "Peralillo", "Placilla", "Pumanque", "Santa Cruz"
        ],
        "numero_region": "VI"
    },
    "Maule": {
        "comunas": [
            "Talca", "Constitución", "Curepto", "Empedrado", "Maule", "Pelarco", "Pencahue",
            "Río Claro", "San Clemente", "San Rafael", "Cauquenes", "Chanco", "Pelluhue",
            "Curicó", "Hualañé", "Licantén", "Molina", "Rauco", "Romeral", "Sagrada Familia",
            "Teno", "Vichuquén", "Linares", "Colbún", "Longaví", "Parral", "Retiro", "San Javier",
            "Villa Alegre", "Yerbas Buenas"
        ],
        "numero_region": "VII"
    },
    "Ñuble": {
        "comunas": [
            "Chillán", "Bulnes", "Chillán Viejo", "El Carmen", "Pemuco", "Pinto", "Quillón",
            "San Ignacio", "Yungay", "Cobquecura", "Coelemu", "Ninhue", "Portezuelo", "Quirihue",
            "Ránquil", "Treguaco", "San Carlos", "Coihueco", "Ñiquén", "San Fabián", "San Nicolás"
        ],
        "numero_region": "XVI"
    },
    "Biobío": {
        "comunas": [
            "Concepción", "Coronel", "Chiguayante", "Florida", "Hualpén", "Hualqui", "Lota",
            "Penco", "San Pedro de la Paz", "Santa Juana", "Talcahuano", "Tomé", "Arauco",
            "Cañete", "Contulmo", "Curanilahue", "Lebu", "Los Álamos", "Tirúa", "Los Ángeles",
            "Antuco", "Cabrero", "Laja", "Mulchén", "Nacimiento", "Negrete", "Quilaco", "Quilleco",
            "San Rosendo", "Santa Bárbara", "Tucapel", "Yumbel", "Alto Biobío"
        ],
        "numero_region": "VIII"
    },
    "Araucanía": {
        "comunas": [
            "Temuco", "Carahue", "Cunco", "Curarrehue", "Freire", "Galvarino", "Gorbea",
            "Lautaro", "Loncoche", "Melipeuco", "Nueva Imperial", "Padre las Casas", "Perquenco",
            "Pitrufquén", "Pucón", "Saavedra", "Teodoro Schmidt", "Toltén", "Vilcún", "Villarrica",
            "Cholchol", "Angol", "Collipulli", "Curacautín", "Ercilla", "Lonquimay", "Los Sauces",
            "Lumaco", "Purén", "Renaico", "Traiguén", "Victoria"
        ],
        "numero_region": "IX"
    },
    "Los Ríos": {
        "comunas": [
            "Valdivia", "Corral", "Lanco", "Los Lagos", "Máfil", "Mariquina", "Paillaco",
            "Panguipulli", "La Unión", "Futrono", "Lago Ranco", "Río Bueno"
        ],
        "numero_region": "XIV"
    },
    "Los Lagos": {
        "comunas": [
            "Puerto Montt", "Calbuco", "Cochamó", "Fresia", "Frutillar", "Los Muermos",
            "Llanquihue", "Maullín", "Puerto Varas", "Castro", "Ancud", "Chonchi", "Curaco de Vélez",
            "Dalcahue", "Puqueldón", "Queilén", "Quellón", "Quemchi", "Quinchao", "Osorno",
            "Puerto Octay", "Purranque", "Puyehue", "Río Negro", "San Juan de la Costa", "San Pablo",
            "Chaitén", "Futaleufú", "Hualaihué", "Palena"
        ],
        "numero_region": "X"
    },
    "Aysén": {
        "comunas": [
            "Coyhaique", "Lago Verde", "Aysén", "Cisnes", "Guaitecas", "Cochrane", "O'Higgins",
            "Tortel", "Chile Chico", "Río Ibáñez"
        ],
        "numero_region": "XI"
    },
    "Magallanes": {
        "comunas": [
            "Punta Arenas", "Laguna Blanca", "Río Verde", "San Gregorio", "Cabo de Hornos",
            "Antártica", "Porvenir", "Primavera", "Timaukel", "Natales", "Torres del Paine"
        ],
        "numero_region": "XII"
    }
}

def encontrar_region(comuna):
    for region, datos in comunas_por_region.items():
        if comuna in datos["comunas"]:
            return region
    return None  # O "Desconocido" si prefieres

df_copy['region'] = df_copy['zone'].apply(encontrar_region)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_copy['region'] = df_copy['zone'].apply(encontrar_region)


Ahora queremos crear una nueva columna en la que filtraremos por región, filtramos por el diccionario y creamos la columna como categoría y descartamos los datos nulos.

In [59]:
df_copy["region"].astype("category")
df_copy["region"].unique()

array(['Coquimbo', 'Tarapacá', 'Antofagasta', 'Valparaíso', None,
       'Atacama', 'Araucanía', "Libertador General Bernardo O'Higgins",
       'Los Lagos', 'Maule', 'Los Ríos', 'Biobío', 'Aysén',
       'Región Metropolitana', 'Ñuble', 'Arica y Parinacota',
       'Magallanes'], dtype=object)

In [60]:
df_copy = df_copy[df_copy["region"].notna()]
df_copy["region"].unique()

array(['Coquimbo', 'Tarapacá', 'Antofagasta', 'Valparaíso', 'Atacama',
       'Araucanía', "Libertador General Bernardo O'Higgins", 'Los Lagos',
       'Maule', 'Los Ríos', 'Biobío', 'Aysén', 'Región Metropolitana',
       'Ñuble', 'Arica y Parinacota', 'Magallanes'], dtype=object)

In [None]:
df_copy = df_copy.drop(columns= "place").reset_index()
#eliminamos la columna place que ya no usaremos obteniendo nuestro DataFrame limpio y lo guardamos en la carpeta data
df_copy.to_csv('data//query_limpio.csv')
df_copy 

Unnamed: 0,level_0,index,latitude,longitude,depth,mag,magType,nst,gap,dmin,rms,id,horizontalError,depthError,magError,magNst,date,hour,zone,region
0,0,0,-30.6105,-71.2446,61.209,4.60,mb,50.0,71.0,0.342,0.81,us7000qt0p,5.13,5.452,0.109,25.0,2025-09-01,13:48:01,Ovalle,Coquimbo
1,1,1,-18.9492,-69.4232,114.517,4.60,mb,53.0,103.0,0.616,0.98,us7000qs9z,5.16,5.411,0.079,49.0,2025-08-29,21:48:43,Camiña,Tarapacá
2,2,2,-21.7142,-68.4897,118.465,4.70,mb,44.0,63.0,0.704,1.19,us7000qqvr,4.54,5.964,0.060,85.0,2025-08-25,18:01:03,Ollagüe,Antofagasta
3,3,3,-19.3888,-69.2674,100.534,5.00,mb,59.0,104.0,0.287,1.04,us6000r3fa,6.76,5.716,0.029,391.0,2025-08-24,03:44:08,Camiña,Tarapacá
4,4,4,-32.5045,-71.5221,53.111,4.70,mb,49.0,133.0,0.527,0.84,us6000r3as,2.93,5.576,0.097,32.0,2025-08-23,09:07:59,La Ligua,Valparaíso
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8972,9479,10402,-32.1750,-71.7630,15.000,6.35,mw,,,,,iscgem610548661,,13.100,0.200,,1906-10-02,14:33:45,La Ligua,Valparaíso
8973,9480,10403,-39.2280,-72.7210,15.000,6.74,mw,,,,,iscgemsup16957914,,25.000,0.200,,1906-08-19,09:34:08,Loncoche,Araucanía
8974,9481,10404,-32.4000,-71.4000,35.000,8.20,mw,,,,,iscgemsup16957911,,11.100,0.200,,1906-08-17,00:40:04,Valparaíso,Valparaíso
8975,9482,10405,-32.3120,-73.7060,10.000,6.72,mw,,,,,iscgemsup610548593,,25.000,0.230,,1904-12-11,17:05:42,Valparaíso,Valparaíso


Observamos que hay varias columnas con datos nulos, pero no la descartaremos aun ya que no queremos perder información. Por ello dependiendo de la pregunta descartaremos algunas columnas con datos nulos.

In [62]:
print("Cantidad total de nulos en df:", df_copy.isnull().sum().sum())
print("Cantidad total de duplicados en df:", df_copy.duplicated().sum())

Cantidad total de nulos en df: 38503
Cantidad total de duplicados en df: 0


Con esto concluímos la limpieza inicial de los datos.

Ajustes en la Secuencia de Investigación

Tras el análisis del df mediante el EDA, hemos encontrado que la pregunta original número 4 ("Crear un modelo que pueda predecir en base a las estadísticas los posibles lugares de riesgos") deberia ser la pregunta final que responde, usando la informacion que obtenimos de la demas preguntas por lo cual cambiariamos el orden de las preguntas por la nueva que seria:

=Obtener información de terremotos en Chile

=Calcular los mayores terremotos por región

=Analizar los terremotos acontecidos en el país y obtener las regiones y ciudades de mayores riesgos, permitiendo calcular el área de mayor riesgo en el país

-Crear un promedio de tiempo en el que pueda predecir cada cuanto puede acontecer un terremoto

-Crear un modelo que pueda predecir en base a las estadísticas los posibles lugares de riegos

Esta nueva secuencia nos da un avanze proyectivo, donde la pregunta principal sea el objetivo que buscamos.