In [1]:
import pandas as pd
import geopandas as gdp
import keplergl

## Leer los datos de terremotos

Puedes consultar la fuente de datos de Kaggle [aquí](https://www.kaggle.com/mohitkr05/global-significant-earthquake-database-from-2150bc?select=Worldwide-Earthquake-database.csv)

In [2]:
df = pd.read_csv('data/Worldwide-Earthquake-database.csv')
df

Unnamed: 0,I_D,FLAG_TSUNAMI,YEAR,MONTH,DAY,HOUR,MINUTE,SECOND,FOCAL_DEPTH,EQ_PRIMARY,...,TOTAL_MISSING,TOTAL_MISSING_DESCRIPTION,TOTAL_INJURIES,TOTAL_INJURIES_DESCRIPTION,TOTAL_DAMAGE_MILLIONS_DOLLARS,TOTAL_DAMAGE_DESCRIPTION,TOTAL_HOUSES_DESTROYED,TOTAL_HOUSES_DESTROYED_DESCRIPTION,TOTAL_HOUSES_DAMAGED,TOTAL_HOUSES_DAMAGED_DESCRIPTION
0,1,No,-2150,,,,,,,7.3,...,,,,,,,,,,
1,2,Yes,-2000,,,,,,,,...,,,,,,,,,,
2,3,No,-2000,,,,,,18.0,7.1,...,,,,,,1.0,,1.0,,
3,5877,Yes,-1610,,,,,,,,...,,,,,,3.0,,,,
4,8,No,-1566,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6188,10488,No,2020,4.0,1.0,12.0,23.0,27,10.0,5.3,...,,,,,11.28,3.0,,,790.0,3.0
6189,10490,Yes,2020,5.0,2.0,12.0,51.0,6,17.0,6.6,...,,,,,,,,,,
6190,10491,No,2020,5.0,7.0,20.0,18.0,22,10.0,4.6,...,,,22.0,1.0,,,,,,
6191,10494,No,2020,5.0,18.0,13.0,48.0,3,10.0,5.2,...,,,24.0,1.0,,2.0,,1.0,,


In [3]:
df.columns

Index(['I_D', 'FLAG_TSUNAMI', 'YEAR', 'MONTH', 'DAY', 'HOUR', 'MINUTE',
       'SECOND', 'FOCAL_DEPTH', 'EQ_PRIMARY', 'EQ_MAG_MW', 'EQ_MAG_MS',
       'EQ_MAG_MB', 'EQ_MAG_ML', 'EQ_MAG_MFA', 'EQ_MAG_UNK', 'INTENSITY',
       'COUNTRY', 'STATE', 'LOCATION_NAME', 'LATITUDE', 'LONGITUDE',
       'REGION_CODE', 'DEATHS', 'DEATHS_DESCRIPTION', 'MISSING',
       'MISSING_DESCRIPTION', 'INJURIES', 'INJURIES_DESCRIPTION',
       'DAMAGE_MILLIONS_DOLLARS', 'DAMAGE_DESCRIPTION', 'HOUSES_DESTROYED',
       'HOUSES_DESTROYED_DESCRIPTION', 'HOUSES_DAMAGED',
       'HOUSES_DAMAGED_DESCRIPTION', 'TOTAL_DEATHS',
       'TOTAL_DEATHS_DESCRIPTION', 'TOTAL_MISSING',
       'TOTAL_MISSING_DESCRIPTION', 'TOTAL_INJURIES',
       'TOTAL_INJURIES_DESCRIPTION', 'TOTAL_DAMAGE_MILLIONS_DOLLARS',
       'TOTAL_DAMAGE_DESCRIPTION', 'TOTAL_HOUSES_DESTROYED',
       'TOTAL_HOUSES_DESTROYED_DESCRIPTION', 'TOTAL_HOUSES_DAMAGED',
       'TOTAL_HOUSES_DAMAGED_DESCRIPTION'],
      dtype='object')

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6193 entries, 0 to 6192
Data columns (total 47 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   I_D                                 6193 non-null   int64  
 1   FLAG_TSUNAMI                        6193 non-null   object 
 2   YEAR                                6193 non-null   int64  
 3   MONTH                               5786 non-null   float64
 4   DAY                                 5632 non-null   float64
 5   HOUR                                4151 non-null   float64
 6   MINUTE                              3946 non-null   float64
 7   SECOND                              4347 non-null   object 
 8   FOCAL_DEPTH                         3228 non-null   float64
 9   EQ_PRIMARY                          4402 non-null   float64
 10  EQ_MAG_MW                           1321 non-null   float64
 11  EQ_MAG_MS                           2928 no

## Limpieza y preparación de datos

Convertimos las columnas de latitud y longitud a numéricas, los errores se convertirán en NaN

In [8]:
df['LONGITUDE'] # Antes de la transformación (checa dtype)

0          35.5
1          35.8
2          58.2
3          25.4
4          35.3
         ...   
6188     98.916
6189     25.712
6190     52.044
6191    103.281
6192    114.242
Name: LONGITUDE, Length: 6193, dtype: object

In [9]:
df['LONGITUDE'] = pd.to_numeric(df.LONGITUDE, errors='coerce')
df['LATITUDE'] = pd.to_numeric(df.LATITUDE, errors='coerce')

In [10]:
df['LONGITUDE'] # Después de la transformación (checa dtype)

0        35.500
1        35.800
2        58.200
3        25.400
4        35.300
         ...   
6188     98.916
6189     25.712
6190     52.044
6191    103.281
6192    114.242
Name: LONGITUDE, Length: 6193, dtype: float64

Nos deshacemos de las filas con datos perdidos para latitud, longitud e intensidad (del terremoto)

In [11]:
df.dropna(subset=['LONGITUDE', 'LATITUDE', 'INTENSITY'], inplace=True)

También convertimos la columna "FLAG_TSUNAMI" a números enteros, la necesitaremos en ese formato

In [12]:
df.FLAG_TSUNAMI.values

array(['Yes', 'No', 'No', ..., 'No', 'Yes', 'Yes'], dtype=object)

In [13]:
df['FLAG_TSUNAMI'] = [1 if i=='Yes' else 0 for i in df.FLAG_TSUNAMI.values] # List comprehension

In [14]:
df

Unnamed: 0,I_D,FLAG_TSUNAMI,YEAR,MONTH,DAY,HOUR,MINUTE,SECOND,FOCAL_DEPTH,EQ_PRIMARY,...,TOTAL_MISSING,TOTAL_MISSING_DESCRIPTION,TOTAL_INJURIES,TOTAL_INJURIES_DESCRIPTION,TOTAL_DAMAGE_MILLIONS_DOLLARS,TOTAL_DAMAGE_DESCRIPTION,TOTAL_HOUSES_DESTROYED,TOTAL_HOUSES_DESTROYED_DESCRIPTION,TOTAL_HOUSES_DAMAGED,TOTAL_HOUSES_DAMAGED_DESCRIPTION
1,2,1,-2000,,,,,,,,...,,,,,,,,,,
2,3,0,-2000,,,,,,18.0,7.1,...,,,,,,1.0,,1.0,,
4,8,0,-1566,,,,,,,,...,,,,,,,,,,
5,11,0,-1450,,,,,,,,...,,,,,,,,,,
9,14,0,-759,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6184,10483,0,2020,3.0,10.0,10.0,18.0,6,23.0,5.0,...,,,4.0,1.0,,2.0,,,1137.0,4.0
6185,10485,0,2020,3.0,18.0,13.0,9.0,31,12.0,5.7,...,,,,,48.5,4.0,,,,3.0
6186,10486,0,2020,3.0,22.0,5.0,24.0,3,10.0,5.4,...,,,27.0,1.0,6000.0,4.0,6305.0,4.0,20000.0,4.0
6187,10487,1,2020,3.0,25.0,2.0,49.0,21,57.0,7.5,...,,,,,,,,,,


Las columnas de latitud y longitud no se veían en la muestra anterior. Las mostramos en esta ocasión para corroborar su formato.

In [15]:
df.loc[:,('LATITUDE','LONGITUDE')] # loc == location

Unnamed: 0,LATITUDE,LONGITUDE
1,35.683,35.800
2,38.000,58.200
4,31.500,35.300
5,35.500,25.500
9,33.000,35.500
...,...,...
6184,-6.808,106.676
6185,40.751,-112.078
6186,45.897,15.966
6187,48.986,157.693


## Generamos un mapa y le agregamos datos

En el menú lateral izquierdo tenemos:
- Layers — Define cómo las variables se encuentran incrustadas en el mapa (recuerda que una variable es una columna en tus datos).
- Filters — Desde aquí podemos filtrar para obtener muestras más pequeñas de nuestro conjunto de datos.
- Interactions — Define las interacciones, como los tooltips, cajas de búsqueda, entre otras cosillas.
- Basemap — Define el estilo de el mapa del mundo y otros elementos, como etiquetas, carreteras y estilos.

Nota de Omar del pasado: Omar del presente, haz lo siguiente.
- Agrega una nueva capa, utiliza hexágonos y elige un radio mayor pues recuerda que la densidad de los terremotos es menor que 1km.
- Agrega otra capa de puntos basado en "FLAG_TSUNAMI", cambia de "quantile" a "quantize", selecciona otra escala de colores de 3 pasos, y muestra la caja de leyendas.
- Explora un poco los datos: ¿hay terremotos relativamente lejanos al océano?
- Ve a la parte de interacciones

In [17]:
kepler_map = keplergl.KeplerGl(height=500)
kepler_map

User Guide: https://docs.kepler.gl/docs/keplergl-jupyter


KeplerGl(height=500)

In [18]:
kepler_map.add_data(data=df, name="earthquakes")

In [22]:
kepler_map.save_to_html(file_name='output/html/ejercicio_uc.html')

Map saved to output/html/ejercicio_uc.html!
