In [1]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

/kaggle/input/stanford-earthquake-dataset-stead/merge.hdf5
/kaggle/input/stanford-earthquake-dataset-stead/merge.csv


**INTRODUCCIÓN**
La actual disponibilidad de grandes volúmenes de datos sísmicos y los avances en técnicas de Machine Learning brindan oportunidades para mejorar nuestra comprensión y capacidad de respuesta frente a los eventos sísmicos. La base de datos que se empleará es la STanford EArthquake Dataset (STEAD), que contiene un conjunto de datos sísmicos meticulosamente curado y se considera un recurso fundamental para los investigadores del campo de la ciencia de datos aplicada a la sismología. Este proyecto Capstone se propone explorar y aplicar técnicas avanzadas de minería de datos en Python para analizar STEAD.

Se utilizará Python, un lenguaje de programación líder en ciencia de datos por su sintaxis clara y legible y sus librerías de análisis y aprendizaje automático como Pandas, NumPy, Scikit-learn, y TensorFlow.  Este estudio aborda el desafío de procesar y analizar grandes volúmenes de datos de señales sísmicas. Se probarán distintas técnicas, como la regresión múltiple o GSP, para descubrir patrones y correlaciones significativas en los datos que puedan ofrecer perspectivas nuevas sobre los factores más influyentes en la magnitud de los terremotos.

Este documento se organiza de la siguiente manera: inicialmente, se realiza un preprocesamiento de los datos centrado en los metadatos.  Más adelante se emplean algunas técnicas vistas durante el cuatrimestre para obtener la máxima precisión de detección de terremotos.

**OBJETIVOS**
El objetivo general del proyecto es desarrollar y validar un modelo predictivo de minería de datos empleando el dataset STEAD para mejorar la detección de eventos sísmicos, ya sean terremotos o ruido, buscando la mayor precisión posible.

En cuanto a los objetivos específicos, se tienen en cuenta los siguientes:
* Explorar los datos y prepararlos mediante preprocesamiento.
* Desarrollar modelos de Data Mining.
* Evaluar la eficacia de los modelos realizados y validarlos.
* Comprender cómo trabajar con bases de datos extensas y que contienen señales.


**DESCRIPCIÓN DE LA BASE DE DATOS STEAD**
La base de datos STEAD (STanford EArthquake Dataset) es un conjunto de datos de señales sísmicas diseñado para el análisis y desarrollo de algoritmos de Machine Learning y Data Mining.  La aplicación de estos algoritmos se realiza para la detección y/o clasificación de eventos sísmicos o terremotos.  

STEAD es un conjunto muy extenso (91 GB) de más de un millón de muestras etiquetadas.  No solo se contemplan señales de terremotos, sino también ruidos de fondo sísmico.  Cada muestra de la base de datos está etiquetada como terremoto o ruido.

En cuanto a la estructura de datos: las muestras son señales unidimensionales con frecuencia de muestreo 100 Hz, en su mayoría recortadas a trozos de 60 segundos de duración, lo cual aporta uniformidad, característica ideal para métodos de minería de datos.  Además, a cada muestra le acompañan metadatos que incluyen: profundidad del hipocentro, magnitud, tiempo de origen, distancia entre epicentro y el sensor, coordenadas del epicentro y Signal to Noise Ratio (calidad de la señal sísmica).

**STEAD EN LA INVESTIGACIÓN Y DESARROLLO**
El dataset descrito es consistente y completo, lo que lo hace ideal para desarrolar modelos de predicción de terremotos.  Se pueden emplear técnicas para extraer las características de dominio temporal y frecuencial para analizar las características más informativas.  Además, es importante que se lleve a cabo la ingeniería de características para obtener los mejores resultados posibles.  

**CONSIDERACIONES**
Los terremotos son mucho menos frecuentes que el ruido, por lo que sería interesante aplicar técnicas de balanceo de clases o ajustar la función de pérdida para equilibrar la desproporción de las clases.  Aunque STEAD es una base de datos muy consistente y bien valorada, crear un modelo que generalice datos no vistos sigue siendo un desafío en el ámbito sismológico, pues se tienen en cuenta demasiados factores: ya solo de ubicación hay un amplio abanico de opciones.

In [2]:
import os
input_dir = '/kaggle/input/stanford-earthquake-dataset-stead/'
filename = 'merge.csv'
df = pd.read_csv(os.path.join(input_dir, filename), low_memory=False)
print(df.shape)
df.head()

(1265657, 35)


Unnamed: 0,network_code,receiver_code,receiver_type,receiver_latitude,receiver_longitude,receiver_elevation_m,p_arrival_sample,p_status,p_weight,p_travel_sec,...,source_magnitude_author,source_mechanism_strike_dip_rake,source_distance_deg,source_distance_km,back_azimuth_deg,snr_db,coda_end_sample,trace_start_time,trace_category,trace_name
0,TA,109C,HH,32.8889,-117.1051,150.0,,,,,...,,,,,,,,2015-10-21 05:55:00,noise,109C.TA_201510210555_NO
1,TA,109C,HH,32.8889,-117.1051,150.0,,,,,...,,,,,,,,2015-11-06 14:50:00,noise,109C.TA_201511061450_NO
2,TA,109C,HH,32.8889,-117.1051,150.0,,,,,...,,,,,,,,2015-11-07 02:20:00,noise,109C.TA_201511070220_NO
3,TA,109C,HH,32.8889,-117.1051,150.0,,,,,...,,,,,,,,2015-11-14 05:15:00,noise,109C.TA_201511140515_NO
4,TA,109C,HH,32.8889,-117.1051,150.0,,,,,...,,,,,,,,2015-12-25 18:50:00,noise,109C.TA_201512251850_NO


In [3]:
df.columns

Index(['network_code', 'receiver_code', 'receiver_type', 'receiver_latitude',
       'receiver_longitude', 'receiver_elevation_m', 'p_arrival_sample',
       'p_status', 'p_weight', 'p_travel_sec', 's_arrival_sample', 's_status',
       's_weight', 'source_id', 'source_origin_time',
       'source_origin_uncertainty_sec', 'source_latitude', 'source_longitude',
       'source_error_sec', 'source_gap_deg',
       'source_horizontal_uncertainty_km', 'source_depth_km',
       'source_depth_uncertainty_km', 'source_magnitude',
       'source_magnitude_type', 'source_magnitude_author',
       'source_mechanism_strike_dip_rake', 'source_distance_deg',
       'source_distance_km', 'back_azimuth_deg', 'snr_db', 'coda_end_sample',
       'trace_start_time', 'trace_category', 'trace_name'],
      dtype='object')

In [4]:
df['trace_name'].unique().shape

(1265657,)

In [5]:
df = df.set_index('trace_name')
df.head()

Unnamed: 0_level_0,network_code,receiver_code,receiver_type,receiver_latitude,receiver_longitude,receiver_elevation_m,p_arrival_sample,p_status,p_weight,p_travel_sec,...,source_magnitude_type,source_magnitude_author,source_mechanism_strike_dip_rake,source_distance_deg,source_distance_km,back_azimuth_deg,snr_db,coda_end_sample,trace_start_time,trace_category
trace_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
109C.TA_201510210555_NO,TA,109C,HH,32.8889,-117.1051,150.0,,,,,...,,,,,,,,,2015-10-21 05:55:00,noise
109C.TA_201511061450_NO,TA,109C,HH,32.8889,-117.1051,150.0,,,,,...,,,,,,,,,2015-11-06 14:50:00,noise
109C.TA_201511070220_NO,TA,109C,HH,32.8889,-117.1051,150.0,,,,,...,,,,,,,,,2015-11-07 02:20:00,noise
109C.TA_201511140515_NO,TA,109C,HH,32.8889,-117.1051,150.0,,,,,...,,,,,,,,,2015-11-14 05:15:00,noise
109C.TA_201512251850_NO,TA,109C,HH,32.8889,-117.1051,150.0,,,,,...,,,,,,,,,2015-12-25 18:50:00,noise


network_code, receiver_code, trace_start_time y trace_category se especifican en el trace_name  

trace_name = [receiver_code].[network_code]\_[trace_start_time]\_[trace_category]

Observaciones:
- trace_start_time se expresa como unión sin espacios de las unidades de tiempo
- trace_category toma valores NO y EV para categorías noise y earthquake respectivamente

In [6]:
df = df.drop(columns=["network_code", "receiver_code", "trace_start_time"])
print(df.shape)
df.head()

(1265657, 31)


Unnamed: 0_level_0,receiver_type,receiver_latitude,receiver_longitude,receiver_elevation_m,p_arrival_sample,p_status,p_weight,p_travel_sec,s_arrival_sample,s_status,...,source_magnitude,source_magnitude_type,source_magnitude_author,source_mechanism_strike_dip_rake,source_distance_deg,source_distance_km,back_azimuth_deg,snr_db,coda_end_sample,trace_category
trace_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
109C.TA_201510210555_NO,HH,32.8889,-117.1051,150.0,,,,,,,...,,,,,,,,,,noise
109C.TA_201511061450_NO,HH,32.8889,-117.1051,150.0,,,,,,,...,,,,,,,,,,noise
109C.TA_201511070220_NO,HH,32.8889,-117.1051,150.0,,,,,,,...,,,,,,,,,,noise
109C.TA_201511140515_NO,HH,32.8889,-117.1051,150.0,,,,,,,...,,,,,,,,,,noise
109C.TA_201512251850_NO,HH,32.8889,-117.1051,150.0,,,,,,,...,,,,,,,,,,noise


Se aplicará un algoritmo de regresión múltiple con la magnitud del terremoto como variable objetivo puesto que resulta apropiado por distintas razones:
* Se desean evaluar relaciones complejas entre variables relevantes.  En el contexto de los datos sísmicos, esto es relevante, ya que la magnitud del terremoto está influenciada por factores geográficos y geofísicos.
* Se desea predecir la magnitud de futuros terremotos y comprender y analizar la relación causal que tienen las variables.  Por ejemplo, observar si a más profundidad, más daño superficial (caída de edificios, naturaleza, bienes materiales).
* La investigación sísmica se basa sobre todo en hallar posibles correlaciones entre distintos factores, por lo que la regresión puede explorar nuevas hipótesis.
* La regresión múltiple es un modelo básico pero a su vez potente, pues puede ser modificado para incluir efectos no lneales e interacciones entre variables.  Es capaz de adaptarse a la heterocedasticidad (varianza cambiante) o autocorrelación en los datos,

Para predecir la magnitud, se han elegido las siguientes variables independientes:

**source_latitude y source_longitude**:
estas variables representan la ubicación geográfica del epicentro del terremoto.  Esta ubicación se considera importante, pues hay ciertas regiones en el mundo altamente propensas a sufrir terremotos, ya sean de mayor o menor magnitud, debido a sus factores tectónicos y geológicos subyacentes.  Por ejemplo, Chile y Japón tienen ubicaciones con alta probabilidad de terremoto.

**source_depth_km**:
esta variable indica la profundidad a la que ocurre el terremoto.  Esto es muy importante con respecto al daño en la superficie, pues a más superficial sea el terremoto, más daño local provocará, posiblemente.




In [11]:
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# reemplazar NaN con la media de la columna correspondiente
#imputer = SimpleImputer(strategy='mean')

# Preparación de los datos
X = df[['source_latitude', 'source_longitude', 'source_depth_km']]  # predictores
y = df['source_magnitude']  # var objetivo

# Imputar valores NaN
# X = imputer.fit_transform(X)

#datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo de regresión lineal
model = LinearRegression()
model.fit(X_train, y_train)

# Predecir el conjunto de prueba
y_pred = model.predict(X_test)

# las métricas de rendimiento
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'MSE: {mse}')
print(f'R^2: {r2}')

MSE: 446337.98118841904
R^2: 0.049049251334002175
