# 1. Análisis exploratorio de sismos

**Objetivo:** Exploración del dataset

Esta base de de datos es una colección de más de 23,000 sismos en USA. Contiene datos desde 1638 a 1985. La base de datos incluye información correspondiente a las coordenadas del epicentro, magnitudes, profundidad focal, nombres y coordenadas de ciudades reportadas, intensidades reportadas y la distancia de la ciudad al epicentro.


https://www.kaggle.com/srijya/us-earthquake-intensity-database

**Información de las características**
* 0 Year Mo Da Hr Mn Sec
* 1 UTC Conv
* 2 U/G Unpublished or grouped intensity
* 3 EQ Lat 
* 4 EQ Long
* 5 Magnitude
* 6 Depth (km)
* 7 Epi Dis Distancia epicentral
* 8 City Lat
* 9 City Long
* 10 MMI
* 11 State Code
* 12 City Name
* 13 Data Source

**Número de instancias:** 157015

**Número de atributos:** 20



# 2. Acceso a Drive

In [None]:
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

Mounted at /content/drive


# 3. Importando librerías

In [None]:
import pandas as _____
import os
import ______.pyplot as plt
import seaborn as ____
import _____ as np
import plotly.graph_objects as go
import plotly.express as px
import plotly.io as pio
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import MinMaxScaler
from sklearn.neighbors import LocalOutlierFactor

# 4. Lectura del archivo de datos

In [None]:
path = _______
name = 'eqint_tsqp.xlsx'

In [None]:
sis_path = os.path.join(____,____)
sismosdf = pd.read_excel(sis_path)
_____.head()

Cuántas instancias tenemos?

In [None]:
____.shape

(157015, 20)

Visualicemos cuántos NaNs hay en el dataframe

In [None]:
fig, ax = plt.subplots(figsize=(25,8))
sns.heatmap(____.isnull(), ax=ax, cmap="magma")
plt.grid()
plt.show()

# 5. Limpieza de datos

Eliminación de columnas repletas de Nans

In [None]:
_____.drop(['UNPUB_OR_GROUPED_INT','LATITUDE','LONGITUDE','EQ_DEPTH', 'LOCAL_TO_UTC'], axis=1, inplace=True)

Rellenando valores valores faltantes

In [None]:
sismosdf[_____].fillna(0, inplace=True)
sismosdf['MINUTE'].fillna(sismosdf[______].mode(), inplace=True)
sismosdf[_____].fillna(sismosdf['HOUR'].mode(), inplace=True)
sismosdf['EPIDIST'].fillna(sismosdf[_____].mean(), inplace=True)

Nos vamos a quedar con las instancias diferentes de Nans

In [None]:
sismosdf = sismosdf[_____.MMI.notnull()]
sismosdf = sismosdf[_____.YEAR.notnull()]
sismosdf = sismosdf[_____.MONTH.notnull()]
sismosdf = sismosdf[sismosdf.DAY.notnull()]
sismosdf = sismosdf[_____.CITY_LAT.notnull()]
sismosdf = sismosdf[_____.CITY_LON.notnull()]
sismosdf = sismosdf[sismosdf.MAGNITUDE.notnull()]

Visualicemos de nuevo nuestro dataframe

In [None]:
fig, ax = plt.subplots(figsize=(25,8))
sns.heatmap(sismosdf.isnull(), ax=ax, cmap="magma")
plt.grid()
plt.show()

Ahora veamos cuantos datos perdimos :(

In [None]:
______.shape

# 6. Exploración de los datos

Ahora visualicemos la columna MMI (que corresponde a intensidad)

In [None]:
fig, ax = plt.subplots(figsize=(25,5))
sns.countplot(ax=ax, x=sismosdf[____], color='darksalmon')
plt.show()

Con base en los resultados observados...

¿Cuál es la Intensidad más frecuente?

¿Qué pasa con los sismos de mayor intensidad?

Ahora visualicemos la columna SOURCE (que indica el tipo de fuente) como pie chart... ¿Qué problema tiene?

In [None]:
fig, ax = plt.subplots(figsize=(10,10))
sismosdf.groupby(____).size().plot(kind='pie', autopct='%.2f')

Es mejor cambiar la visualización a barras

In [None]:
fig, ax = plt.subplots(figsize=(25,5))
sns.countplot(ax=ax, x=sismosdf[_____])
plt.show()

Las visualizaciones nos ayudarán a resolver ***preguntas de negocio***

¿Cuál es la magnitud (MAGNITUDE) más frecuente? 

In [None]:
fig, ax = plt.subplots(figsize=(25,5))
sns.countplot(ax=ax, x=sismosdf[_____])
plt.show()

¿Cuál es el estado (STATE) con menos sismos históricos?

¿Cuál es el que tiene más?


In [None]:
sismosdf[______].value_counts().plot(kind='bar', figsize=(15,5), grid=False, color='darkorange' )

¿En que año (YEAR) se registraron más sismos?

In [None]:
fig, ax = plt.subplots(figsize=(40,5))
sns.countplot(ax=ax, x=sismosdf[______])
plt.show()

¿ A qué hora (HOUR) es más frecuente que tiemble? 

In [None]:
fig, ax = plt.subplots(figsize=(40,5))
sns.countplot(ax=ax, x=sismosdf[_____], color='magenta')
plt.show()

¿Cuáles son los estados que tiene mayor intensidad de sismos?

¿Cómo se ve la distribución de sismos históricos en un mapa?


Usemos las columnas de latitud (CITY_LAT) y longitud (CITY_LON) para visualizar en mapa las intensidades (MMI) de los sismos históricos

In [None]:
fig = go.Figure(data=go.Scattergeo(
        lon = sismosdf[_____],
        lat = sismosdf[_____],
        text = sismosdf['MMI'],
        marker = dict(
        color = sismosdf[____],
        colorscale = 'Rainbow',
        reversescale = True,
        opacity = 0.7,
        size = 5,
        colorbar = dict(
            titleside = "right",
            outlinecolor = "rgba(68, 68, 68, 0)",
            ticks = "outside",
            showticksuffix = "last",
            dtick = 1
        )
    )
        ))
fig.update_traces(marker=dict(size=15),
                  selector=dict(mode='markers'))
fig.update_layout(
    margin=dict(l=0, r=0, b=0, t=25),
    title = 'Intensidad de sismos regional',
    geo_scope='usa',
    )
fig.show()

Ahora respondamos preguntas por año...

1.   ¿Dónde fue ocurrió sismo con mayor intensidad en el año de 1907?

2.   ¿En cuáles estados ocurrieron los sismos de menor intensidad en el año 1929?

3. ¿De qué intensidad promedio fueron los sismos en Atlanta en 1968?

4. ¿Cuál fue la magnitud del sismo de Intensidad 10 de 1971?

En este caso, la mejor estrategia es crear un dashoboard interactivo para poder visualizar por año cada una de las preguntas que debemos resolver...

Empecemos haciendo que el índice del dataframe sea la fecha 

In [None]:
sismosdf = sismosdf.set_index(['YEAR', 'MONTH'])

In [None]:
_____.head()

Ahora hagamos una lista de estas fechas

In [None]:
index_list = ______.index.levels[0].tolist()

Ahora crearemos frames por año de mapas (donde mostremos la intensidad MMI en el punto geográfico de sus epicentro (CITY_LAT, CITY_LON))

In [None]:
frames=[{'name': 'frame_{}'.format(i),
        # ESTO ES LO QUE DESPLEGAREMOS EN EL MAPA
        'data': [{
            'type': 'scattermapbox',
            'lat': sismosdf.xs(i)[_____],
            'lon': sismosdf.xs(i)[_____],
            'marker': go.scattermapbox.Marker(
                size=(sismosdf.xs(i)['MMI']-sismosdf.xs(i)['MMI'].mean()+3.5)**2 +sismosdf.xs(i)['MMI'],
                color=sismosdf.xs(i)['MMI'],
                showscale=True,
                colorscale='Jet',
                colorbar={'title': 'Intensidad', 'titleside': 'top', 'thickness': 4, 'ticksuffix': ' MMI'}
                ),
        # ESTO ES LO QUE SE DESPLEGARÁ EN EL MAPA POR SISMO
        'customdata': np.stack((
            sismosdf.xs(i)['MMI'],
            sismosdf.xs(i)['MAGNITUDE'],
            pd.Series(sismosdf.xs(i).index)),
                axis=-1
                ),
        'hovertemplate': "<extra></extra><em> Intensidad  %{customdata[0]}<br>Magnitud  %{customdata[1]}",
        }],
    } for i in _____]

Ahora vamos a crear la barra deslizante para tener control sobre los años

In [None]:
sliders = [{
            'transition':{'duration': 0},
            'x':0.08,
            'len':0.88,
            'currentvalue':{'font':{'size':15}, 'prefix':'Año ', 'visible':True, 'xanchor':'center'},
            'steps':[
                {
                    'label':i,
                    'method':'animate',
                    'args':[
                        ['frame_{}'.format(i)],
                        {'mode':'immediate', 'frame':{'duration':1000, 'redraw': True}, 'transition':{'duration':1000, }}
                      ],
                } for i in ______]
        }]

Crearemos una variable con los datos del primer cuadro

In [None]:
data = frames[0]['data']
data

Ahora añadimos los sliders que creamos a un layout


In [None]:
layout = go.Layout(
    sliders=sliders,
    margin=dict(l=0, r=0, b=0, t=25),
    title = 'Intensidad de sismos por año',
    mapbox={
        'accesstoken':'pk.eyJ1IjoiY2xhdWNvdCIsImEiOiJja2h4MTIxd2UwMzNzMnlvNzVycXN2dW14In0.J_KSzOY3YGDzozRdHvMJgQ',
        'center':{"lat": sismosdf['CITY_LAT'].mean(), "lon": sismosdf['CITY_LON'].mean()+10},
        'zoom':3,
        'style':'light',
    }
)

Por último sólo queda graficar nuestro dashboard interactivo pero no sin antes recordar las preguntas de negocio a las que debemos dar solución...



1.   ¿Dónde fue ocurrió sismo con mayor intensidad en el año de 1907?

2.   ¿En cuáles estados ocurrieron los sismos de menor intensidad en el año 1929?

3. ¿De qué intensidad promedio fueron los sismos en Atlanta en 1968?

4. ¿Cuál fue la magnitud del sismo de Intensidad 10 de 1971?



In [None]:
fig = go.Figure(data=______, layout=______, frames=_____)
fig.show()

## e) Escalamiento y Codificación de etiquetas

Antes que nada, eliminemos algunas columnas que NO usaremos

In [None]:
sismosdf.drop(['CITY','SOURCE','COUNTRY', 'DAY', 'HOUR','MINUTE','SECOND'], axis=1, inplace=True)
______.head()

Recordemos que nuestra columna STATE es categórica. Usemos la codificación LabelEncoder para transformarla a numérica

Antes que nada debo asegurarme de castear a STR la columna state

In [None]:
sismosdf["STATE"] = [str(sismosdf.iloc[i,5]) for i in range(len(sismosdf))]

Ahora codifiquemos esta columna

In [None]:
le = LabelEncoder()
sismosdf['STATE'] = le.fit_transform(sismosdf.STATE)

In [None]:
_____.head()

Ahora escalemos estas columnas con MinMaxScaler

In [None]:
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_sismos = scaler.fit_transform(sismosdf)

In [None]:
scaled_sismos

# Detección de Outliers

Para estos fines, quitemos algunas columnas

In [None]:
sismosdf.drop(['CITY_LAT','CITY_LON','STATE'], axis=1, inplace=True)

Y visualicemos las tres columnas de interés: MAGNITUDE, EPIDIST y MMI

In [None]:
fig = px.scatter_3d(data_frame=sismosdf,
                    x='MAGNITUDE',
                    y='EPIDIST',
                    z='MMI',
                    color_continuous_scale=px.colors.sequential.Plasma,
                    template='seaborn',
                    title='Visualización de los datos',
                    width=1300,
                    height=500)
fig.update_layout(margin=dict(l=0, r=0, b=0, t=25))
fig.update_traces(marker=dict(size=2),
                  selector=dict(mode='markers'))
pio.show(fig)

Usando el método de Local Outlier Factor (LOF) veamos como identificar visualmente los outliers

In [None]:
clf = LocalOutlierFactor(n_neighbors=5, contamination=0.1)
y_pred = clf.fit_predict(______)

Vemos que nos da la variable y_pred

In [None]:
pd.Series(______)

0        1
1        1
2       -1
3        1
4        1
        ..
89612   -1
89613    1
89614    1
89615    1
89616    1
Length: 89617, dtype: int64

Vamos a visualizar nuestros outliers

In [None]:
sismosdf['OUTLIER'] = y_pred
sismosdf.head()

In [None]:
fig = px.scatter_3d(data_frame=sismosdf,
                    x='MAGNITUDE',
                    y='EPIDIST',
                    z='MMI',
                    color='OUTLIER',
                    color_continuous_scale=px.colors.sequential.Bluered,
                    template='seaborn',
                    title='Visualización de Outliers',
                    width=1300,
                    height=500)
fig.update_layout(margin=dict(l=0, r=0, b=0, t=25))
fig.update_traces(marker=dict(size=2),
                  selector=dict(mode='markers'))
pio.show(fig)