# Cargar dataset

In [4]:
import pandas as pd
import numpy as np

In [46]:
import kaggle

# Autenticarte con la API de Kaggle
kaggle.api.authenticate()

# Descargar el conjunto de datos en la carpeta 'datasets'
kaggle.api.dataset_download_files('alessandrolobello/the-ultimate-earthquake-dataset-from-1990-2023', path=r'C:\Carrera de Datos\Data Scientist\Espacio para bases muy pesadas', unzip=True)

In [102]:
df = pd.read_csv(r'C:\Carrera de Datos\Data Scientist\Espacio para bases muy pesadas\Eartquakes-1990-2023.csv')

In [103]:
# Llenar datos vacios del df con una cadena vacia para no tener problemas con aspectos del df

df.fillna('', inplace=True)

In [104]:
df.rename(columns={'time':'tiempo_ms', 'place':'lugar', 'data_type':'tipo', 'significance':'impacto', 'magnitudo':'magnitud_Richter', 'state':'estado'}, inplace=True)

In [105]:
# Quitar espacios inncesarios de las columnas a estratificar (más adelante) y tratar de normalizar más la información:
df['estado'] = df['estado'].str.strip().str.lower()
df['tipo'] = df['tipo'].str.strip().str.lower()

In [106]:
df.columns

Index(['tiempo_ms', 'lugar', 'status', 'tsunami', 'impacto', 'tipo',
       'magnitud_Richter', 'estado', 'longitude', 'latitude', 'depth', 'date'],
      dtype='object')

In [109]:
df.dtypes

tiempo_ms             int64
lugar                object
status               object
tsunami               int64
impacto               int64
tipo                 object
magnitud_Richter    float64
estado               object
longitude           float64
latitude            float64
depth               float64
date                 object
dtype: object

In [110]:
df.head(3)

Unnamed: 0,tiempo_ms,lugar,status,tsunami,impacto,tipo,magnitud_Richter,estado,longitude,latitude,depth,date
0,631153353990,"12 km NNW of Meadow Lakes, Alaska",reviewed,0,96,earthquake,2.5,alaska,-149.6692,61.7302,30.1,1990-01-01 00:22:33.990000+00:00
1,631153491210,"14 km S of Volcano, Hawaii",reviewed,0,31,earthquake,1.41,hawaii,-155.212333,19.317667,6.585,1990-01-01 00:24:51.210000+00:00
2,631154083450,"7 km W of Cobb, California",reviewed,0,19,earthquake,1.11,california,-122.806167,38.821,3.22,1990-01-01 00:34:43.450000+00:00


Validar tamaño del dataset original, para contrarrestarlo más adelante con el tamaño de cada una de las muestras:

In [111]:
df.shape

(3445751, 12)

# Funciones de muestreo

## 1) Muestreo alaeatorio simple

In [112]:
muestra_aleatoria_n_datos = df.sample(n=20)

In [113]:
muestra_aleatoria_n_datos.shape

(20, 12)

In [114]:
muestra_aleatoria_n_datos.head(3)

Unnamed: 0,tiempo_ms,lugar,status,tsunami,impacto,tipo,magnitud_Richter,estado,longitude,latitude,depth,date
2768762,1553686027380,"9km ESE of Black Point-Green Point, CA",reviewed,0,126,earthquake,2.79,california,-122.413333,38.091167,10.94,2019-03-27 11:27:07.380000+00:00
3389829,1678392820140,"100 km W of Adak, Alaska",reviewed,0,2,earthquake,0.4,alaska,-178.0885,51.865,3.91,2023-03-09 20:13:40.140000+00:00
1147237,1107592363770,"176 km WSW of Tofino, Canada",reviewed,0,211,earthquake,3.7,canada,-128.128,48.533,10.0,2005-02-05 08:32:43.770000+00:00


Acceder a fracción aleatoria de una muestra (descrita de forma porcentual):

In [115]:
muestra_porcentual = df.sample(frac=0.05)

In [116]:
muestra_porcentual.shape

(172288, 12)

In [117]:
muestra_porcentual.head(3)

Unnamed: 0,tiempo_ms,lugar,status,tsunami,impacto,tipo,magnitud_Richter,estado,longitude,latitude,depth,date
1436506,1198688417270,"128 km S of Punta de Burica, Panama",reviewed,0,298,earthquake,4.4,panama,-82.757,6.875,10.0,2007-12-26 17:00:17.270000+00:00
714621,961378916430,"4km SSE of Idyllwild, California",reviewed,0,19,earthquake,1.1,california,-116.708833,33.705167,18.013,2000-06-19 01:41:56.430000+00:00
696162,953671381839,"35 km ESE of Pedro Bay, Alaska",reviewed,0,62,earthquake,2.0,alaska,-153.4979,59.6922,119.5,2000-03-21 20:43:01.839000+00:00


## 2) Muestro sistemático

In [118]:
# Función para hacer el muestro sistemático:

def muestreo_sistematico(df,step):
    indices = np.arange(0, len(df), step=step)
    muestreo_sistematico = df.iloc[indices]
    return muestreo_sistematico

Para una explicación detallada de la función anterior, consulte la [explicación paso a paso](./Explicación%20funciones%20y%20más/muestreo_sistematico.md).

In [119]:
muestra_sistemática = muestreo_sistematico(df,50)

In [121]:
muestra_sistemática.shape

(68916, 12)

In [122]:
muestra_sistemática.head(3)

Unnamed: 0,tiempo_ms,lugar,status,tsunami,impacto,tipo,magnitud_Richter,estado,longitude,latitude,depth,date
0,631153353990,"12 km NNW of Meadow Lakes, Alaska",reviewed,0,96,earthquake,2.5,alaska,-149.6692,61.7302,30.1,1990-01-01 00:22:33.990000+00:00
50,631176629110,"7 km WSW of Mammoth Lakes, California",reviewed,0,4,earthquake,0.52,california,-119.0515,37.626333,4.161,1990-01-01 06:50:29.110000+00:00
100,631210705520,"37 km NNE of Amboy, Washington",reviewed,0,1,earthquake,0.2,washington,-122.1915,46.200333,3.327,1990-01-01 16:18:25.520000+00:00


## 3) Muestreo estratificado

El muestro estratificado consiste en calcular propocionalmente la participación de variables categoricas en nuestra dataset, con el fin de crear una muestra con las mismas proporciones pero más pequeña.

In [123]:
# Identificar las columnas y seleccionar la o las variables para crear la estratificación:
df.columns

Index(['tiempo_ms', 'lugar', 'status', 'tsunami', 'impacto', 'tipo',
       'magnitud_Richter', 'estado', 'longitude', 'latitude', 'depth', 'date'],
      dtype='object')

In [124]:
# validar tipos de datos a concatenar, ya que no se puede concatenar por ejemplo un numero con un texto si no se ajusta en la función ".astype(str)":

df.dtypes

tiempo_ms             int64
lugar                object
status               object
tsunami               int64
impacto               int64
tipo                 object
magnitud_Richter    float64
estado               object
longitude           float64
latitude            float64
depth               float64
date                 object
dtype: object

In [125]:
# En mi caso voy a seleccionar la variable de "estado" y "tipo" que nos indica el lugar del terremoto más el evento.

df['estratificado'] = df['estado'] + ', ' + df['tipo']

In [126]:
df.head(3)

Unnamed: 0,tiempo_ms,lugar,status,tsunami,impacto,tipo,magnitud_Richter,estado,longitude,latitude,depth,date,estratificado
0,631153353990,"12 km NNW of Meadow Lakes, Alaska",reviewed,0,96,earthquake,2.5,alaska,-149.6692,61.7302,30.1,1990-01-01 00:22:33.990000+00:00,"alaska, earthquake"
1,631153491210,"14 km S of Volcano, Hawaii",reviewed,0,31,earthquake,1.41,hawaii,-155.212333,19.317667,6.585,1990-01-01 00:24:51.210000+00:00,"hawaii, earthquake"
2,631154083450,"7 km W of Cobb, California",reviewed,0,19,earthquake,1.11,california,-122.806167,38.821,3.22,1990-01-01 00:34:43.450000+00:00,"california, earthquake"


In [127]:
# Calcular participación porcentual de la estratificación creada:
porcentaje = (df['estratificado'].value_counts() / len(df) * 100).sort_values(ascending=False)
porcentaje = porcentaje.map("{:.2f}%".format)  # Esto formateará los valores como cadenas con 2 decimales seguidos del símbolo '%'.
print(porcentaje)

california, earthquake                                                38.43%
alaska, earthquake                                                    21.96%
nevada, earthquake                                                     5.12%
hawaii, earthquake                                                     3.63%
washington, earthquake                                                 2.12%
utah, earthquake                                                       1.64%
montana, earthquake                                                    1.50%
indonesia, earthquake                                                  1.41%
puerto rico, earthquake                                                1.34%
chile, earthquake                                                      1.08%
california, quarry blast                                               0.98%
greece, earthquake                                                     0.89%
japan, earthquake                                                      0.84%

In [131]:
porcentaje.to_excel("distribuciones.xlsx")

In [129]:
# Definir tamaño de la muestra deseada:

tasa_muestra = 0.20
tamaño_muestra = int(len(df) * tasa_muestra)

In [130]:
def data_estratificada(df, nombres_columnas_estrat, valores_estrat, prop_estrat, tamaño_muestra, random_state=None):
    df_estrat = pd.DataFrame(columns=df.columns)

    for i in range(len(valores_estrat)):
        if i == len(valores_estrat) - 1:
            ratio_len = tamaño_muestra - len(df_estrat)
        else:
            ratio_len = int(tamaño_muestra * prop_estrat[i])

        df_filtrato = df[df[nombres_columnas_estrat] == valores_estrat[i]]
        df_temp = df_filtrato.sample(n=ratio_len, random_state=random_state)

        df_estrat = pd.concat([df_estrat, df_temp], ignore_index=True)

    return df_estrat

In [132]:
# categorias a estratificar de acuerdo a la distribución analizada:

valores_estrat = ['california, earthquake', 'alaska, earthquake', 'nevada, earthquake', 'hawaii, earthquake', 'washington, earthquake', 'utah, earthquake', 'montana, earthquake', 'indonesia, earthquake', 'puerto rico, earthquake', 'chile, earthquake']
prop_estrat = [0.43,0.25,0.08,0.05,0.04,0.03,0.03,0.03,0.03,0.03]
df_estrat = data_estratificada(df, 'estratificado', valores_estrat, prop_estrat, tamaño_muestra, random_state=42)

In [133]:
df_estrat.head(5)

Unnamed: 0,tiempo_ms,lugar,status,tsunami,impacto,tipo,magnitud_Richter,estado,longitude,latitude,depth,date,estratificado
0,745158364180,"15 km WSW of Aspen Springs, California",reviewed,0,60,earthquake,1.97,california,-118.882667,37.511,1.172,1993-08-12 12:26:04.180000+00:00,"california, earthquake"
1,878229368180,"16km E of Coso Junction, California",reviewed,0,58,earthquake,1.94,california,-117.771,36.033,-0.003,1997-10-30 16:36:08.180000+00:00,"california, earthquake"
2,1221733177870,"17 km NE of Mineral, California",reviewed,0,2,earthquake,0.35,california,-121.469833,40.467333,2.025,2008-09-18 10:19:37.870000+00:00,"california, earthquake"
3,674208941700,"4 km W of Mammoth Lakes, California",reviewed,0,24,earthquake,1.25,california,-119.024333,37.647167,-0.778,1991-05-14 08:15:41.700000+00:00,"california, earthquake"
4,1035444405040,"5 km W of Cobb, California",reviewed,0,12,earthquake,0.89,california,-122.7915,38.818333,0.774,2002-10-24 07:26:45.040000+00:00,"california, earthquake"


In [136]:
df_estrat.shape

(689150, 13)

# Validar que se respeten las distribuciones planteadas:

In [137]:
porcentaje2 = (df_estrat['estratificado'].value_counts() / len(df_estrat) * 100).sort_values(ascending=False)
porcentaje2 = porcentaje2.map("{:.2f}%".format)  # Esto formateará los valores como cadenas con 2 decimales seguidos del símbolo '%'.
print(porcentaje2)

california, earthquake     43.00%
alaska, earthquake         25.00%
nevada, earthquake          8.00%
hawaii, earthquake          5.00%
washington, earthquake      4.00%
chile, earthquake           3.00%
utah, earthquake            3.00%
montana, earthquake         3.00%
indonesia, earthquake       3.00%
puerto rico, earthquake     3.00%
Name: estratificado, dtype: object


# Conclusiones

Cada muestra cumple con los criterios establecidos, de esta menera podemos crear diferentes muestras de un conjunto de datos más grande para poder tratarlos de forma efectiva.