In [None]:
import pandas as pd
import os

##########################################################
# Mostramos las tablas con todas sus columnas seguidas
pd.set_option('display.max_columns', None)      # Mostrar todas las columnas
pd.set_option('display.max_colwidth', None)     # Sin límite en ancho de columna
pd.set_option('display.expand_frame_repr', False)  # No dividir el dataframe en varias líneas
pd.set_option('display.width', 0)               # Ajusta el ancho a la ventana del terminal
##########################################################

# Cargar dataset
df = pd.read_csv('../data/raw/global_earthquakes_10y.csv')

print(df.head(20))

                                time  latitude   longitude   depth   mag magType   nst    gap     dmin   rms net          id                   updated                                  place        type  horizontalError  depthError  magError  magNst    status locationSource magSource
0   2015-12-30 23:20:56.840000+00:00    0.0229  123.819400  143.05  4.60      mb   NaN   51.0   1.4880  0.83  us  us10004aif  2016-03-18T01:13:08.040Z      101 km SE of Gorontalo, Indonesia  earthquake             6.40        6.70     0.083    43.0  reviewed             us        us
1   2015-12-30 21:29:23.040000+00:00  -30.6777  -71.734600   25.62  4.50      mb   NaN  180.0   0.0850  0.94  us  us10004ahx  2016-03-18T01:13:08.040Z               52 km W of Ovalle, Chile  earthquake             3.90        5.40     0.192     8.0  reviewed             us        us
2   2015-12-30 19:50:48.210000+00:00  -40.5641  173.421900  142.40  4.60      mb   NaN   65.0   0.6530  0.70  us  us10004agf  2022-08-02T02:00:26.95

In [14]:
print("## Tamaño del df:", df.shape)
print("## Tipos de datos del df:", df.dtypes)
print("## Suma de nulos por columna:", df.isnull().sum())

## Tamaño del df: (80829, 22)
## Tipos de datos del df: time                object
latitude           float64
longitude          float64
depth              float64
mag                float64
magType             object
nst                float64
gap                float64
dmin               float64
rms                float64
net                 object
id                  object
updated             object
place               object
type                object
horizontalError    float64
depthError         float64
magError           float64
magNst             float64
status              object
locationSource      object
magSource           object
dtype: object
## Suma de nulos por columna: time                   0
latitude               0
longitude              0
depth                  0
mag                    0
magType                0
nst                53469
gap                  690
dmin                 733
rms                    2
net                    0
id                     0
update

In [None]:
# Ramgos

# mostrar el rango de la columna mag
min_mag = df['mag'].min()
max_mag = df['mag'].max()
print("## Rango de magnitudes:", min_mag, "a", max_mag) # >0 y <10

# Rango de Lat, Lon

# mostrar el rango de Lat, Lon
min_lat = df['latitude'].min()
max_lat = df['latitude'].max()
print("## Rango Latitude:", min_lat, "a", max_lat) # >-90 y <90

min_lon = df['longitude'].min()
max_lon = df['longitude'].max()
print("## Rango Longitud:", min_lon, "a", max_lon) # >-180 y <180

## Rango de magnitudes: 4.5 a 8.8
## Rango Latitude: -79.9837 a 87.386
## Rango Longitud: -179.9997 a 179.9993


In [21]:
# Valores extremos de cualquier columna numérica
numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns   
for col in numeric_cols:
    min_val = df[col].min()
    max_val = df[col].max()
    print(f"## Rango de {col}: {min_val} a {max_val}")      

# Estadísticas descriptivas
print("## Estadísticas descriptivas:")  
print(df.describe())    


## Rango de latitude: -79.9837 a 87.386
## Rango de longitude: -179.9997 a 179.9993
## Rango de depth: -1.01 a 683.36
## Rango de mag: 4.5 a 8.8
## Rango de nst: 0.0 a 619.0
## Rango de gap: 7.0 a 348.0
## Rango de dmin: 0.0 a 62.626
## Rango de rms: 0.0 a 2.82
## Rango de horizontalError: 0.0 a 51.7
## Rango de depthError: 0.0 a 61.9
## Rango de magError: 0.0 a 0.91
## Rango de magNst: 0.0 a 1027.0
## Estadísticas descriptivas:
           latitude     longitude         depth           mag           nst           gap          dmin           rms  horizontalError    depthError      magError        magNst
count  80829.000000  80829.000000  80829.000000  80829.000000  27360.000000  80139.000000  80096.000000  80827.000000     80428.000000  80829.000000  78596.000000  78783.000000
mean      -0.525363     36.582477     62.099890      4.804183     69.063962     92.480061      4.382253      0.784162         8.421941      3.850589      0.094425     59.930658
std       30.426980    122.613140   

In [26]:
# Conteo de actualizaciones por ID
updated_counts = df.groupby('id')['updated'].count()
print("## Conteo de actualizaciones por ID:")
print(updated_counts)

# identificar ids con más de una actualización
duplicate_ids = updated_counts[updated_counts > 1]
print("## IDs con más de una actualización:")
print(duplicate_ids)

# explorar las filas con ids duplicados
if not duplicate_ids.empty:
    duplicate_rows = df[df['id'].isin(duplicate_ids.index)]
    print("## Filas con IDs duplicados:")
    print(duplicate_rows)   
else:
    print("## No hay IDs duplicados.")  

# Verificar si hay filas duplicadas completas
duplicate_rows_full = df[df.duplicated()]
print("## Filas duplicadas completas:")
print(duplicate_rows_full)
if duplicate_rows_full.empty:
    print("## No hay filas duplicadas completas.")
else:
    print("## Hay filas duplicadas completas.") 

# Verificar si hay filas con la misma latitud, longitud y tiempo
duplicate_location_time = df[df.duplicated(subset=['latitude', 'longitude', 'time'])]
print("## Filas con misma latitud, longitud y tiempo:")
print(duplicate_location_time)
if duplicate_location_time.empty:
    print("## No hay filas con misma latitud, longitud y tiempo.")  
else:
    print("## Hay filas con misma latitud, longitud y tiempo.")     


## Conteo de actualizaciones por ID:
id
aacse0198bme8d8    1
ak01529eirts       1
ak0152xyw58h       1
ak01549xx0v9       1
ak0155aai4oy       1
                  ..
uu60364832         1
uw61114971         1
uw61535372         1
uw61562126         1
uw62078906         1
Name: updated, Length: 80829, dtype: int64
## IDs con más de una actualización:
Series([], Name: updated, dtype: int64)
## No hay IDs duplicados.
## Filas duplicadas completas:
Empty DataFrame
Columns: [time, latitude, longitude, depth, mag, magType, nst, gap, dmin, rms, net, id, updated, place, type, horizontalError, depthError, magError, magNst, status, locationSource, magSource]
Index: []
## No hay filas duplicadas completas.
## Filas con misma latitud, longitud y tiempo:
                                   time  latitude  longitude  depth  mag magType  nst  gap  dmin   rms net            id                   updated                                place        type  horizontalError  depthError  magError  magNst    sta