In [None]:
import pandas as pd
import os

##########################################################
# Mostramos las tablas con todas sus columnas seguidas
pd.set_option('display.max_columns', None)      # Mostrar todas las columnas
pd.set_option('display.max_colwidth', None)     # Sin límite en ancho de columna
pd.set_option('display.expand_frame_repr', False)  # No dividir el dataframe en varias líneas
pd.set_option('display.width', 0)               # Ajusta el ancho a la ventana del terminal
##########################################################

# Cargar dataset
df = pd.read_csv('../data/raw/global_earthquakes_10y.csv')

print(df.head(20))

In [None]:
print("## Tamaño del df:", df.shape)
print("## Tipos de datos del df:", df.dtypes)
print("## Suma de nulos por columna:", df.isnull().sum())

In [None]:
# Ramgos

# mostrar el rango de la columna mag
min_mag = df['mag'].min()
max_mag = df['mag'].max()
print("## Rango de magnitudes:", min_mag, "a", max_mag) # >0 y <10

# Rango de Lat, Lon

# mostrar el rango de Lat, Lon
min_lat = df['latitude'].min()
max_lat = df['latitude'].max()
print("## Rango Latitude:", min_lat, "a", max_lat) # >-90 y <90

min_lon = df['longitude'].min()
max_lon = df['longitude'].max()
print("## Rango Longitud:", min_lon, "a", max_lon) # >-180 y <180

In [None]:
# Valores extremos de cualquier columna numérica
numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns   
for col in numeric_cols:
    min_val = df[col].min()
    max_val = df[col].max()
    print(f"## Rango de {col}: {min_val} a {max_val}")      

# Estadísticas descriptivas
print("## Estadísticas descriptivas:")  
print(df.describe())    


In [None]:
# Conteo de actualizaciones por ID
updated_counts = df.groupby('id')['updated'].count()
print("## Conteo de actualizaciones por ID:")
print(updated_counts)

# identificar ids con más de una actualización
duplicate_ids = updated_counts[updated_counts > 1]
print("## IDs con más de una actualización:")
print(duplicate_ids)

# explorar las filas con ids duplicados
if not duplicate_ids.empty:
    duplicate_rows = df[df['id'].isin(duplicate_ids.index)]
    print("## Filas con IDs duplicados:")
    print(duplicate_rows)   
else:
    print("## No hay IDs duplicados.")  

# Verificar si hay filas duplicadas completas
duplicate_rows_full = df[df.duplicated()]
print("## Filas duplicadas completas:")
print(duplicate_rows_full)
if duplicate_rows_full.empty:
    print("## No hay filas duplicadas completas.")
else:
    print("## Hay filas duplicadas completas.") 

# Verificar si hay filas con la misma latitud, longitud y tiempo
duplicate_location_time = df[df.duplicated(subset=['latitude', 'longitude', 'time'])]
print("## Filas con misma latitud, longitud y tiempo:")
print(duplicate_location_time)
if duplicate_location_time.empty:
    print("## No hay filas con misma latitud, longitud y tiempo.")  
else:
    print("## Hay filas con misma latitud, longitud y tiempo.")     
