In [36]:
"""
Plantilla de Análisis de Datos con Pandas y Seaborn
Autor: Jesús Erro
Fecha: 2025-02-10
"""

import pandas as pd
import importlib

try:
    import cleaning as c  # Importamos el módulo de limpieza
    importlib.reload(c)  # Recargamos en caso de cambios
except ImportError:
    print("❌ Error: No se pudo importar 'cleaning.py'. Verifica que el archivo está en el mismo directorio.")

# Instanciamos el procesador de datos
p = c.DataProcessor("data/GSAF5.xls")

# Cargamos y limpiamos los datos
p.load_data()
p.clean_columns()
p.show_head(3)

categorical_columns = p.categorical_columns()
numerical_columns = p.numerical_columns()

print("\nColumnas categóricas:", categorical_columns)
print("Columnas numéricas:", numerical_columns)

p.unique_values()


✅ Fichero data/GSAF5.xls cargados correctamente.
✅ Columnas limpiadas.

Columnas categóricas: Index(['date', 'type', 'country', 'state', 'location', 'activity', 'name',
       'sex', 'age', 'injury', 'fatal_y/n', 'time', 'species_', 'source',
       'pdf', 'href_formula', 'href', 'case_number', 'case_number.1',
       'unnamed:_21', 'unnamed:_22'],
      dtype='object')
Columnas numéricas: Index(['year', 'original_order'], dtype='object')
Columna: date
[datetime.datetime(2025, 2, 7, 0, 0) datetime.datetime(2025, 2, 3, 0, 0)
 datetime.datetime(2025, 1, 23, 0, 0) ... '1900-1905' '1883-1889'
 '1845-1853']
--------------------------------------------------
Columna: type
['Unprovoked' 'Provoked' ' Provoked' 'Questionable' 'Watercraft'
 'Sea Disaster' nan '?' 'Unconfirmed' 'Unverified' 'Invalid'
 'Under investigation' 'Boat']
--------------------------------------------------
Columna: country
['Turks and Caicos' 'Australia' 'USA' 'New Caledonia' 'Egypt' 'Thailand'
 'New Zealand' 'Maldives' '