In [18]:
# Importamos módulos necesarios
import sys
import os
import pandas as pd
import importlib

# Añadimos la ruta de src al path
sys.path.append(os.path.abspath("../src"))

# Importamos y recargamos módulos para evitar caché en Jupyter
import data_loader
import column_cleaner
import type_cleaner
import sex_cleaner
import duplicates_cleaner
import country_cleaner
import fatal_cleaner
import time_cleaner

importlib.reload(data_loader)
importlib.reload(column_cleaner)
importlib.reload(type_cleaner)
importlib.reload(sex_cleaner)
importlib.reload(duplicates_cleaner)
importlib.reload(country_cleaner)
importlib.reload(fatal_cleaner)
importlib.reload(time_cleaner)

# Importamos las clases
from data_loader import DataLoader
from column_cleaner import ColumnCleaner
from type_cleaner import TypeCleaner
from sex_cleaner import SexCleaner
from duplicates_cleaner import DuplicatesCleaner
from country_cleaner import CountryCleaner
from fatal_cleaner import FatalCleaner
from time_cleaner import TimeCleaner

# Ruta de entrada y salida
input_file = "../data/raw/GSAF5.xls"
output_file = "../data/processed/GSAF5_cleaned.xlsx"

# 1️⃣ Cargar los datos
loader = DataLoader(input_file)
loader.load_data()
df_original = loader.get_data()  # Guardamos el DataFrame original

# 2️⃣ Limpiar los nombres de las columnas
column_cleaner = ColumnCleaner(df_original)
column_cleaner.clean_columns()
df_cleaned = column_cleaner.get_cleaned_data()  # DataFrame con nombres limpios

# 3️⃣ Mostrar valores únicos de la columna "type" antes de la limpieza
if "type" in df_cleaned.columns:
    print("\n🔹 Valores únicos de 'type' antes de la limpieza:")
    print(df_cleaned["type"].unique())

# 3️⃣ Limpiar la columna "type"
type_cleaner = TypeCleaner(df_cleaned)
type_cleaner.clean_type_column()
df_cleaned = type_cleaner.get_cleaned_data()  # DataFrame con "type" limpio

# 5️⃣ Mostrar valores únicos de 'type' después de la limpieza
if "type" in df_cleaned.columns:
    print("\n🔹 Valores únicos de 'type' después de la limpieza:")
    print(df_cleaned["type"].unique())

# 6️⃣ Mostrar valores únicos de "sex" antes de la limpieza
if "sex" in df_cleaned.columns:
    print("\n🔹 Valores únicos de 'sex' antes de la limpieza:")
    print(df_cleaned["sex"].unique())

# 4️⃣ Limpiar la columna "sex"
sex_cleaner = SexCleaner(df_cleaned)
sex_cleaner.clean_sex_column()
df_cleaned = sex_cleaner.get_cleaned_data()  # DataFrame con "sex" limpio

# 8️⃣ Mostrar valores únicos de "sex" después de la limpieza
if "sex" in df_cleaned.columns:
    print("\n🔹 Valores únicos de 'sex' después de la limpieza:")
    print(df_cleaned["sex"].unique())

# 9️⃣ Mostrar valores únicos de "country" antes de la limpieza
if "country" in df_cleaned.columns:
    print("\n🔹 Valores únicos de 'country' antes de la limpieza:")
    print(df_cleaned["country"].nunique())

# 7️⃣ Limpiar la columna "country"
country_cleaner = CountryCleaner(df_cleaned)
country_cleaner.clean_country_column()
df_cleaned = country_cleaner.get_cleaned_data()  # DataFrame con "country" limpio

# 10️⃣ Mostrar valores únicos de 'country' después de la limpieza
if "country" in df_cleaned.columns:
    print("\n🔹 Valores únicos de 'country' después de la limpieza:")
    print(df_cleaned["country"].nunique())

# 11️⃣ Mostrar valores únicos de "fatal_y/n" antes de la limpieza
if "fatal_y/n" in df_cleaned.columns:
    print("\n🔹 Valores únicos de 'fatal_y/n' antes de la limpieza:")
    print(df_cleaned["fatal_y/n"].unique())

# 12️⃣ Limpiar la columna "fatal_y/n"
fatal_cleaner = FatalCleaner(df_cleaned)
fatal_cleaner.clean_fatal_column()
df_cleaned = fatal_cleaner.get_cleaned_data()  # DataFrame con "fatal" limpio

# 13️⃣ Mostrar valores únicos de 'fatal' después de la limpieza
if "fatal" in df_cleaned.columns:
    print("\n🔹 Valores únicos de 'fatal' después de la limpieza:")
    print(df_cleaned["fatal"].unique())

# 14️⃣ Mostrar valores únicos de "time" antes de la limpieza
if "time" in df_cleaned.columns:
    print("\n🔹 Valores únicos de 'time' antes de la limpieza:")
    print(df_cleaned["time"].unique())

# 15️⃣ Limpiar la columna "time"
time_cleaner = TimeCleaner(df_cleaned)
time_cleaner.clean_time_column()
df_cleaned = time_cleaner.get_cleaned_data()  # DataFrame con "time" limpio

# 16️⃣ Mostrar valores únicos de 'time' después de la limpieza
if "time" in df_cleaned.columns:
    print("\n🔹 Valores únicos de 'time' después de la limpieza:")
    print(df_cleaned["time"].unique())

# 5️⃣ Eliminar duplicados en "case_number"
duplicates_cleaner = DuplicatesCleaner(df_cleaned)
duplicates_cleaner.remove_duplicates()
df_final = duplicates_cleaner.get_cleaned_data()  # DataFrame sin duplicados

# 6️⃣ Guardar los datos procesados con nombres de columnas, "type", "sex", "country", "fatal", "time" y sin duplicados
duplicates_cleaner.save_cleaned_data(output_file)

✅ Datos cargados correctamente desde ../data/raw/GSAF5.xls
✅ Nombres de columnas limpiados.

🔹 Valores únicos de 'type' antes de la limpieza:
['Unprovoked' 'Provoked' ' Provoked' 'Questionable' 'Watercraft'
 'Sea Disaster' nan '?' 'Unconfirmed' 'Unverified' 'Invalid'
 'Under investigation' 'Boat']
✅ Columna 'type' limpiada.

🔹 Valores únicos de 'type' después de la limpieza:
['Unprovoked' 'Provoked' 'Questionable' 'Watercraft' 'Sea Disaster' None
 'Boat']

🔹 Valores únicos de 'sex' antes de la limpieza:
['F' 'M' nan ' M' 'M ' 'lli' 'M x 2' 'N' '.']
✅ Columna 'sex' limpiada.

🔹 Valores únicos de 'sex' después de la limpieza:
['F' 'M' None]

🔹 Valores únicos de 'country' antes de la limpieza:
239
✅ Columna 'country' limpiada.

🔹 Valores únicos de 'country' después de la limpieza:
172

🔹 Valores únicos de 'fatal_y/n' antes de la limpieza:
['N' 'Y' 'F' 'M' nan 'n' 'Nq' 'UNKNOWN' 2017 'Y x 2' ' N' 'N ' 'y']
✅ Columna 'fatal' limpiada.

🔹 Valores únicos de 'fatal' después de la limpieza:
[0.