In [18]:
# Importamos m√≥dulos necesarios
import sys
import os
import pandas as pd
import importlib

# A√±adimos la ruta de src al path
sys.path.append(os.path.abspath("../src"))

# Importamos y recargamos m√≥dulos para evitar cach√© en Jupyter
import data_loader
import column_cleaner
import type_cleaner
import sex_cleaner
import duplicates_cleaner
import country_cleaner
import fatal_cleaner
import time_cleaner

importlib.reload(data_loader)
importlib.reload(column_cleaner)
importlib.reload(type_cleaner)
importlib.reload(sex_cleaner)
importlib.reload(duplicates_cleaner)
importlib.reload(country_cleaner)
importlib.reload(fatal_cleaner)
importlib.reload(time_cleaner)

# Importamos las clases
from data_loader import DataLoader
from column_cleaner import ColumnCleaner
from type_cleaner import TypeCleaner
from sex_cleaner import SexCleaner
from duplicates_cleaner import DuplicatesCleaner
from country_cleaner import CountryCleaner
from fatal_cleaner import FatalCleaner
from time_cleaner import TimeCleaner

# Ruta de entrada y salida
input_file = "../data/raw/GSAF5.xls"
output_file = "../data/processed/GSAF5_cleaned.xlsx"

# 1Ô∏è‚É£ Cargar los datos
loader = DataLoader(input_file)
loader.load_data()
df_original = loader.get_data()  # Guardamos el DataFrame original

# 2Ô∏è‚É£ Limpiar los nombres de las columnas
column_cleaner = ColumnCleaner(df_original)
column_cleaner.clean_columns()
df_cleaned = column_cleaner.get_cleaned_data()  # DataFrame con nombres limpios

# 3Ô∏è‚É£ Mostrar valores √∫nicos de la columna "type" antes de la limpieza
if "type" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'type' antes de la limpieza:")
    print(df_cleaned["type"].unique())

# 3Ô∏è‚É£ Limpiar la columna "type"
type_cleaner = TypeCleaner(df_cleaned)
type_cleaner.clean_type_column()
df_cleaned = type_cleaner.get_cleaned_data()  # DataFrame con "type" limpio

# 5Ô∏è‚É£ Mostrar valores √∫nicos de 'type' despu√©s de la limpieza
if "type" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'type' despu√©s de la limpieza:")
    print(df_cleaned["type"].unique())

# 6Ô∏è‚É£ Mostrar valores √∫nicos de "sex" antes de la limpieza
if "sex" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'sex' antes de la limpieza:")
    print(df_cleaned["sex"].unique())

# 4Ô∏è‚É£ Limpiar la columna "sex"
sex_cleaner = SexCleaner(df_cleaned)
sex_cleaner.clean_sex_column()
df_cleaned = sex_cleaner.get_cleaned_data()  # DataFrame con "sex" limpio

# 8Ô∏è‚É£ Mostrar valores √∫nicos de "sex" despu√©s de la limpieza
if "sex" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'sex' despu√©s de la limpieza:")
    print(df_cleaned["sex"].unique())

# 9Ô∏è‚É£ Mostrar valores √∫nicos de "country" antes de la limpieza
if "country" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'country' antes de la limpieza:")
    print(df_cleaned["country"].nunique())

# 7Ô∏è‚É£ Limpiar la columna "country"
country_cleaner = CountryCleaner(df_cleaned)
country_cleaner.clean_country_column()
df_cleaned = country_cleaner.get_cleaned_data()  # DataFrame con "country" limpio

# 10Ô∏è‚É£ Mostrar valores √∫nicos de 'country' despu√©s de la limpieza
if "country" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'country' despu√©s de la limpieza:")
    print(df_cleaned["country"].nunique())

# 11Ô∏è‚É£ Mostrar valores √∫nicos de "fatal_y/n" antes de la limpieza
if "fatal_y/n" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'fatal_y/n' antes de la limpieza:")
    print(df_cleaned["fatal_y/n"].unique())

# 12Ô∏è‚É£ Limpiar la columna "fatal_y/n"
fatal_cleaner = FatalCleaner(df_cleaned)
fatal_cleaner.clean_fatal_column()
df_cleaned = fatal_cleaner.get_cleaned_data()  # DataFrame con "fatal" limpio

# 13Ô∏è‚É£ Mostrar valores √∫nicos de 'fatal' despu√©s de la limpieza
if "fatal" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'fatal' despu√©s de la limpieza:")
    print(df_cleaned["fatal"].unique())

# 14Ô∏è‚É£ Mostrar valores √∫nicos de "time" antes de la limpieza
if "time" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'time' antes de la limpieza:")
    print(df_cleaned["time"].unique())

# 15Ô∏è‚É£ Limpiar la columna "time"
time_cleaner = TimeCleaner(df_cleaned)
time_cleaner.clean_time_column()
df_cleaned = time_cleaner.get_cleaned_data()  # DataFrame con "time" limpio

# 16Ô∏è‚É£ Mostrar valores √∫nicos de 'time' despu√©s de la limpieza
if "time" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'time' despu√©s de la limpieza:")
    print(df_cleaned["time"].unique())

# 5Ô∏è‚É£ Eliminar duplicados en "case_number"
duplicates_cleaner = DuplicatesCleaner(df_cleaned)
duplicates_cleaner.remove_duplicates()
df_final = duplicates_cleaner.get_cleaned_data()  # DataFrame sin duplicados

# 6Ô∏è‚É£ Guardar los datos procesados con nombres de columnas, "type", "sex", "country", "fatal", "time" y sin duplicados
duplicates_cleaner.save_cleaned_data(output_file)

‚úÖ Datos cargados correctamente desde ../data/raw/GSAF5.xls
‚úÖ Nombres de columnas limpiados.

üîπ Valores √∫nicos de 'type' antes de la limpieza:
['Unprovoked' 'Provoked' ' Provoked' 'Questionable' 'Watercraft'
 'Sea Disaster' nan '?' 'Unconfirmed' 'Unverified' 'Invalid'
 'Under investigation' 'Boat']
‚úÖ Columna 'type' limpiada.

üîπ Valores √∫nicos de 'type' despu√©s de la limpieza:
['Unprovoked' 'Provoked' 'Questionable' 'Watercraft' 'Sea Disaster' None
 'Boat']

üîπ Valores √∫nicos de 'sex' antes de la limpieza:
['F' 'M' nan ' M' 'M ' 'lli' 'M x 2' 'N' '.']
‚úÖ Columna 'sex' limpiada.

üîπ Valores √∫nicos de 'sex' despu√©s de la limpieza:
['F' 'M' None]

üîπ Valores √∫nicos de 'country' antes de la limpieza:
239
‚úÖ Columna 'country' limpiada.

üîπ Valores √∫nicos de 'country' despu√©s de la limpieza:
172

üîπ Valores √∫nicos de 'fatal_y/n' antes de la limpieza:
['N' 'Y' 'F' 'M' nan 'n' 'Nq' 'UNKNOWN' 2017 'Y x 2' ' N' 'N ' 'y']
‚úÖ Columna 'fatal' limpiada.

üîπ Valores