In [11]:
# Importamos módulos necesarios
import sys
import os
import pandas as pd

# Añadimos la ruta de src al path
sys.path.append(os.path.abspath("../src"))

# Importamos las clases necesarias
from data_loader import DataLoader
from column_cleaner import ColumnCleaner
from type_cleaner import TypeCleaner

# Ruta de entrada y salida
input_file = "../data/raw/GSAF5.xls"
output_file = "../data/processed/GSAF5_cleaned.xlsx"

# 1️⃣ Cargar los datos
loader = DataLoader(input_file)
loader.load_data()
df_original = loader.get_data()  # Guardamos el DataFrame original

# 2️⃣ Limpiar los nombres de las columnas
column_cleaner = ColumnCleaner(df_original)
column_cleaner.clean_columns()
df_cleaned = column_cleaner.get_cleaned_data()  # DataFrame con nombres limpios

# 3️⃣ Mostrar valores únicos de la columna "type" antes de la limpieza
if "type" in df_cleaned.columns:
    print("\n🔹 Valores únicos de 'type' antes de la limpieza:")
    print(df_cleaned["type"].unique())

# 4️⃣ Limpiar la columna "type"
type_cleaner = TypeCleaner(df_cleaned)
type_cleaner.clean_type_column()
df_final = type_cleaner.get_cleaned_data()  # DataFrame con "type" limpio

# 5️⃣ Mostrar valores únicos de "type" después de la limpieza
if "type" in df_final.columns:
    print("\n🔹 Valores únicos de 'type' después de la limpieza:")
    print(df_final["type"].unique())

# 6️⃣ Guardar los datos procesados con nombres de columnas y "type" corregidos
type_cleaner.save_cleaned_data(output_file)


✅ Datos cargados correctamente desde ../data/raw/GSAF5.xls
✅ Nombres de columnas limpiados.

🔹 Valores únicos de 'type' antes de la limpieza:
['Unprovoked' 'Provoked' ' Provoked' 'Questionable' 'Watercraft'
 'Sea Disaster' nan '?' 'Unconfirmed' 'Unverified' 'Invalid'
 'Under investigation' 'Boat']
✅ Columna 'type' limpiada.

🔹 Valores únicos de 'type' después de la limpieza:
['Unprovoked' 'Provoked' 'Questionable' 'Watercraft' 'Sea Disaster' None
 'Boat']
✅ Datos limpios guardados en ../data/processed/GSAF5_cleaned.xlsx
