In [None]:
# Importamos m√≥dulos necesarios
import sys
import os
import pandas as pd
import importlib

# A√±adimos la ruta de src al path
sys.path.append(os.path.abspath("../src"))

# Importamos y recargamos m√≥dulos para evitar cach√© en Jupyter
import data_loader
import column_cleaner
import type_cleaner
import sex_cleaner
import duplicates_cleaner
import country_cleaner
import fatal_cleaner
import time_cleaner
import species_cleaner
import year_cleaner
import activity_cleaner

importlib.reload(data_loader)
importlib.reload(column_cleaner)
importlib.reload(type_cleaner)
importlib.reload(sex_cleaner)
importlib.reload(duplicates_cleaner)
importlib.reload(country_cleaner)
importlib.reload(fatal_cleaner)
importlib.reload(time_cleaner)
importlib.reload(species_cleaner)
importlib.reload(year_cleaner)
importlib.reload(activity_cleaner)

# Importamos las clases
from data_loader import DataLoader
from column_cleaner import ColumnCleaner
from type_cleaner import TypeCleaner
from sex_cleaner import SexCleaner
from duplicates_cleaner import DuplicatesCleaner
from country_cleaner import CountryCleaner
from fatal_cleaner import FatalCleaner
from time_cleaner import TimeCleaner
from species_cleaner import SpeciesCleaner
from year_cleaner import YearCleaner
from activity_cleaner import ActivityCleaner

# Ruta de entrada y salida
input_file = "../data/raw/GSAF5.xls"
output_file = "../data/processed/GSAF5_cleaned.xlsx"

# 1Ô∏è‚É£ Cargar los datos
loader = DataLoader(input_file)
loader.load_data()
df_original = loader.get_data()  # Guardamos el DataFrame original

# 2Ô∏è‚É£ Limpiar los nombres de las columnas
column_cleaner = ColumnCleaner(df_original)
column_cleaner.clean_columns()
df_cleaned = column_cleaner.get_cleaned_data()  # DataFrame con nombres limpios

# 3Ô∏è‚É£ Mostrar valores √∫nicos de la columna "type" antes de la limpieza
if "type" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'type' antes de la limpieza:")
    print(df_cleaned["type"].unique())

# 4Ô∏è‚É£ Limpiar la columna "type"
type_cleaner = TypeCleaner(df_cleaned)
type_cleaner.clean_type_column()
df_cleaned = type_cleaner.get_cleaned_data()  # DataFrame con "type" limpio

# 5Ô∏è‚É£ Mostrar valores √∫nicos de 'type' despu√©s de la limpieza
if "type" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'type' despu√©s de la limpieza:")
    print(df_cleaned["type"].unique())

# 6Ô∏è‚É£ Mostrar valores √∫nicos de "sex" antes de la limpieza
if "sex" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'sex' antes de la limpieza:")
    print(df_cleaned["sex"].unique())

# 7Ô∏è‚É£ Limpiar la columna "sex"
sex_cleaner = SexCleaner(df_cleaned)
sex_cleaner.clean_sex_column()
df_cleaned = sex_cleaner.get_cleaned_data()  # DataFrame con "sex" limpio

# 8Ô∏è‚É£ Mostrar valores √∫nicos de "sex" despu√©s de la limpieza
if "sex" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'sex' despu√©s de la limpieza:")
    print(df_cleaned["sex"].unique())

# 9Ô∏è‚É£ Mostrar valores √∫nicos de "country" antes de la limpieza
if "country" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'country' antes de la limpieza:")
    print(df_cleaned["country"].nunique())

# üîü Limpiar la columna "country"
country_cleaner = CountryCleaner(df_cleaned)
country_cleaner.clean_country_column()
df_cleaned = country_cleaner.get_cleaned_data()  # DataFrame con "country" limpio

# 1Ô∏è‚É£1Ô∏è‚É£ Mostrar valores √∫nicos de 'country' despu√©s de la limpieza
if "country" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'country' despu√©s de la limpieza:")
    print(df_cleaned["country"].nunique())

# 1Ô∏è‚É£2Ô∏è‚É£ Mostrar valores √∫nicos de "fatal_y/n" antes de la limpieza
if "fatal_y/n" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'fatal_y/n' antes de la limpieza:")
    print(df_cleaned["fatal_y/n"].unique())

# 1Ô∏è‚É£3Ô∏è‚É£ Limpiar la columna "fatal_y/n"
fatal_cleaner = FatalCleaner(df_cleaned)
fatal_cleaner.clean_fatal_column()
df_cleaned = fatal_cleaner.get_cleaned_data()  # DataFrame con "fatal" limpio

# 1Ô∏è‚É£4Ô∏è‚É£ Mostrar valores √∫nicos de 'fatal' despu√©s de la limpieza
if "fatal" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'fatal' despu√©s de la limpieza:")
    print(df_cleaned["fatal"].unique())

# 1Ô∏è‚É£5Ô∏è‚É£ Mostrar valores √∫nicos de "time" antes de la limpieza
if "time" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'time' antes de la limpieza:")
    print(df_cleaned["time"].nunique())

# 1Ô∏è‚É£6Ô∏è‚É£ Limpiar la columna "time"
time_cleaner = TimeCleaner(df_cleaned)
time_cleaner.clean_time_column()
df_cleaned = time_cleaner.get_cleaned_data()  # DataFrame con "time" limpio

# 1Ô∏è‚É£7Ô∏è‚É£ Mostrar valores √∫nicos de 'time' despu√©s de la limpieza
if "time" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'time' despu√©s de la limpieza:")
    print(df_cleaned["time"].nunique())

# 1Ô∏è‚É£8Ô∏è‚É£ Mostrar valores √∫nicos de "species" antes de la limpieza
if "species" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'species' antes de la limpieza:")
    print(df_cleaned["species"].unique())

# 1Ô∏è‚É£9Ô∏è‚É£ Limpiar la columna "species"
species_cleaner = SpeciesCleaner(df_cleaned)
species_cleaner.clean_species_column()
df_cleaned = species_cleaner.get_cleaned_data()  # DataFrame con "species" limpio

# 2Ô∏è‚É£0Ô∏è‚É£ Mostrar valores √∫nicos de 'species' despu√©s de la limpieza
if "species" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'species' despu√©s de la limpieza:")
    print(df_cleaned["species"].unique())

# 2Ô∏è‚É£1Ô∏è‚É£ Mostrar valores √∫nicos de "year" antes de la limpieza
if "year" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'year' antes de la limpieza:")
    print(df_cleaned["year"].nunique())

# 2Ô∏è‚É£2Ô∏è‚É£ Limpiar la columna "year"
year_cleaner = YearCleaner(df_cleaned)
year_cleaner.clean_year_column()
df_cleaned = year_cleaner.get_cleaned_data()  # DataFrame con "year" limpio

# 2Ô∏è‚É£3Ô∏è‚É£ Mostrar valores √∫nicos de 'year' despu√©s de la limpieza
if "year" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'year' despu√©s de la limpieza:")
    print(df_cleaned["year"].nunique())

# 2Ô∏è‚É£4Ô∏è‚É£ Mostrar valores √∫nicos de "activity" antes de la limpieza
if "activity" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'activity' antes de la limpieza:")
    print(df_cleaned["activity"].unique())

# 2Ô∏è‚É£5Ô∏è‚É£ Limpiar la columna "activity"
activity_cleaner = ActivityCleaner(df_cleaned)
activity_cleaner.clean_activity_column()
df_cleaned = activity_cleaner.get_cleaned_data()  # DataFrame con "activity" limpio

# 2Ô∏è‚É£6Ô∏è‚É£ Mostrar valores √∫nicos de 'activity' despu√©s de la limpieza
if "activity" in df_cleaned.columns:
    print("\nüîπ Valores √∫nicos de 'activity' despu√©s de la limpieza:")
    print(df_cleaned["activity"].unique())

# 2Ô∏è‚É£7Ô∏è‚É£ Eliminar duplicados en "case_number"
duplicates_cleaner = DuplicatesCleaner(df_cleaned)
duplicates_cleaner.remove_duplicates()
df_final = duplicates_cleaner.get_cleaned_data()  # DataFrame sin duplicados

# 2Ô∏è‚É£8Ô∏è‚É£ Guardar los datos procesados con nombres de columnas, "type", "sex", "country", "fatal", "time", "species", "year" y sin duplicados
duplicates_cleaner.save_cleaned_data(output_file)

markdown_table = df_final.head(10).to_markdown()
print(markdown_table)

# REPASO FINAL:
# - Comprobamos el tipo de datos
# df_final.info()

# df_final.describe(include='object').T

# df_final.select_dtypes(include='object')

# - Comprobamos las columnas con valores nulos
# df_final.isnull().sum()
# df_final.isnull().sum()/df_final.shape[0] * 100 # Porcentaje de valores nulos es importante

# - Comprobaci√≥n de duplicados
# df_final.duplicated().sum()/df_final.shape[0] * 100
# Mirar combinaciones de columnas duplicadas
# df_final.duplicated(subset=['ticket', 'id_Cliente']).sum()

# - Formateo de datos
# - a. Cambiar tipo de datos
# df_final['year'] = df_final['year'].astype(int)

# - b. Limpiar datos
# round(), format, string.lower()

# - apply() operaciones por columna
# - map()
# - applymap()

# - Filtrado de datos
# - Aconseja crear nuevos dataframes con cada filtro para conservar el original
# - Filtrado por columnas combinado

# poner indice en la columna que m√°s se va a usar para filtrar
# df_final.set_index('passengerID', inplace=True)

# Crear nueva columna significativa
# df_final['a√±o_nacimiento'] = 2025 - df_final['Age']
# Y Eliminar columna 'Age'
# df_final.drop(columns='Age', inplace=True)

# Mezclas de dataframes
# - 1 Concatenar (une de forma vertical por filas) Es menos usado.
# df_final = pd.concat([df1, df2], axis=0)
# - 2 Merge (une de forma horizontal por columnas a trav√©s de una columna com√∫n. Lo usaremos m√°s)
# df_final = pd.merge(df1, df2, on='columna_comun' how='inner')
# df_final = pd.merge(df1, df2, left_on='columna1', right_on='columna2', how='inner') # Si las columnas no tienen el mismo nombre en ambos dataframes
# - 3 Join: une por √≠ndices (no tan usado)

# Pivot Table: Cambia la forma de la tabla: filas a columnas y viceversa
# df_final.pivot_table(index='country', columns='year', values='GDP', aggfunc='sum')

# Agregaciones: an√°lisis por grupos del dataframe
# df_final.groupby('country')['GDP'].sum()
# df_final.groupby('sex', 'survived')['age'].mean()



‚úÖ Datos cargados correctamente desde ../data/raw/GSAF5.xls
‚úÖ Nombres de columnas limpiados.

üîπ Valores √∫nicos de 'type' antes de la limpieza:
['Unprovoked' 'Provoked' ' Provoked' 'Questionable' 'Watercraft'
 'Sea Disaster' nan '?' 'Unconfirmed' 'Unverified' 'Invalid'
 'Under investigation' 'Boat']
‚úÖ Columna 'type' limpiada.

üîπ Valores √∫nicos de 'type' despu√©s de la limpieza:
['Unprovoked' 'Provoked' 'Questionable' 'Watercraft' 'Sea Disaster' None
 'Boat']

üîπ Valores √∫nicos de 'sex' antes de la limpieza:
['F' 'M' nan ' M' 'M ' 'lli' 'M x 2' 'N' '.']
‚úÖ Columna 'sex' limpiada.

üîπ Valores √∫nicos de 'sex' despu√©s de la limpieza:
['F' 'M' None]

üîπ Valores √∫nicos de 'country' antes de la limpieza:
239
‚úÖ Columna 'country' limpiada.

üîπ Valores √∫nicos de 'country' despu√©s de la limpieza:
172

üîπ Valores √∫nicos de 'fatal_y/n' antes de la limpieza:
['N' 'Y' 'F' 'M' nan 'n' 'Nq' 'UNKNOWN' 2017 'Y x 2' ' N' 'N ' 'y']
‚úÖ Columna 'fatal' limpiada.

üîπ Valores

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  self.cleaned_df["species"].fillna(mode_value, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  self.cleaned_df["year"].fillna(mean_value, inplace=True)


‚úÖ Datos limpios guardados en ../data/processed/GSAF5_cleaned.xlsx
|     | date                |   year | type       | country          | state                 | location                       | activity                | name               | sex   |   age | injury                                                            |   fatal | time    | species   | source                      | pdf                          | href_formula                                                                       | href                                                                               | case_number   | case_number.1   |   original_order |   unnamed:_21 |   unnamed:_22 |
|----:|:--------------------|-------:|:-----------|:-----------------|:----------------------|:-------------------------------|:------------------------|:-------------------|:------|------:|:------------------------------------------------------------------|--------:|:--------|:----------|:----------------------------|:----

Unnamed: 0,year,fatal,original_order
count,6778.0,6778.0,6777.0
mean,1970.586309,0.211862,3399.289509
std,50.231287,0.408658,1962.234774
min,1000.0,0.0,2.0
25%,1950.0,0.0,1701.0
50%,1983.0,0.0,3400.0
75%,2008.0,0.0,5097.0
max,2025.0,1.0,6802.0
