# ETL

In [10]:
import pandas as pd

def load_data(file_path):
    """Carga todas las hojas del dataset de Internet desde la ruta especificada."""
    xls = pd.ExcelFile(file_path)
    dataframes = {sheet: xls.parse(sheet) for sheet in xls.sheet_names}
    return dataframes

def clean_data(df):
    """Realiza limpieza de datos generales en un DataFrame de Internet."""
    df = df.drop_duplicates()
    df = df.dropna(how='all')  # Eliminar filas completamente vacías
    df = df.fillna(method='ffill')  # Rellenar valores faltantes con el último valor válido
    return df

def transform_data(df, sheet_name):
    """Realiza transformaciones específicas para cada hoja del dataset de Internet."""
    if sheet_name in ["Acc_vel_loc_sinrangos", "Velocidad_sin_Rangos", "Accesos_por_velocidad"]:
        if 'Velocidad (Mbps)' in df.columns:
            df['Velocidad (Mbps)'] = df['Velocidad (Mbps)'].astype(str).str.replace(',', '.')
            df['Velocidad (Mbps)'] = pd.to_numeric(df['Velocidad (Mbps)'], errors='coerce')
    elif sheet_name in ["Accesos_tecnologia_localidad", "Totales Accesos Por Tecnología", "Accesos Por Tecnología"]:
        if 'Accesos' in df.columns:
            df['Accesos'] = pd.to_numeric(df['Accesos'], errors='coerce').fillna(0).astype(int)
    elif sheet_name == "Ingresos":
        if 'Ingresos' in df.columns:
            df['Ingresos'] = pd.to_numeric(df['Ingresos'], errors='coerce').fillna(0)
    return df

def save_cleaned_data_to_excel(dataframes, output_file):
    """Guarda todos los DataFrames limpios en un solo archivo Excel con hojas separadas."""
    with pd.ExcelWriter(output_file, engine='xlsxwriter') as writer:
        for sheet_name, df in dataframes.items():
            df.to_excel(writer, sheet_name=sheet_name, index=False)
    
# Ruta del archivo y directorio de salida
file_path = './DataSets/Internet.xlsx'
output_file = './Datasets_limpio/Internet_cleaned.xlsx'

# Ejecución del ETL
dataframes = load_data(file_path)
cleaned_dataframes = {name: clean_data(df) for name, df in dataframes.items()}
transformed_dataframes = {name: transform_data(df, name) for name, df in cleaned_dataframes.items()}
save_cleaned_data_to_excel(transformed_dataframes, output_file)

print("Proceso ETL completado para todas las hojas del dataset de Internet. Los datos limpios han sido guardados en un solo archivo Excel con hojas separadas.")

    
    

  df = df.fillna(method='ffill')  # Rellenar valores faltantes con el último valor válido
  df = df.fillna(method='ffill')  # Rellenar valores faltantes con el último valor válido


Proceso ETL completado para todas las hojas del dataset de Internet. Los datos limpios han sido guardados en un solo archivo Excel con hojas separadas.
