In [1]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler

Carga un archivo CSV en un DataFrame

In [2]:
def cargar_datos(ruta_csv):
    return pd.read_csv(ruta_csv)

Elimina duplicados y valores nulos

In [3]:
def limpiar_datos(df, columnas_criticas=None):
    df = df.drop_duplicates()
    if columnas_criticas:
        df = df.dropna(subset=columnas_criticas)
    else:
        df = df.dropna()
    return df.reset_index(drop=True)

Normaliza columnas numéricas con MinMax o StandardScaler

In [4]:
def normalizar_datos(df, columnas_numericas, metodo='minmax'):
    df_copy = df.copy()
    scaler = MinMaxScaler() if metodo == 'minmax' else StandardScaler()
    df_copy[columnas_numericas] = scaler.fit_transform(df_copy[columnas_numericas])
    return df_copy

Codifica columnas categóricas con one-hot encoding

In [5]:
def codificar_categoricas(df, columnas_categoricas):
    return pd.get_dummies(df, columns=columnas_categoricas, drop_first=True)

Aplica transformaciones adicionales

In [6]:
def transformar_datos(df):
    if 'col1' in df.columns and 'col2' in df.columns:
        df['columna_nueva'] = df['col1'] + df['col2']
    return df

Ejecuta el pipeline de preparación de datos

In [7]:
def pipeline_preparacion_datos(ruta_csv, columnas_numericas, columnas_categoricas, columnas_criticas=None, metodo_normalizacion='minmax'):
    df = cargar_datos(ruta_csv)
    df = limpiar_datos(df, columnas_criticas)
    df = normalizar_datos(df, columnas_numericas, metodo_normalizacion)
    df = codificar_categoricas(df, columnas_categoricas)
    df = transformar_datos(df)
    return df