In [1]:
import numpy as np
import pandas as pd

def preprocesar_datos(df):
  """
  Aplica tres técnicas de preprocesamiento a un DataFrame de Pandas.

  Args:
    df: El DataFrame de Pandas a preprocesar.

  Returns:
    El DataFrame preprocesado.
  """

  # Imputación de valores ausentes.
  df = imputar_valores_ausentes(df)

  # Escalado de características.
  df = escalar_caracteristicas(df)

  # Eliminación de outliers.
  df = eliminar_outliers(df)

  return df

def imputar_valores_ausentes(df):
  """
  Imputa los valores ausentes de un DataFrame de Pandas.

  Args:
    df: El DataFrame de Pandas con valores ausentes.

  Returns:
    El DataFrame con los valores ausentes imputados.
  """

  # Imputación de valores ausentes de las variables numéricas.
  for columna in list(df.filter(like="_numeric")):
    df[columna] = df[columna].fillna(df[columna].mean())

  # Imputación de valores ausentes de las variables categóricas.
  for columna in list(df.filter(like="_categorical")):
    df[columna] = df[columna].fillna(df[columna].mode())

  return df

def escalar_caracteristicas(df):
  """
  Escala las características de un DataFrame de Pandas.

  Args:
    df: El DataFrame de Pandas con las características a escalar.

  Returns:
    El DataFrame con las características escaladas.
  """

  # Escalado Min-Max.
  for columna in list(df.filter(like="_numeric")):
    df[columna] = (df[columna] - df[columna].min()) / (df[columna].max() - df[columna].min())

  return df

def eliminar_outliers(df, umbral=1.5):
  """
  Elimina los outliers de un DataFrame de Pandas.

  Args:
    df: El DataFrame de Pandas con los outliers a eliminar.
    umbral: El umbral para identificar los outliers.

  Returns:
    El DataFrame sin outliers.
  """

  # Eliminación de outliers usando el método de Tukey.
  for columna in list(df.filter(like="_numeric")):
    q1 = df[columna].quantile(0.25)
    q3 = df[columna].quantile(0.75)
    iqr = q3 - q1
    valores_bajos = df[columna] < q1 - iqr * umbral
    valores_altos = df[columna] > q3 + iqr * umbral
    df = df.loc[(~valores_bajos) & (~valores_altos)]

  return df


# Cargar el dataset.
df = pd.read_csv("healthcare-dataset-stroke-data.csv")

# Aplicar las técnicas de preprocesamiento.
df = preprocesar_datos(df)

# Guardar el DataFrame preprocesado.
df.to_csv("stroke_prediction_preprocessed.csv")
