In [3]:
import numpy as np
import pandas as pd

def etiquetar_simple(df):
  # Obtener la columna de etiquetas.
  y = df["stroke"]

  # Etiquetar las observaciones.
  y = y.apply(lambda x: 1 if x == 1 else 0)

  # Agregar la columna de etiquetas al DataFrame.
  df["stroke_simple"] = y

  return df


def etiquetar_binario(df):
  """
  Aplica el etiquetado binario al dataset.

  Args:
    df: El DataFrame de Pandas a etiquetar.

  Returns:
    El DataFrame etiquetado.
  """

  # Obtener la columna de etiquetas.
  y = df["stroke"]

  # Etiquetar las observaciones.
  y = y.apply(lambda x: 1 if x == 1 else 0)

  # Agregar la columna de etiquetas al DataFrame.
  df["stroke_binario"] = y

  return df


# Cargar el dataset.
df = pd.read_csv("healthcare-dataset-stroke-data.csv")

# Etiquetado simple.
df_imp = etiquetar_simple(df)

# Etiquetado binario.
df_imp = etiquetar_binario(df_imp)

# Guardar el DataFrame etiquetado.
df_imp.to_csv("stroke_prediction_labeled1.csv")


In [2]:
import numpy as np
import pandas as pd

def etiquetar_simple(df, columna):
  """
  Aplica el etiquetado simple a una columna.

  Args:
    df: El DataFrame de Pandas a etiquetar.
    columna: El nombre de la columna a etiquetar.

  Returns:
    El DataFrame etiquetado.
  """

  # Obtener los valores de la columna.
  valores = df[columna].to_list()

  # Asignar un valor numérico a cada categoría.
  etiquetas = {valor: i for i, valor in enumerate(set(valores))}

  # Aplicar el etiquetado simple.
  etiquetas_simples = [etiquetas[valor] for valor in valores]

  # Agregar la columna de etiquetas al DataFrame.
  df[columna + "_simple"] = etiquetas_simples

  return df

def etiquetar_binario(df, columna, umbral):
  """
  Aplica el etiquetado binario a una columna.

  Args:
    df: El DataFrame de Pandas a etiquetar.
    columna: El nombre de la columna a etiquetar.
    umbral: El umbral para asignar el valor 1.

  Returns:
    El DataFrame etiquetado.
  """

  # Obtener los valores de la columna.
  valores = df[columna].to_list()

  # Aplicar el etiquetado binario.
  etiquetas_binarias = [1 if valor >= umbral else 0 for valor in valores]

  # Agregar la columna de etiquetas al DataFrame.
  df[columna + "_binario"] = etiquetas_binarias

  return df


# Cargar el dataset.
df = pd.read_csv("healthcare-dataset-stroke-data.csv")

# Etiquetar las variables categóricas de forma simple.
df = etiquetar_simple(df, "gender")
df = etiquetar_simple(df, "hypertension")
df = etiquetar_simple(df, "heart_disease")
df = etiquetar_simple(df, "ever_married")
df = etiquetar_simple(df, "work_type")
df = etiquetar_simple(df, "Residence_type")
df = etiquetar_simple(df, "smoking_status")

# Etiquetar la variable "stroke" de forma binaria.
umbral_stroke = 1
df = etiquetar_binario(df, "stroke", umbral_stroke)

# Guardar el DataFrame etiquetado.
df.to_csv("stroke_prediction_labeled.csv")


In [None]:
import numpy as np
import pandas as pd

def imputar_columnas(df):
  """
  Realiza la imputación por columnas en un DataFrame de Pandas.

  Args:
    df: El DataFrame de Pandas a imputar.

  Returns:
    El DataFrame imputado.
  """

  for col in df.columns:
    # Obtener el tipo de datos de la columna.
    col_type = df[col].dtype

    # Imputación de valores numéricos.
    if col_type in [np.float64, np.int64]:
      df[col].fillna(df[col].mean(), inplace=True)

    # Imputación de valores categóricos.
    else:
      df[col].fillna(df[col].mode()[0], inplace=True)

  return df


def etiquetar_simple(df):
  """
  Aplica el etiquetado simple al dataset.

  Args:
    df: El DataFrame de Pandas a etiquetar.

  Returns:
    El DataFrame etiquetado.
  """

  # Obtener la columna de etiquetas.
  y = df["stroke"]

  # Etiquetar las observaciones.
  y = y.apply(lambda x: 1 if x == 1 else 0)

  # Agregar la columna de etiquetas al DataFrame.
  df["stroke_simple"] = y

  return df


def etiquetar_binario(df):
  """
  Aplica el etiquetado binario al dataset.

  Args:
    df: El DataFrame de Pandas a etiquetar.

  Returns:
    El DataFrame etiquetado.
  """

  # Obtener la columna de etiquetas.
  y = df["stroke"]

  # Etiquetar las observaciones.
  y = y.apply(lambda x: 1 if x == 1 else 0)

  # Agregar la columna de etiquetas al DataFrame.
  df["stroke_binario"] = y

  return df


# Cargar el dataset.
df = pd.read_csv("healthcare-dataset-stroke-data.csv")

# Imputación de valores ausentes.
df_imp = imputar_columnas(df)

# Etiquetado simple.
df_imp = etiquetar_simple(df_imp)

# Etiquetado binario.
df_imp = etiquetar_binario(df_imp)

# Guardar el DataFrame etiquetado.
df_imp.to_csv("stroke_prediction_labeled.csv")
