## ACTD 2025-10

### Clases 13-14: redes neuronales para clasificación

- Redes densas
- Redes para clasificación
- Procesamiento de datos continuos y categóricos
- Funciones de activación y pérdida

Empecemos importando numpy, pandas, keras, tensorflow

In [None]:
import numpy as np
import pandas as pd
import tensorflow as tf
import keras

Carguemos el archivo auto-mpg.data (disponible en Bloque Neón) usando pandas. Note que debemos incluir los nombres de las columnas, además de indicar los caracteres para separación, nas y comentarios.

In [None]:
df = pd.read_csv('heart.csv')

Exploremos las primeras filas del dataframe.

In [None]:
df.head()

Descripción de las variables:

https://archive.ics.uci.edu/dataset/45/heart+disease


Exploremos el tamaño del df

In [None]:
df.shape

Identificamos NAs en los datos

In [None]:
df.isna().sum()

Definimos listas para las variables categóricas enteras, categóricas string y numéricas.

In [None]:
cat_int_feats = ['sex', 'cp', 'fbs', 'restecg', 'exang', 'ca']

In [None]:
cat_str_feats = ['thal']

In [None]:
num_feats = ['age', 'trestbps', 'chol', 'thalach', 'oldpeak', 'slope']

Agregamos las listas de categorías

In [None]:
feats_ordered = cat_int_feats+cat_str_feats+num_feats

Reordenamos el dataframe de acuerdo con el tipo de variable

In [None]:
df = df[feats_ordered+['target']]

In [None]:
df.head()

Separamos los datos en entrenamiento, validación y prueba

In [None]:
train = df.sample(frac=0.8, random_state=100)
train.head()

In [None]:
train.shape

In [None]:
test = df.drop(train.index)
test.head()

In [None]:
val = train.sample(frac=0.2, random_state=100)

In [None]:
val.shape

In [None]:
train = train.drop(val.index)

In [None]:
print(train.shape)
print(val.shape)
print(test.shape)

Calculamos estadísticas de cada variable numérica

In [None]:
train.describe()

Función para convertir de dataframe (pandas) a dataset (tensorflow), separando características y etiquetas

In [None]:
def dataframe_to_dataset(dataframe):
    dataframe = dataframe.copy()
    labels = dataframe.pop("target")
    ds = tf.data.Dataset.from_tensor_slices((dict(dataframe), labels))
    ds = ds.shuffle(buffer_size=len(dataframe))
    return ds

In [None]:
train_ds = dataframe_to_dataset(train)
val_ds = dataframe_to_dataset(val)
test_ds = dataframe_to_dataset(test)

In [None]:
type(train_ds)

Ejemplo de cómo queda el tf.dataset

In [None]:
for x, y in train_ds.take(1):
    print("Input:", x)
    print("Target:", y)

Separamos los datos de entrenamiento, validación y prueba en lotes

In [None]:
batch_size = 32
train_ds = train_ds.batch(batch_size)
test_ds = test_ds.batch(batch_size)
val_ds = val_ds.batch(batch_size)

Función para codificar variables numéricas (Keras docs)

In [None]:
def encode_numerical_feature(feature, name, dataset):
    # Crea capa de normalización para este feature
    normalizer = keras.layers.Normalization()

    # Prepara el dataset para considerar únicamente la feature de interés (name)
    feature_ds = dataset.map(lambda x, y: x[name]) # selecciona variable
    feature_ds = feature_ds.map(lambda x: tf.expand_dims(x, -1)) # deja el tensor de una dimensión

    # Aprende las estadísticas de los datos (media, varianza)
    normalizer.adapt(feature_ds)

    # Aplica la normalización a la variable
    encoded_feature = normalizer(feature)
    return encoded_feature

Función para codificar variables categóricas (Keras docs)

In [None]:
def encode_categorical_feature(feature, name, dataset, is_string):
    lookup_class = keras.layers.StringLookup if is_string else keras.layers.IntegerLookup
    # Crea una capa Lookup para retornas variables 0/1 (dummies)
    # lookup: busca el valor correspondiente de la variable categórica
    lookup = lookup_class(output_mode="binary")

    # Prepara el dataset para considerar únicamente la feature de interés (name)
    feature_ds = dataset.map(lambda x, y: x[name]) # selecciona variable
    feature_ds = feature_ds.map(lambda x: tf.expand_dims(x, -1)) # deja el tensor de una dimensión

    # Aprende el conjunto de posibles valores que toma la variable categórica y asigna enteros
    lookup.adapt(feature_ds)

    # Aplica la conversión de categorías a enteros
    encoded_feature = lookup(feature)
    return encoded_feature

Creamos una lista de inputs para el modelo, de acuerdo con cada tipo de variable

In [None]:
inputs = []
for i in cat_int_feats:
  inputs.append(keras.Input(shape=(1,), name=i, dtype="int64"))

In [None]:
for i in cat_str_feats:
  inputs.append(keras.Input(shape=(1,), name=i, dtype="string"))

In [None]:
for i in num_feats:
  inputs.append(keras.Input(shape=(1,), name=i))

In [None]:
for i in inputs:
   print(i)

Creamos una lista de variables codificadas/normalizadas de acuerdo con su tipo, empleando las funciones de codificación/normalización

In [None]:
feats_encoded=[]

In [None]:
for i,feat in enumerate(cat_int_feats):
  feats_encoded.append(
      encode_categorical_feature(inputs[i], feat, train_ds, False)
  )

In [None]:
len_feats = len(feats_encoded)
len_feats

In [None]:
for i,feat in enumerate(cat_str_feats):
  feats_encoded.append(
      encode_categorical_feature(inputs[len_feats+i], feat, train_ds, True)
  )

In [None]:
len_feats = len(feats_encoded)
len_feats

In [None]:
for i,feat in enumerate(num_feats):
  feats_encoded.append(
      encode_numerical_feature(inputs[len_feats+i], feat, train_ds)
  )

In [None]:
for i in feats_encoded:
  print(i)

Creamos una capa concatenando todas las variables codificadas

In [None]:
all_feats = keras.layers.concatenate(feats_encoded)

In [None]:
type(all_feats)

Agregamos una capa densa con 32 neuronas y función de activación relu

In [None]:
model_layers = keras.layers.Dense(32, activation='relu')(all_feats)

Agregamos la capa de salida con 1 neurona (probabilidad de sufrir la enfermedad cardiada) y función de activación sigmoide

In [None]:
model_layers = keras.layers.Dense(1, activation='sigmoid')(model_layers)

Creamos el modelo con las capas ya creadas y las variables de entrada

In [None]:
model = keras.Model(inputs, model_layers)

Compilamos el modelo, definiendo optimizador, función de pérdida y métricas adicionales a capturar

In [None]:
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

In [None]:
keras.utils.plot_model(model, show_shapes=True, rankdir="LR")

Aseguramos que Keras use TensorFlow como backend, para asegurar que el modelo pueda usar strings como entradas

In [None]:
import os
os.environ["KERAS_BACKEND"] = "tensorflow"

Entrenamos el modelo con los datos en el formato tf.Dataset

In [None]:
model.fit(train_ds, epochs=50, validation_data=val_ds)