## 1. Importar módulos necesarios

In [2]:
# %% [markdown]
# ## 1. Importar módulos necesarios

import numpy as np
import pandas as pd
import os
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
import tensorflow as tf
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Dense, Dropout
from tensorflow.keras.utils import to_categorical

2025-02-04 11:15:22.581368: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-02-04 11:15:22.582798: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:32] Could not find cuda drivers on your machine, GPU will not be used.
2025-02-04 11:15:22.586547: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:32] Could not find cuda drivers on your machine, GPU will not be used.
2025-02-04 11:15:22.599311: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1738664122.613022   23182 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1738664122.61

## 1.1 Comprobar si los paquetes se han cargado correctamente

In [3]:
# %% [markdown]
# ## 1.1 Comprobar si los paquetes se han cargado correctamente

from tensorflow.keras import Input

print("TensorFlow version:", tf.__version__)
print("Eager execution:", tf.executing_eagerly())

# Verificar si Keras funciona
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

model = Sequential([
    Input(shape=(20,)),  # Define explícitamente la capa de entrada
    Dense(10, activation='relu'),
    Dense(1, activation='sigmoid')
])

model.summary()

TensorFlow version: 2.18.0
Eager execution: True


W0000 00:00:1738664130.687619   23182 gpu_device.cc:2344] Cannot dlopen some GPU libraries. Please make sure the missing libraries mentioned above are installed properly if you would like to use GPU. Follow the guide at https://www.tensorflow.org/install/gpu for how to download and setup the required libraries for your platform.
Skipping registering GPU devices...


## 2. Definir la estructura de los archivos de entrada

**training_data.csv**:
- Columna 1: strain_id
- Columnas 2 a 11: Para cada antibiótico (FEP, MER, IMI, AZT, CIP):
      Ejemplo:
        FEP_MIC, FEP_eval, MER_MIC, MER_eval, IMI_MIC, IMI_eval, AZT_MIC, AZT_eval, CIP_MIC, CIP_eval
  Las evaluaciones tienen 3 categorías: "sensitive", "resistant" e "indeterminate".
- Columnas 12 en adelante: Información de mutaciones para 71 genes.
   * Si no hay información para un gen: "-"
   * Si el gen es wild type: NaN
   * Si hay mutaciones: cadena con las mutaciones separadas por comas (ej. "A123T,V456G")

**test_data.csv**:
- Columna 1: strain_id
- Columnas 2 en adelante: Información de mutaciones para los mismos 71 genes.



In [28]:
# %% [markdown]
# ## 3. Cargar y preprocesar los datos
# Leer el archivo de entrenamiento (1200 cepas)
train_df = pd.read_csv('input/training_data.csv', sep=";").reset_index(drop=True)
print("Dimensiones del DataFrame original:", train_df.shape)

# Definir nombres de columnas:
# ["strain_id", "FEP_MIC", "FEP_eval", "MER_MIC", "MER_eval", "IMI_MIC", "IMI_eval",
#  "AZT_MIC", "AZT_eval", "CIP_MIC", "CIP_eval", gene1, gene2, ..., gene71]
id_col = "strain_id"

# Evaluaciones clínicas de los antibióticos
eval_cols = ["FEP_eval", "MER_eval", "IMI_eval", "AZT_eval", "CIP_eval"]

# Columnas con genes de resistencia
gene_cols = train_df.loc[:, "PA0004":"PA5493"]

# Preprocesamiento de los genes: codificación multi-hot por gen
# La idea es, para cada gen, construir un vocabulario de mutaciones (observadas en el set de entrenamiento)
# y, para cada celda, crear un vector binario indicando la presencia de cada mutación.
def build_gene_vocab(df, gene_columns):
    vocab = {}
    for col in gene_columns:
        mutations = set()
        for val in df[col]:
            if pd.isna(val) or str(val).strip() == "-" or str(val).strip() == "":
                continue
            # Dividir las mutaciones por coma
            for mut in val.split(","):
                mut = mut.strip()
                if mut:
                    mutations.add(mut)
        # Ordenamos el vocabulario para tener un orden fijo
        vocab[col] = sorted(list(mutations))
    return vocab

gene_vocab = build_gene_vocab(train_df, gene_cols)

print('Archivo de lectura: train_df:')
print(train_df)

# print('Columnas con genes de resistencia: gene_cols:')
# print(gene_cols)

# print('Vocabulario de mutaciones: gene_vocab')
# print(gene_vocab)

Dimensiones del DataFrame original: (1045, 79)
Archivo de lectura: train_df:
      Unnamed: 0       strain_id FEP_MIC FEP_eval MER_MIC MER_eval IMI_MIC  \
0          False  UMC Utrecht_28       2        S    ≤0.5        S       2   
1          False  UMC Utrecht_66       2        S    ≤0.5        S       2   
2          False  UMC Utrecht_29       8        S      16        R      16   
3          False  UMC Utrecht_68       2        S    ≤0.5        S       2   
4          False  UMC Utrecht_32       8        S       2        S       2   
...          ...             ...     ...      ...     ...      ...     ...   
1040       False       NAV01-004       2        S    ≤0.5        S       1   
1041       False       NAV01-005       4        S       4        I      16   
1042       False       PVA01-003       4        S       1        S       2   
1043       False       PVA01-006       4        S    ≤0.5        S       4   
1044       False       PVA01-011       2        S    ≤0.5        

In [31]:
# Función para codificar una fila: para cada gen, si la celda está vacía se retorna un vector de ceros,
# si tiene mutaciones, se asigna 1 en las posiciones correspondientes al vocabulario.
def encode_gene_row(row, gene_columns, vocab):
    features = []
    for col in gene_columns:
        gene_voc = vocab[col]
        vec = np.zeros(len(gene_voc), dtype=int)
        cell = row[col]
        if pd.isna(cell) or str(cell).strip() == "-" or str(cell).strip() == "":
            # Wild type: vector de ceros
            pass
        else:
            mutations = [m.strip() for m in cell.split(",") if m.strip() != ""]
            for mut in mutations:
                if mut in gene_voc:
                    idx = gene_voc.index(mut)
                    vec[idx] = 1
        # Agregar el vector para este gen a la lista de características
        features.extend(vec.tolist())
    return features

print("Número de índices únicos en train_df:", train_df.index.nunique())

# Aplicar la codificación a cada fila para los genes en el set de entrenamiento
X_train_genes = train_df.apply(lambda row: encode_gene_row(row, gene_cols, gene_vocab), axis=1)
X_train_genes = np.array(X_train.tolist())
print("Dimensiones de X_train_genes:", X_train_genes.shape)

# Preparar las etiquetas para caracterizar clínicamente los valores MIC:
# Cada evaluación es una cadena con una de 3 categorías: "sensitive", "resistant" o "indeterminate".
y_antibiotics = {}
antibiotic_encoders = {}

for col in eval_cols:
    le = LabelEncoder()
    y_enc = le.fit_transform(train_df[col].astype(str).str.lower())
    antibiotic_encoders[col] = le
    # Convertimos a formato one-hot (aunque en clasificación binaria se puede usar una sola neurona con sigmoide)
    # One-hot encoding para 3 clases *********************************REVISAR**********************************¿como se codifican las 3 clases?
    y_antibiotics[col] = to_categorical(y_enc)


# Creamos el diccionario de salidas para el modelo multi-salida (5 salidas, una por antibiótico)
y_train = {
    'FEP': y_antibiotics["FEP_eval"],
    'MER': y_antibiotics["MER_eval"],
    'IMI': y_antibiotics["IMI_eval"],
    'AZT': y_antibiotics["AZT_eval"],
    'CIP': y_antibiotics["CIP_eval"]
}


# La entrada del modelo será únicamente la información codificada de los genes.
X_train_input = X_train_genes
print("Dimensiones de X_train_input:", X_train_input.shape)

# Cargar datos de test (200 cepas)
test_df = pd.read_csv('input/test_data.csv',sep=";")
# Se asume que test_data.csv tiene: "strain_id" y luego las 71 columnas de genes con los mismos nombres.
test_gene_cols = test_df.columns[1:]
X_test_genes = test_df.apply(lambda row: encode_gene_row(row, test_gene_cols, gene_vocab), axis=1)
X_test_input = np.array(X_test_genes.tolist())
print("Dimensiones de X_test_input:", X_test_input.shape)

Número de índices únicos en train_df: 1045
Dimensiones de X_train_genes: (1175, 2305)
Dimensiones de X_test_input: (44, 2261)


In [23]:
# ## 4. Definir una capa Cross para capturar interacciones entre mutaciones
class CrossLayer(tf.keras.layers.Layer):
    def __init__(self, num_layers=1, **kwargs):
        super(CrossLayer, self).__init__(**kwargs)
        self.num_layers = num_layers

    def build(self, input_shape):
        self.cross_weights = []
        self.cross_biases = []
        d = int(input_shape[-1])
        for i in range(self.num_layers):
            self.cross_weights.append(
                self.add_weight(name=f'cross_w_{i}',
                                shape=(d, 1),
                                initializer='glorot_uniform',
                                trainable=True)
            )
            self.cross_biases.append(
                self.add_weight(name=f'cross_b_{i}',
                                shape=(d,),
                                initializer='zeros',
                                trainable=True)
            )
        super(CrossLayer, self).build(input_shape)

    def call(self, inputs):
        x0 = inputs
        x = inputs
        for i in range(self.num_layers):
            dot = tf.matmul(x, self.cross_weights[i])  # (batch_size, 1)
            x = x0 * dot + self.cross_biases[i] + x
        return x

    print("Matrices CrossLayer creadas")

Matrices CrossLayer creadas


In [25]:
# ## 5. Definir el modelo de redes neuronales multi-salida
#
# Se construirán 5 salidas, una para cada antibiótico, cada una con 3 neuronas (softmax).
input_layer = Input(shape=(X_train_input.shape[1],), name='input')
x = Dense(256, activation='relu')(input_layer)
x = Dropout(0.3)(x)
x = Dense(128, activation='relu')(x)
x = Dropout(0.3)(x)
# Capa Cross para modelar interacciones entre las mutaciones
x = CrossLayer(num_layers=1)(x)
x = Dense(64, activation='relu')(x)

print("Salidas creadas")

# Salidas para cada antibiótico: FEP, MER, IMI, AZT, CIP
out_FEP = Dense(3, activation='softmax', name='FEP')(x)
print("Calculada matriz dense para FEP")
print(pd.Timestamp.now())

out_MER = Dense(3, activation='softmax', name='MER')(x)
print("Calculada matriz dense para FEP")
print(pd.Timestamp.now())

out_IMI = Dense(3, activation='softmax', name='IMI')(x)
print("Calculada matriz dense para FEP")
print(pd.Timestamp.now())

out_AZT = Dense(3, activation='softmax', name='AZT')(x)
print("Calculada matriz dense para FEP")
print(pd.Timestamp.now())

out_CIP = Dense(3, activation='softmax', name='CIP')(x)
print("Calculada matriz dense para FEP")
print(pd.Timestamp.now())

print("Ejecutando modelo")

model = tf.keras.models.Model(inputs=input_layer, outputs=[out_FEP, out_MER, out_IMI, out_AZT, out_CIP])
model.compile(optimizer='adam',
              loss={'FEP': 'categorical_crossentropy',
                    'MER': 'categorical_crossentropy',
                    'IMI': 'categorical_crossentropy',
                    'AZT': 'categorical_crossentropy',
                    'CIP': 'categorical_crossentropy'},
              metrics={'FEP': 'accuracy',
                       'MER': 'accuracy',
                       'IMI': 'accuracy',
                       'AZT': 'accuracy',
                       'CIP': 'accuracy'})

model.summary()
print("Calculados parametros para modelo")
print(pd.Timestamp.now())

for col in eval_cols:
    unique_vals = train_df[col].astype(str).str.lower().unique()
    print(f"{col} -> {unique_vals}")

Salidas creadas
Calculada matriz dense para FEP
2025-02-04 14:03:34.271335
Calculada matriz dense para FEP
2025-02-04 14:03:34.276603
Calculada matriz dense para FEP
2025-02-04 14:03:34.281790
Calculada matriz dense para FEP
2025-02-04 14:03:34.286962
Calculada matriz dense para FEP
2025-02-04 14:03:34.292266
Ejecutando modelo


Calculados parametros para modelo
2025-02-04 14:03:34.340900
FEP_eval -> ['s' 'r' 'i']
MER_eval -> ['s' 'r' 'i']
IMI_eval -> ['s' 'r' 'i']
AZT_eval -> ['i' 'r' 's']
CIP_eval -> ['r' 's' 'i']


In [27]:
# ## 6. Entrenar el modelo
print("Dimensiones del DataFrame original:", train_df.shape)
print("Dimensiones de X_train_input:", X_train_input.shape)
for key in y_train:
    print(f"Dimensiones de y_train[{key}]:", y_train[key].shape)

history = model.fit(X_train_input, y_train,
                    epochs=50, batch_size=32, validation_split=0.2)

print("Modelo entrenado")

Dimensiones del DataFrame original: (1045, 79)
Dimensiones de X_train_input: (1175, 2305)
Dimensiones de y_train[FEP]: (1045, 3)
Dimensiones de y_train[MER]: (1045, 3)
Dimensiones de y_train[IMI]: (1045, 3)
Dimensiones de y_train[AZT]: (1045, 3)
Dimensiones de y_train[CIP]: (1045, 3)
Epoch 1/50
[1m28/30[0m [32m━━━━━━━━━━━━━━━━━━[0m[37m━━[0m [1m0s[0m 10ms/step - AZT_accuracy: 0.6486 - AZT_loss: 0.9011 - CIP_accuracy: 0.7355 - CIP_loss: 0.5516 - FEP_accuracy: 0.7672 - FEP_loss: 0.6571 - IMI_accuracy: 0.5903 - IMI_loss: 0.8843 - MER_accuracy: 0.5749 - MER_loss: 0.8587 - loss: 3.8528

ValueError: Data cardinality is ambiguous. Make sure all arrays contain the same number of samples.'x' sizes: 235
'y' sizes: 105, 105, 105, 105, 105


In [None]:
# ## 7. Predicción en el set de test
#
# En el set de test se dispone únicamente de la información de mutaciones (no de MIC).
predictions = model.predict(X_test_input)

# Para cada antibiótico, se toma la clase con mayor probabilidad.
pred_FEP = np.argmax(predictions[0], axis=1)
pred_MER = np.argmax(predictions[1], axis=1)
pred_IMI = np.argmax(predictions[2], axis=1)
pred_AZT = np.argmax(predictions[3], axis=1)
pred_CIP = np.argmax(predictions[4], axis=1)

# Convertir las predicciones a etiquetas legibles usando los encoders definidos para cada evaluación.
pred_FEP_labels = antibiotic_encoders["FEP_eval"].inverse_transform(pred_FEP)
pred_MER_labels = antibiotic_encoders["MER_eval"].inverse_transform(pred_MER)
pred_IMI_labels = antibiotic_encoders["IMI_eval"].inverse_transform(pred_IMI)
pred_AZT_labels = antibiotic_encoders["AZT_eval"].inverse_transform(pred_AZT)
pred_CIP_labels = antibiotic_encoders["CIP_eval"].inverse_transform(pred_CIP)

print("Predicción para FEP (primeras 5 cepas):", pred_FEP_labels[:5])
print("Predicción para MER (primeras 5 cepas):", pred_MER_labels[:5])
print("Predicción para IMI (primeras 5 cepas):", pred_IMI_labels[:5])
print("Predicción para AZT (primeras 5 cepas):", pred_AZT_labels[:5])
print("Predicción para CIP (primeras 5 cepas):", pred_CIP_labels[:5])