En este código se parte de un fichero .csv donde se calculan las distancias con dtw de cada numero escrito con plantillas obtenidas por diversos métodos. Con estas distancias podemos entrenar una ANN y ver si mejora el accuracy de los métodos anteriores

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import accuracy_score, confusion_matrix, roc_curve, auc
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from scipy.interpolate import interp1d
from scipy.optimize import brentq
import os

In [8]:
# Preparo los datos
data = pd.read_csv('dtw_distances_median.csv')

# Cambio el nombre de los elementos de la columna 'sesion'
data['sesion'] = data['sesion'].replace({
    'session_1': 1,
    'session_2': 2,
})

# Redondeo los datos de las cololumnas 'distancia'
data['distancia0'] = data['distancia0'].round(2)
data['distancia1'] = data['distancia1'].round(2)
data['distancia2'] = data['distancia2'].round(2)
data['distancia3'] = data['distancia3'].round(2)
data['distancia4'] = data['distancia4'].round(2)
data['distancia5'] = data['distancia5'].round(2)
data['distancia6'] = data['distancia6'].round(2)
data['distancia7'] = data['distancia7'].round(2)
data['distancia8'] = data['distancia8'].round(2)
data['distancia9'] = data['distancia9'].round(2)

datos_final = data


  data['sesion'] = data['sesion'].replace({


In [None]:

# Crear directorios para guardar resultados
os.makedirs('DTW+ANN20/curvas_det_digitos', exist_ok=True)
os.makedirs('DTW+ANN20/curvas_det_usuarios', exist_ok=True)


# Separar características y etiquetas
X = datos_final.drop(columns=['usuario_num', 'muestra', 'sesion', 'digito']).values
y = datos_final['digito'].values
usuarios = datos_final['usuario_num'].values
sesiones = datos_final['sesion'].values

# Normalizar características
scaler = StandardScaler()
X = scaler.fit_transform(X)

# Codificar etiquetas (si no están ya como números)
encoder = LabelEncoder()
y = encoder.fit_transform(y)

# Obtener la lista de usuarios únicos
usuarios_unicos = np.unique(datos_final["usuario_num"])

# Seleccionar 20 usuarios aleatorios para entrenamiento
np.random.seed(42)  # Para reproducibilidad
usuarios_entrenamiento = np.random.choice(usuarios_unicos, size=20, replace=False)

# Crear máscaras para separar datos
# Conjunto de entrenamiento: usuarios seleccionados, da igual la sesion
mascara_train = np.isin(usuarios, usuarios_entrenamiento)
X_train = X[mascara_train]
y_train = y[mascara_train]

# Conjunto de test: el resto (usuarios no seleccionados)
mascara_test = ~mascara_train
X_test = X[mascara_test]
y_test = y[mascara_test]
usuarios_test = usuarios[mascara_test]

# Construir el modelo ANN
model = Sequential([
    Dense(128, activation='relu', input_shape=(X_train.shape[1],)),
    Dropout(0.2),
    Dense(64, activation='relu'),
    Dropout(0.2),
    Dense(10, activation='softmax')  # 10 clases para los dígitos 0-9
])

# Compilar el modelo
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# Entrenar el modelo
history = model.fit(X_train, y_train, epochs=30, batch_size=32, verbose=1)

# Evaluar el modelo en conjunto de test
test_loss, test_acc = model.evaluate(X_test, y_test)
print(f'Precisión global en test: {test_acc * 100:.2f}%')

# Obtener predicciones del modelo
y_probs = model.predict(X_test)
y_pred = np.argmax(y_probs, axis=1)

# ----- 1. Matriz de confusión general y accuracy por dígito -----
print("\n----- MATRIZ DE CONFUSIÓN GENERAL -----")
conf_matrix = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(10, 8))
plt.imshow(conf_matrix, interpolation='nearest', cmap=plt.cm.Blues)
plt.title('Matriz de Confusión')
plt.colorbar()
tick_marks = np.arange(10)
plt.xticks(tick_marks, range(10))
plt.yticks(tick_marks, range(10))
plt.xlabel('Predicción')
plt.ylabel('Valor Real')

# Añadir valores en cada celda
thresh = conf_matrix.max() / 2
for i in range(conf_matrix.shape[0]):
    for j in range(conf_matrix.shape[1]):
        plt.text(j, i, format(conf_matrix[i, j], 'd'),
                 horizontalalignment="center",
                 color="white" if conf_matrix[i, j] > thresh else "black")
plt.tight_layout()
plt.savefig('DTW+ANN20/matriz_confusion_general.png')
plt.close()

# Accuracy por dígito
print("\n----- ACCURACY POR DÍGITO -----")
accuracies_digito = []
for i in range(10):
    # Filtrar los valores para el dígito i
    indices_digito = (y_test == i)
    if np.sum(indices_digito) > 0:
        acc_digito = accuracy_score(y_test[indices_digito], y_pred[indices_digito])
        accuracies_digito.append(acc_digito)
        print(f'Accuracy para el dígito {i}: {acc_digito * 100:.2f}%')
    else:
        print(f'No hay muestras para el dígito {i}')
        accuracies_digito.append(0)

# Graficar accuracy por dígito
plt.figure(figsize=(10, 6))
plt.bar(range(10), [acc * 100 for acc in accuracies_digito])
plt.xlabel('Dígito')
plt.ylabel('Accuracy (%)')
plt.title('Accuracy por Dígito')
plt.xticks(range(10))
plt.grid(True, axis='y')
plt.savefig('DTW+ANN20/accuracy_por_digito.png')
plt.close()

# ----- 2. Accuracy por usuario -----
print("\n----- ACCURACY POR USUARIO -----")
# Crear DataFrame para resultados por usuario
resultados_usuario = pd.DataFrame({
    'usuario_num': usuarios_test,
    'real': y_test,
    'predicho': y_pred,
    'correcto': y_test == y_pred
})

# Calcular accuracy por usuario
accuracies_usuario = resultados_usuario.groupby('usuario_num')['correcto'].mean()
total_muestras = resultados_usuario.groupby('usuario_num')['correcto'].count()

# Crear DataFrame con resultados
df_accuracies = pd.DataFrame({
    'usuario_num': accuracies_usuario.index,
    'accuracy': accuracies_usuario.values,
    'total_muestras': total_muestras.values
})
df_accuracies['accuracy_porcentaje'] = df_accuracies['accuracy'] * 100

# Ordenar por accuracy (ascendente)
df_accuracies = df_accuracies.sort_values('accuracy')

# Mostrar usuarios con peor y mejor accuracy
print("\nUsuarios con peor accuracy:")
print(df_accuracies.head(5))
print("\nUsuarios con mejor accuracy:")
print(df_accuracies.tail(5))

# Guardar resultados
df_accuracies.to_csv('DTW+ANN20/accuracy_por_usuario.csv', index=False)

# ----- 3. Función para calcular EER y curvas DET -----
def calculate_eer(y_true, y_score):
    """Versión robusta del cálculo de EER que maneja casos extremos"""
    # Verificar variabilidad en los puntajes
    if len(np.unique(y_score)) <= 1:
        return None, None, None, None  # No se puede calcular EER
    
    # Verificar variabilidad en las etiquetas
    if len(np.unique(y_true)) <= 1:
        return None, None, None, None  # No se puede calcular EER
    
    # Añadir pequeña variación a puntajes iguales para evitar problemas numéricos
    if len(np.unique(y_score)) < len(y_score):
        y_score = y_score + np.random.normal(0, 1e-10, len(y_score))
    
    try:
        fpr, tpr, thresholds = roc_curve(y_true, y_score)
        fnr = 1 - tpr
        
        # Verificar si hay suficientes puntos para interpolación
        if len(fpr) <= 2:
            return None, None, fpr, fnr
        
        # Usar método más robusto para encontrar el EER
        eer = brentq(lambda x: 1. - x - interp1d(fpr, tpr, kind='linear', bounds_error=False, 
                                              fill_value=(0,1))(x), 0., 1., xtol=1e-8)
        threshold = interp1d(fpr, thresholds, bounds_error=False)(eer)
        
        return eer, threshold, fpr, fnr
    except Exception as e:
        print(f"Error en cálculo robusto de EER: {e}")
        return None, None, None, None

def plot_det_curve(fpr, fnr, eer=None, label=None, title=None, filename=None):
    """Grafica la curva DET"""
    plt.figure(figsize=(8, 6))
    plt.plot(fpr, fnr, 'b-', linewidth=2, label=label if label else 'Curva DET')
    plt.plot([0, 1], [0, 1], 'k--', label='EER line')
    
    # Marcar el punto EER si está disponible
    if eer is not None:
        idx_eer = np.argmin(np.abs(fpr - (1-fnr)))
        plt.plot(fpr[idx_eer], fnr[idx_eer], 'ro', markersize=8, label=f'EER = {eer:.4f}')
    
    plt.xlabel('False Positive Rate (FPR)')
    plt.ylabel('False Negative Rate (FNR)')
    plt.title(title if title else 'Curva DET')
    plt.legend(loc='lower right')
    plt.grid(True)
    
    if filename:
        plt.savefig(f"DTW+ANN20/{filename}")
        plt.close()
    else:
        plt.show()

# ----- 4. Análisis DET y EER por dígito -----
print("\n----- ANÁLISIS DET Y EER POR DÍGITO -----")
eers_digito = []
digitos = []

# One-vs-Rest para cada dígito
for digito in range(10):
    # Preparar etiquetas binarias (1 para el dígito actual, 0 para los demás)
    y_true_bin = (y_test == digito).astype(int)
    # Obtener probabilidades para el dígito actual
    y_score = y_probs[:, digito]
    
    try:
        # Calcular EER
        eer, threshold, fpr, fnr = calculate_eer(y_true_bin, y_score)
        eers_digito.append(eer)
        digitos.append(digito)
        
        print(f"Dígito {digito}: EER = {eer:.4f}, Umbral = {threshold:.4f}")
        
        # Guardar curva DET para este dígito
        plot_det_curve(
            fpr, fnr, eer=eer,
            label=f"Dígito {digito} (EER={eer:.4f})",
            title=f"Curva DET para Dígito {digito}",
            filename=f"curvas_det_digitos/det_digito_{digito}.png"
        )
    except Exception as e:
        print(f"Error al calcular EER para Dígito {digito}: {e}")

# Ordenar EER por dígito
df_eer_digito = pd.DataFrame({
    'digito': digitos,
    'eer': eers_digito
})
df_eer_digito = df_eer_digito.sort_values('eer')
df_eer_digito.to_csv('DTW+ANN20/eer_por_digito_ordenado.csv', index=False)

# Graficar EER por dígito (ordenado)
plt.figure(figsize=(10, 6))
plt.bar(df_eer_digito['digito'], df_eer_digito['eer'])
plt.xlabel('Dígito')
plt.ylabel('Equal Error Rate (EER)')
plt.title('EER por Dígito (ordenado de menor a mayor)')
plt.xticks(range(10))
plt.grid(True, axis='y')
plt.savefig('DTW+ANN20/eer_por_digito_ordenado.png')
plt.close()

# ----- 5. Análisis DET y EER por usuario -----
print("\n----- ANÁLISIS DET Y EER POR USUARIO -----")
eers_usuario = []
usuarios_analizados = []

# Obtener usuarios únicos en test
usuarios_unicos_test = np.unique(usuarios_test)

for usuario in usuarios_unicos_test:
    # Filtrar datos para este usuario
    indices_usuario = resultados_usuario['usuario_num'] == usuario
    
    # Verificar si hay suficientes muestras
    if sum(indices_usuario) < 20:
        print(f"Usuario {usuario}: insuficientes muestras ({sum(indices_usuario)}). Omitido.")
        continue
    
    # Datos específicos del usuario
    y_true_usuario = resultados_usuario.loc[indices_usuario, 'real'].values
    y_pred_prob_usuario = y_probs[indices_usuario]
    
    # Verificar variedad de dígitos
    if len(np.unique(y_true_usuario)) < 3:
        print(f"Usuario {usuario}: insuficiente variedad de dígitos. Omitido.")
        continue
    
    # Extraer confianza máxima para cada predicción
    max_confianzas = np.max(y_pred_prob_usuario, axis=1)
    
    # Etiqueta binaria: si la predicción fue correcta o no
    predicciones = np.argmax(y_pred_prob_usuario, axis=1)
    correctas = predicciones == y_true_usuario

    if len(np.unique(correctas)) < 2:
        print(f"Usuario {usuario}: solo una clase en etiquetas correctas. Omitido.")
        continue
    
    try:
        # Calcular curva ROC/DET
        fpr, tpr, thresholds = roc_curve(correctas, max_confianzas)
        fnr = 1 - tpr
        
        # Calcular EER
        eer = brentq(lambda x: 1. - x - interp1d(fpr, tpr)(x), 0., 1.)
        threshold = interp1d(fpr, thresholds)(eer)
        
        # Guardar resultados
        eers_usuario.append(eer)
        usuarios_analizados.append(usuario)
        
        print(f"Usuario {usuario}: EER = {eer:.4f}, Umbral = {threshold:.4f}")
        
        # Guardar curva DET para este usuario
        plot_det_curve(
            fpr, fnr, eer=eer,
            label=f"Usuario {usuario} (EER={eer:.4f})",
            title=f"Curva DET para Usuario {usuario}",
            filename=f"curvas_det_usuarios/det_usuario_{usuario}.png"
        )
    except Exception as e:
        print(f"Error al calcular EER para Usuario {usuario}: {e}")

# Ordenar EER por usuario
df_eer_usuario = pd.DataFrame({
    'usuario_num': usuarios_analizados,
    'eer': eers_usuario
})
df_eer_usuario = df_eer_usuario.sort_values('eer')
df_eer_usuario.to_csv('DTW+ANN20/eer_por_usuario_ordenado.csv', index=False)

# Graficar los 10 mejores y 10 peores usuarios (por EER)
# Mejores usuarios (menor EER)
if len(df_eer_usuario) > 10:
    plt.figure(figsize=(12, 6))
    mejores = df_eer_usuario.head(10)
    plt.bar(range(len(mejores)), mejores['eer'])
    plt.xlabel('Usuario')
    plt.ylabel('EER')
    plt.title('10 Usuarios con Menor EER')
    plt.xticks(range(len(mejores)), [f"U{u}" for u in mejores['usuario_num']], rotation=45)
    plt.grid(True, axis='y')
    plt.tight_layout()
    plt.savefig('DTW+ANN20/mejores_usuarios_eer.png')
    plt.close()
    
    # Peores usuarios (mayor EER)
    plt.figure(figsize=(12, 6))
    peores = df_eer_usuario.tail(10)
    plt.bar(range(len(peores)), peores['eer'])
    plt.xlabel('Usuario')
    plt.ylabel('EER')
    plt.title('10 Usuarios con Mayor EER')
    plt.xticks(range(len(peores)), [f"U{u}" for u in peores['usuario_num']], rotation=45)
    plt.grid(True, axis='y')
    plt.tight_layout()
    plt.savefig('DTW+ANN20/peores_usuarios_eer.png')
    plt.close()

print("\n----- ANÁLISIS COMPLETO -----")
print(f"Total dígitos analizados: {len(df_eer_digito)}")
print(f"Total usuarios analizados: {len(df_eer_usuario)}")

Epoch 1/30


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m50/50[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.3134 - loss: 2.0139       
Epoch 2/30
[1m50/50[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.7777 - loss: 0.8927 
Epoch 3/30
[1m50/50[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.8914 - loss: 0.4713 
Epoch 4/30
[1m50/50[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.9201 - loss: 0.3140 
Epoch 5/30
[1m50/50[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.9267 - loss: 0.2421 
Epoch 6/30
[1m50/50[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.9340 - loss: 0.2138 
Epoch 7/30
[1m50/50[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.9371 - loss: 0.1926 
Epoch 8/30
[1m50/50[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - accuracy: 0.9540 - loss: 0.1690 
Epoch 9/30
[1m50/50[0m [32m━━━━━━━━━━━━━━━━━━━━[0

  y_new = slope*(x_new - x_lo)[:, None] + y_lo


Usuario 109: EER = 0.0000, Umbral = nan
Usuario 110: EER = 0.0526, Umbral = 0.9533
Usuario 112: EER = 0.2632, Umbral = 0.9888
Usuario 115: solo una clase en etiquetas correctas. Omitido.
Usuario 118: EER = 0.2222, Umbral = 0.9924
Usuario 119: EER = 0.0000, Umbral = nan
Usuario 120: EER = 0.1250, Umbral = 0.8325


  y_new = slope*(x_new - x_lo)[:, None] + y_lo
  y_new = slope*(x_new - x_lo)[:, None] + y_lo


Usuario 121: EER = 0.0000, Umbral = nan
Usuario 124: EER = 0.0811, Umbral = 0.9714
Usuario 125: solo una clase en etiquetas correctas. Omitido.
Usuario 126: EER = 0.1000, Umbral = 0.9884
Usuario 128: EER = 0.0909, Umbral = 0.8968
Usuario 129: EER = 0.0000, Umbral = nan
Usuario 130: EER = 0.0759, Umbral = 0.9621
Usuario 132: EER = 0.2414, Umbral = 0.9421


  y_new = slope*(x_new - x_lo)[:, None] + y_lo


Usuario 134: EER = 0.0390, Umbral = 0.6475
Usuario 135: solo una clase en etiquetas correctas. Omitido.
Usuario 136: EER = 0.0128, Umbral = 0.8529
Usuario 137: EER = 0.0385, Umbral = 0.8905
Usuario 138: EER = 0.0390, Umbral = 0.7315
Usuario 139: EER = 0.0263, Umbral = 0.7267
Usuario 142: EER = 0.0641, Umbral = 0.8354
Usuario 143: EER = 0.1250, Umbral = 0.8827
Usuario 144: EER = 0.2388, Umbral = 0.9487
Usuario 147: EER = 0.2740, Umbral = 0.9257
Usuario 148: EER = 0.0253, Umbral = 0.9084
Usuario 149: EER = 0.2273, Umbral = 0.9773
Usuario 151: EER = 0.0128, Umbral = 0.7371
Usuario 152: EER = 0.1905, Umbral = 0.9753
Usuario 153: EER = 0.0506, Umbral = 0.9654
Usuario 154: EER = 0.1429, Umbral = 0.8267
Usuario 156: solo una clase en etiquetas correctas. Omitido.
Usuario 157: EER = 0.1169, Umbral = 0.9060
Usuario 158: EER = 0.1667, Umbral = 0.9307
Usuario 159: EER = 0.1200, Umbral = 0.8986
Usuario 160: EER = 0.1528, Umbral = 0.9561
Usuario 162: solo una clase en etiquetas correctas. Omitido.


  y_new = slope*(x_new - x_lo)[:, None] + y_lo


Usuario 194: EER = 0.1667, Umbral = 0.9031
Usuario 195: EER = 0.1486, Umbral = 0.9067
Usuario 196: EER = 0.1250, Umbral = 0.9959
Usuario 197: EER = 0.1053, Umbral = 0.8221
Usuario 198: EER = 0.2000, Umbral = 0.9376
Usuario 200: EER = 0.0580, Umbral = 0.8723
Usuario 201: EER = 0.1447, Umbral = 0.9517
Usuario 202: EER = 0.0380, Umbral = 0.7223
Usuario 203: EER = 0.0256, Umbral = 0.7726
Usuario 204: EER = 0.1111, Umbral = 0.9494
Usuario 205: solo una clase en etiquetas correctas. Omitido.
Usuario 207: EER = 0.2987, Umbral = 0.9619
Usuario 208: EER = 0.1111, Umbral = 0.9507

----- ANÁLISIS COMPLETO -----
Total dígitos analizados: 10
Total usuarios analizados: 67
