In [None]:
# Pandas y Numpy
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Sklearn
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV

# Seaborn
import seaborn as sns

In [None]:
df_Brutos = pd.read_excel("../DatosBrutos.xlsx")
dimensionDFBrutos = df_Brutos.shape
df_Educacion = df_Brutos.filter(["Curso_Codif",
                                 "Especialidad_Codif",
                                 "Edad",
                                 "Género",
                                 "Comunidad_Autónoma",
                                 "Horario",
                                 "Tipo_de_centro_titularidad",
                                 "Tipo_de_centro_alumnado",
                                 "Entorno_demográfico",
                                 "Entorno_socioeconómico",
                                 "Edad_tutor_Codif",
                                 "AñosExp_Codif",
                                 "FormPed_Codif",
                                 "Tipos_espacio_Codif",
                                 "AC_Codif",
                                 "GAM_Codif",
                                 "FC_Codif",
                                 "ABPr_Codif",
                                 "ABP_Codif",
                                 "AS_Codif",
                                 ])

df_Educacion.info()

In [None]:
df_Educacion["AS_Codif"].fillna(1, inplace=True)
df_Educacion["Curso_Codif"].fillna(5, inplace=True)
df_Educacion = df_Educacion.astype({'AS_Codif': 'long'})
df_Educacion = df_Educacion.astype({'Curso_Codif': 'long'})

df_Educacion.info()

In [None]:

diccionario_Edad = {"Menos de 25 años": 1,
                    "Entre 25 y 40 años (ambos inclusive)": 2,
                    "Más de 40 años": 3}

diccionario_Genero = {"Masculino": 1,
                      "Femenino": 2}

diccionario_ComunidadAutonoma = {"Andalucía": 1,
                                 "Aragón": 2,
                                 "Baleares": 3,
                                 "Canarias": 4,
                                 "Cantabria": 5,
                                 "Castilla la Mancha": 6,
                                 "Castilla y León": 7,
                                 "Cataluña": 8,
                                 "Comunidad de Madrid": 9,
                                 "Comunidad Foral de Navarra": 10,
                                 "Comunidad Valenciana": 11,
                                 "Extremadura": 12,
                                 "Galicia": 13,
                                 "La Rioja": 14,
                                 "País Vasco": 15,
                                 "Principado de Asturias": 16,
                                 "Prácticas fuera de España en centros del MECD": 17,
                                 "Región de Murcia": 18,
                                 }

diccionario_Horario = {"Jornada Continua (por ejemplo, de 8 a 17h)": 1,
                       "Jornada de mañana o de tarde": 2,
                       "Jornada de mañana y tarde": 3,
                       "Jornada mixta (mañana y/o tarde y/o nocturna)": 4,
                       "Jornada nocturna": 5,
                       "Jornada Partida (por ejemplo, de 8 a 13h y de 15-19h)": 6}


diccionario_TipoCentroAlumnado = {"Centro de integración preferente auditiva": 1,
                                  "Centro de integración preferente motora": 2,
                                  "Centro de integración preferente para personas con Espectro del Trastorno Autista": 3,
                                  "Centro Ordinario": 4,
                                  "Centro Ordinario con inclusión/de integración/con apoyos": 5,
                                  "Otro": 6}


diccionario_TipoCentroEnseñanza = {"Centros de Referencia Nacional": 1,
                                   "Centros Integrados de Formación Profesional": 2,
                                   "Colegio de educación infantil, primaria y secundaria": 3,
                                   "Escuela Oficial de Idiomas": 4,
                                   "Formación de Adultos": 5,
                                   "Instituto de Educación Secundaria y/o Formación Profesional": 6,
                                   "Otro": 7}

diccionario_EntornoDemografico = {"Rural": 1,
                                  "Urbano": 2}

diccionario_EntornoSocioEconomico = {"Entorno socio-económico alto": 1,
                                     "Entorno socio-económico bajo": 2,
                                     "Entorno socio-económico medio": 3,
                                     "Entorno socio-económico medio-alto": 4,
                                     "Entorno socio-económico medio-bajo": 5}


diccionario_TipoTitularidadCentro = {"Público": 1,
                                     "Concertado": 2,
                                     "Privado": 3}

In [None]:
df_Educacion["Edad"] = df_Educacion["Edad"].map(diccionario_Edad)
df_Educacion["Género"] = df_Educacion["Género"].map(diccionario_Genero)
df_Educacion["Comunidad_Autónoma"] = df_Educacion["Comunidad_Autónoma"].map(
    diccionario_ComunidadAutonoma)
df_Educacion["Horario"] = df_Educacion["Horario"].map(diccionario_Horario)
df_Educacion["Tipo_de_centro_alumnado"] = df_Educacion["Tipo_de_centro_alumnado"].map(
    diccionario_TipoCentroAlumnado)
df_Educacion["Tipo_de_centro_titularidad"] = df_Educacion["Tipo_de_centro_titularidad"].map(
    diccionario_TipoTitularidadCentro)
df_Educacion["Entorno_demográfico"] = df_Educacion["Entorno_demográfico"].map(
    diccionario_EntornoDemografico)
df_Educacion["Entorno_socioeconómico"] = df_Educacion["Entorno_socioeconómico"].map(
    diccionario_EntornoSocioEconomico)

In [None]:
df_Educacion.info()

In [None]:
def creandoEtiquetas(x):
    if x < 4:
        z = 0
    else:
        z = 1
    return z


df_Educacion["MultiClase"] = df_Educacion.apply(lambda x: max(
    x["AC_Codif"], x["FC_Codif"], x["GAM_Codif"], x["AS_Codif"], x["ABP_Codif"], x["ABPr_Codif"]), axis=1)
df_Educacion["CLASE"] = df_Educacion["MultiClase"].apply(creandoEtiquetas)
del (df_Educacion["ABP_Codif"])
del (df_Educacion["AC_Codif"])
del (df_Educacion["GAM_Codif"])
del (df_Educacion["AS_Codif"])
del (df_Educacion["FC_Codif"])
del (df_Educacion["ABPr_Codif"])
del (df_Educacion["MultiClase"])

In [None]:
df_Educacion.info()

In [None]:
df_X = df_Educacion.drop("CLASE", axis=1)
# Como se ha decidido codificar por numero natural no hay dummies
df_X_dummies = pd.get_dummies(df_X)
dimensionDFX = df_X_dummies.shape
df_Y = df_Educacion[["CLASE"]]
X = df_X_dummies.to_numpy()
y = df_Y["CLASE"].to_numpy()


X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.1, random_state=7)

dimensionXTrain = X_train.shape
dimensionXTest = X_test.shape

In [None]:
print(dimensionXTrain)
print(dimensionXTest)

In [None]:
# Import the required libraries
from sklearn.model_selection import GridSearchCV
from keras.models import Sequential
from keras.layers import Dense
from scikeras.wrappers import KerasClassifier


# Creación del modelo
def createModel():
    model = Sequential()
    model.add(Dense(units=50, activation='relu', input_dim=X_train.shape[1]))
    model.add(Dense(50, activation="relu"))
    model.add(Dense(1, activation='sigmoid'))
    model.compile(optimizer='nadam', loss='mse', metrics=['accuracy'])
    return model


# Lista de hiperparametros
batch_size = [100]
epochs = [35]
validation_split = [0.1]
param_grid = dict(batch_size=batch_size, epochs=epochs,
                  validation_split=validation_split)


# Entrenamiento del modelo con las distintas combinaciones de hiperparametros
model = KerasClassifier(model=createModel, verbose=0)
grid = GridSearchCV(estimator=model, cv=10,
                    param_grid=param_grid,
                    n_jobs=4
                    )
grid_result = grid.fit(X_train, y_train)
results = pd.DataFrame(grid_result.cv_results_)
means = grid_result.cv_results_['mean_test_score']
stds = grid_result.cv_results_['std_test_score']
params = grid_result.cv_results_['params']
for mean, stdev, param in zip(means, stds, params):
    print("Precision: %f Error: %f parametros: %r" % (mean, stdev, param))

# Se eligen los hiperparámetros que proporciona el mejor modelo
print("Mejor precision: %f parametros %s" %
      (grid_result.best_score_, grid_result.best_params_))
bestModel = grid_result.best_estimator_
bestScore = grid_result.best_score_
bestEpochs = grid_result.best_params_.get('epochs')
bestBatchSize = grid_result.best_params_.get('batch_size')
bestValidationSplit = grid_result.best_params_.get('validation_split')

In [None]:
plt.plot(bestModel.history_['accuracy'])
plt.plot(bestModel.history_['val_accuracy'])
plt.ylabel('Precisión')
plt.xlabel('épocas')
plt.title('Precisión')
plt.legend(['Entrenamiento', 'Validación'])
plt.show()

In [None]:
plt.plot(bestModel.history_['loss'])
plt.plot(bestModel.history_['val_loss'])
plt.ylabel('Error')
plt.xlabel('épocas')
plt.title('Error')
plt.legend(['Entrenamiento', 'Validación'])
plt.show()

In [None]:
from sklearn.metrics import accuracy_score
pred_train = bestModel.predict(X_train)
accuracy_score_train = accuracy_score(pred_train, y_train)
print(accuracy_score_train)

pred_test = bestModel.predict(X_test)
accuracy_score_test = accuracy_score(pred_test, y_test)
print(accuracy_score_test)

In [None]:
from sklearn.metrics import ConfusionMatrixDisplay, confusion_matrix

# Se construye la matriz de contingencia
cm = confusion_matrix(pred_test, y_test, labels=[1, 0])
print(cm)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=[1, 0])
dp = disp.plot()
dp.ax_.set(ylabel="Predicción")
dp.ax_.set(xlabel="Realidad")
dp.ax_.set_title('Matriz de contingencia')

In [None]:
# Se construye la matriz de contingencia
cm = confusion_matrix(pred_test, y_test, labels=[1, 0])

heatmap = sns.heatmap(cm,
                      cmap="PuBu_r",
                      xticklabels=["Existe innovación",
                                   "No existe innovación"],
                      yticklabels=["Predice que existe innovación", "Predice que no hay innovación"], annot=True, fmt="d", linewidths=.6
                      )
heatmap.set(xlabel='Realidad', ylabel='Predicción')
plt.title("Matriz de contingencia")
plt.show()

In [None]:
# celdas
TP = cm[0][0]
print("TP : " + str(TP))
FP = cm[0][1]
print("FP : " + str(FP))
FN = cm[1][0]
print("FN : " + str(FN))
TN = cm[1][1]
print("TN : " + str(TN))

# columnas
P = TP + FN
print("P : " + str(P))
N = TN + FP
print("N : " + str(N))

# filas
P_ = TP + FP
print("P_ : " + str(P_))
N_ = TN + FN
print("N_  : " + str(N_))

In [None]:
# Métricas a partir de los resultados reales

# Sensibilidad(true positive rate)
TPR = np.round(TP/(TP+FN), 2)
print("TPR : " + str(TPR))

# False positive rate
FPR = np.round(FP/(FP+TN), 2)
print("FPR : " + str(FPR))

# False negative rate
FNR = np.round(FN/(TP+FN), 2)
print("FNR : " + str(FNR))

# Especificidad(true negative rate)
TNR = np.round(TN/(TN+FP), 2)
print("TNR : " + str(TNR))

# Se construye la matriz de contingencia segun columnas (Realidad)
cmTrue = [[TPR, FPR], [FNR, TNR]]

heatmapTrue = sns.heatmap(cmTrue,
                          cmap="PuBu_r",
                          xticklabels=["Existe innovación",
                                       "No existe innovación"],
                          yticklabels=["Predice que existe innovación", "Predice que no hay innovación"], annot=True,  linewidths=.6
                          )
plt.title("Matriz de contingencia proporción por columnas")
plt.xlabel('Realidad')
plt.ylabel('Predicción')
plt.show()

In [None]:
# Métricas a partir de los resultados predichos

# Positive predictive value
PPV = np.round(TP/(TP+FP), 2)
print("PPV : " + str(PPV))

# False discovery rate
FDR = np.round(FP/(TP+FP), 2)
print("FDR : " + str(FDR))

# Negative predictive value
NPV = np.round(TN/(TN+FN), 2)
print("NPV : " + str(NPV))

# False omission rate
FOR = np.round(FN/(TN+FN), 2)
print("FOR : " + str(FOR))

# Se construye la matriz de contingencia segun filas (prediccion)
cmPred = [[PPV, FDR], [FOR, NPV]]

heatmapTrue = sns.heatmap(cmPred,
                          cmap="PuBu_r",
                          xticklabels=["Existe innovación",
                                       "No existe innovación"],
                          yticklabels=["Predice que existe innovación", "Predice que no hay innovación"], annot=True,  linewidths=.6
                          )
plt.title("Matriz de contingencia porporción por filas")
plt.xlabel('Realidad')
plt.ylabel('Predicción')
plt.show()

In [None]:
from sklearn.metrics import f1_score, matthews_corrcoef, accuracy_score

# Metricas generales

# Precision
ACC = np.round(accuracy_score(y_pred=pred_test, y_true=y_test), 2)
print("ACC : " + str(ACC))

# Precision
ERR = np.round(1 - ACC, 2)
print("ERR : " + str(ERR))

# Valor F
F1 = np.round(f1_score(y_pred=pred_test, y_true=y_test), 2)
print("F1 : " + str(F1))

# coeficiente Phi
MCC = np.round(matthews_corrcoef(y_pred=pred_test, y_true=y_test), 2)
print("MCC : " + str(MCC))

In [None]:
from sklearn.metrics import roc_curve, RocCurveDisplay, auc


RocCurveDisplay.from_estimator(
    bestModel,
    X_test,
    y_test,
    name=f"BestModel")
plt.plot([0, 1], [0, 1], "k--", label="Predicción aleatoria (AUC = 0.5)")
plt.xlabel("False Positive Rate FPR(c)")
plt.ylabel("True Positive Rate TPR(c)")
plt.legend()
plt.show()


probs = bestModel.predict_proba(X_test)
y_score = probs[:, 1]
fpr, tpr, thresholds = roc_curve(y_score=y_score, y_true=y_test)
AUC = np.round(auc(fpr, tpr), 2)
print("AUC : " + str(AUC))

In [None]:
from sklearn.model_selection import StratifiedKFold

n_split = 10
cv = StratifiedKFold(n_splits=n_split, shuffle=True, random_state=71)

tprs = []
aucs = []
mean_fpr = np.linspace(0, 1, 100)

fig, ax = plt.subplots(figsize=(n_split, n_split))
for fold, (train_index, test_index) in enumerate(cv.split(X, y)):

    classifier = KerasClassifier(model=createModel)

    classifier.fit(X[train_index], y[train_index],  batch_size=bestBatchSize,
                   epochs=bestEpochs, validation_split=bestValidationSplit, verbose=0)

    rocCurveDisp = RocCurveDisplay.from_estimator(
        classifier,
        X[test_index],
        y[test_index],
        name=f"ROC fold {fold}",
        alpha=0.6,
        lw=1,
        ax=ax,
    )
    interp_tpr = np.interp(mean_fpr, rocCurveDisp.fpr, rocCurveDisp.tpr)
    interp_tpr[0] = 0.0
    tprs.append(interp_tpr)
    aucs.append(rocCurveDisp.roc_auc)

mean_tpr = np.mean(tprs, axis=0)
mean_tpr[-1] = 1.0
mean_auc = auc(mean_fpr, mean_tpr)
std_auc = np.std(aucs)
ax.plot(
    mean_fpr,
    mean_tpr,
    color="b",
    label=r"Curva ROC media (AUC = %0.2f $\pm$ %0.2f)" % (mean_auc, std_auc),
    lw=2,
    alpha=0.7,
)

std_tpr = np.std(tprs, axis=0)
tprs_upper = np.minimum(mean_tpr + std_tpr, 1)
tprs_lower = np.maximum(mean_tpr - std_tpr, 0)

# Parte sombreada
ax.fill_between(
    mean_fpr,
    tprs_lower,
    tprs_upper,
    color="grey",
    alpha=0.3,
    label=r"$\sigma = $ %0.2f" % (std_auc),
)

ax.set(
    xlim=[-0.05, 1.05],
    ylim=[-0.05, 1.05],
    title="Variabilidad de las curvas ROC",
)

plt.plot([0, 1], [0, 1], "k--", label="Predicción aleatoria (AUC = 0.5)")
plt.xlabel("False Positive Rate FPR(c)")
plt.ylabel("True Positive Rate TPR(c)")
plt.legend()
plt.show()

In [None]:
from tensorflow.keras.models import save_model
save_model(bestModel.model_,  "bestModel")
save_model(bestModel.model_,  "models_h5/bestModel.h5")

In [None]:
import shap
explainer = shap.Explainer(bestModel.model_, X_train,
                           feature_names=df_X.columns)
shap_values = explainer(X_train)

In [None]:
plt.clf()
shap.plots.bar(shap_values, max_display=11, show=False)
plt.show()

In [None]:
plt.clf()
shap.plots.beeswarm(shap_values, max_display=11, show=False)
plt.show()