# 4 Evaluacion de los modelos y conclusiones

In [1]:
# Importar librerias

from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from tensorflow.keras.models import load_model
from sklearn.metrics import accuracy_score, classification_report


###4.0 Conectar al Drive

In [2]:
from google.colab import drive

# Monto Google Drive
drive.mount('/content/drive', force_remount=True)

Mounted at /content/drive


###4.1 Copiar y cargar de los modelos


In [3]:
# Copiar el modelos de Drive a Colab
!cp "/content/drive/My Drive/model_lr.pkl" "/content/model_lr.pkl"
!cp "/content/drive/My Drive/model_nb.pkl" "/content/model_nb.pkl"
!cp "/content/drive/My Drive/model_rnn.keras" "/content/model_rnn.keras"
!cp "/content/drive/My Drive/model_lstm.h5" "/content/model_lstm.h5"

In [4]:
# Cargar los modelos LR y NB

from joblib import load

model_lr = load('/content/model_lr.pkl')
model_nb = load('/content/model_nb.pkl')
model_rnn = load_model('/content/model_rnn.keras')
model_lstm = load_model('/content/model_lstm.h5')

###4.2 Copiar y cargar los datos

In [5]:
# Copio los datos de Drive a Colab
# (en ocasiones demora, hay que darle tiempo o ejecutarlo mas de una vez)

!cp "/content/drive/My Drive/X_train_scaled.npz" "/content/X_train_scaled.npz"
!cp "/content/drive/My Drive/X_test_scaled.npz" "/content/X_test_scaled.npz"
!cp "/content/drive/My Drive/y_test.npy" "/content/y_test.npy"
!cp "/content/drive/My Drive/X_test_pad.npy" "/content/X_test_pad.npy"

In [6]:
!ls -l "/content/"

total 44796
drwx------ 5 root root     4096 Mar 28 15:43 drive
-rw------- 1 root root   259919 Mar 28 15:43 model_lr.pkl
-rw------- 1 root root   814680 Mar 28 15:43 model_lstm.h5
-rw------- 1 root root  1036983 Mar 28 15:43 model_nb.pkl
-rw------- 1 root root   511912 Mar 28 15:43 model_rnn.keras
drwxr-xr-x 1 root root     4096 Mar 26 13:28 sample_data
-rw------- 1 root root 37616128 Mar 28 15:43 X_test_pad.npy
-rw------- 1 root root  1096956 Mar 28 15:43 X_test_scaled.npz
-rw------- 1 root root  4483271 Mar 28 15:43 X_train_scaled.npz
-rw------- 1 root root    32128 Mar 28 15:43 y_test.npy


In [7]:
# Cargo las variables para la evaluacion de los modelos

import numpy as np
from scipy.sparse import save_npz, load_npz

X_train_scaled = load_npz('/content/X_train_scaled.npz')
X_test_scaled = load_npz('/content/X_test_scaled.npz')
y_test = np.load('/content/y_test.npy', allow_pickle=True)
X_test_pad = np.load('/content/X_test_pad.npy', allow_pickle=True)



###4.3 Evaluacion de los modelos

In [8]:
#3. Evaluación de los Modelos

# Evaluar Regresión Logística
y_pred_lr = model_lr.predict(X_test_scaled)

print("Regresión Logística:")
print(classification_report(y_test, y_pred_lr))

# Evaluar Naive Bayes
y_pred_nb = model_nb.predict(X_test_scaled)
print("Naive Bayes:")
print(classification_report(y_test, y_pred_nb))

# Evaluar RNN
y_pred_rnn = (model_rnn.predict(X_test_pad) > 0.5).astype("int32")
print("RNN:")
print(classification_report(y_test, y_pred_rnn))

# Evaluar LSTM
y_pred_lstm = (model_lstm.predict(X_test_pad) > 0.5).astype("int32")
print("LSTM:")
print(classification_report(y_test, y_pred_lstm))

Regresión Logística:
              precision    recall  f1-score   support

           0       0.85      0.85      0.85      1981
           1       0.85      0.86      0.85      2019

    accuracy                           0.85      4000
   macro avg       0.85      0.85      0.85      4000
weighted avg       0.85      0.85      0.85      4000

Naive Bayes:
              precision    recall  f1-score   support

           0       0.76      0.77      0.77      1981
           1       0.77      0.76      0.77      2019

    accuracy                           0.77      4000
   macro avg       0.77      0.77      0.77      4000
weighted avg       0.77      0.77      0.77      4000

RNN:
              precision    recall  f1-score   support

           0       0.50      1.00      0.66      1981
           1       0.00      0.00      0.00      2019

    accuracy                           0.50      4000
   macro avg       0.25      0.50      0.33      4000
weighted avg       0.25      0.50  

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


LSTM:
              precision    recall  f1-score   support

           0       0.50      1.00      0.66      1981
           1       0.00      0.00      0.00      2019

    accuracy                           0.50      4000
   macro avg       0.25      0.50      0.33      4000
weighted avg       0.25      0.50      0.33      4000



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [9]:
# Evaluar LR
accuracy_lr = accuracy_score(y_test, y_pred_lr)
print(f"Regresión Logistica - Accuracy: {accuracy_lr}\n")

# Evaluar NB
accuracy_nb = accuracy_score(y_test, y_pred_nb)
print(f"Naive Bayes - Accuracy: {accuracy_nb}")

# Evaluar RNN
loss_rnn, accuracy_rnn = model_rnn.evaluate(X_test_pad, y_test, verbose=0)
print(f"RNN - Loss: {loss_rnn}, Accuracy: {accuracy_rnn}")

# Evaluar LSTM
loss_lstm, accuracy_lstm = model_lstm.evaluate(X_test_pad, y_test, verbose=0)
print(f"LSTM - Loss: {loss_lstm}, Accuracy: {accuracy_lstm}")

Regresión Logistica - Accuracy: 0.85125

Naive Bayes - Accuracy: 0.7665
RNN - Loss: 0.6946031451225281, Accuracy: 0.49524998664855957
LSTM - Loss: 0.6932557821273804, Accuracy: 0.49524998664855957


###4.4 Conclusiones

### RENDIMINETO

Regresion Logistica
  Ha mostrado un rendimiento bueno en terminos de precision, recall y f1-score para las dos clases. La RL ha logrado capturar la relacion entre las entradas y salidad de forma efectiva para estos datos.
Naive Bayes
  Ligeramente inferior que la RL, pero con un rendimiento bueno. Sin embargo recall y f1-score son mas bajos que los de RL. Esto puede deberse a las caracteristicas del modelo.
RNN y LSTM
  Rendimiento muy pobre, la precision del 50% es casi como el azar. Esto puede deberse a varios factores como el entrenamiento insuficinete, las arquitectura de los modelos no es adecuada para la tarea o la necesidad de ajustar los hiperparametros

### CONCLUSION GENERAL

La RL ha sido el modelo mas efectivo para este conjunto de datos con un buen rendimienot de Naive Bayes. El pobre resultado de RNN y LSTM sugieren que necesita hacerse una revision mas profunda para estos modelos y dejan en evidencia la importancia de probar diferentes modelos para un problema de clasificacion, ya que no siempre los modelos mas complejos garantizan el mejor rendimiento.

### NOTA IMPORTANTE

Las limitaciones del entorno condicionaron la ejecucion de mejoras en los modelos, tantos las mencioandas como otras que hemos visto a lo largo del curso.