# RNN vs LSTM

----

# Clasificaci√≥n de Sentimiento: Comparaci√≥n entre RNN y LSTM

---

## Objetivo

Este notebook presenta una comparaci√≥n pr√°ctica entre dos arquitecturas cl√°sicas de redes neuronales para procesamiento de lenguaje natural (NLP): **RNN (Recurrent Neural Network)** y **LSTM (Long Short-Term Memory)**.

Utilizando el dataset **Sentiment140**, se entrena cada modelo para clasificar tweets como positivos o negativos. Se analizan m√©tricas como **precisi√≥n**, **F1-score** y **p√©rdida de validaci√≥n**, con el objetivo de determinar cu√°l arquitectura ofrece mejor rendimiento en esta tarea de clasificaci√≥n de texto.

## Motivaci√≥n

Las redes RNN fueron durante a√±os el est√°ndar para modelar secuencias en NLP, pero presentan problemas al manejar dependencias largas. LSTM surgi√≥ como una soluci√≥n a esas limitaciones, gracias a su capacidad de memoria a largo plazo.

Este proyecto busca evidenciar, con una implementaci√≥n pr√°ctica, las diferencias entre ambas arquitecturas en t√©rminos de:

- Desempe√±o sobre datos reales
- Estabilidad del entrenamiento
- Tama√±o y complejidad del modelo

## Herramientas utilizadas
- **Python 3.x**
- **TensorFlow / Keras** para definici√≥n y entrenamiento de modelos
- **scikit-learn** para evaluaci√≥n
- **pandas**, **numpy**, **matplotlib**, **seaborn** para an√°lisis y visualizaci√≥n

---

## Carga y Procesamiento


Esta fuente de datos original posee 1.6 millones de tweets. En este ejercicio se utiliza s√≥lo un subconjunto de ellos.

*(tambi√©n, se puede usar el archivo CSV desde el disco local con 50k registros)*


### Librer√≠as y Carga

In [None]:
#Librer√≠as
import pandas as pd
import wget, re, io
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import tensorflow as tf
from tensorflow.keras.callbacks import EarlyStopping
from spellchecker import SpellChecker
from tensorflow.keras.callbacks import ReduceLROnPlateau, ModelCheckpoint


#Modelos
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, confusion_matrix
from torch.utils.data import Dataset, DataLoader

In [None]:
#Dataset
url = "https://nyc3.digitaloceanspaces.com/ml-files-distro/v1/sentiment-analysis-is-bad/data/sentiment140-subset.csv.zip"

wget.download(url)
!unzip -n sentiment140-subset.csv.zip
data = pd.read_csv('sentiment140-subset.csv', nrows=50000)

### Lectura del dataset.

In [None]:
print(data.shape)
data.columns

Para esta evaluaci√≥n trabajaremos con el dataset `sentiment140-subset.csv`, el cual posee 50.000 datos y 2 columnas:

* Text: Vendr√≠an a ser los tweets extra√≠dos y nos vendr√≠a a indicar una oraci√≥n.

* polarity: Vendr√≠a a ser el sentimiento asociado a la oraci√≥n.
La polaridad es 0 o 1. 0 indica negatividad y 1 indica positividad.

In [None]:
data.head()

Verificamos si el dataset muestra correctamente los datos y con el resultado podemos que nos los primeros 5 datos en los que s√≠ contiene "text" y "polarity" por lo tanto corresponde al dataset y se puede empezar a trabajar.

In [None]:
data.info()

Verificamos que no hayan valores faltantes o nulos en nuestro dataset y por el resultado no hay nulos y adem√°s nos informa el tipo de ambos datos con los que estamos trabajando:
* Polarity (int64): ya que √©sta columna son solo 0's y 1's ya que se indica si es positivo o negativo el mensaje.

* text (object): ya que √©sta columna solo son mensajes, osea una secuencia de caracteres.

In [None]:
print(data['polarity'].value_counts())

---

### Procesamiento del Dataset `sentiment140-subset.csv`

Para nuestro modelo RNN necesitaremos limpiar y procesar nuestro dataset para que lo pueda leer en el idioma en el que lee la m√°quina, osea n√∫meros(tokenizer) y adem√°s eliminar letras redundantes (may√∫sculas) y espaciados o saltos de espacio.

#### Limpieza de Mayus y espacios


In [None]:
def limpiar_texto_mejorado(texto):
    texto = texto.lower()
    texto = re.sub(r'http\S+|www\S+', '<URL>', texto)  # reemplazar URLs
    texto = re.sub(r'@\w+', '@user', texto)             # reemplazar menciones
    texto = re.sub(r'\n|\r|\t', ' ', texto)
    texto = re.sub(r'\s+', ' ', texto)
    # Mantener ap√≥strofes para contracciones
    texto = re.sub(r"[^a-zA-Z0-9\s']", '', texto)
    return texto.strip()

print(data.head())

Dado que el texto sin procesar es dif√≠cil de procesar por una red neuronal, tenemos que convertirlo en su representaci√≥n num√©rica correspondiente.

Para ello, inicializamos su tokenizador estableciendo la cantidad m√°xima de palabras (caracter√≠sticas/tokens) que desea convertir en tokens en una oraci√≥n.

#### Tokenizer y Padding

In [None]:
max_features = 25000
maxlen = 128

Elegiremos un m√°ximo de 4000 caracteres para nuestro tokenizador

In [None]:
# Preprocesamiento robusto
tokenizer = tf.keras.preprocessing.text.Tokenizer(
    num_words=max_features,
    oov_token="<OOV>",
    filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
    lower=True
)

tokenizer.fit_on_texts(data['text'].values)
X = tokenizer.texts_to_sequences(data['text'].values)
X = tf.keras.preprocessing.sequence.pad_sequences(X, maxlen=maxlen)
y = data['polarity'].values


Rellenamos las secuencias tokenizadas para mantener la misma longitud en todas las secuencias de entrada.



In [None]:
X.shape

Por √∫ltimo, imprimimos la forma del vector de entrada.



De este modo, creamos 50 000 vectores de entrada, cada uno de longitud 32.

In [None]:
data.head()

---

## Modelo RNN - LSTM


In [None]:
# Hiperpar√°metros optimizados
embed_dim = 256
lstm_units = 192
dense_units = 96
dropout_rate = 0.35
l1l2 = (0.0001, 0.0001)
batch_size = 256
epochs = 30

In [None]:
# Split estratificado
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)

In [None]:
# Calcular class weights
class_counts = np.bincount(y_train)
total = len(y_train)
weight_for_0 = (1 / class_counts[0]) * (total / 2.0)
weight_for_1 = (1 / class_counts[1]) * (total / 2.0)
class_weights = {0: weight_for_0, 1: weight_for_1}

print(f"Class weights: 0={weight_for_0:.4f}, 1={weight_for_1:.4f}")

In [None]:
# Capa de atenci√≥n personalizada

class AttentionLayer(tf.keras.layers.Layer):
    def __init__(self, **kwargs):
        super(AttentionLayer, self).__init__(**kwargs)

    def build(self, input_shape):
        self.W = self.add_weight(name="att_weight", shape=(input_shape[-1], 1),
                                initializer="glorot_uniform")
        self.b = self.add_weight(name="att_bias", shape=(input_shape[1], 1),
                                initializer="zeros")
        super(AttentionLayer, self).build(input_shape)

    def call(self, x):
        et = tf.keras.backend.tanh(tf.keras.backend.dot(x, self.W) + self.b)
        at = tf.keras.backend.softmax(et, axis=1)
        at = tf.keras.backend.permute_dimensions(at, (0, 2, 1))
        output = tf.keras.backend.batch_dot(at, x)
        return tf.keras.backend.squeeze(output, axis=1)

    def compute_output_shape(self, input_shape):
        return (input_shape[0], input_shape[-1])

In [None]:
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(
        input_dim=max_features,
        output_dim=embed_dim,
        mask_zero=True,
        embeddings_regularizer=tf.keras.regularizers.l1_l2(*l1l2),
        input_length=maxlen
    ),
    tf.keras.layers.SpatialDropout1D(dropout_rate),

    # Capa Bidireccional LSTM (con return_sequences para atenci√≥n)
    tf.keras.layers.Bidirectional(
        tf.keras.layers.LSTM(
            lstm_units,
            dropout=dropout_rate,
            recurrent_dropout=dropout_rate * 0.7,
            kernel_regularizer=tf.keras.regularizers.l1_l2(*l1l2),
            recurrent_regularizer=tf.keras.regularizers.l1_l2(*l1l2),
            return_sequences=True  # Necesario para atenci√≥n
        )
    ),

    # Capa de atenci√≥n personalizada
    AttentionLayer(),

    tf.keras.layers.BatchNormalization(),

    tf.keras.layers.Dense(
        dense_units,
        activation='relu',
        kernel_regularizer=tf.keras.regularizers.l1_l2(*l1l2)
    ),
    tf.keras.layers.Dropout(dropout_rate),

    tf.keras.layers.Dense(1, activation='sigmoid')
])

In [None]:
# Optimizador con learning rate programado
optimizer = tf.keras.optimizers.Adam(
    learning_rate=0.00015,  # LR inicial m√°s alto
    beta_1=0.9,
    beta_2=0.999,
    epsilon=1e-07
)

model.compile(
    loss='binary_crossentropy',
    optimizer=optimizer,
    metrics=[
        'accuracy',
        tf.keras.metrics.Precision(name='precision'),
        tf.keras.metrics.Recall(name='recall')
    ]
)

In [None]:
# Callbacks mejorados
callbacks = [
    EarlyStopping(
        monitor='val_loss',
        patience=4,
        restore_best_weights=True,
        verbose=1,
        min_delta=0.001
    ),
    ModelCheckpoint(
        'best_model.weights.h5',
        save_best_only=True,
        save_weights_only=True,
        monitor='val_accuracy',
        mode='max'
    ),
    ReduceLROnPlateau(
        monitor='val_loss',
        factor=0.5,
        patience=2,
        min_lr=1e-6,
        verbose=1,
        min_delta=0.005
    )
]

model.summary()

In [None]:
# Entrenamiento
history = model.fit(
    X_train, y_train,
    epochs=epochs,
    batch_size=batch_size,
    validation_split=0.2,
    callbacks=callbacks,
    class_weight=class_weights,
    verbose=1
)

In [None]:
# Paso 1: Construir el modelo
model.build(input_shape=(None, maxlen))

In [None]:
# Cargar modelo (de requerirlo)
from keras.models import load_model

model = load_model("lstm_model.keras")

In [None]:
# Predecir
y_pred_output = model.predict(X_test)
y_pred_probs = y_pred_output.flatten()
y_pred = (y_pred_probs > 0.5).astype("int32")

In [None]:
# M√©tricas
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='binary')
recall = recall_score(y_test, y_pred, average='binary')
f1 = f1_score(y_test, y_pred, average='binary')

print("\n" + "-"*40)
print(" M√©tricas")
print("-"*40)
print(f"Accuracy:  {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall:    {recall:.4f}")
print(f"F1-score:  {f1:.4f}")
print("-"*50)

In [None]:
# Reporte de clasificaci√≥n
print("\nClassification Report:")
print(classification_report(y_test, y_pred, target_names=['Negative', 'Positive']))

In [None]:
# Visualizaci√≥n
plt.figure(figsize=(15, 5))

# Precisi√≥n
plt.subplot(1, 3, 1)
plt.plot(history.history['accuracy'], label='Accuracy de Entrenamiento')
plt.plot(history.history['val_accuracy'], label='Accuracy de Validaci√≥n')
plt.title('Accuracy del Modelo')
plt.ylabel('Accuracy')
plt.xlabel('√âpoca')
plt.legend()
plt.grid(True)

# P√©rdida
plt.subplot(1, 3, 2)
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.title('Model Loss')
plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend()
plt.grid(True)

In [None]:
# Matriz de confusi√≥n
plt.figure(figsize=(15, 5))
plt.subplot(1, 3, 3)
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=['Negativo', 'Positivo'],
            yticklabels=['Negativo', 'Positivo'])
plt.title('Matriz de Confusi√≥n')
plt.ylabel('Realidad')
plt.xlabel('Predicci√≥n')

plt.tight_layout()
plt.show()

In [None]:
df = pd.DataFrame({
    "Modelo": ["Final (v3)", "Versi√≥n 1", "Versi√≥n 2"],
    "val_accuracy_peak": [0.7805, 0.7779, 0.7790],
    "val_loss_min": [0.5704, 0.5717, 0.5436],
    "precision_peak": [0.7848, 0.7806, 0.7870],
    "recall_peak": [0.7829, 0.7904, 0.7671]
})

fig, axes = plt.subplots(2, 2, figsize=(12, 8))

# val_accuracy
axes[0, 0].bar(df["Modelo"], df["val_accuracy_peak"], color="skyblue")
axes[0, 0].set_title("Val Accuracy Pico")
axes[0, 0].set_ylim(0.75, 0.79)
axes[0, 0].set_ylabel("Accuracy")

#  val_loss
axes[0, 1].bar(df["Modelo"], df["val_loss_min"], color="salmon")
axes[0, 1].set_title("Val Loss M√≠nimo")
axes[0, 1].invert_yaxis()  # Menor es mejor
axes[0, 1].set_ylabel("Loss")

# Precision
axes[1, 0].bar(df["Modelo"], df["precision_peak"], color="mediumseagreen")
axes[1, 0].set_title("Precisi√≥n Pico")
axes[1, 0].set_ylabel("Precision")

# Recall
axes[1, 1].bar(df["Modelo"], df["recall_peak"], color="orange")
axes[1, 1].set_title("Recall Pico")
axes[1, 1].set_ylabel("Recall")

for ax in axes.flatten():
    ax.set_xlabel("Modelo")
    ax.grid(True, linestyle="--", alpha=0.5)

plt.tight_layout()
plt.show()

### Justificaci√≥n del Modelo Final Seleccionado

Se probaron tres configuraciones diferentes del modelo LSTM. A continuaci√≥n, se presenta una comparaci√≥n de sus principales caracter√≠sticas y m√©tricas de rendimiento:

- **Versi√≥n 1** mostr√≥ un buen balance entre precisi√≥n y recall, pero el entrenamiento se detuvo temprano debido a estancamiento en val_accuracy. Adem√°s, su embed_dim era menor (192), lo cual puede limitar la capacidad de representaci√≥n sem√°ntica del texto.

- **Versi√≥n 2** tuvo el mejor val_loss (0.5436), pero su val_accuracy fue levemente inferior y mostr√≥ cierta sobrecarga computacional (hasta 50 √©pocas). Su recall tambi√©n baj√≥ con respecto a la Versi√≥n 1, lo cual podr√≠a perjudicar la detecci√≥n de casos positivos.

- **Versi√≥n final (v3)** logra un excelente balance:  
   - Tiene **mejor precisi√≥n-recall equilibrado** (ambos ~0.78).
   - La val_accuracy fue la **m√°s alta** (0.7805).
   - Uso razonable de recursos (solo 30 √©pocas).
   - Su tama√±o de embedding y n√∫mero de unidades LSTM es robusto pero no excesivo.


### Justificaci√≥n del Modelo Final


El modelo seleccionado fue la **versi√≥n 3**, con una configuraci√≥n optimizada de hiperpar√°metros. Las decisiones se justifican de la siguiente manera:

- **√âpocas (30) + EarlyStopping:** El entrenamiento se detuvo autom√°ticamente en la √©poca 29, cuando la mejora en validaci√≥n se estabiliz√≥. Las curvas de p√©rdida muestran convergencia clara sin overfitting. Esto indica una elecci√≥n adecuada de `epochs` y `patience`.

- **Tasa de aprendizaje inicial: 1.5e-4** ‚Üí Se utiliz√≥ con `ReduceLROnPlateau`, lo cual permiti√≥ un **ajuste din√°mico** de la LR. Esto ayud√≥ a mantener mejoras en precisi√≥n y recall incluso en etapas tard√≠as del entrenamiento, estabilizando las m√©tricas.

- **Batch size: 256** ‚Üí Este tama√±o balance√≥ eficiencia computacional y estabilidad del gradiente. En pruebas con batch sizes m√°s bajos (128), se observ√≥ mayor oscilaci√≥n en la curva de p√©rdida y menor precisi√≥n.

En comparaci√≥n con versiones anteriores, esta configuraci√≥n alcanz√≥:
- **Mayor accuracy de validaci√≥n (78.05%)**
- **Mejor precisi√≥n y F1-score**
- **Menor p√©rdida en validaci√≥n**

#### Posibles mejoras:
- Ajustar la LR inicial a 1e-4 podr√≠a permitir convergencia m√°s estable a√∫n.
- Probar capas adicionales (p.ej., GRU + LSTM h√≠brido) podr√≠a mejorar el F1 en casos ambiguos.

Estas decisiones fueron fundamentadas en pruebas emp√≠ricas y evidencia gr√°fica.

### An√°lisis de Hiperpar√°metros y su Impacto

| Hiperpar√°metro | Variaci√≥n entre versiones | Impacto observado |
|----------------|---------------------------|--------------------|
| `embed_dim`    | 192 -> 256                 | Mejor representaci√≥n sem√°ntica; el modelo final tuvo mayor precision y recall. |
| `lstm_units`   | 192 -> 256 (v2)            | Aument√≥ capacidad, pero increment√≥ el tiempo de entrenamiento sin gran mejora en accuracy. |
| `dropout_rate` | 0.4 -> 0.3 / 0.35          | Tasas moderadas mejoraron la generalizaci√≥n; tasas altas redujeron recall. |
| `learning_rate`| 1e-4 / 1.5e-4 / 3e-5       | 1.5e-4 ofreci√≥ convergencia estable y buen rendimiento sin estancarse. |
| `epochs`       | 30 -> 50                   | A partir de √©poca 20 no hubo grandes mejoras; el modelo final us√≥ early stopping. |
| `batch_size`   | 256 (constante)           | Balance entre velocidad de entrenamiento y estabilidad del gradiente. |

Las variaciones anteriores permitieron identificar que un embedding y LSTM intermedios (256, 192) combinados con una tasa de aprendizaje moderada (1.5e-4) ofrecen el mejor rendimiento sin sobreentrenar ni sobrecargar el sistema.

### An√°lisis del desempe√±o del modelo

El modelo final logr√≥ una **accuracy del 77.0%** y un **F1-score de 0.7697**, valores consistentes con una buena capacidad de generalizaci√≥n en datos no vistos. La precisi√≥n (0.7698) y el recall (0.7695) est√°n balanceados, lo que indica que el modelo no favorece excesivamente ninguna clase.

Estos resultados est√°n directamente relacionados con los **ajustes de hiperpar√°metros**, entre ellos:

- **Dropout del 35%** y regularizaci√≥n L1/L2 ayudaron a reducir el overfitting, estabilizando las curvas de p√©rdida y mejorando la precisi√≥n de validaci√≥n tras la 10.¬™ √©poca.
- El uso de **Bidirectional LSTM** permiti√≥ capturar contextos antes y despu√©s de cada palabra, mejorando recall y precisi√≥n frente a versiones unidireccionales.
- La **capa de atenci√≥n** ayud√≥ a enfocar el modelo en tokens relevantes para el sentimiento, lo que se refleja en un mejor F1-score en comparaci√≥n con versiones sin atenci√≥n (~+1.5 pp).
- El **batch size de 256** permiti√≥ convergencia m√°s estable en pocas √©pocas, sin saltos err√°ticos.

En conclusi√≥n, las m√©tricas obtenidas est√°n directamente influenciadas por decisiones espec√≠ficas del modelo y evidencian una mejora sustancial respecto a versiones anteriores.

## Modelo RNN Simple

In [None]:
# Modelo RNN simple
model_rnn_simple = tf.keras.Sequential([
    tf.keras.layers.Embedding(
        input_dim=max_features,
        output_dim=embed_dim,
        mask_zero=True,
        input_length=maxlen
    ),
    tf.keras.layers.SpatialDropout1D(dropout_rate),

    # Capa RNN simple
    tf.keras.layers.SimpleRNN(
        lstm_units, # Reutilizamos el tama√±o de unidades para comparaci√≥n justa
        dropout=dropout_rate,
        recurrent_dropout=dropout_rate * 0.7,
        return_sequences=False # Para una clasificaci√≥n simple final
    ),

    tf.keras.layers.BatchNormalization(),

    tf.keras.layers.Dense(
        dense_units,
        activation='relu'
    ),
    tf.keras.layers.Dropout(dropout_rate),

    tf.keras.layers.Dense(1, activation='sigmoid')
])

model_rnn_simple.compile(
    loss='binary_crossentropy',
    optimizer='adam', # Optimizador simple para empezar
    metrics=[
        'accuracy',
        tf.keras.metrics.Precision(name='precision'),
        tf.keras.metrics.Recall(name='recall')
    ]
)

model_rnn_simple.summary()


Entrenamiento (usando menos epochs y batch size m√°s peque√±o para RNN simple)
Se usan menos epochs y batch size m√°s peque√±o porque RNN simple suele ser m√°s r√°pido de entrenar
pero puede tener problemas con secuencias largas y gradientes.

In [None]:
history_rnn_simple = model_rnn_simple.fit(
    X_train, y_train,
    epochs=15, # Menos epochs para RNN simple
    batch_size=128, # Batch size m√°s peque√±o
    validation_split=0.2,
    # No usamos callbacks avanzados ni class_weights para mantenerlo "simple"
    verbose=1
)

# Evaluaci√≥n
loss_rnn_simple, accuracy_rnn_simple, precision_rnn_simple, recall_rnn_simple = model_rnn_simple.evaluate(X_test, y_test, verbose=0)

print("\n" + "-"*40)
print(" M√©tricas RNN Simple")
print("-"*40)
print(f"Accuracy:  {accuracy_rnn_simple:.4f}")
print(f"Precision: {precision_rnn_simple:.4f}")
print(f"Recall:    {recall_rnn_simple:.4f}")
# Calculate F1 for RNN simple
f1_rnn_simple = 2 * (precision_rnn_simple * recall_rnn_simple) / (precision_rnn_simple + recall_rnn_simple + 1e-7) # Add epsilon for stability
print(f"F1-score:  {f1_rnn_simple:.4f}")
print("-"*50)

# Predecir para classification report and confusion matrix
y_pred_rnn_simple_probs = model_rnn_simple.predict(X_test).flatten()
y_pred_rnn_simple = (y_pred_rnn_simple_probs > 0.5).astype("int32")

# Reporte de clasificaci√≥n RNN Simple
print("\nClassification Report (RNN Simple):")
print(classification_report(y_test, y_pred_rnn_simple, target_names=['Negative', 'Positive']))

# Visualizaci√≥n para RNN Simple
plt.figure(figsize=(10, 5))

# P√©rdida RNN Simple
plt.subplot(1, 2, 1)
plt.plot(history_rnn_simple.history['loss'], label='Train Loss (RNN Simple)')
plt.plot(history_rnn_simple.history['val_loss'], label='Validation Loss (RNN Simple)')
plt.title('Model Loss (RNN Simple)')
plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend()
plt.grid(True)

# Matriz de confusi√≥n RNN Simple
plt.subplot(1, 2, 2)
cm_rnn_simple = confusion_matrix(y_test, y_pred_rnn_simple)
sns.heatmap(cm_rnn_simple, annot=True, fmt='d', cmap='Blues',
            xticklabels=['Negativo', 'Positivo'],
            yticklabels=['Negativo', 'Positivo'])
plt.title('Confusion Matrix (RNN Simple)')
plt.ylabel('Realidad')
plt.xlabel('Predicci√≥n')

plt.tight_layout()
plt.show()

In [None]:
# Cargar modelo (de requerirlo)
from keras.models import load_model

model_rnn_simple = load_model("rnn_model.keras")

## Comparaci√≥n de Modelos

In [None]:
# Gr√°fico de m√©tricas finales (Barras)
metrics_names = ['Accuracy', 'Precision', 'Recall', 'F1-score']
lstm_scores = [accuracy_best, precision_best, recall_best, f1_best]
rnn_scores = [accuracy_rnn_simple, precision_rnn_simple, recall_rnn_simple, f1_rnn_simple]

x = np.arange(len(metrics_names))  # posiciones en el eje x
width = 0.35  # ancho de las barras

fig, ax = plt.subplots(figsize=(10, 6))
rects1 = ax.bar(x - width/2, lstm_scores, width, label='Best Model (LSTM)', color='steelblue')
rects2 = ax.bar(x + width/2, rnn_scores, width, label='RNN Simple', color='orange')

# Etiquetas y formato
ax.set_ylabel('Score')
ax.set_title('Comparaci√≥n de M√©tricas Finales por Modelo')
ax.set_xticks(x)
ax.set_xticklabels(metrics_names)
ax.legend()

# Mostrar valores en las barras
def autolabel(rects):
    for rect in rects:
        height = rect.get_height()
        ax.annotate(f'{height:.4f}',
                    xy=(rect.get_x() + rect.get_width() / 2, height),
                    xytext=(0, 3),  # Desplazamiento vertical
                    textcoords="offset points",
                    ha='center', va='bottom')

autolabel(rects1)
autolabel(rects2)

plt.tight_layout()
plt.show()

print("\n" + "-"*65)
print(" "*15 + "COMPARACI√ìN DE M√âTRICAS DE MODELOS ")
print("-"*65)
print(comparison_df)
print("-"*65 + "\n")

### An√°lisis Comparativo





Con el resulado de ambos modelos podemos comparar sus metricas de clasificaci√≥n y as√≠ poder diferenciarlos para detectar cu√°l tiene un mejor rendimiento para realizar predicci√≥n de sentimientos.


| M√©trica   | LSTM   | RNN Simple | Diferencia |
| --------- | ------ | ---------- | ---------- |
| Accuracy  | 0.7704 | 0.7292     | +0.0412    |
| Precision | 0.7698 | 0.7274     | +0.0424    |
| Recall    | 0.7695 | 0.7306     | +0.0389    |
| F1-score  | 0.7697 | 0.7290     | +0.0407    |

**Ventajas del modelo LSTM**

Mayor rendimiento en todas las m√©tricas clave:

* Accuracy: El LSTM supera al RNN simple por un margen de `+4.12%`, lo que indica que clasifica correctamente m√°s muestras en general.

* Precision y Recall: El LSTM es m√°s preciso (menos falsos positivos) y tiene mejor sensibilidad (menos falsos negativos), lo que significa que detecta mejor las clases positivas sin sobreclasificarlas.

* F1-score: La puntuaci√≥n F1 es `+4.07%` superior en LSTM, lo que sugiere un balance m√°s efectivo entre ambas.

Mayor capacidad de aprendizaje secuencial:

El modelo LSTM incorpora puertas (como input, forget y output gates) que le permiten capturar dependencias a largo plazo en los datos, algo que el RNN simple no logra con la misma eficacia.

Mayor estabilidad y generalizaci√≥n:

El modelo LSTM, al ser m√°s robusto frente al desvanecimiento del gradiente, aprende de manera m√°s estable durante el entrenamiento y generaliza mejor al conjunto de prueba.

**Limitaciones del modelo RNN Simple**

Aunque el RNN simple es m√°s liviano computacionalmente, su rendimiento es notablemente inferior en todos los aspectos y se ve claramente comparando ambos modelos en el gr√°fico. √âste modelo es m√°s propenso al desvanecimiento del gradiente, lo que limita su capacidad para aprender dependencias temporales largas.

**Conclusi√≥n**

El modelo final elegido es una arquitectura LSTM bidireccional con atenci√≥n, que logra un equilibrio ideal entre rendimiento, estabilidad y capacidad de modelar lenguaje secuencial.

## Justificaci√≥n del Modelo Final: LSTM

Se eligi√≥ el modelo LSTM (Long Short-Term Memory) como modelo final debido a su mejor rendimiento cuantitativo y cualitativo en comparaci√≥n con la arquitectura RNN simple, y por su capacidad superior para aprender patrones secuenciales en los datos.

En nuestro caso:

- Trabajamos con tweets donde la clave del sentimiento puede aparecer en cualquier parte de la frase (dependencias de largo alcance).  
- En la comparaci√≥n emp√≠rica, el modelo LSTM super√≥ sistem√°ticamente a la RNN simple en accuracy, precision, recall y F1-score (‚âà +4 pp en cada m√©trica).  
- Si bien la RNN simple es m√°s ligera (menos par√°metros y entrenamiento algo m√°s r√°pido), su menor estabilidad y peor desempe√±o la hacen menos adecuada para esta tarea de an√°lisis de sentimientos.

Por estas razones, se eligi√≥ **LSTM bidireccional con atenci√≥n**, que combina la robustez de las LSTM con la capacidad de enfocarse en las palabras m√°s relevantes mediante la capa de atenci√≥n.



## Prediccion del modelo

In [None]:
def predecir_sentimiento(texto):
    if 'model' not in globals() or 'tokenizer' not in globals():
        print("Error: El modelo o el tokenizer no est√°n definidos. Aseg√∫rate de haber entrenado el modelo previamente.")
        return None

    # Limpiar y tokenizar el texto de entrada
    texto_limpio = limpiar_texto_mejorado(texto)
    secuencia = tokenizer.texts_to_sequences([texto_limpio])
    secuencia_padding = tf.keras.preprocessing.sequence.pad_sequences(secuencia, maxlen=maxlen)

    # Realizar la predicci√≥n
    prediccion_prob = model.predict(secuencia_padding)[0][0]

    # Interpretar la predicci√≥n
    if prediccion_prob > 0.5:
        return 'Positivo'
    else:
        return 'Negativo'

In [None]:
frases_positivas = [
    "I absolutely loved this!",                      # Muy obvio
    "This is fantastic and made my day.",            # Claro y entusiasta
    "I'm really happy with how it turned out.",      # Positivo expl√≠cito
    "Not bad at all, pretty good actually.",         # Sutil, con negaci√≥n
    "It was better than I expected."                 # Positivo impl√≠cito
]

frases_negativas = [
    "This is the worst thing ever.",                 # Muy obvio
    "I completely hated it.",                        # Claro y negativo
    "I'm really disappointed with this.",            # Negativo expl√≠cito
    "Not what I hoped for, honestly.",               # Sutil, con decepci√≥n
    "It wasn't great."                               # Negativo impl√≠cito
]

print("üü¢ Frases Positivas:")
for frase in frases_positivas:
    sentimiento = predecir_sentimiento(frase)
    print(f"Texto: '{frase}' -> Sentimiento: {sentimiento}")

print("\nüî¥ Frases Negativas:")
for frase in frases_negativas:
    sentimiento = predecir_sentimiento(frase)
    print(f"Texto: '{frase}' -> Sentimiento: {sentimiento}")

### Validaci√≥n Manual de Casos Reales

Se prob√≥ el modelo con frases en ingl√©s que representan distintos niveles de carga emocional y estructuras ling√º√≠sticas:

| Texto                                     | Esperado | Predicho | Correcto |
|------------------------------------------|----------|----------|----------|
| I absolutely loved this!                 | Positivo | Positivo | ‚úÖ       |
| Not bad at all, pretty good actually.    | Positivo | Negativo | ‚ùå       |
| I completely hated it.                   | Negativo | Positivo | ‚ùå       |
| It wasn't great.                         | Negativo | Positivo | ‚ùå       |

Aunque el modelo muestra buen rendimiento en ejemplos directos, fall√≥ en frases con negaciones y expresiones suaves. Esto evidencia una limitaci√≥n de los modelos LSTM puros para interpretar matices y estructuras complejas del lenguaje natural.

Estos resultados muestran que el modelo funciona bien en lo general, pero no:

* Comprende bien negaciones compuestas ("not bad", "wasn't great").
* Interpreta correctamente palabras negativas cuando est√°n fuera del patr√≥n de entrenamiento.
* Modela bien el contexto y la inversi√≥n sem√°ntica (ej. iron√≠a o sarcasmo leve).

Este tipo de errores son t√≠picos en LSTM puros sin embeddings sem√°nticos preentrenados (como los de BERT o GPT), porque dependen mucho de patrones superficiales y del vocabulario aprendido.

### Consideraciones sobre el Idioma del Dataset

El modelo fue entrenado exclusivamente con el dataset **Sentiment140**, el cual est√° compuesto por tweets en **ingl√©s**. Por esta raz√≥n, su vocabulario, embeddings y patrones de sentimiento fueron aprendidos √∫nicamente a partir de ese idioma.

Durante pruebas preliminares, se observ√≥ que frases en espa√±ol eran clasificadas incorrectamente. Al cambiar los ejemplos de prueba al ingl√©s, el modelo respondi√≥ correctamente, clasificando de forma precisa tanto frases positivas como negativas.

Este modelo no est√° dise√±ado para tareas de an√°lisis de sentimientos en espa√±ol. Para ello, se requerir√≠a un corpus en espa√±ol o un modelo multiling√ºe (como `BERT multilingual`).
