## Paso 1: Instalar las dependencias y la configuración del notebook en GPU

In [1]:
!pip install -U "tensorflow==2.20.0"

Collecting tensorflow==2.20.0
  Downloading tensorflow-2.20.0-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.5 kB)
Collecting tensorboard~=2.20.0 (from tensorflow==2.20.0)
  Downloading tensorboard-2.20.0-py3-none-any.whl.metadata (1.8 kB)
Downloading tensorflow-2.20.0-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (620.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m620.7/620.7 MB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading tensorboard-2.20.0-py3-none-any.whl (5.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.5/5.5 MB[0m [31m85.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: tensorboard, tensorflow
  Attempting uninstall: tensorboard
    Found existing installation: tensorboard 2.19.0
    Uninstalling tensorboard-2.19.0:
      Successfully uninstalled tensorboard-2.19.0
  Attempting uninstall: tensorflow
    Found existing installation: tensorflow 2.19.0
    Uninstalli

## Paso 2: Importar las librerías necesarias

In [2]:
import tensorflow as tf
# DataSet de valoracion de peliculas
from tensorflow.keras.datasets import imdb # pyright: ignore[reportMissingImports]

In [3]:
tf.__version__

'2.20.0'

## Paso 3: Pre procesado de datos


### Configurar parámetros del dataset

In [4]:
# Vamos a definir el numero maximo de palabras
number_of_words = 20000
# Y valoraciones de tamaño 100
max_len = 100
# Con esto logramos la uniformidad en la longitud

### Carga del dataset de IMDB

In [5]:
# Al cargar el dataset le podemos pasar por parametro el numero maximo de palabras, entonces nos quedaremos con las 20.000 palabras mas frecuente
# El proceso de carla lo divide en entrenamiento y testing
# X para las valoraciones e Y para para la clasificaicion (positiva o negativa)
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=number_of_words)

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz
[1m17464789/17464789[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step


### Cortar secuencias de texto de la misma longitud (100 elementos)

In [6]:
X_train = tf.keras.preprocessing.sequence.pad_sequences(X_train, maxlen=max_len)

In [7]:
X_test = tf.keras.preprocessing.sequence.pad_sequences(X_test, maxlen=max_len)

### Configurar parámetros de la capa de Embedding

In [8]:
# El numero del vocabulario sera de 20.000
vocab_size = number_of_words
vocab_size

20000

In [9]:
# Definiremos el tamaño de inserción para las columnas
embed_size = 128

## Paso 4: Construir la Red Neuronal Recurrente

### Definir el modelo
* Primero definiremos el modelo como Secuencial
* Le añadiremos todo el conjunto de entrenamiento correspondiente a las valoraciones

In [10]:
model = tf.keras.Sequential()
model.add(tf.keras.Input(shape=(X_train.shape[1],)))

### Añadir la capa de embedding
* En la capa de Embedding le suministramos los textos, antes de pasarselo a la red neuronal
* Crearemos un vector de palabras para transformalo a un formato numerico
* Como primer parametro del Embedding le pasamos la dimencion de entrada (numero de palabras a analizar)
* Segundo parametro es la dimencion de salida, 128 neuronas de la capa oculta



In [11]:
model.add(tf.keras.layers.Embedding(input_dim=vocab_size, output_dim=embed_size))

### Añadir la capa de LSTM

- unidades: 128
- función de activación: tanh (Tangente hiperbolica)

In [12]:
model.add(tf.keras.layers.LSTM(units=128, activation='tanh'))

### Añadir la capa totalmente conectada de salida

- unidades: 1
- función de activación: sigmoid (Lo transforma a probabilidades)
* Cercano a 1 es una valoracion positiva y cercano a 0 sera negativa

In [13]:
model.add(tf.keras.layers.Dense(units=1, activation='sigmoid'))

### Compilar el modelo
* Cambiaremos el optimizador de Adam por rmsprop que es especialista para Redes neuronales recurrente
* Como es positivo o negativo la funcion de perdida sera binaria
* Y la metrica sera accurasy (aciertas o fallas)

In [14]:
model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy'])

In [15]:
model.summary()

### Entrenar el modelo
* X_train: Todas las fraces para entrenar
* y_traint: Valoracion positiva o negativa
* Pasaremos 3 veces
* Las fraces se las pasaremos en bloques de 128

In [16]:
model.fit(X_train, y_train, epochs=3, batch_size=128)

Epoch 1/3
[1m196/196[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 14ms/step - accuracy: 0.5984 - loss: 0.6511
Epoch 2/3
[1m196/196[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 12ms/step - accuracy: 0.8190 - loss: 0.4034
Epoch 3/3
[1m196/196[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 11ms/step - accuracy: 0.8638 - loss: 0.3247


<keras.src.callbacks.history.History at 0x7ed8f925a210>

### Evaluar el modelo

In [17]:
test_loss, test_acurracy = model.evaluate(X_test, y_test)

[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 5ms/step - accuracy: 0.8542 - loss: 0.3389


In [18]:
print("Test accuracy: {}".format(test_acurracy))

Test accuracy: 0.8546000123023987
