# Text classification

Autor: Martín de las Heras

## Setup

In [1]:
import keras
from keras import ops
from keras import layers

## Download and prepare dataset

In [2]:
vocab_size = 10000  # Only consider the top 10k words
maxlen = 100  # Only consider the first 100 words of each text
(x_train, y_train), (x_val, y_val) = keras.datasets.imdb.load_data(num_words=vocab_size)
print(len(x_train), "Training sequences")
print(len(x_val), "Validation sequences")
x_train = keras.utils.pad_sequences(x_train, maxlen=maxlen)
x_val = keras.utils.pad_sequences(x_val, maxlen=maxlen)

25000 Training sequences
25000 Validation sequences


## Create classifier model

Use an Embedding layer and a single GRU hidden layer (keep it small, 32 units should be enough).

In [12]:
####### YOUR CODE HERE ########

# Generamos la variable inputs con tamaño maxlen, ya que es el máximo que hemos definido en la celda anterior para el dataset
inputs = keras.Input(shape=(maxlen,))

# Le pasamos la capa Embedding con el tamaño del vocabulario como input, ya que es el espacio del que partimos y como salida le ponemos 32
x = layers.Embedding(input_dim=vocab_size, output_dim=32)(inputs)

# Le añadimos una capa GRU de tamaño 32, como estaba indicado
x = layers.GRU(units=32)(x)

# Generamos la capa de salida con una sola unidad, ya que se trata de una clasificación binaria, y sigmoide como consecuencia
outputs = layers.Dense(units=1, activation='sigmoid')(x)

model = keras.Model(inputs=inputs, outputs=outputs)
model.summary()

## Train and Evaluate

In [13]:
model.compile(
    optimizer="adam", loss="binary_crossentropy", metrics=["accuracy"]
)
history = model.fit(
    x_train, y_train, batch_size=32, epochs=2, validation_data=(x_val, y_val)
)

Epoch 1/2
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m61s[0m 71ms/step - accuracy: 0.7029 - loss: 0.5359 - val_accuracy: 0.8275 - val_loss: 0.3991
Epoch 2/2
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m45s[0m 58ms/step - accuracy: 0.8870 - loss: 0.2816 - val_accuracy: 0.8448 - val_loss: 0.3531
