### AJUSTANDO REDES DL PARA NLP DE CLASIFICACION

Descarga la información de reviews de IMDB tal y como hemos hecho en clase.

In [1]:
import io
import numpy as np
import os
import re
import shutil
import string
import tensorflow as tf

from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense, Embedding, GlobalAveragePooling1D, TextVectorization

In [None]:
url = "https://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz"

dataset = tf.keras.utils.get_file("aclImdb_v1.tar.gz", url,
                                  untar=True, cache_dir='.',
                                  cache_subdir='')

In [None]:
train_dir = "../aclImdb/train"
shutil.rmtree(dataset_dir + "/unsup")

Construye los datasets de train, validation y test igual que en clase

In [12]:
batch_size = 1024
seed = 123


train_ds = tf.keras.preprocessing.text_dataset_from_directory(
    train_dir,
    batch_size=batch_size,
    validation_split=0.2,
    subset='training',
    seed=seed)

val_ds = tf.keras.preprocessing.text_dataset_from_directory(
    train_dir,
    batch_size=batch_size,
    validation_split=0.2,
    subset='validation', # Esto y la semilla permiten que las muestras con train no se superpongan
    seed=seed)

Found 25000 files belonging to 2 classes.
Using 20000 files for training.
Found 25000 files belonging to 2 classes.
Using 5000 files for validation.


In [13]:
AUTOTUNE = tf.data.AUTOTUNE

train_ds = train_ds.cache().prefetch(buffer_size=AUTOTUNE)
val_ds = val_ds.cache().prefetch(buffer_size=AUTOTUNE)

Construye la capa de vectorización para que ahora extraiga ella el tamaño de la secuencia a partir del dataset de entrada.
Adaptala al dataset de entrada, recuerda que tienes que crearte otro que no tenga el target incluido (en el notebook de clase tienes cómo hacerlo con una función lambda)

In [14]:
def custom_standardization(input_data):
    lowercase = tf.strings.lower(input_data) # lo convierte a mayúsculas
    stripped_html = tf.strings.regex_replace(lowercase, '<br />', ' ') # le quita los codigos de cambio de línea
    return tf.strings.regex_replace(stripped_html,
                                  '[%s]' % re.escape(string.punctuation), '') #le quita los signos de puntuación


vocab_size = 10000 


vectorize_layer = TextVectorization(
    standardize=custom_standardization,
    max_tokens=vocab_size,
    output_mode='int')
    #output_sequence_length=sequence_length)

text_ds = train_ds.map(lambda x, y: x)
vectorize_layer.adapt(text_ds)

Instructions for updating:
Lambda fuctions will be no more assumed to be used in the statement where they are used, or at least in the same block. https://github.com/tensorflow/tensorflow/issues/56089


Construye el modelo sin recurrentes que vimos en clase, pero haz que el número de neuronas de la capa densa que hace la regresión dependa de una variable (por ejemplo num_dense_neurons). Inicializa esta variable igualandola al número de dimensiones del embedding. 

In [15]:
embedding_dim=16
tune_parameter = 1
num_dense_neurons = embedding_dim * tune_parameter


model = Sequential([
  vectorize_layer, # 100 [1, 3, 4, 4, 90, ...]
  Embedding(vocab_size, embedding_dim, name="embedding"), # 10.000 x 16 --> [[], [], [] ...] 100x16
  GlobalAveragePooling1D(), # [] 16
  Dense(num_dense_neurons, activation='relu'), # 
  Dense(1) # originalmente no tiene activacion
])


Compila y entrena con la misma configuración de dimensiones de embedding y tamaño de vocabulario que en clase (10000), y el mismo número de épocas (15). Pista: Es posible que el tamaño de la secuencia le afecte, si es así tendrás que añadir algo a la definición del modelo y volver a compilar y entrenar

In [16]:
model.compile(optimizer='adam',
              # binary_crossentropy
              loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
              metrics=['accuracy'])

In [17]:
model.fit(
    train_ds,
    validation_data=val_ds,
    epochs=15)

Epoch 1/15
Epoch 2/15
Epoch 3/15
Epoch 4/15
Epoch 5/15
Epoch 6/15
Epoch 7/15
Epoch 8/15
Epoch 9/15
Epoch 10/15
Epoch 11/15
Epoch 12/15
Epoch 13/15
Epoch 14/15
Epoch 15/15


<keras.callbacks.History at 0x22cd600e740>

In [18]:

model = Sequential([
  vectorize_layer, # 100 [1, 3, 4, 4, 90, ...]
  Embedding(vocab_size, embedding_dim, name="embedding", mask_zero = True), # 10.000 x 16 --> [[], [], [] ...] 100x16
  GlobalAveragePooling1D(), # [] 16
  Dense(num_dense_neurons, activation='relu'), # 
  Dense(1) # originalmente no tiene activacion
])

In [19]:
model.compile(optimizer='adam',
              # binary_crossentropy
              loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
              metrics=['accuracy'])

In [20]:
model.fit(
    train_ds,
    validation_data=val_ds,
    epochs=15)

Epoch 1/15
Epoch 2/15
Epoch 3/15
Epoch 4/15
Epoch 5/15
Epoch 6/15
Epoch 7/15
Epoch 8/15
Epoch 9/15
Epoch 10/15
Epoch 11/15
Epoch 12/15
Epoch 13/15
Epoch 14/15
Epoch 15/15


<keras.callbacks.History at 0x22cd7512470>

Evalua el modelo

In [22]:
test_ds = tf.keras.preprocessing.text_dataset_from_directory(
    train_dir.replace("train","test"),
    batch_size=batch_size,
    validation_split=0.2,
    subset='training',
    seed=seed)


Found 25000 files belonging to 2 classes.
Using 20000 files for training.


In [23]:
model.evaluate(test_ds)



[0.3594972789287567, 0.8339499831199646]

Ahora juega con las dimensiones de salida de la capa de embedding y con el número de neuronas de la capa densa (siempre como un factor de las dimensiones de emmbeding) y logra que el modelo tenga una accuracy superior al 85% en validación en test. NO JUEGUES CON LAS EPOCAS, todavía

In [29]:
embedding_dims = 16
tune_parameter = 1
num_dense_neurons = embedding_dim * tune_parameter
desired_acc = 0.85

end = False
for tune_parameters in range(1,2,4):
  for embeddings in [embedding_dim * i for i in [1,2,4]]:
      index = "Model_e_%d_neurons_%d" %(embeddings, tune_parameter * embeddings)
      print("Modelo %s" %(index))
      num_dense_neurons = embeddings * tune_parameters
      model = Sequential([
        vectorize_layer, # 100 [1, 3, 4, 4, 90, ...]
        Embedding(vocab_size, embeddings, name="embedding", mask_zero = True), # 10.000 x 16 --> [[], [], [] ...] 100x16
        GlobalAveragePooling1D(), # [] 16
        Dense(num_dense_neurons, activation='relu'), # 
        Dense(1) # originalmente no tiene activacion
      ])
      model.compile(optimizer='adam',
            # binary_crossentropy
            loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
            metrics=['accuracy'])
      model.fit( train_ds,
            validation_data=val_ds,
            epochs=15)            
      loss_test, acc_test = model.evaluate(test_ds) 
      print("Accuracy:",acc_test)   
      if acc_test >= desired_acc:
          opt_embedding_dims = embedding_dims 
          opt_num_neurons = opt_embedding_dims * tune_parameters
          end = True
          break
  if end:
     break



Modelo Model_e_16_neurons_16
Epoch 1/15
Epoch 2/15
Epoch 3/15
Epoch 4/15
Epoch 5/15
Epoch 6/15
Epoch 7/15
Epoch 8/15
Epoch 9/15
Epoch 10/15
Epoch 11/15
Epoch 12/15
Epoch 13/15
Epoch 14/15
Epoch 15/15
Accuaracy: 0.8276000022888184
Modelo Model_e_32_neurons_32
Epoch 1/15
Epoch 2/15
Epoch 3/15
Epoch 4/15
Epoch 5/15
Epoch 6/15
Epoch 7/15
Epoch 8/15
Epoch 9/15
Epoch 10/15
Epoch 11/15
Epoch 12/15
Epoch 13/15
Epoch 14/15
Epoch 15/15
Accuaracy: 0.862500011920929


NameError: name 'opt_embedding_dim' is not defined

In [33]:
opt_num_neurons = opt_embedding_dims * tune_parameters

Aumenta el número de épocas hasta conseguir la mejor accuracy posible con la configuración de embeddings y neuronas del paso anterior. Hazlo en un solo entrenamiento (pista, tendrás que usar un callback)

In [35]:
early_stop = tf.keras.callbacks.EarlyStopping(patience = 10, monitor = "val_accuracy", restore_best_weights= True)
model = Sequential([
        vectorize_layer, # 100 [1, 3, 4, 4, 90, ...]
        Embedding(vocab_size, opt_embedding_dims, name="embedding"), # 10.000 x 16 --> [[], [], [] ...] 100x16
        GlobalAveragePooling1D(), # [] 16
        Dense(opt_num_neurons, activation='relu'), # 
        Dense(1) # originalmente no tiene activacion
      ])
model.compile(optimizer='adam',
      # binary_crossentropy
      loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
      metrics=['accuracy'])
model.fit( train_ds,
            validation_data=val_ds,
            epochs=1500,
            callbacks=[early_stop])  

Epoch 1/1500
Epoch 2/1500
Epoch 3/1500
Epoch 4/1500
Epoch 5/1500
Epoch 6/1500
Epoch 7/1500
Epoch 8/1500
Epoch 9/1500
Epoch 10/1500
Epoch 11/1500
Epoch 12/1500
Epoch 13/1500
Epoch 14/1500
Epoch 15/1500
Epoch 16/1500
Epoch 17/1500
Epoch 18/1500
Epoch 19/1500
Epoch 20/1500
Epoch 21/1500
Epoch 22/1500
Epoch 23/1500
Epoch 24/1500
Epoch 25/1500
Epoch 26/1500
Epoch 27/1500
Epoch 28/1500
Epoch 29/1500
Epoch 30/1500
Epoch 31/1500
Epoch 32/1500
Epoch 33/1500
Epoch 34/1500
Epoch 35/1500
Epoch 36/1500
Epoch 37/1500
Epoch 38/1500
Epoch 39/1500
Epoch 40/1500
Epoch 41/1500
Epoch 42/1500
Epoch 43/1500
Epoch 44/1500
Epoch 45/1500
Epoch 46/1500
Epoch 47/1500
Epoch 48/1500
Epoch 49/1500
Epoch 50/1500
Epoch 51/1500
Epoch 52/1500
Epoch 53/1500
Epoch 54/1500
Epoch 55/1500
Epoch 56/1500
Epoch 57/1500
Epoch 58/1500
Epoch 59/1500
Epoch 60/1500
Epoch 61/1500
Epoch 62/1500
Epoch 63/1500
Epoch 64/1500
Epoch 65/1500
Epoch 66/1500
Epoch 67/1500
Epoch 68/1500
Epoch 69/1500
Epoch 70/1500
Epoch 71/1500
Epoch 72/1500
E

<keras.callbacks.History at 0x22ce2716c20>

Evalúalo contra test

In [36]:
model.evaluate(test_ds) 



[0.31152093410491943, 0.8727999925613403]

### VOLUNTARIO
Haz el mismo ejercicio utilizando una red recurrente

SOL Breve: Cambiar la capa de Pooling y la densa por una GRU o una LSTM en todas las definiciones de modelos con número de celdas dependiente del embedding con un factor 4 de partida