In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


**Descomprimimos la base de datos IMDB original**

Enlace para acceder a dicha base de datos: http://ai.stanford.edu/~amaas/data/sentiment/

In [None]:
import tarfile
tar = tarfile.open('/content/drive/My Drive/Natural_Language_Processing/aclImdb_v1.tar.gz')
tar.extractall('/content/')
tar.close

<bound method TarFile.close of <tarfile.TarFile object at 0x7efd88bf6860>>

**Almacenamos las críticas del conjunto de entrenamiento y sus etiquetas asociadas en listas apropiadas.**

In [None]:
import os

imdb_dir = '/content/aclImdb'
train_dir = os.path.join(imdb_dir, 'train')

labels = []
texts = []

for label_type in ['neg', 'pos']:
    dir_name = os.path.join(train_dir, label_type)
    for fname in os.listdir(dir_name):
        if fname[-4:] == '.txt':
            f = open(os.path.join(dir_name, fname))
            texts.append(f.read())
            f.close()
            if label_type == 'neg':
                labels.append(0)
            else:
                labels.append(1)

**Tokenizamos las críticas del conjunto de entrenamiento**

In [None]:
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
import numpy as np

maxlen = 100  # Usaremos sólo las 100 primeras palabras de cada críticas
training_samples = 200  # El entrenamiento se realizará con 200 muestras
validation_samples = 10000  # El conjunto de validación estará compuesto de 10000 muestras
max_words = 10000  # Consideraremos únicamente las 10,000 palabras iniciales de la base de datos
tokenizer = Tokenizer(num_words=max_words)
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)

word_index = tokenizer.word_index
print('Se encontraron %s tokens únicos.' % len(word_index))

data = pad_sequences(sequences, maxlen=maxlen)

labels = np.asarray(labels)
print('Dimensiones del tensor de datos:', data.shape)
print('Dimensiones del tensor de etiquetas:', labels.shape)

# Partición de los datos en conjunto de entrenaminto y conjunto de validación.
# Pero primero, apliquemos shuffling en los datos, ya que estos están ordenados
# (todas las críticas positivas primeros y luego todas las críticas negativas).
indices = np.arange(data.shape[0])
np.random.shuffle(indices)
data = data[indices]
labels = labels[indices]

x_train = data[:training_samples]
y_train = labels[:training_samples]
x_val = data[training_samples: training_samples + validation_samples]
y_val = labels[training_samples: training_samples + validation_samples]

# **Base de datos GloVe**

La base de datos GloVe (Global Vectors for Word Representation) fue desarrollada en 2014 por investigadores de la Universidad de Stanford.<br>
Esta base de datos se ha actualizado continuamente, aunque en nuestro caso, emplearemos la versión del 2014, la cual se compone de word embeddings de Wikipedia 2014. Los word embeddings de esta base de datos representan 400,000 palabras embebidas en vectores de 100 dimensiones.<br>
Enlace para acceder a la base de datos: https://nlp.stanford.edu/projects/glove/

**Generamos un índice que mapea palabras a su representación vectorial**

In [None]:
glove_dir = '/home/ubuntu/data/'

embeddings_index = {}
f = open(os.path.join(glove_dir, 'glove.6B.100d.txt'))
for line in f:
    values = line.split()
    word = values[0]
    coefs = np.asarray(values[1:], dtype='float32')
    embeddings_index[word] = coefs
f.close()

print('Se encontraron %s vectores de palabras.' % len(embeddings_index))

Ahora, construyamos una matriz embebida que pueda alimentar a la capa Embedding. Esta matriz debe tener dimensiones (max_words_ embedding_dim), donde cada entrada i contiene la representación vector embedding de la palabra con índice i de nuestro índice de palabras diseñada previamente durante la tokenización. Es importante señalar que el índice 0 no tiene asociado ninguna palabra o token, pues es un placeholder.

In [None]:
embedding_dim = 100

embedding_matrix = np.zeros((max_words, embedding_dim))
for word, i in word_index.items():
    embedding_vector = embeddings_index.get(word)
    if i < max_words:
        if embedding_vector is not None:
            # Las palabras que no se encuentren en el índice embeddings serán representadas por vectores de ceros
            embedding_matrix[i] = embedding_vector

# **Definimos la arquitectura**

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Flatten, Dense

model = Sequential()
model.add(Embedding(max_words, embedding_dim, input_length=maxlen))
model.add(Flatten())
model.add(Dense(32, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
model.summary()

# **Cargamos la base de datos GloVe a nuestro modelo**

In [None]:
model.layers[0].set_weights([embedding_matrix])
model.layers[0].trainable = False

# **Entrenamiento**

In [None]:
from tensorflow.keras.callbacks import EarlyStopping
from tensorflow.keras.callbacks import ModelCheckpoint

es = EarlyStopping(monitor= 'val_acc', mode='max', patience = 7, verbose=1)
mc = ModelCheckpoint('/content/model_pretrained_embedding_imdb.h5', monitor='val_acc', mode='max', verbose=1, save_best_only=True)

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['acc'])
history = model.fit(x_train, y_train,
                    epochs=10,
                    batch_size=32,
                    validation_data=(x_val, y_val),
                    callbacks = [es, mc])

# **Curvas de precisión y pérdida**

In [None]:
import matplotlib.pyplot as plt

acc = history.history['acc']
val_acc = history.history['val_acc']
max_val_acc = max(val_acc)
max_val_acc_epoch= val_acc.index(max(val_acc)) + 1
loss = history.history['loss']
val_loss = history.history['val_loss']
min_val_loss = min(val_loss)
min_val_loss_epoch= val_loss.index(min(val_loss)) + 1

epochs = range(len(acc))

plt.plot(epochs, acc, 'go', label='Precisión en el entrenamiento')
plt.plot(epochs, val_acc, 'r', label='Precisión en la validación')
plt.plot(max_val_acc_epoch, max_val_acc, 'bo', label='Maximum accuracy')
plt.title('Precisión durante el entrenamiento y la validación')
plt.legend()
print("Best accuracy epoch : % d, Value : % .1f" %(max_val_acc_epoch, max_val_acc)) 
plt.figure()

plt.plot(epochs, loss, 'go', label='Pérdida en el entrenamiento')
plt.plot(epochs, val_loss, 'r', label='Pérdida en la validación')
plt.plot(min_val_loss_epoch, min_val_loss, 'bo', label='Minimum loss')
plt.title('Pérdida durante el entrenamiento y la validación')
plt.legend()
print("Best loss epoch : % d, Value : % .10f" %(min_val_loss_epoch, min_val_loss))

plt.show()

NameError: ignored

# **Evaluamos el modelo**

In [None]:
test_dir = os.path.join(imdb_dir, 'test')

labels = []
texts = []

for label_type in ['neg', 'pos']:
    dir_name = os.path.join(test_dir, label_type)
    for fname in sorted(os.listdir(dir_name)):
        if fname[-4:] == '.txt':
            f = open(os.path.join(dir_name, fname))
            texts.append(f.read())
            f.close()
            if label_type == 'neg':
                labels.append(0)
            else:
                labels.append(1)

sequences = tokenizer.texts_to_sequences(texts)
x_test = pad_sequences(sequences, maxlen=maxlen)
y_test = np.asarray(labels)

In [None]:
model.load_weights('model_pretrained_embedding_imdb.h5')
model.evaluate(x_test, y_test)