In [1]:
import pandas as pd
import numpy as np
import tensorflow as tf

from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import classification_report
from sklearn.metrics import make_scorer
from sklearn.metrics import plot_confusion_matrix

In [2]:
data = pd.read_csv('data_lemm.csv') #CONTIENTEN NAN EN LA ULTIMA COLUMNA.
df = pd.read_csv('palabras_estrellas_lemm.csv')
data['review_title_body_lemma'] = data['review_title_body_lemma'].astype(str)
data = data[data['review_title_body_lemma'] != "nan" ]

In [3]:
remover_1 = ["producto"] #para 1, 2, 3, 4 y 5
remover_2 = ['bien', 'precio', 'gustar', 'mucho', 'esperar', 'quedar', 'comprar', 'funcionar', 'mal', 'llegar', 'calidad', 'sin', 'buen'] #para 2 y 3
remover_3 = ["bonito"] #para 3
remover_4 = ["funcionar"] #para 3 y 4

filtro_2 = (data["stars"] == 2) | (data["stars"] == 3)
filtro_3 = (data["stars"] == 3)
filtro_4 = (data["stars"] == 3) | (data["stars"] == 4)

In [4]:
for palabra in remover_1:
    data["review_title_body_lemma"] = data["review_title_body_lemma"].str.replace(palabra,'')

In [5]:
for palabra in remover_2:
    data.loc[filtro_2,"review_title_body_lemma"] = data.loc[filtro_2,"review_title_body_lemma"].str.replace(palabra,'')

In [6]:
for palabra in remover_3:
    data.loc[filtro_3,"review_title_body_lemma"] = data.loc[filtro_3,"review_title_body_lemma"].str.replace(palabra,'')

In [7]:
for palabra in remover_4:
    data.loc[filtro_4,"review_title_body_lemma"] = data.loc[filtro_4,"review_title_body_lemma"].str.replace(palabra,'')

In [8]:
x = np.array(data['review_title_body_lemma'])
y = np.array(data['stars'])

xtrain, xtest, ytrain, ytest = train_test_split(x,y,test_size=0.2,random_state=42,stratify=y)
xtest, xdev, ytest, ydev = train_test_split(xtest,ytest,test_size=0.5,random_state=42,stratify=ytest)

In [9]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, GRU, Embedding
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint

In [None]:
num_palabras = 10000

Voy a instanciar la clase Tokenizer para extraer el vocabulario y despues reemplazar las palabras por tokens en todos los textos

In [None]:
tokenizer = Tokenizer(num_words=num_palabras)

Considero extraer el vocabularia del conjunto de entrenamiento porque si lo hago con todo el corpus, el vocabulario podria incluir palabras que despues no aparezcan en el conjunto de entrenamiento, y algunas palabras serian ignoradas, siendo mas concreto, se perderia informacion para el entrenamiento. Ademas, el conjunto de entrenamiento es de 200000 textos (el 95%)

In [None]:
%%time
tokenizer.fit_on_texts(xtrain) #Graba un vocabulario de 10000 palabras donde cada palabra esta asociada a un token

Ahora voy a transformar los textos a tokens a partir del vocabulario

In [None]:
xtrain_tokens = tokenizer.texts_to_sequences(xtrain) #Transforma los cada texto del corpus en base al vocabulario
xtest_tokens = tokenizer.texts_to_sequences(xtest)
xdev_tokens = tokenizer.texts_to_sequences(xdev)

Cantidad de tokens en cada secuencia

In [None]:
num_tokens = [len(tokens) for tokens in xtrain_tokens + xtest_tokens]
num_tokens = np.array(num_tokens)

Voy a definir un numero maximo de tokens para las secuencias

In [None]:
max_tokens = np.mean(num_tokens) + 2 * np.std(num_tokens)
max_tokens = int(max_tokens)
max_tokens

**tf.keras.preprocessing.sequence.pad_sequences** se encarga de ajustar todas los arreglos de tokens en una dimension especifica.

Por ejemplo, si yo tengo este arreglo:

[[1], [2, 3], [4, 5, 6]]

y quiero que todas las filas tengan la misma dimension, tendria que ejecutar esto:

sequence = [[1], [2, 3], [4, 5, 6]];

tf.keras.preprocessing.sequence.pad_sequences(sequence)

Resultado:

[

  [0, 0, 1], 

  [0, 2, 3], 

  [4, 5, 6]

]

rellena los espacios vacios con ceros y trunca las filas cuya dimension es mayor a la maxima empezando por la derecha

In [None]:
pad = 'pre'
xtrain_pad = pad_sequences(xtrain_tokens, maxlen=max_tokens,padding=pad, truncating=pad)
xtest_pad = pad_sequences(xtest_tokens, maxlen=max_tokens,padding=pad, truncating=pad)
xdev_pad = pad_sequences(xdev_tokens, maxlen=max_tokens,padding=pad, truncating=pad)

# **Modelo**

El primer prototipo sera una red neuronal recurrente para clasificar textos de multiclases.

Las RNN estan capacitadas para reconocer patrones en datos secuenciales como por ejemplo: los textos.

El dataset de la problematica tiene una particularidad, las palabras positivas como "bueno" y "calidad" aparecen dentro de todas las clases (en la 1, 2, 3, 4 y 5), es decir, no podemos guiarnos por palabras claves para hacer la clasificacion, el modelo tiene que procesar secuencias de palabras y las RNN se enfocan precisamente en eso.

**Estrucutra del modelo**

La estructura es la siguiente:

In [None]:
model = Sequential() #Modelo de capas secuenciales

In [None]:
embedding_size = 8 #Tamaño de vectores de salida de la capa de incrustacion

**Capa de incrustacion (embedding)**

Los tokens estan en un rango de 1 - 10000, el RNN no puede trabajar con valores tan amplios.

Entones lo que se hace es transformar los tokens en vectores (en este caso de longitud 8), los numeros en los vectores varian entre -1 y 1

Como esta es la primera capa del RNN, su dimension sera igual al maximo numero de tokens

In [None]:
model.add(Embedding(input_dim=num_palabras,
                    output_dim=embedding_size,
                    input_length=max_tokens,
                    name='Capa_incrustacion'))

**Unidad recurrente oculta (GRU)**

Estas unidades aseguran mantener en memoria la informacion importantes de las entradas y resuelven el problema de la desaparicion del gradiente que ocurre cuando se actualizan las unidades ocultas sin importar su relevancia, y por ende la function tanh reduce las actualizaciones hasta un punto cercano a cero

In [None]:
model.add(GRU(units=16, return_sequences=True))

In [None]:
model.add(GRU(units=8, return_sequences=True))

In [None]:
model.add(GRU(units=4))

**Capa dense**

La capa Dense junto con la activacion "relu", permiten que la red neuronal pueda aumentar su performance, acelerar el aprendizaje y evitar la desaparicion del gradiente (porque la activacion relu reemplaza los pesos negativos por cero)

In [None]:
model.add(Dense(16, activation='relu'))

**Capa de salida**

Devuelve un arreglo de 5 elementos, donde cada elemento se considera como la probabilidad de pertenecer a una clase en particular. Para concluir la prediccion voy a tomar la clase con mayor probabilidad de pertenencia

In [None]:
model.add(Dense(5, activation='softmax'))

**Metrica de evaluacion**

Voy a usar el accuracy score porque la consigna es predecir las mismas clases que contiene la variable objetivo en los datasets.

Sin embargo, durante el desarrollo voy a usar matrices de confusion para ver como se comporta el modelo al predecir y tambien para encontrar errores de desarrollo

In [None]:
ytrain

In [10]:
ytrain_cat = tf.keras.utils.to_categorical(ytrain, num_classes=6)
ytest_cat = tf.keras.utils.to_categorical(ytest, num_classes=6)
ydev_cat = tf.keras.utils.to_categorical(ydev, num_classes=6)

In [11]:
ytrain_cat = np.delete(ytrain_cat,0,axis=1)
ytest_cat = np.delete(ytest_cat,0,axis=1)
ydev_cat = np.delete(ydev_cat,0,axis=1)

In [12]:
print("Train shape:",ytrain_cat.shape)
print("Test shape:",ytest_cat.shape)
print("Dev shape:",ydev_cat.shape)

Train shape: (167995, 5)
Test shape: (20999, 5)
Dev shape: (21000, 5)


In [None]:
tf.random.set_seed(42)

modelo = Sequential(name="Modelo")

embedding_size = 8

modelo.add(Embedding(input_dim=num_palabras,
                    output_dim=embedding_size,
                    input_length=max_tokens,
                    name='Capa_incrustacion'))

modelo.add(GRU(units=16, return_sequences=True))

modelo.add(GRU(units=8, return_sequences=True))

modelo.add(GRU(units=4))

modelo.add(Dense(16, activation='relu'))

modelo.add(Dense(5, activation='softmax'))

modelo.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

modelo.summary()

In [None]:
filepath = 'rnn1.h5'

checkpoint = ModelCheckpoint(filepath, monitor='val_accuracy', verbose=1, save_best_only=True, save_weights_only=False, mode='auto', save_freq='epoch')

callbacks_list = [checkpoint]

In [None]:
tf.random.set_seed(42)
historial_entrenamiento = modelo.fit(xtrain_pad, ytrain_cat, validation_data=(xdev_pad, ydev_cat), epochs=15, callbacks = callbacks_list, verbose=1)

### Prueba del siguiente tutorial:

https://www.tensorflow.org/tutorials/text/text_classification_rnn

In [13]:
import numpy as np

import tensorflow_datasets as tfds
import tensorflow as tf
import random
tfds.disable_progress_bar()

In [14]:
import matplotlib.pyplot as plt


def plot_graphs(history, metric):
  plt.plot(history.history[metric])
  plt.plot(history.history['val_'+metric], '')
  plt.xlabel("Epochs")
  plt.ylabel(metric)
  plt.legend([metric, 'val_'+metric])


In [15]:
train_dataset = tf.data.Dataset.from_tensor_slices((xtrain, ytrain_cat))
test_dataset = tf.data.Dataset.from_tensor_slices((xtest, ytest_cat))
dev_dataset = tf.data.Dataset.from_tensor_slices((xdev, ydev_cat))

In [16]:
indexes = random.sample(range(0, len(ytrain)), 10)

for i in indexes:
    print(ytrain[i], ytrain_cat[i])

5 [0. 0. 0. 0. 1.]
5 [0. 0. 0. 0. 1.]
4 [0. 0. 0. 1. 0.]
2 [0. 1. 0. 0. 0.]
1 [1. 0. 0. 0. 0.]
5 [0. 0. 0. 0. 1.]
2 [0. 1. 0. 0. 0.]
4 [0. 0. 0. 1. 0.]
3 [0. 0. 1. 0. 0.]
5 [0. 0. 0. 0. 1.]


In [17]:
BUFFER_SIZE = len(train_dataset)
BATCH_SIZE = 64

In [18]:
train_dataset = train_dataset.shuffle(BUFFER_SIZE).batch(BATCH_SIZE).prefetch(tf.data.AUTOTUNE)
test_dataset = test_dataset.batch(BATCH_SIZE).prefetch(tf.data.AUTOTUNE)

In [19]:
for example, label in train_dataset.take(1):
  print('texts: ', example.numpy()[:3])
  print()
  print('labels: ', label.numpy()[:3])


texts:  [b'o  pratico o  uni\xc3\xb3n pieza'
 b' movil bater\xc3\xada aguantar a\xc3\xb1o c\xc3\xa1mara \xc3\xadsimo foto noche misi\xc3\xb3n imposible'
 b'cruz beb bonito demasiado peque\xc3\xb1o ni\xc3\xb1o beb']

labels:  [[0. 1. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 1. 0. 0. 0.]]


## Create the text encoder

In [20]:
VOCAB_SIZE = 5000
encoder = tf.keras.layers.experimental.preprocessing.TextVectorization(
    max_tokens=VOCAB_SIZE)
encoder.adapt(train_dataset.map(lambda text, label: text))

In [21]:
vocab = np.array(encoder.get_vocabulary())
vocab[:20]

array(['', '[UNK]', 'buen', 'bien', 'calidad', 'precio', 'perfecto',
       'nada', 'venir', 'pequeño', 'comprar', 'cumplir', 'llegar',
       'recomeir', 'sin', 'compra', 'bonito', 'funcionar', 'mucho', 'o'],
      dtype='<U18')

In [22]:
encoded_example = encoder(example)[:3].numpy()
encoded_example.shape

(3, 58)

In [23]:
for n in range(3):
  print("Original: ", example[n].numpy())
  print("Round-trip: ", " ".join(vocab[encoded_example[n]]))
  print()


Original:  b'o  pratico o  uni\xc3\xb3n pieza'
Round-trip:  o [UNK] o unión pieza                                                     

Original:  b' movil bater\xc3\xada aguantar a\xc3\xb1o c\xc3\xa1mara \xc3\xadsimo foto noche misi\xc3\xb3n imposible'
Round-trip:  movil batería aguantar año cámara ísimo foto noche misión imposible                                                

Original:  b'cruz beb bonito demasiado peque\xc3\xb1o ni\xc3\xb1o beb'
Round-trip:  cruz beb bonito demasiado pequeño niño beb                                                   



In [24]:
model = tf.keras.Sequential([
    encoder,
    tf.keras.layers.Embedding(
        input_dim=len(encoder.get_vocabulary()),
        output_dim=64,
        # Use masking to handle the variable sequence lengths
        mask_zero=True),
    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64, return_sequences=True)),
    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(32)),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(16, activation='relu'),
    tf.keras.layers.Dense(5, activation='softmax')
])

In [25]:
print([layer.supports_masking for layer in model.layers])


[False, True, True, True, True, True, True]


In [26]:

sample_text = ('The movie was cool. The animation and the graphics '
               'were out of this world. I would recommend this movie.')
predictions = model.predict(np.array([sample_text]))
print(predictions[0])


[0.19564681 0.19904642 0.19959317 0.20313898 0.20257466]


In [27]:
padding = "the " * 2000
predictions = model.predict(np.array([sample_text, padding]))
print(predictions[0])


[0.19564681 0.19904642 0.19959317 0.20313898 0.20257466]


In [28]:
model.compile(loss='categorical_crossentropy',
              optimizer=tf.keras.optimizers.Adam(1e-4),
              metrics=['accuracy'])

In [29]:
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
text_vectorization (TextVect (None, None)              0         
_________________________________________________________________
embedding (Embedding)        (None, None, 64)          320000    
_________________________________________________________________
bidirectional (Bidirectional (None, None, 128)         66048     
_________________________________________________________________
bidirectional_1 (Bidirection (None, 64)                41216     
_________________________________________________________________
dense (Dense)                (None, 64)                4160      
_________________________________________________________________
dense_1 (Dense)              (None, 16)                1040      
_________________________________________________________________
dense_2 (Dense)              (None, 5)                 8

In [30]:
history = model.fit(train_dataset, epochs=10,
                    validation_data=test_dataset,
                    validation_steps=30)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
 283/2625 [==>...........................] - ETA: 13:52 - loss: 0.7113 - accuracy: 0.6807

KeyboardInterrupt: 

In [None]:
test_loss, test_acc = model.evaluate(test_dataset)

print('Test Loss:', test_loss)
print('Test Accuracy:', test_acc)