In [1]:
from sklearn.datasets import fetch_20newsgroups
from matplotlib import pyplot as plt
from collections import Counter
newsgroups_train = fetch_20newsgroups(subset='train')
newsgroups_test = fetch_20newsgroups(subset='test')
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np
import gensim
from gensim.models import KeyedVectors
import os, re, csv, math, codecs

In [2]:
token=Tokenizer(num_words=30000,
                filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n', lower=True,
                split=' ', char_level=False, oov_token="UNK", document_count=0)
token.fit_on_texts(newsgroups_train.data)
train_sequences=token.texts_to_sequences(newsgroups_train.data)
test_sequences=token.texts_to_sequences(newsgroups_test.data)
lengths=[len(seq) for seq in train_sequences]
lengths=dict(Counter(lengths))
max_len=500 #Incluso si algunos textos son mas largos, tener las primeras 500 palabras es suficiente en la clasificacion de textos
train_sequences=pad_sequences(train_sequences,maxlen=max_len)   #Las primeras palabras suelen contener toda la informacion nesesaria para la clasificacion
test_sequences=pad_sequences(test_sequences,maxlen=max_len)
reverse_dictionary = token.index_word
dictionary = dict([(value, key) for (key, value) in reverse_dictionary.items()])


In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
!unzip 'drive/MyDrive/crawl-300d-2M.vec.zip'

Archive:  drive/MyDrive/crawl-300d-2M.vec.zip
  inflating: crawl-300d-2M.vec       


In [5]:
#Se utilizan los embeddigns de facebook pre-entrenados con Common Crawl
embeddings_index = KeyedVectors.load_word2vec_format('crawl-300d-2M.vec',
                                                     binary=False)

In [6]:
embed_dim=300
num_words=len(dictionary)+1
embedding_matrix=np.zeros([num_words,embed_dim])
for word, idx in dictionary.items():
  if idx <= num_words and word in embeddings_index:
    embedding_matrix[idx,:]=embeddings_index[word]

In [7]:
from tensorflow.keras.layers import Embedding, Conv1D, MaxPooling1D, MaxPooling1D, Dropout, Dense, Input, Concatenate,Dot,RepeatVector,TimeDistributed,Multiply,Lambda,Flatten, BatchNormalization, Activation, Bidirectional, LSTM, Reshape
import tensorflow.keras.backend as K
from tensorflow.keras.activations import softmax
from tensorflow.keras.models import Model
from tensorflow.keras import optimizers

# Red de attention + conv
### Parte convolucional:
Se utiliza una red convolucional luego de la capa de embeddings para optener una representacion de la palabra que incluya su contexto, es decir que a la salida se tienen vectores de dimencion 100 los cuales puede comprender un significado de la palabra en base a las palabras en su alrededor. La funcion tangente hyperbolica a la salida de la ultima capa convolucional se utiliza para escalar la salida. Se quiere valores pequeños a la salida para evitar problemas de baja gradiente en la funcion softmax.

### Mecanismo de attention
Dado que se quiere clasificar en distintas clases, en este caso necesitamos un mequanismo que sepa reconocer que palabras son relevantes para la clasificacion y cuales no. Por lo tanto, hay solo una preguntar para hacer (si la palabra es relevante o no) y esto lleva a que haya un solo vector de query, el cual se obtiene durante el entrenamiento de la capa.
Luego de obtener la representacion ponderada de cada palabra estas se suman para obtener la representacion ponderada del texto completo. No es necesario dividir el total por la cantidad de palabras ya que en el preprocesamiento se dejaron todos los vectores de textos con la misma dimencionalidad.



In [9]:
value_dim=100
nb_words=num_words
num_filters=64
input_layer = Input(shape=(max_len,))
embedding_layer=Embedding(nb_words, embed_dim, weights=[embedding_matrix], input_length=max_len, trainable=False)(input_layer)

#Capa convolucional
conv_out=Conv1D(value_dim,8,padding="same")(embedding_layer)
conv_out=Activation("relu")(conv_out)
conv_out=Conv1D(value_dim,8,activation="tanh",padding="same")(conv_out)

#Mecanismo de attention
#Producto punto y la salida hacia una softmax
ulog_attention=Dense(1,activation="linear")(conv_out)
repeated_attention=Flatten()(ulog_attention)
softmax=Activation('softmax')(repeated_attention)
reshape=Reshape([500, 1])(softmax)
#obtengo los embeddings pesados
weighted_embeddings=Multiply()([reshape,conv_out])
#Sumo las salidas para crear la representacion vectorial del texto
embedding_sum = Lambda(lambda x: K.sum(x, axis=1))(weighted_embeddings)

#MLP
dense1=Dense(100, activation='relu')(embedding_sum)
dense2=Dense(20, activation='softmax')(dense1)
model=Model(input_layer , dense2)

adam = optimizers.Adam(learning_rate=0.001)
model.compile(loss='sparse_categorical_crossentropy', optimizer=adam, metrics=['accuracy'])


In [10]:
model.summary()

Model: "model"
__________________________________________________________________________________________________
 Layer (type)                Output Shape                 Param #   Connected to                  
 input_2 (InputLayer)        [(None, 500)]                0         []                            
                                                                                                  
 embedding_1 (Embedding)     (None, 500, 300)             4024320   ['input_2[0][0]']             
                                                          0                                       
                                                                                                  
 conv1d_2 (Conv1D)           (None, 500, 100)             240100    ['embedding_1[0][0]']         
                                                                                                  
 activation_2 (Activation)   (None, 500, 100)             0         ['conv1d_2[0][0]']        

In [11]:
model.fit(train_sequences, newsgroups_train.target,batch_size=32,epochs=20,validation_split=0.2)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.src.callbacks.History at 0x7cc21153d600>

## Red Attention + Bidirectional LSTM

Se reemplaza la parte convolucional de la red con una capa LSTM Bidireccional para obtener otro tipo de representacion de cada palabra con el contexto del resto del texto. Dada la bidireccionalidad se obtiene contexto para la palabra desde las palabras anteriores y las posteriores.

In [23]:
value_dim=50
nb_words=num_words
num_filters=64
input_layer = Input(shape=(max_len,))
embedding_layer=Embedding(nb_words, embed_dim, weights=[embedding_matrix], input_length=max_len, trainable=False)(input_layer)

#Bidirectional LSTM
lstm_out=Bidirectional(LSTM(value_dim, return_sequences=True,activation="tanh", unroll=True), merge_mode="mul")(embedding_layer)
lstm_out=Dropout(0.3)(lstm_out)

#Mecanismo de attention

ulog_attention=Dense(1,activation="linear")(lstm_out)
repeated_attention=Flatten()(ulog_attention)
softmax=Activation('softmax')(repeated_attention)
reshape=Reshape([500, 1])(softmax)
weighted_embeddings=Multiply()([reshape,lstm_out])
embedding_sum = Lambda(lambda x: K.sum(x, axis=1))(weighted_embeddings)


#MLP
dense1=Dense(100, activation='relu')(embedding_sum)
dense2=Dense(20, activation='softmax')(dense1)
model=Model(input_layer , dense2)

#adam = optimizers.Adam(learning_rate=0.001)
model.compile(loss='sparse_categorical_crossentropy', optimizer='rmsprop', metrics=['accuracy'])




In [24]:
model.summary()

Model: "model_6"
__________________________________________________________________________________________________
 Layer (type)                Output Shape                 Param #   Connected to                  
 input_8 (InputLayer)        [(None, 500)]                0         []                            
                                                                                                  
 embedding_7 (Embedding)     (None, 500, 300)             4024320   ['input_8[0][0]']             
                                                          0                                       
                                                                                                  
 bidirectional_5 (Bidirecti  (None, 500, 50)              140400    ['embedding_7[0][0]']         
 onal)                                                                                            
                                                                                            

In [25]:
model.fit(train_sequences, newsgroups_train.target,batch_size=128,epochs=40,validation_split=0.2)

Epoch 1/40
Epoch 2/40
Epoch 3/40
Epoch 4/40
Epoch 5/40
Epoch 6/40
Epoch 7/40
Epoch 8/40
Epoch 9/40
Epoch 10/40
Epoch 11/40
Epoch 12/40
Epoch 13/40
Epoch 14/40
Epoch 15/40
Epoch 16/40
Epoch 17/40
Epoch 18/40
Epoch 19/40
Epoch 20/40
Epoch 21/40
Epoch 22/40
Epoch 23/40
Epoch 24/40
Epoch 25/40
Epoch 26/40
Epoch 27/40
Epoch 28/40
Epoch 29/40
Epoch 30/40
Epoch 31/40
Epoch 32/40
Epoch 33/40
Epoch 34/40
Epoch 35/40
Epoch 36/40
Epoch 37/40
Epoch 38/40
Epoch 39/40
Epoch 40/40


<keras.src.callbacks.History at 0x7cc108225d20>

Se puede finalizar observando que el uso de convoluciones vuelve el entrenamiento mas rapido aunque la red tiende a overfitting. en el caso del LSTM bidireccional, esta es de entrenamiento mas lento, incluso con el unroll=True, aunque se pueden encontrar mejores resultados.