# Νευρωνικά Δίκτυα και Κείμενο (Ελάχιστη Εισαγωγή)

Υλικό προσαρμοσμένο από [σχετικό παράδειγμα της τεκμηρίωσης του TensorFlow](https://www.tensorflow.org/tutorials/keras/text_classification).

---

> Πάνος Λουρίδας, Αναπληρωτής Καθηγητής <br />
> Τμήμα Διοικητικής Επιστήμης και Τεχνολογίας <br />
> Οικονομικό Πανεπιστήμιο Αθηνών <br />
> louridas@aueb.gr

In [1]:
import tensorflow as tf

from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras import losses
import matplotlib.pyplot as plt

import os
import re
import string

* Θα χρησιμοποιήσουμε ένα σύνολο δεδομένων το οποίο περιέχει το κείμενο 50.000 κριτικών από το [Internet Movie Database (IMDb)](https://www.imdb.com/).

* Αυτές είναι διαχωρισμένες σε 25.000 κριτικές για εκπαίδευση και 25.000 κριτικές για έλεγχο.

* Σκοπός μας είναι να φτιάξουμε ένα μοντέλο το οποίο θα διαβάζει μία κριτική και θα μπορεί να αποφανθεί αν είναι θετική ή αρνητική.

* Για περισσότερες πληροφορίες βλ. Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. 2011. Learning Word Vectors for Sentiment Analysis. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, pages 142–150, Portland, Oregon, USA. Association for Computational Linguistics. Διαθέσιμο στο <https://aclanthology.org/P11-1015>.

* Θα πρέπει να αποσυμπιέσουμε το αρχείο `aclImdb.zip`.

* Θα δημιουργηθεί ένας κατάλογος `aclImdb`.

In [2]:
dataset_dir = 'aclImdb'

* Τα δεδομένα περιέχονται σε δύο υποκαταλόγους, `train` και `test`.

In [3]:
os.listdir(dataset_dir)

['test', 'README', 'train']

* Για να δούμε τι υπάρχει στον κατάλογο `train`.


In [4]:
train_dir = os.path.join(dataset_dir, 'train')
os.listdir(train_dir)

['neg', 'pos']

* O κατάλογος `pos` περιέχει θετικές κριτικές, κάθε μία σε ένα ξεχωριστό αρχείο.

* Ομοίως, ο κατάλογος `neg` περιέχει αρνητικές κριτικές, κάθε μία σε ένα ξεχωριστό αρχείο.

* Για να δούμε μία κριτική.

In [5]:
sample_file = os.path.join(train_dir, 'pos/1181_9.txt')
with open(sample_file) as f:
    print(f.read())

Rachel Griffiths writes and directs this award winning short film. A heartwarming story about coping with grief and cherishing the memory of those we've loved and lost. Although, only 15 minutes long, Griffiths manages to capture so much emotion and truth onto film in the short space of time. Bud Tingwell gives a touching performance as Will, a widower struggling to cope with his wife's death. Will is confronted by the harsh reality of loneliness and helplessness as he proceeds to take care of Ruth's pet cow, Tulip. The film displays the grief and responsibility one feels for those they have loved and lost. Good cinematography, great direction, and superbly acted. It will bring tears to all those who have lost a loved one, and survived.


* Για να πάρουμε τα δεδομένα μέσα στο TensorFlow θα χρησιμοποιήσουμε τη συνάρτηση `text_dataset_from_directory()`.

* Αυτή προϋποθέτει ότι τα δεδομένα μας είναι τοποθετημένα σε καταλόγους, έναν για κάθε διακριτή κλάση, δηλαδή:

  ```
  main_directory/
  ...class_a/
  ......a_text_1.txt
  ......a_text_2.txt
  ...class_b/
  ......b_text_1.txt
  ......b_text_2.txt
  ```
  
* Αυτό ακριβώς έχουμε ήδη.

* Θα πάρουμε το υποσύνολο εκπαίδευσης.

* Θα κρατήσουμε 20% για επικύρωση (πέρα από τα δεδομένα ελέγχου).

In [6]:
batch_size = 32
seed = 42

raw_train_ds = tf.keras.utils.text_dataset_from_directory(
    'aclImdb/train', 
    batch_size=batch_size, 
    validation_split=0.2, 
    subset='training', 
    seed=seed)

Found 25000 files belonging to 2 classes.
Using 20000 files for training.


2022-03-18 15:07:19.688419: I tensorflow/core/platform/cpu_feature_guard.cc:151] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.


* Ας δούμε μερικές κριτικές και την κλάση στην οποία ανήκουν.

In [7]:
for text_batch, label_batch in raw_train_ds.take(1):
    for i in range(0, 2+1):
        print("Review", text_batch.numpy()[i])
        print("Label", label_batch.numpy()[i])

Review b'"Pandemonium" is a horror movie spoof that comes off more stupid than funny. Believe me when I tell you, I love comedies. Especially comedy spoofs. "Airplane", "The Naked Gun" trilogy, "Blazing Saddles", "High Anxiety", and "Spaceballs" are some of my favorite comedies that spoof a particular genre. "Pandemonium" is not up there with those films. Most of the scenes in this movie had me sitting there in stunned silence because the movie wasn\'t all that funny. There are a few laughs in the film, but when you watch a comedy, you expect to laugh a lot more than a few times and that\'s all this film has going for it. Geez, "Scream" had more laughs than this film and that was more of a horror film. How bizarre is that?<br /><br />*1/2 (out of four)'
Label 0
Review b"David Mamet is a very interesting and a very un-equal director. His first movie 'House of Games' was the one I liked best, and it set a series of films with characters whose perspective of life changes as they get into 

* Για να δούμε σε τι αντιστοιχούν οι δύο κλάσεις `0` και `1` μπορούμε να χρησιμοποιήσουμε την ιδιότητα  `class_names`.

In [8]:
print("Label 0 corresponds to", raw_train_ds.class_names[0])
print("Label 1 corresponds to", raw_train_ds.class_names[1])

Label 0 corresponds to neg
Label 1 corresponds to pos


* Αφού πήραμε το υποσύνολο εκπαίδευσης, θα πάρουμε τώρα το υποσύνολο επικύρωσης. 

* Προσέξτε ότι χρησιμοποιούμε τον ίδιο σπόρο (`seed`) για να είμαστε σίγουροι ότι δεν θα υπάρχουν επικαλύψεις μεταξύ των δεδομένων εκπαίδευσης και επικύρωσης.

In [9]:
raw_val_ds = tf.keras.utils.text_dataset_from_directory(
    'aclImdb/train', 
    batch_size=batch_size, 
    validation_split=0.2, 
    subset='validation', 
    seed=seed)

Found 25000 files belonging to 2 classes.
Using 5000 files for validation.


* Τέλος, παίρνουμε και τα δεδομένα ελέγχου.

In [10]:
raw_test_ds = tf.keras.utils.text_dataset_from_directory(
    'aclImdb/test', 
    batch_size=batch_size)

Found 25000 files belonging to 2 classes.


* Όπως είδαμε προηγουμένως, οι κριτικές περιέχουν εκτός από κείμενο και την αλλαγή γραμμής σε HTML (`<br />`). 

* Εμείς θα τα αφαιρέσουμε αυτά.

* Επίσης θα κάνουμε όλους τους χαρακτήρες πεζούς και θα αφαιρέσουμε σημεία στίξης.

In [11]:
def custom_standardization(input_data):
    lowercase = tf.strings.lower(input_data)
    stripped_html = tf.strings.regex_replace(lowercase, '<br />', ' ')
    return tf.strings.regex_replace(stripped_html,
                                    '[%s]' % re.escape(string.punctuation),
                                    '')

* Στη συνέχεια θα φτιάξουμε ένα στρώμα `TextVectorization`.

* Αυτό το στρώμα θα κάνει τις παρακάτω προεργασίες:

  * Θα καλέσει την `custom_standardization()`.

  * Θα χωρίσει κάθε συμβολοσειρά που αντιστοιχεί σε μία κριτική σε επιμέρους λεκτικές μονάδες (tokens), χρησιμοποιώντας ως διαχωριστή χαρακτήρες κενών.
  
  * Θα αντιστοιχίσει σε κάθε μία από τις πιο συχνά εμφανιζόμενες λεκτικές μονάδες έναν ακέραιο αριθμό, δημιουργώντας ένα λεξικό μεγέθους 10.000.
  
  * Θα εξασφαλίσει ότι κάθε σειρά ακεραίων που θα προκύψει (που θα αναπαριστά κάθε κριτική) θα έχει το ίδιο μήκος.

In [12]:
max_features = 10000
sequence_length = 250

vectorize_layer = layers.TextVectorization(
    standardize=custom_standardization,
    max_tokens=max_features,
    output_mode='int',
    output_sequence_length=sequence_length)

* Καλούμε τη μέθοδο `adapt()` του `vectorize_layer` στο σύνολο εκπαίδευσης ώστε να κατασκευαστεί η αντιστοίχιση (λεξικό, vocabulary) μεταξύ μονάδων και ακεραίων. 

In [13]:
# Make a text-only dataset (without labels), then call adapt
train_text = raw_train_ds.map(lambda x, y: x)
vectorize_layer.adapt(train_text)

* Για να δούμε καλύτερα τι κάνει το `vectorize_layer`, θα γράψουμε μια βοηθητική συνάρτηση με την οποία θα μπορούμε να το καλούμε στα δεδομένα μας.

In [14]:
def vectorize_text(text, label):
    # text is a tensor with shape (), we need to make it with shape (1,)
    text = tf.expand_dims(text, -1)
    return vectorize_layer(text), label

In [15]:
# retrieve a batch (of 32 reviews and labels) from the dataset
text_batch, label_batch = next(iter(raw_train_ds))
first_review, first_label = text_batch[0], label_batch[0]
print("Review", first_review)
print("Label", raw_train_ds.class_names[first_label])
print("Vectorized review", vectorize_text(first_review, first_label))

Review tf.Tensor(b'Great movie - especially the music - Etta James - "At Last". This speaks volumes when you have finally found that special someone.', shape=(), dtype=string)
Label neg
Vectorized review (<tf.Tensor: shape=(1, 250), dtype=int64, numpy=
array([[  86,   17,  260,    2,  222,    1,  571,   31,  229,   11, 2418,
           1,   51,   22,   25,  404,  251,   12,  306,  282,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
           0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
       

* Όπως βλέπουμε, κάθε λεκτική μονάδα αναπαρίσταται από έναν ακέραιο αριθμό.

* Ο αριθμός 0 χρησιμοποιείται για γέμισμα (padding), ώστε κάθε κριτική να έχει το ίδιο μήκος.

* Ο αριθμός 1 χρησιμοποιείται για άγνωστες λέξεις, δηλαδή λέξεις που είναι εκτός των 10.000 συχνότερων, τις οποίες κρατάει το λεξικό μας.

In [16]:
print("0 ---> ", vectorize_layer.get_vocabulary()[0])
print("1 ---> ",vectorize_layer.get_vocabulary()[1])
print("1287 ---> ", vectorize_layer.get_vocabulary()[1287])
print("9999 ---> ",vectorize_layer.get_vocabulary()[9999])
print("Vocabulary size: ", vectorize_layer.vocabulary_size())

0 --->  
1 --->  [UNK]
1287 --->  silent
9999 --->  rushes
Vocabulary size:  10000


* Για να βελτιώσουμε την ταχύτητα, θα χρησιμοποιήσουμε τις μεθόδους `cache()` και `prefetch()`. 

* Με τη μέθοδο `cache()`, τα δεδομένα την πρώτη φορά που διαβάζονται μπορούν να αποθηκευτούν στη μνήμη.

* Με τη μέθοδο `prefetch()`, τα δεδομένα τροφοδούνται στο νευρωνικό δίκτυο καθώς το δίκτυο επεξεργάζεται ήδη τα προηγούμενα δεδομένα, ώστε να μην χάνεται χρόνος για την τροφοδοσία (αφού μπορεί να γίνεται παράλληλα με την επεξεργασία).

In [17]:
AUTOTUNE = tf.data.AUTOTUNE

raw_train_ds = raw_train_ds.cache().prefetch(buffer_size=AUTOTUNE)
raw_val_ds = raw_val_ds.cache().prefetch(buffer_size=AUTOTUNE)
raw_test_ds = raw_test_ds.cache().prefetch(buffer_size=AUTOTUNE)

* Προχωράμε στην κατασκευή του μοντέλου μας.

* Το πρώτο επίπεδο που βάζουμε στο μοντέλο μας είναι το `vectorize_layer`.

In [18]:
model = tf.keras.Sequential()

model.add(vectorize_layer)

* Στη συνέχεια θα προσθέσουμε ένα *στρώμα ενσωμάτωσης* (embedding layer).

* Το στρώμα αυτό μετατρέπει τον ακέραιο αριθμό που αναπαριστά κάθε λεκτική μονάδα σε ένα *διάνυσμα* 16 διαστάσεων (δική μας επιλογή).

* Επομένως περνάμε από μια αναπαράσταση «λέξη-αριθμός» σε μία αναπαράσταση «λέξη-διάνυσμα». 

* Η διανυσματική αυτή αναπαράσταση, η ενσωμάτωση, θα εκφράζει κατά κάποιον τρόπο το νόημα της κάθε λεκτικής μονάδας.

* Πώς προκύπτει η διανυσματική αναπαράσταση κάθε λέξης; Θα τη μάθει το δίκτυο!

* Η είσοδος του στρώματος ενσωμάτωσης είναι μια ακολουθία ακεραίων αριθμών, μήκους 250.

* Η έξοδος του στρώματος θα είναι πλέον ένας πίνακας διαστάσεων $250 \times 16$.

In [19]:
embedding_dim = 16

model.add(layers.Embedding(max_features, embedding_dim))

* Aκολουθεί ένα στρώμα dropout.

In [20]:
model.add(layers.Dropout(0.2))

* Κάθε κριτική αναπαραστάται με έναν πίνακα διαστάσεων $250 \times 16$.

* Από αυτήν θα παράξουμε ένα διάνυσμα με 16 διαστάσεις.

* Αυτό θα το κάνουμε με ένα στρώμα `GlobalAveragePooling1D`.

* Από τα 250 διανύσματα 16 διαστάσεων θα πάρουμε το μέσο όρο τους.

* Διαισθητικά, αυτή θα είναι η διανυσματική αναπαράσταση του «μέσου όρου» του νοήματος των λεκτικών μονάδων της κάθε κριτικής.

* Ακόμα πιο διαισθητικά, αυτή θα αντιστοιχεί το νόημα (σε μία ιδεατή λέξη) που συνοψίζει όλη την κριτική.

In [21]:
model.add(layers.GlobalAveragePooling1D())
model.add(layers.Dropout(0.2))

* Τέλος, θα προσθέσουμε ένα πυκνά συνδεμένο νευρώνα στο τελευταίο στρώμα ώστε να κάνουμε την ταξινόμηση.

In [22]:
model.add(layers.Dense(1))

* Να δούμε συνοπτικά τι έχουμε:

In [23]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 text_vectorization (TextVec  (None, 250)              0         
 torization)                                                     
                                                                 
 embedding (Embedding)       (None, 250, 16)           160000    
                                                                 
 dropout (Dropout)           (None, 250, 16)           0         
                                                                 
 global_average_pooling1d (G  (None, 16)               0         
 lobalAveragePooling1D)                                          
                                                                 
 dropout_1 (Dropout)         (None, 16)                0         
                                                                 
 dense (Dense)               (None, 1)                 1

* Όπως συνήθως, ορίζουμε τον βελτιστοποιητή, απώλεια, και μετρική. 

In [24]:
model.compile(loss=losses.BinaryCrossentropy(from_logits=True),
              optimizer='adam',
              metrics=tf.metrics.BinaryAccuracy(threshold=0.0))

* Προχωράμε στην εκπαίδευση για δέκα εποχές.

In [25]:
epochs = 10
history = model.fit(
    raw_train_ds,
    validation_data=raw_val_ds,
    epochs=epochs)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


* Αφού εκπαιδεύσουμε, μπορούμε να δούμε την επίδοση στα δεδομένα ελέγχου.

* Επειδή το μοντέλο μας παράγει logits, θα προσθέσουμε ένα στρώμα που θα εφαρμόζει σιγμοειδή ενεργοποίηση.

In [26]:
sigmoid_model = tf.keras.Sequential([
  model,
  layers.Activation('sigmoid')
])

sigmoid_model.compile(
    loss=losses.BinaryCrossentropy(from_logits=False), optimizer="adam", metrics=['accuracy']
)

# Test it with `raw_test_ds`, which yields raw strings
loss, accuracy = sigmoid_model.evaluate(raw_test_ds)
print("Loss: ", loss)
print("Accuracy: ", accuracy)

Loss:  0.310350239276886
Accuracy:  0.8730400204658508


* Ας επανέλθουμε λίγο στη διανυσματική αναπαράσταση των λέξεων στο μοντέλο μας.

* Τα διανύσματα για την κάθε λέξη είναι τα βάρη του στρώματος `Embedding`.

* Το στρώμα αυτό έχει διαστάσεις `(vocabulary_size, embedding_dim)`.

* Το νευρωνικό δίκτυο έμαθε τα βάρη, δηλαδή έμαθε τις διανυσματικές αναπαραστάσεις των λέξεων κατά την εκπαίδευση για την ταξινόμηση.

In [27]:
embedding = model.layers[1]
weights = embedding.get_weights()[0]
weights.shape

(10000, 16)

* Επομένως από εκεί που είχαμε ξεκινήσει με την αναπαράσταση των λέξεων μέσω ακεραίων, τελικά αναπαριστούμε κάθε λέξη ως ένα σημείο σε έναν χώρο 16 διαστάσεων.

In [28]:
for num in range(0, 5+1):
    word = vectorize_layer.get_vocabulary()[num]
    vec = weights[num]
    print(word, num, vec)

 0 [-0.00942429  0.00145162  0.00879299 -0.00617482 -0.01833293 -0.01385313
  0.0061789   0.02245351  0.00614921 -0.00450425  0.00639349  0.01372139
  0.00953717  0.00095779  0.01652874 -0.0068995 ]
[UNK] 1 [-0.0311668   0.05364797  0.07109778  0.13044252  0.00565497  0.08358029
  0.07035164  0.03607412  0.08179341  0.00629571  0.02268083  0.02624291
 -0.10860924  0.01658307 -0.01757364  0.03755026]
the 2 [ 0.00751571 -0.02789821  0.00926731 -0.02363539 -0.06039637 -0.09125661
 -0.07214823 -0.06925654 -0.04588158 -0.01215377 -0.04814544 -0.03682938
  0.02616501 -0.06814333  0.06467235 -0.00741657]
and 3 [ 0.17544998 -0.19089417 -0.20559171 -0.27843451 -0.17202763 -0.17646806
 -0.20626883 -0.20862857 -0.1764741  -0.12801513 -0.2540157  -0.27600306
  0.24608037 -0.2930975   0.18469746 -0.19249779]
a 4 [ 0.15124586 -0.06932954 -0.06003192 -0.01276331 -0.08331891 -0.00961464
 -0.02208956 -0.05247774 -0.07412761 -0.05018733 -0.06016735 -0.04011693
 -0.01103566 -0.02208388  0.00852778 -0.047

* Η χρήση διανυσματικών αναπαραστάσεων λέξεων είναι η βάση στα νευρωνικά δίκτυα που χειρίζονται γλώσσα.

* Εμείς στο απλό παράδειγμά μας χρησιμοποιήσαμε ένα μικρό σύνολο δεδομένων για την εκμάθηση των διανυσμάτων.

* Στην πράξη, υπάρχουν διαθέσιμες διανυσματικές αναπαραστάσεις λέξεων που έχουν προκύψει από εκπαίδευση σε τεράστια σώματα κειμένου.