<a href="https://colab.research.google.com/github/ProfAI/nlp00/blob/master/09%20-%20Word%20embedding%20e%20Word2Vec/word_embedding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Word embedding
Il **Word embedding** è un modello che ci permette di generare una serie di vettori (embedding vectors) ognuno dei quali quantifica una caratteristica delle parole. In questo notebook creeremo una rete neurale artificiale per classsificare recensioni come positive o negative usando il Word Embedding per codificare le recensioni.

In [2]:
#!pip install numpy==1.16.2

## Prepariamo i dati
In precedenza abbiamo caricato e preprocessato manualmente l'IMDB Movies Review Dataset, in questo caso utilizziamo direttamente il dataset già preprocessato che ci mette a disposizione Keras.
<br>**ATTENZIONE**<br>
Se caricando il dataset ottieni questo errore:<br>
*ValueError: Object arrays cannot be loaded when allow_pickle=False*
<br>
questo è casuato da un bug nell'ultima versione di keras, per correggerlo esegui il downgrade di numpy usando la cella di codice qui sotto e riavvia il kernel (su Colaboratory seleziona Runtime dalla barra dei comandi e clicca su Restart Runtime).

In [5]:
#!pip install numpy==1.16.2

In [6]:
import numpy as np
import keras
from keras.datasets import imdb 

num_words = 10000

(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=num_words) 
#caricare gli array train and test dove si passa solo un argoment: il num max di parole da prendere

print("Numero di esempi nel train set: %d" % len(X_train))
print("Numero di esempi nel test set: %d" % len(X_test))

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz
Numero di esempi nel train set: 25000
Numero di esempi nel test set: 25000


In [9]:
X_train[0] #how the corpus has been codified

[1,
 14,
 22,
 16,
 43,
 530,
 973,
 1622,
 1385,
 65,
 458,
 4468,
 66,
 3941,
 4,
 173,
 36,
 256,
 5,
 25,
 100,
 43,
 838,
 112,
 50,
 670,
 2,
 9,
 35,
 480,
 284,
 5,
 150,
 4,
 172,
 112,
 167,
 2,
 336,
 385,
 39,
 4,
 172,
 4536,
 1111,
 17,
 546,
 38,
 13,
 447,
 4,
 192,
 50,
 16,
 6,
 147,
 2025,
 19,
 14,
 22,
 4,
 1920,
 4613,
 469,
 4,
 22,
 71,
 87,
 12,
 16,
 43,
 530,
 38,
 76,
 15,
 13,
 1247,
 4,
 22,
 17,
 515,
 17,
 12,
 16,
 626,
 18,
 2,
 5,
 62,
 386,
 12,
 8,
 316,
 8,
 106,
 5,
 4,
 2223,
 5244,
 16,
 480,
 66,
 3785,
 33,
 4,
 130,
 12,
 16,
 38,
 619,
 5,
 25,
 124,
 51,
 36,
 135,
 48,
 25,
 1415,
 33,
 6,
 22,
 12,
 215,
 28,
 77,
 52,
 5,
 14,
 407,
 16,
 82,
 2,
 8,
 4,
 107,
 117,
 5952,
 15,
 256,
 4,
 2,
 7,
 3766,
 5,
 723,
 36,
 71,
 43,
 530,
 476,
 26,
 400,
 317,
 46,
 7,
 4,
 2,
 1029,
 13,
 104,
 88,
 4,
 381,
 15,
 297,
 98,
 32,
 2071,
 56,
 26,
 141,
 6,
 194,
 7486,
 18,
 4,
 226,
 22,
 21,
 134,
 476,
 26,
 480,
 5,
 144,
 30,
 5535,
 18,

Ogni riga della lista con le features corrisponde ad una frase, ogni colonna contiene l'indice di una parola all'interno del vocabolario dell'intero corpus di testo. Il vettore con il target contiene un unico valore che può essere 0 per una recensione negativa o 1 per una recensione positiva.<br> 
Definiamo una funzione che ci permette di ricostruire la frase partendo dagli indici, per farlo abbiamo bisogno del vocabolario che mappa le parole agli indici, possiamo ottenerlo con il metodo **.get_word_index()**.
<br>
**NOTA BENE**
<br>
Gli indici delle parole hanno un'offset di 3, quindi per ottenere l'indice corretto per il vocabolario dovremo sottrarre 3 all'indice della parola contenuto nella frase.

In [13]:
#how to get the words from the index
word_index = imdb.get_word_index()
index_word = dict([(value, key) for (key, value) in word_index.items()])

def vec_to_text(x):
  
  text = [index_word.get(i-3,'?') for i in x] #le prime 3 righe sono per i caratteri speciali --> ricordati di sottrarre 3
  return " ".join(text) 
  
vec_to_text(X_test[0])

"? please give this one a miss br br ? ? and the rest of the cast rendered terrible performances the show is flat flat flat br br i don't know how michael madison could have allowed this one on his plate he almost seemed to know this wasn't going to work out and his performance was quite ? so all you madison fans give this a miss"

Ovviamente le recensioni avranno lunghezza differente, calcoliamo la lunghezza della più lunga e della più corta.

In [14]:
longest_review = max(X_train,key=len)
shortest_review = min(X_train,key=len)

print("La review più lunga ha %d parole" % len(longest_review))
print("La review più corta ha %d parole" % len(shortest_review))

La review più lunga ha 2494 parole
La review più corta ha 11 parole


In [16]:
#vec_to_text(longest_review)

In [17]:
vec_to_text(shortest_review)

"? i wouldn't rent this one even on dollar rental night"

**NOTA BENE** Per rendere le features un buon input per il nostro modello dobbiamo fare in modo che ogni frase abbia la stessa lunghezza, per farlo possiamo usare la funzione **pad_sequences(text)** di keras, che riduce tutte le frasi ad una lunghezza prefissata troncando quelle troppo lunghe e aggiungendo degli zeri a quelle troppo brevi. Usiamo una lunghezza comune di 50 parole.

In [19]:
#from keras.preprocessing.sequence import pad_sequences
from keras_preprocessing.sequence import pad_sequences
maxlen = 50

X_train = pad_sequences(X_train, maxlen = maxlen)
X_test = pad_sequences(X_test, maxlen = maxlen)

X_train.shape

(25000, 50)

## Creiamo il modello
Possiamo utilizzare l'embedding come se fosse uno strato della nostra rete neurale che verrà anch'esso ottimizzato durante la fase di addestramento. Creiamo la rete aggiungendo al primo strato uno strato di embedding, dopodichè aggiungiamo un'altro strato che utilizza la classe Flatten() di keras per convertire la matrice che contiene la rappresentazione vettoriale di una frase in un vettore, unendo tutte le righe una dietro l'altra. Infine aggiungiamo uno strato di output per eseguire la classificazione binaria.

In [21]:
from keras.models import Sequential
from keras.layers import Embedding, SimpleRNN, Dense, Flatten

model = Sequential()

model.add(Embedding(num_words, 50, input_length=maxlen)) #num_words: quanto è grande il corpus; 50: quanti tokens/embedding viene codificata la parola
#input_len serve per il flatten
model.add(Flatten()) #
model.add(Dense(1, activation='sigmoid')) #output: reg log

model.summary()

2022-08-24 12:04:47.629893: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.


Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 50, 50)            500000    
                                                                 
 flatten (Flatten)           (None, 2500)              0         
                                                                 
 dense (Dense)               (None, 1)                 2501      
                                                                 
Total params: 502,501
Trainable params: 502,501
Non-trainable params: 0
_________________________________________________________________


Compiliamo il modello e avviamo l'addestramento per 10 epoche.

In [22]:
model.compile(loss='binary_crossentropy', optimizer="adam", metrics=['accuracy'])
model.fit(X_train, y_train, batch_size=512, validation_split=0.2, epochs=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7fe9933af7c0>

In [23]:
model.evaluate(X_test, y_test)



[0.40650856494903564, 0.81632000207901]

## Otteniamo gli embedding
Se volessimo conoscere gli embedding che il modello genera per una determinata frase possiamo farlo creando un nuovo modello che da in output l'output dell'embedding che abbiamo addestrato. Keras ci da la possibilità di accedere ai singoli strati di un modello utilizzato l'attributo *.layers*

In [24]:
model.layers[0]

<keras.layers.core.embedding.Embedding at 0x7fe99339a970>

Utilizzando le API Funzionali di Keras (ne parleremo più avanti) possiamo creare un modello che prende in input lo stesso input del modello addestrato e da in output l'output dell'embedding.

In [25]:
from keras.models import Model

embedding_model = Model(inputs=model.input, outputs=model.layers[0].output)

Utilizzando il metodo *.predict(x)* otterremo una matrice con la rappresentazione vettoriale di ogni parola della frase.

In [31]:
x = np.array([X_test[0]]) #trasforma il vettore in matrice

x_embedding = embedding_model.predict(x)[0]



In [32]:
x_embedding[0]

array([-0.10818409,  0.2400529 ,  0.02922984, -0.2618206 ,  0.00041228,
        0.03769689,  0.21158683,  0.14530803, -0.03960946,  0.08206411,
        0.13866283,  0.24514107, -0.18515842,  0.18617882,  0.19619426,
       -0.18753062,  0.2214797 ,  0.12085671,  0.23491731,  0.21514982,
       -0.15531653,  0.18846081,  0.15009934,  0.10126054,  0.19822972,
       -0.02158733,  0.10733441, -0.14228767,  0.18018241, -0.24326003,
       -0.14856496, -0.0274841 , -0.01437016, -0.20739764,  0.19235584,
       -0.19893922, -0.15900247,  0.14390792,  0.22292428, -0.1987068 ,
       -0.2027252 ,  0.13500232, -0.12476611, -0.01149696, -0.20824231,
        0.01649007,  0.05155145,  0.06319932,  0.0984876 ,  0.15467629],
      dtype=float32)