<a href="https://colab.research.google.com/github/ProfAI/nlp00/blob/master/10%20-%20Reti%20Ricorrenti%20e%20Text%20Generation/dante_RNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Generare testo con le Reti Ricorrenti (LSTM)
In questo notebook vederemo come è possibile utilizzare le reti neurali ricorrenti LSTM non solamente per classificare del testo ma anche per generarlo ! Quello che andremo a fare è cercare di generare del nuovo testo con lo stesso stile che ha utilizzato Dante Alighieri per scrivere la Divina Commedia.<br><br>
Cominciamo scaricando una copia gratuita in TXT della Divina Commedia, puoi otterla da [qui](https://github.com/ProfAI/nlp00/blob/master/10%20-%20Reti%20Ricorrenti%20e%20Text%20Generation/commedia.txt), se utilizzi Google Colaboratory o hai wget installato esegui pure il comando qui sotto per scaricare il file.

In [8]:
!wget https://github.com/ProfAI/nlp00/raw/master/10%20-%20Reti%20Ricorrenti%20e%20Text%20Generation/commedia.txt

--2021-04-24 08:30:03--  https://github.com/ProfAI/nlp00/raw/master/10%20-%20Reti%20Ricorrenti%20e%20Text%20Generation/commedia.txt
Resolving github.com (github.com)... 192.30.255.112
Connecting to github.com (github.com)|192.30.255.112|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/ProfAI/nlp00/master/10%20-%20Reti%20Ricorrenti%20e%20Text%20Generation/commedia.txt [following]
--2021-04-24 08:30:03--  https://raw.githubusercontent.com/ProfAI/nlp00/master/10%20-%20Reti%20Ricorrenti%20e%20Text%20Generation/commedia.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.108.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 557962 (545K) [text/plain]
Saving to: ‘commedia.txt.1’


2021-04-24 08:30:03 (17.9 MB/s) - ‘commedia.txt.1’ saved [557962/557962]



## Processiamo i dati
Apriamo il file appena scaricato, leggiamone il contenuto e stampiamo i primi 100 caratteri.

In [1]:
with open("commedia.txt", encoding="latin-1") as divine_file:
  divine_txt = divine_file.read()
  
print(divine_txt[:100])

LA DIVINA COMMEDIA
di Dante Alighieri
INFERNO



Inferno: Canto I

  Nel mezzo del cammin di nostra 


Come vedi l'ebook contiene del testo che non ci interessa, usiamo il metodo *.find(text)* per trovare dove inizia e finisce la divina commedia ed eseguiamo lo slicing per tenere soltanto il testo scritto da Dante.

In [2]:
start = divine_txt.find("Nel mezzo del cammin di nostra vita")
end = divine_txt.find("l'amor che move il sole e l'altre stelle.")

divine_txt = divine_txt[start:end]

print(divine_txt[:100])

Nel mezzo del cammin di nostra vita
mi ritrovai per una selva oscura
chÃ© la diritta via era smarrit


Ogni canto contiene una piccola introduzione, ad esempio il primo:
<br><br>
LA DIVINA COMMEDIA
<br>
di Dante Alighieri
<br>
<br>
INFERNO
<br>
<br>
CANTO I
<br>
[Incomincia la Comedia di Dante Alleghieri di Fiorenza, ne la quale tratta de le pene e punimenti de' vizi e de' meriti e premi de le virt˘. Comincia il canto primo de la prima parte la quale si chiama Inferno, nel qual l'auttore fa proemio a tutta l'opera.]<br>
<br><br>
Il pattern è uguale per ogni canto, quindi possiamo rimuoverlo con un po' di codice:
 - Usiamo un'espressione regolare per rimuovere tutte le parole che cominciano con almeno due lettere maiscuole.
 - Usiamo un'altra espressione regolare per rimuovere tutte le frasi contenute tra parentesi quadre.
 - Rimuoviamo ogni occorrenza della frase 'di Dante Alighieri' dal testo.
 

In [3]:
import re

divine_txt = re.sub("[\(\[].*?[\)\]]", "", divine_txt)
divine_txt = re.sub("[A-Z][A-Z]+","",divine_txt)

divine_txt = divine_txt.replace("di Dante Alighieri","")

Usiamo la solita espressione regolare per rimuovere la punteggiatura, poi rimuoviamo anche i caratteri di 'a capo' e convertiamo tutto il testo in minuscolo.

In [4]:
divine_txt = re.sub(r'[^\w\s]','',divine_txt)
divine_txt = divine_txt.replace("\n"," ")
divine_txt = divine_txt.lower()

Adesso siamo pronti per tokenizzare il testo, usiamo spacy per farlo. Se non lo abbiamo già fatto installiamo il modulo per la lingua italiana.

In [8]:
!python -m spacy download it_core_news_sm

Collecting it_core_news_sm==2.2.5
[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/it_core_news_sm-2.2.5/it_core_news_sm-2.2.5.tar.gz (14.5MB)
[K     |████████████████████████████████| 14.5MB 11.1MB/s 
Building wheels for collected packages: it-core-news-sm
  Building wheel for it-core-news-sm (setup.py) ... [?25l[?25hdone
  Created wheel for it-core-news-sm: filename=it_core_news_sm-2.2.5-cp37-none-any.whl size=14471131 sha256=4c2684436d587d785f9ea61b8df55bc1493f224a1f9694f077a38a5cab611e24
  Stored in directory: /tmp/pip-ephem-wheel-cache-v1cr5i3b/wheels/a1/01/c2/127ab92cc5e3c7f36b5cd4bff28d1c29c313962a2ba913e720
Successfully built it-core-news-sm
Installing collected packages: it-core-news-sm
Successfully installed it-core-news-sm-2.2.5
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('it_core_news_sm')


Carichiamolo, definiamo una funzione che estrae i token da tutto il testo ed utilizziamola.

In [5]:
import spacy

nlp = spacy.load("it_core_news_sm")

def preprocess(text):

  tokens = nlp(text)
  tokens_filtered = [token.text for token in tokens]
  return tokens_filtered

tokens = preprocess(divine_txt)
tokens[:10]

['nel',
 'mezzo',
 'del',
 'cammin',
 'di',
 'nostra',
 'vita',
 'mi',
 'ritrovai',
 'per']

Suddividiamo il testo in sequenze con una lunghezza massima di 10 parole, lo scopo delle nostra rete sarà quello di predire l'ultima parola della sequenza utilizzando quelle precedenti.

In [6]:
maxlen = 10

divine_sents = []

for i in range(maxlen, len(tokens)):
  divine_sents.append(tokens[i-maxlen:i])
  
print(divine_sents[0])
print(divine_sents[1])

['nel', 'mezzo', 'del', 'cammin', 'di', 'nostra', 'vita', 'mi', 'ritrovai', 'per']
['mezzo', 'del', 'cammin', 'di', 'nostra', 'vita', 'mi', 'ritrovai', 'per', 'una']


Adesso dobbiamo codificare le parole in numeri, possiamo farlo creandoci un dizionario di tutte le parole contenute nel testo e poi sostituire i token di ogni frase con la corrispondente posizione della parola nel dizionario. Per farlo possiamo usare direttamente la classe *Tokenizer* di keras che fa tutto per noi.

In [7]:
from keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer()
tokenizer.fit_on_texts(divine_sents)
divine_sents = tokenizer.texts_to_sequences(divine_sents)

divine_sents[0]

[42, 220, 24, 594, 5, 184, 152, 16, 13738, 8]

Creiamo i set con features e target, come già detto le features saranno i tokens di una sequenza eccetto l'ultimo, il target sarà invece proprio quest'ultimo token.

In [None]:
import numpy as np
divine_sents = np.array(divine_sents)

X = divine_sents[:,:-1]
y = divine_sents[:,-1]

Il nostro si tratta di un problema di classificazione multiclasse, le cui possibili classi sono tutte le parole contenute nel dizionario, vediamo quante sono esattamente.

In [None]:
vocab_size = len(tokenizer.word_counts)
vocab_size

13574

Abbiamo in totale 13575 parole, usiamo la funzione *to_categorical(y)* di keras per eseguire il one hot encoding delle variabili target.

In [None]:
from keras.utils import to_categorical

y = to_categorical(y, num_classes=vocab_size+1)
y.shape

(97393, 13575)

## Creazione della Rete Ricorrente
Creiamo la nostra architettura di rete neurale ricorrente:
 - Utilizziamo il *Word Embedding* per creare una rappresentazione vettoriale delle parole, addestrandolo sul nostro corpus di testo.
 - Aggiungiamo due strati ricorrenti con 50 nodi ciascuno, il primo dei quali dovrà ritornare una sequenza che servirà come input per il secondo.
 - Aggiungiamo un terzo strato denso con sempre 50 nodi.
 - Infine inseriamo uno strato di output con un numero di nodi ovviamente pari al numero di parole nel dizionario.

In [None]:
from keras import Model, Sequential
from keras.layers import Embedding, LSTM, Dense

model = Sequential()
model.add(Embedding(vocab_size+1, maxlen-1, input_length=maxlen-1))
model.add(LSTM(50, return_sequences=True))
model.add(LSTM(50))
model.add(Dense(50, activation="relu"))
model.add(Dense(vocab_size+1, activation="softmax"))

Compiliamo il modello, trattandosi di un problema di classificazione multiclasse useremo la *categorical crossentropy* come funzione di costo.

In [None]:
model.compile(loss="categorical_crossentropy", optimizer="adam", metrics=["accuracy"])

Come abbiamo detto, quello che vogliamo fare è creare una rete neurale in grado di generare testo dantesco, quindi perché stiamo eseguendo una classificazione ? L'utilizzo che faremo della rete è il seguente:
1. Forniremo alla rete del testo 'seed' di una lunghezza prestabilita, cioè del testo di base che poi essa userà per generare quello seguente, possiamo definire noi tale testo oppure estrarlo a caso dal corpus.
2. La rete predirrà la parola che secondo essa dovrebbe seguire il testo 'seed'.
3. Aggiungiamo la parola predetta al testo.
4. Rimuoviamo la prima parola del testo.
5. Ripetiamo i punti da 2 a 4 fino a quando il testo predetto non avrà la lunghezza che vogliamo.

Definiamo una funzione che fa esattamente questo.

In [None]:
from random import randint
from keras.preprocessing.sequence import pad_sequences

def generate(seed=None, rand_seed_len=10, generate_len=25):
  
  output = ""
  
  if(seed==None):
    start_index = randint(0, len(divine_txt))
    text = divine_txt[start_index:start_index+rand_seed_len]
  else:
    text = re.sub(r'[^\w\s]','', seed.lower())
    
  for i in range(generate_len):
    tokens = np.array(tokenizer.texts_to_sequences([text]))
    tokens = pad_sequences(tokens, maxlen=maxlen-1, truncating="pre")
      
    pred_word = model.predict_classes([tokens])[0]
    pred_word = tokenizer.index_word[pred_word]
      
    text+=" "+pred_word
    output+=pred_word+" "
    
  return output

Utilizzando keras è possibile definire una funzione che viene eseguita al termine di ogni epoca dell'addestramento, definiamo una funzione che chiama la funzione per generare il testo, in modo tale da vedere come la qualità del testo varia durante l'addestramento.

In [None]:
def generate_on_epoch(epoch, _):
  output = generate()
  print('Dante dice: "'+output+'"')

Adesso siamo pronti per l'addestramento, per chiamare la funzione appena definita ad ogni epoca dobbiamo utilizzare i callback.
Creiamo un Lambda Callback passando all'interno del parametro on_epoch_end il nome della funzione.
Aggiungiamo il callback all'interno del parametro *callbacks* del metodo *.fit()*.
<br>
Keras ci mette a disposizone diversi callbacks da utilizzare durante l'addestramento, un'altro molto utile è quello per eseguire **l'early stopping**, cioè quella tecnica che ci permette di terminare l'addestramento in anticipo se la qualità del modello non sta migliorando. Utilizziamo l'early stopping con la classe *EarlyStopping* utilizzando i parametri *min_delta* e *patience* per interrompere l'addestramento se il valore della log loss non migliora di almeno 0.001 dopo 5 epoche.
<br><br>
**NOTA BENE**
<br>
Se non hai una GPU che supporta la tecnologia CUDA e non vuoi usare Google Colaboratory, ti consiglio di importare il modello pre-addestrato eseguendo il codice nella cella poco più in basso, altrimenti l'addestramento potrebbe richiedere anche giorni e mettere sotto forte stress il tuo pc.

In [None]:
from keras.callbacks import EarlyStopping, LambdaCallback

epoch_end_callback = LambdaCallback(on_epoch_end=generate_on_epoch)
earlyStopping = EarlyStopping(min_delta=0.001, patience=5)
model.fit(X, y, batch_size=128, epochs=500, callbacks=[earlyStopping, epoch_end_callback])

Epoch 1/100




Dante dice: "e e e e e e e e e e e e e e e e e e e e e e e e e "
Epoch 2/100
Dante dice: "e e e e e e e e e e e e e e e e e e e e e e e e e "
Epoch 3/100
Dante dice: "che che che che che che che che che che che che che che che che che che che che che che che che che "
Epoch 4/100
Dante dice: "la la la la la la la la la la la la la la la la la la la la la la la la la "
Epoch 5/100
Dante dice: "la occhi e che che che che che che che che che che che che che che che che che che che che che che "
Epoch 6/100
Dante dice: "che la occhi e la occhi e la occhi e la occhi e la occhi e la occhi e la occhi e la occhi e "
Epoch 7/100
Dante dice: "l occhi e che che che che che che che che che che che che che che che che che che che che che che "
Epoch 8/100
Dante dice: "e l occhi e l occhi e l occhi e che la occhi e che la occhi e che la occhi e che la occhi "
Epoch 9/100
Dante dice: "l occhi e si occhi e si occhi e si occhi e si occhi e si occhi e si occhi e si occhi e si "
Epoch 10/100
Dante dice: 

<keras.callbacks.History at 0x7f68b9e40ef0>

Se stai usando una GPU che supporta la tecnologia CUDA, sul tuo computer o con Google Colaboratory, l'addestramento per 500 epoche dovrebbe richiedere un paio di ore, se non vuoi aspettare puoi ridurre il numero di epoche a non meno di 100 oppure importare il modello che ho già addestrato eseguendo il codice qui sotto.

In [10]:
from urllib.request import urlretrieve
from keras.models import load_model

model_file = "dante_500.h5"
model_path = "https://github.com/ProfAI/nlp00/raw/master/10%20-%20Reti%20Ricorrenti%20e%20Text%20Generation/model/dante_500.h5"

urlretrieve(model_path, model_file)

model = load_model(model_file)
model.evaluate(X)



NameError: ignored

Proviamo a dialogare con il nostro Dante-bot, il testo che inseriremo verrà usato come seed per la generazione.

In [None]:
seed = ""

while(seed!="ciao"):
  seed = input("Io: ")
  generated = generate(seed=seed)
  print("Dante: "+generated)

Io: Nel mezzo del cammin di nostra vita
Dante: è voce ciò che nacque                                                                                                                                             
Io: Ho smarrito la retta via
Dante: e solea mè martiro sott lora che la foga mentr ïo presi e questi dirai ond io fossi inginocchiato e questi tonda fummi in render 
Io: Come sta Beatrice ?
Dante: e dimmi di penter onde si tolse a le sue orme mi prese il mento in sù negando in sù venir vincendo la folle pinge 
Io: ciao
Dante: lume mota condotto questo fascio luna e sieti lento ali ficca sì che la presente e l petto sì o volta cive a aspettar o 
