Author : 
Lauren Baillot
Merlin Boyer
Effie Segas

Projet Intelligence Artificielle 3A Robotique ENSEIRB/ENSC

Bibliothèques à importer pour le bon fonctionnement du projet

In [1]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
from scipy import linalg
from ipywidgets import *
from IPython.display import *

Définition de la seed nécessaire pour la génération de valeurs aléatoires

In [2]:
def set_seed(seed=None):
    """Making the seed (for random values) variable if None"""

    if seed is None:
        import time
        seed = int((time.time()*10**6) % 4294967295)
        print(seed)
    try:
        np.random.seed(seed)
        print("Seed used for random values:", seed)
    except:
        print("!!! WARNING !!!: Seed was not set correctly.")
    return seed

Définition de la classe contenant le réseau

In [3]:
class Network(object):

    def __init__(self, trainLen=2000, testLen=2000, initLen=100) :
        self.initLen = initLen
        self.trainLen = trainLen
        self.testLen = testLen
        self.file = open("text/Shakespeare.txt", "r").read().replace('\n', ' ')
        self.resSize = 300
        # taux de fuite alpha (desaprentissage)
        self.a = 0.3
        self.spectral_radius = 1.25
        self.input_scaling = 1.
        self.reg =  1e-8
        self.mode = 'prediction'
        seed = None #42
        set_seed(seed)

Traitement du texte

Modifie le texte :
Si keep_upper = True : respecte la casse,
sinon transforme le texte en minuscule.
Si keep_punctuation : garde la ponctuation,
sinon garde le texte sans la ponctuation.
Si keep_numbers : garde les chiffres,
sinon garde le texte sans chiffres.

In [5]:
def filter_characters(nw, keep_upper=True, keep_punctuation=True, keep_numbers=True) :

    alphabet = list("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789 ")
    numbers = list("0123456789")

    if keep_upper == False : nw.file = nw.file.lower()
    nw.input_text = list(nw.file)

    if keep_punctuation == False :
        nw.input_text = [i for i in nw.input_text if i in alphabet]     

    if keep_numbers == False :
        nw.input_text = [i for i in nw.input_text if i not in numbers]
    
    return(nw)

Adaptation de la fonction filter_characters pour filtrer des mots

In [6]:
def filter_words(nw, keep_upper=True, keep_punctuation=True, keep_numbers=True):
    
    alphabet = list("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789 ")
    numbers = list("0123456789")

    # Met le texte en minuscule si demandé
    if not keep_upper: nw.file = nw.file.lower()
    
    nw.file.replace('\n', ' ')

    # Découpe le texte à chaque espace
    nw.input_text = nw.file.split(" ")
    

    
    # Parcours toute la liste de mots
    for index, words in enumerate(nw.input_text):
        # Sort les ponctuactions
        if not keep_punctuation:
            nw.input_text[index] = ""
            temporaire = [i for i in words if i in alphabet]
            for element in temporaire:
                nw.input_text[index] += str(element)
            if nw.input_text[index] == '':
                del nw.input_text[index]

        # Sort les nombres
        if not keep_punctuation:
            nw.input_text[index] = ""
            temporaire = [i for i in words if i in numbers]
            for element in temporaire:
                nw.input_text[index] += str(element)
            if nw.input_text[index] == '':
                del nw.input_text[index]

    ## Sortir tous les espaces restant
    for index, words in enumerate(nw.input_text):
        if words == ' ' or words == '':
            del nw.input_text[index]

    return(nw)

Création de deux dicos :
    input_units : clef sont les caractères et valeurs sont les positions
    outputs_units : clef sont les valeurs et valeurs sont les caractères
    

In [7]:
def characters(nw) :
    nw.input_units, nw.output_units = dict(), dict()
    for i, item in enumerate(set(nw.input_text)) :
        nw.input_units[item] = i
        nw.output_units[i] = item
    print("\nCaractères existants dans le texte :", sorted(nw.input_units),
          "\nNombre de caractères différents :", len(nw.input_units), "\n")
    return(nw)

Adaptation de la fonction "characters" pour mots

In [8]:
def words(nw):
    nw.input_units, nw.output_units = dict(), dict()
    for i, item in enumerate(set(nw.input_text)) :
        nw.input_units[item] = i
        nw.output_units[i] = item
   # print("\nMots existants dans le texte :", sorted(nw.input_units),
   #       "\nNombre de mots différents :", len(nw.input_units), "\n")
    return(nw)


Parcours input_text et pour chaque caractère regarde la valeur correspondante dans
input_units et ajoute dans data (remplace toutes les lettres par leur indices)
Crée la taille des couches entrées et sorties


In [9]:
def convert_input(nw) :
    nw.data = np.array([nw.input_units[i] for i in nw.input_text])
    nw.inSize = nw.outSize = len(nw.input_units)
    return(nw)

Construit des vecteurs binaires
data_b : autant de ligne que de caractères dans le texte et autant de colonnes que de caractères différents dans le texte
Puis met un 1 à l'indice correspondant au caractère.

In [10]:
def binary_data(nw) :
    nw.data_b = np.zeros((len(nw.input_text), len(nw.input_units)))
    for i, item in enumerate(nw.data) :
        nw.data_b[i][item] = 1
    return(nw)

Adaptation pour les mots

In [11]:
def binary_data_words(nw) :
    nw.data_b = np.zeros((len(nw.input_text), len(nw.input_units)))
    for i, item in enumerate(nw.data) :
         nw.data_b[i][item] = 1
    return(nw)

Passage au code de ESN :

1) initialise toutes les matrices

In [12]:
def initialization(nw) :
    set_seed()  #change la seed pour avoir 
    nw.Win = (np.random.rand(nw.resSize,1+nw.inSize)-0.5) * nw.input_scaling
    nw.W = np.random.rand(nw.resSize,nw.resSize)-0.5 
    nw.X = np.zeros((1+nw.inSize+nw.resSize,nw.trainLen-nw.initLen))
    nw.Ytarget = nw.data_b[nw.initLen+1:nw.trainLen+1].T
    nw.x = np.zeros((nw.resSize,1))
    return(nw)

2) Calcul du rayon spectral ( maximums des valeurs propres de la matrice des poids du réservoir)
(fonction mettant à jour les poids)

In [13]:
def compute_spectral_radius(nw):
    rhoW = max(abs(linalg.eig(nw.W)[0]))
    nw.W *= nw.spectral_radius / rhoW
    return(nw)

3) Entraine le réseau

In [14]:
def train_network(nw) :
    percent = 0.1
    for t in range(nw.trainLen):
        percent = progression(percent, t, nw.trainLen)
        nw.u = nw.data_b[t%len(nw.data)]
        nw.x = (1-nw.a)*nw.x + nw.a*np.tanh( np.dot(nw.Win, np.concatenate((np.array([1]),nw.u)).reshape(len(nw.input_units)+1,1) ) + np.dot( nw.W, nw.x ) )
        if t >= nw.initLen :
            nw.X[:,t-nw.initLen] = np.concatenate((np.array([1]),nw.u,nw.x[:,0])).reshape(len(nw.input_units)+nw.resSize+1,1)[:,0]      
    return(nw)

4) Met à jour les poids

In [15]:
def train_output(nw) :
    nw.X_T = nw.X.T
    if nw.reg is not None:
        nw.Wout = np.dot(np.dot(nw.Ytarget,nw.X_T), linalg.inv(np.dot(nw.X,nw.X_T) + \
            nw.reg*np.eye(1+nw.inSize+nw.resSize) ) )
    else:
        nw.Wout = np.dot(nw.Ytarget, linalg.pinv(nw.X) )   
    return(nw)

5) Test du réseau

In [16]:
def test(nw) :
    print('Testing the network... (', nw.mode, ' mode)', sep="", end=" ")
    nw.Y = np.zeros((nw.outSize,nw.testLen))
    nw.u = nw.data_b[nw.trainLen%len(nw.data)]
    percent = 0.1
    for t in range(nw.testLen):
        percent = progression(percent, t, nw.trainLen)
        nw.x = (1-nw.a)*nw.x + nw.a*np.tanh( np.dot(nw.Win, np.concatenate((np.array([1]),nw.u)).reshape(len(nw.input_units)+1,1)\
                                                   ) + np.dot(nw.W,nw.x ) )
        nw.y = np.dot(nw.Wout, np.concatenate((np.array([1]),nw.u,nw.x[:,0])).reshape(len(nw.input_units)+nw.resSize+1,1)[:,0] )
        nw.Y[:,t] = nw.y
        if nw.mode == 'generative':
            # generative mode: se sert de la sortie précédente pour générer la suivante
            nw.u = nw.y
        elif nw.mode == 'prediction':
            # predictive mode: tente de prédire la sortie suivante
            nw.u = np.zeros(len(nw.input_units))
            nw.u[nw.data[(nw.trainLen+t+1)%len(nw.data)]] = 1
        else:
            raise(Exception, "ERROR: 'mode' was not set correctly.")
    print('done.\n')
    return(nw)

6) Calcul de la meansquare error

In [17]:
def compute_error(nw):
    print("Computing the error...", end=" ")
    errorLen = 500
    mse = sum( np.square( nw.data[(nw.trainLen+1)%len(nw.data):(nw.trainLen+errorLen+1)%len(nw.data)] - nw.Y[0,0:errorLen] ) ) / errorLen
    print('MSE = ' + str( mse ))
    return(nw)

Traduction de la sortie

In [18]:
def convert_output(nw) :
    nw.output_text = ""
    #ajoute chaque mot généré au texte final
    for i in range(len(nw.Y.T)) :
        nw.output_text += nw.output_units[nw.Y.T[i].argmax()] + " "
    return(nw)

Calcul de la progression

In [19]:
def progression(percent, i, total) :
    if i == 0 :
        print("Progress :", end= " ")
        percent = 0.1
    elif (i/total) > percent :
        print(round(percent*100), end="")
        print("%", end=" ")
        percent += 0.1
    if total-i == 1 :
        print("100%")
    return(percent)

Applique toutes les fonctions sur le réseau

In [20]:
def compute_network(nw, a, b, c) :
    #nw = filter_characters(nw, a, b, c)
    nw = filter_words(nw,a,b,c)
    #nw = characters(nw)
    nw = words(nw)
    nw = convert_input(nw)
    nw = binary_data_words(nw)
    nw = initialization(nw)
    nw = compute_spectral_radius(nw)
    nw = train_network(nw)
    nw = train_output(nw)
    nw = test(nw) 
    #nw = compute_error(nw)
    nw = convert_output(nw)
    return(nw)

In [22]:
def words(nw):
    nw.input_units, nw.output_units = dict(), dict()
    for i, item in enumerate(set(nw.input_text)) :
        nw.input_units[item] = i
        nw.output_units[i] = item
   # print("\nMots existants dans le texte :", sorted(nw.input_units),
   #       "\nNombre de mots différents :", len(nw.input_units), "\n")
    return(nw)

main

In [30]:
select_mode = ToggleButtons(description='Mode:', options=['prediction', 'generative'])
text = Dropdown(description='Text:', options={"Shakespeare (4 573 338 chars.)" : 1, 
                                              "Sherlock Holmes (3 868 223 chars)" : 2,
                                              "Harry Potter and the Sorcerer's Stone (439 743 chars.)" : 3,
                                              "Harry Potter and the Prisoner of Azkaban (611 584 chars.)" : 4
                                             }, value = 3)

var1 = Checkbox(description='Keep upper case letters?',value=True,)
var2 = Checkbox(description='Keep punctuation?',value=True,)
var3 = Checkbox(description='Keep numbers?',value=True,)
var4 = FloatSlider(value=300, min=0, max=5000, step=1, description='resSize')
var5 = FloatText(value=1000, description='initLen')
var6 = FloatText(value=10000, description='trainLen')
var7 = FloatText(value=2000, description='testLen')
var8 = FloatSlider(value=1.25, min=0, max=10, step=0.05, description='spectral radius')
var9 = FloatSlider(value=0.3, min=0, max=1, step=0.01, description='leak rate')
valid = Button(description='Validate')

def init_network():
    clear_output()
    nw = Network()
    nw.file = open("text/HarryPotter1.txt", "r").read().replace('\n', ' ')
    nw.resSize= 1
    nw.initLen= 150
    nw.trainLen= 3000
    nw.testLen= 70
    nw.spectral_radius= 5
    nw.a= 0.9

    print("InitLen:", nw.initLen, "TrainLen:", nw.trainLen, "TestLen:", nw.testLen) 
    print("ResSize:", nw.resSize, "Spectral Radius:", nw.spectral_radius, "Leak Rate:", nw.a)

    nw = filter_words(nw,True,True,True)
    nw = words(nw)
    nw = convert_input(nw)
    nw = binary_data_words(nw)
    nw = initialization(nw)
    return nw

def generate_text(nw ):
    select_mode.value = 'prediction'
    print("mode : ", select_mode.value)
    nw.mode = select_mode.value
    nw = compute_spectral_radius(nw)
    nw = train_network(nw)
    nw = train_output(nw)
    nw = test(nw) 
    #nw = compute_error(nw)
    nw = convert_output(nw)
    return(nw.output_text)

nw = init_network()
output_text = generate_text( nw )
print(output_text)

677362325
Seed used for random values: 677362325
InitLen: 1500 TrainLen: 28000 TestLen: 150
ResSize: 1 Spectral Radius: 5 Leak Rate: 0.9
mode :  prediction
Progress : 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Testing the network... (prediction mode) Progress : done.

I not out. to the the this much was "Might already on didn't the had to the way in the Alley. He still the the hand the the looked When were in of the Dursleys time the in. to the world to the was "He's the be a the dad says the it The was it the a know to owl to the and the the Dursleys Arts the was to the "I we took you get a the like than him the the in head (black) I got as a the the Dursleys of the him, Dursleys the the was it going poking The don't got a in been Where see. able the for he took if yer the the a a in to muttered the and the the "Whatever it get if Harry he took the right, up I don't a back the in he in the you 
