In [1]:
import tensorflow as tf
import pandas as pd
import numpy as np
import string
import re
import random as rand

In [2]:
press = pd.read_csv('./data/press.csv')[['newspaper', 'text']]
press

Unnamed: 0,newspaper,text
0,20minutes,CORONAVIRUS Après une alerte lancée il y a tro...
1,bfm,"Parmi les trois foyers identifiés, l'un se tro..."
2,cnews,La France a enregistré 16 décès supplémentaire...
3,lacroix,Ne pas baisser la garde. C’est en résumé le me...
4,ledauphine,Un cas positif de Covid-19 a été détecté ce ve...
5,lefigaro,"Sur un marché parisien, les commerçants prenne..."
6,lemonde,"Le Brésil comptait, samedi 20 juin, près de 1 ..."
7,lesechos,Par Les Echos\n\nPublié le 20 juin 2020 à 18h4...


In [3]:
def clean_string2(text):
    clean_text = text.lower()
    clean_text = re.sub('covid-19', 'coronavirus', clean_text)
    clean_text = re.sub('[#:/\%€@»«➡️—-]', '', clean_text)
    clean_text = re.sub('’', ' \' ', clean_text)
    clean_text = re.sub('[éèëê]', 'e', clean_text)
    clean_text = re.sub('[àâ]', 'a', clean_text)
    clean_text = re.sub('[ïî]', 'i', clean_text)
    clean_text = re.sub('[öô]', 'o', clean_text)
    clean_text = re.sub("['\n\t]", ' ', clean_text)
    
    clean_text = re.sub(f"([{string.punctuation}])", r" \1 ", clean_text)
    clean_text = re.sub('\w*\d\w*', '<NB>', clean_text)  # Remove numbers
    return ' '.join(clean_text.split())


press['prepared_text'] = press.apply(lambda r: clean_string2(r['text']), axis=1)
press.iloc[0]['prepared_text'][:1000]

'coronavirus apres une alerte lancee il y a trois semaines sur un foyer de contaminations chez les saisonniers des bouchesdurhone , les nouveaux cas diminuent des travailleurs agricoles attendent pour se faire depister dans l ouest des bouchesdurhone . clement mahoudeau afp un foyer de contamination au coronavirus chez les travailleurs saisonniers de l ouest des bouchesdurhone a ete detecte au debut du mois de juin . les services de l etat ont eu du mal pour placer en quarantaine ces travailleurs saisonniers a cause de leurs conditions d hebergements souvent compliquees . sur <NB> travailleurs testes positifs , <NB> sont sortis de leur quarantaine . la bataille n est pas encore gagnee . le prefet des bouchesdurhone , pierre dartout , et le directeur de l agence regionale de sante de provence alpes cote d azur , philippe de mester , ont fait le point sur le foyer de contaminations au coronavirus chez des travailleurs saisonniers de l ouest du departement des bouchesdurhone . les nouvell

In [4]:
# Focus on one newspaper
newspaper = 'cnews'
assert newspaper in press.newspaper.values

based_text = press.set_index('newspaper').loc[newspaper, 'prepared_text']
print(len(based_text.split(' ')))
based_text[:1000]

4741


'la france a enregistre <NB> deces supplementaires lies au coronavirus dans les dernieres <NB> heures , portant le total des morts a <NB> . <NB> depuis le debut de l epidemie , selon le bilan publie samedi par sante publique france . selon l agence nationale de sante publique , le nombre de patients du coronavirus en reanimation continue parallelement de baisser avec <NB> malades , soit <NB> de moins que dans le bilan publie la veille par la direction generale de la sante ( dgs ) . au total , <NB> . <NB> personnes sont mortes dans les hopitaux , selon sante publique france . les donnees des deces en etablissements sociaux et medicosociaux , dont les ehpad , seront quant a elles actualisees mardi . le nombre total des personnes hospitalisees continue aussi de baisser , avec desormais <NB> . <NB> patients dans tout le pays . deux departements continuent d etre en situation de vulnerabilite elevee la guyane et mayotte . dans tout le territoire , le nombre de foyers epidemiques ( clusters 

In [5]:
# Define vocabulary
vocab = sorted(set(based_text.split(' ')))

In [6]:
# Define mappers
word2idx = {word: i for i, word in enumerate(vocab)}
idx2word = {i: word for i, word in enumerate(vocab)}

In [7]:
# Define a Dataset of sequences with a specific size

chunk_size = 11
chunks = []
whole_sequence = based_text.split(' ')
for i in range(len(whole_sequence) - chunk_size):
    chunk = [word2idx[whole_sequence[i+t]] for t in range(chunk_size) if i+t < len(whole_sequence)]
    chunks.append(chunk)

In [8]:
# Define targets
y = []
for chunk in chunks:
    target = chunk.pop(-1)
    y.append(target)

In [9]:
X = np.array(chunks)
y = np.array(y)

In [10]:
# Create model
def get_model():
    model = tf.keras.Sequential()
    model.add(tf.keras.layers.Embedding(len(vocab)+1, 50))
    model.add(tf.keras.layers.LSTM(64))
    model.add(tf.keras.layers.Dense(len(vocab)))
    return model

In [11]:
model = get_model()

def loss(labels, logits):
    return tf.keras.losses.sparse_categorical_crossentropy(labels, logits, from_logits=True)

model.compile(optimizer='adam', loss=loss)

In [20]:
model.fit(X, y, epochs=60, shuffle=True)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x1dafbbbbaf0>

In [26]:
def generate_text(model, start_string):
    num_generate_tokens = 200
    
    # Encode start string
    clean_start = clean_string2(start_string)
    start_sequence = np.array([word2idx[word] for word in clean_start.split(' ')]).reshape(1, chunk_size-1)
    
    text_generated = clean_start.split(' ')
    model.reset_states()
    current_sequence = start_sequence
    for i in range(num_generate_tokens):
        predictions = model(current_sequence)
        
        p = 1
        next_idx = rand.choice(np.argsort(predictions[0])[-p:][::-1])
        next_word = idx2word[next_idx]
        text_generated.append(next_word)
        
        # Copy n-1 last words
        current_sequence = np.concatenate([current_sequence[0][1:], [next_idx]], axis=0).reshape(1, chunk_size-1)
        
    # Clean generated text
    final_text = ''
    for i in range(len(text_generated)):
        
        if i == 0 or (text_generated[i-1] == '.' and text_generated[i] not in string.punctuation and text_generated[i] != '<NB>'):
            clean = text_generated[i][0].upper() + text_generated[i][1:]
            clean += ' '
        elif i < len(text_generated)-1 and text_generated[i+1] in ('.', ',', '\''):
            clean = text_generated[i]
        else:
            clean = text_generated[i]
            clean += ' '
        final_text += clean
        
    return final_text


start_string = 'Mais le gouvernement a mis en place un plan de'
generate_text(model, start_string)

'Mais le gouvernement a mis en place un plan de relance. Un assouplissement al por los medicos fois que le tabou d autres etudes du resultats de confinement, selon le gouvernement a <NB>. <NB>. <NB> cas ), l oms depuis le coronavirus ici les dernieres <NB> heures, selon l ensemble du professeur xinhuan de l autorite du travail et la sante, d immunite en revanche a la sante ( dgs ), le debut de l epidemie. Le coronavirus ici les salles de tels vague epidemique, dont une phase europeens, dont les ehpad, selon l etude du professeur cruz. Les salles de television bolivienne d une part. Le virus, on peut voir d une majorite de television inexorablement. Inquietudes de l epidemie. Le coronavirus ici les salles de tels vague epidemique, dont une phase europeens, dont les ehpad, selon l etude du professeur cruz. Les salles de television bolivienne d une part. Le virus, on peut voir d une majorite de television inexorablement. Inquietudes de l epidemie. Le coronavirus ici les salles de tels vag