# Text Generation - DevFest Nantes 2021 - IArt

 
<br>  
Brique n¬∞2 de la conf√©rence **IArt ou comment apprendre √† une machine √† tagger et √† composer**
 
<br>  

<img src="images/image1.jpg" alt="Text Generation" width="400" />

### Objectifs
 
<br>  
- Introduction √† la g√©n√©ration de texte
<br>  
<br>  
- G√©n√©rer les paroles de notre tube üìúüìùüìã

### Etapes

<br>  
1. Chargement des donn√©es
<br>  
    - Chargement du dataset dans une seule "string" et suppression de certains caract√®res en trop.
    - On va ensuite tokeniser cette chaine de caract√®re (i.e. transformation en s√©quence d'identifiants).  
<br>  
2. Pr√©paration du dataset pour la mod√©lisation
<br>  
    - On va s√©parer notre jeu de donn√©es en s√©quences de X caract√®res
    - Pour chaque s√©quence, on s√©pare en input / output:
        - Input : La s√©quence moins le dernier caract√®re
        - Output : La prochaine s√©quence √† pr√©dire, i.e. la s√©quence moins le premier caract√®re
    - On termine par cr√©er un g√©n√©rateur de batchs, qui sera utilis√© pour l'apprentissage de notre mod√®le  
<br>  
3. Mod√©lisation
<br>  
    - On va d√©finir un mod√®le de type RNN adapt√© √† notre probl√®me.  
<br>  
4. Entrainement
<br>  
    - On entraine le mod√®le sur l'int√©gralit√© de nos donn√©es.
        - Pas oblig√© d'avoir un jeu de validation, on veut volontairement overfitter le mod√®le pour apprendre au mieux le "genre" des paroles en entr√©e.  
<br>  
5. Pr√©dictions
<br>  
    - On termine par g√©n√©rer de nouvelles paroles √† partir d'un texte en entr√©e.
        - La fonction de g√©n√©ration inclut une s√©lection "al√©atoire" selon la distribution des pr√©dictions obtenues par le mod√®le, pour apporter un peu de vari√©t√©.  
<br>  

---

### Donn√©es

<br>  
On va utiliser un ensemble de paroles de musique de Hip-Hop. Cet ensemble provient d'un scrapping de Metro Lyrics, mais il est devenu un peu compliqu√© de trouver sur internet. On a pu le r√©cup√©rer ici : https://github.com/ludovicaschaerf/TMCI_Project/blob/master/data/380000-lyrics-from-metrolyrics.zip

Ce jeu de donn√©es √† √©t√© pr√©process√© avant d'√™tre pouss√© sur ce Git. On a filtr√© les musiques de type "Hip-Hop" et r√©alis√© quelques pr√©traitements sur les paroles. Ces derniers ne sont pas parfaits, mais √ßa fait largement l'affaire pour notre projet.  

Le code utilis√© est mis √† disposition √† la fin de ce notebook pour information.  


(Certaines chansons ne sont pas forc√©ment en anglais, mais il y en a tr√®s peu, donc on ignore le probl√®me)

---

### Imports

In [1]:
# Divers
import os
import re
import time
import random
import numpy as np
import pandas as pd
from datetime import datetime
from IPython.display import display, HTML, Javascript, clear_output

# TensorFlow
import tensorflow as tf
from tensorflow.keras.layers.experimental import preprocessing

In [2]:
# Center figures
HTML("""
<style>
.output_png {
    display: table-cell;
    text-align: center;
    vertical-align: middle;
}
</style>
""")

---

### Fonctions utilitaires

<br>  
On commence par d√©finir certaines fonctions utilitaires :

- **hide_toggle** : permet de "masquer" certaines cellules de ce notebook, ce qui permet d'apporter un peu plus de clart√© ;)   

In [3]:
def hide_toggle(for_next=False, text_display='Toggle show/hide'):
    '''Function to hide a notebook cell'''
    this_cell = """$('div.cell.code_cell.rendered.selected')"""
    target_cell = this_cell  # target cell to control with toggle

    js_f_name = 'code_toggle_{}'.format(str(random.randint(1,2**64)))

    html = f"""
        <script>
            function {js_f_name}() {{
                {target_cell}.find('div.input').toggle();
            }}

        </script>

        <a href="javascript:{js_f_name}()" id="{js_f_name}">{text_display}</a>
    """
    
    js = f'''
            var output_area = this;
            var cell_element = output_area.element.parents('.cell');
            var cell_idx = Jupyter.notebook.get_cell_elements().index(cell_element);
            var current_cell = Jupyter.notebook.get_cell(cell_idx);
            $(current_cell.element[0]).find('div.input').toggle();
            Jupyter.notebook.select(cell_idx +  1);
            Jupyter.notebook.focus_cell();
         '''

    display(HTML(html))
    display(Javascript(js))

hide_toggle(text_display='Toggle show/hide --- fonction hide_toggle')

<IPython.core.display.Javascript object>

---

### 1. Chargement des donn√©es

<br>

- Chargement du dataset dans une seule "string" et suppression de certains caract√®res en trop.
- On va ensuite tokeniser cette chaine de caract√®re (i.e. transformation en s√©quence d'identifiants).
<br>   
<br>   

On d√©finit quelques fonctions pour clarifier le notebook :

- **text_from_ids** : Fonction pour retransformer une s√©quence d'identifiants en texte  

In [4]:
def text_from_ids(seq: list, ids_from_chars):
    '''Fonction pour retransformer une s√©quence d'identifiants en texte
    
    Args:
        seq (list): liste d'identifiants √† transformer en texte
        ids_from_chars: tokenizer utilis√© pour cr√©er les identifiants
    Returns:
        str: texte en sortie
    '''
    # Utilitaire TF pour transformer les IDs en texte
    chars_from_ids = preprocessing.StringLookup(vocabulary=ids_from_chars.get_vocabulary(), invert=True, mask_token=None)
    
    # Apply
    text = tf.strings.reduce_join(chars_from_ids(seq), axis=-1).numpy().decode('utf-8')

    # Return
    return text

hide_toggle(text_display='Toggle show/hide --- fonction text_from_ids')

<IPython.core.display.Javascript object>

In [5]:
# Chargement du jeu de donn√©es et concat√©nation dans une seule string
full_lyrics = " . ".join(pd.read_csv("lyrics/lyrics_hip_hop.csv", sep=';', encoding='utf-8')["lyrics"].values)
# On pourrait tout mettre en lower pour diminuer le nombre de "classes" possible (i.e. de caract√®re possible)


# Attention, l'entrainement d'un mod√®le sur l'int√©gralit√© des donn√©es avec une GPU GTX 1070 peut prendre plus de deux heures
# Vous pouvez donc r√©duire la taille du dataset si vous le souhaitez
# e.g. full_lyrics = full_lyrics[:1000000] 

In [6]:
# On supprime certains caract√®res en trop (on aurait pu le faire dans le preprocessing)
full_lyrics = re.sub(r"[&#¬£$‚Ç¨%<>=@\^`\{\}|~\t\x18\x7f]", '', full_lyrics)

In [7]:
# Analyse de notre vocabulaire -> 1 caract√®re = 1 classe de notre mod√®le
vocab = sorted(set(full_lyrics))
print(f"Notre jeu de donn√©es est compos√© de {len(full_lyrics)} caract√®res.")
print(f"Il y a {len(vocab)} caract√®res uniques.")

Notre jeu de donn√©es est compos√© de 59100439 caract√®res.
Il y a 67 caract√®res uniques.


In [8]:
# Tokenizer
ids_from_chars = preprocessing.StringLookup(vocabulary=vocab, mask_token=None)
# Application sur nos donn√©es
lyrics_ids = ids_from_chars(tf.strings.unicode_split(full_lyrics, 'UTF-8'))
# Cr√©ation d'un Dataset au format tensorflow
lyrics_ids_dataset = tf.data.Dataset.from_tensor_slices(lyrics_ids)

---

### 2. Pr√©paration du dataset pour la mod√©lisation

<br>

- On va s√©parer notre jeu de donn√©es en s√©quences de X caract√®res
- Pour chaque s√©quence, on s√©pare en input / output:
    - Input : La s√©quence moins le dernier caract√®re
    - Output : La prochaine s√©quence √† pr√©dire, i.e. la s√©quence moins le premier caract√®re
- On termine par cr√©er un g√©n√©rateur de batchs, qui sera utilis√© pour l'apprentissage de notre mod√®le
<br>   
<br>   

On d√©finit quelques fonctions pour clarifier le notebook :

- **split_input_target** : Fonction pour s√©parer une s√©quence (suite de caract√®res) en input/output 

In [9]:
def split_input_target(sequence):
    '''Fonction pour s√©parer une s√©quence (suite de caract√®res) en input/output
    
    Args:
        sequence: suite de caract√®res
    Returns:
        ? : input
        ? : output
    '''
    input_text = sequence[:-1]  # Input : toute la s√©quence sauf le dernier caract√®re
    target_text = sequence[1:]  # Output : toute la s√©quence sauf le premier caract√®re
    # Returns
    return input_text, target_text

hide_toggle(text_display='Toggle show/hide --- fonction split_input_target')

<IPython.core.display.Javascript object>

In [10]:
# Param√®tres
sequence_length = 100  # Longueur des s√©quences
batch_size = 1024  # Taille des batchs pour l'apprentissage, utile ici pour le generator
buffer_size = 10000  # Utilis√© pour m√©langer le dataset sans tout charger en m√©moire

In [11]:
# Cr√©ation des s√©quences (length + 1 pour ajouter le prochain caract√®re)
sequences = lyrics_ids_dataset.batch(sequence_length + 1, drop_remainder=True)
# Gestion des inputs/outputs
model_dataset = sequences.map(split_input_target)

In [12]:
# Affichage - exemple d'un couple input/output
for input_example, target_example in model_dataset.take(1):
    print("Input :", text_from_ids(input_example, ids_from_chars))
    print("Target:", text_from_ids(target_example, ids_from_chars))

Input : . Timbo When you hit me on my phone betta know what cha want when you call me you already know on th
Target:  Timbo When you hit me on my phone betta know what cha want when you call me you already know on the


In [13]:
# Dataset (generator) final √† utiliser en entr√©e du mod√®le
model_dataset = model_dataset.shuffle(buffer_size).batch(batch_size, drop_remainder=True).prefetch(tf.data.experimental.AUTOTUNE)

---

### 3. Mod√©lisation
<br>

- On va d√©finir un mod√®le de type RNN adapt√© √† notre probl√®me
<br>   
<br>   

On d√©finit quelques fonctions & classes pour clarifier le notebook :

- **ModelGenerationText** : Mod√®le principal pour la g√©n√©ration de texte
- **get_model_loss** : Fonction pour d√©finir une loss √† notre mod√®le

In [14]:
class ModelGenerationText(tf.keras.Model):
    '''Mod√®le principal pour la g√©n√©ration de texte'''
    
    def __init__(self, vocab_size: int, embedding_dim: int, rnn_units: int):
        '''Initialisation de la classe
        
        Args:
            vocab_size (int): taille du vocabulaire (i.e. classes possibles)
            embedding_size (int): Dimension de l'embedding
            rnn_units (int): Nombre d'unit√©s RNN
        '''
        super().__init__(self)
        self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_dim, trainable=True)
        self.gru = tf.keras.layers.GRU(rnn_units,
                                       return_sequences=True,
                                       return_state=True)
        self.dense = tf.keras.layers.Dense(vocab_size)

    def call(self, inputs, states=None, return_state=False, training: bool = False):
        '''Appel au model
        
        Args:
            inputs: donn√©es en entr√©e
            states: √©tats RNN √† utiliser si pr√©cis√©
            return_state: si les √©tats RNN doivent √™tre retourn√©s
            training (bool): si on est en phase d'entrainement
        Returns:
            ?: outputs du mod√®le
            ?: (optionnel) √©tats des RNNs
        '''
        x = self.embedding(inputs, training=training)
        # Si pas de states de pr√©cis√©, on initialise les RNNs
        if states is None:
            states = self.gru.get_initial_state(x)
        # R√©cup√©ration de la sortie des RNNs ainsi que des states
        x, states = self.gru(x, initial_state=states, training=training)
        # Suite du mod√®le
        x = self.dense(x, training=training)

        # Return en fonction de l'argument return_state
        if return_state:
            return x, states
        else:
            return x

hide_toggle(text_display='Toggle show/hide --- classe ModelGenerationText')        

<IPython.core.display.Javascript object>

In [15]:
def get_model_loss():
    '''Fonction pour d√©finir une loss √† notre mod√®le'''
    # From logits car on n'a pas de couche de softmax en sortie, on r√©cup√®re directement les logits
    # Sparse car on a beaucoup de cat√©gories
    return tf.losses.SparseCategoricalCrossentropy(from_logits=True)

hide_toggle(text_display='Toggle show/hide --- fonction get_model_loss')        

<IPython.core.display.Javascript object>

In [16]:
# Param√®tres
vocab_size = len(ids_from_chars.get_vocabulary())
embedding_dim = 100  # Dimension de l'embedding
rnn_units = 1024  # Nombre d'unit√©s RNN

In [17]:
# Init. mod√®le
model = ModelGenerationText(vocab_size=vocab_size, embedding_dim=embedding_dim, rnn_units=rnn_units)


<img src="images/image2.png" alt="Text Generation" width="600" />

*Image from https://www.tensorflow.org/text/tutorials/text_generation*

In [18]:
# R√©cup√©ration de la loss & compile de notre mod√®le
lr = 0.001  # Param√©trable
loss = get_model_loss()
optimizer = tf.keras.optimizers.Adam(lr=lr)
model.compile(optimizer=optimizer, loss=loss)

In [19]:
# On passe le mod√®le sur 1 s√©quence pour lui donner les informations de "shape" et pouvoir afficher sa description
for input_example_batch, target_example_batch in model_dataset.take(1):
    model(input_example_batch)
# Affichage
model.summary()

Model: "model_generation_text"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        multiple                  6800      
_________________________________________________________________
gru (GRU)                    multiple                  3459072   
_________________________________________________________________
dense (Dense)                multiple                  69700     
Total params: 3,535,572
Trainable params: 3,535,572
Non-trainable params: 0
_________________________________________________________________


---

### 4. Entrainement
<br>

- On entraine le mod√®le sur l'int√©gralit√© de nos donn√©es.
    - Pas oblig√© d'avoir un jeu de validation, on veut volontairement overfitter le mod√®le pour apprendre au mieux le "genre" des paroles en entr√©e.

In [20]:
# On va cr√©er un dossier o√π sauvegarder nos r√©sultats
subfolder_name = datetime.now().strftime(f"experimentation_%Y_%m_%d-%H_%M_%S")
os.makedirs(subfolder_name)
subfolder_path = os.path.abspath(subfolder_name)
print(f"L'ensemble des r√©sultats seront sauvegard√©es dans le r√©pertoire {subfolder_path}")

L'ensemble des r√©sultats seront sauvegard√©es dans le r√©pertoire C:\Users\Alexandre\Dev\Valeuriad\devfest-2021\02_text-generation\experimentation_2021_10_17-15_46_58


In [21]:
# Gestion des sauvegardes du meilleur mod√®le
# Nom du fichier o√π sauvegarder le meilleur mod√®le
checkpoint_filepath = os.path.join(subfolder_path, "best_weights")
checkpoint_callback = tf.keras.callbacks.ModelCheckpoint(
    filepath=checkpoint_filepath,
    monitor='loss',
    save_best_only=True,
    mode='min',
    save_weights_only=True,
)

In [331]:
# Entrainement
nb_epochs = 20
history = model.fit(model_dataset, epochs=nb_epochs, callbacks=[checkpoint_callback])

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [332]:
# On recharge le meilleur mod√®le
model.load_weights(checkpoint_filepath)

<tensorflow.python.training.tracking.util.CheckpointLoadStatus at 0x12a7c8d83c8>

---

### 5. Pr√©dictions
<br>

- On termine par g√©n√©rer de nouvelles paroles √† partir d'un texte en entr√©e.
    - La fonction de g√©n√©ration inclut une s√©lection "al√©atoire" selon la distribution des pr√©dictions obtenues par le mod√®le, pour apporter un peu de vari√©t√©.  
<br>   
<br>   

On d√©finit quelques fonctions & classes pour clarifier le notebook :

- **TextPredictor** : Classe qui permet de g√©n√©rer un nouveau caract√®re √† la suite d'une s√©quence √† partir d'un mod√®le entrain√©
- **generate_text** : Fonction pour g√©n√©rer du texte

In [24]:
class TextPredictor(tf.keras.Model):
    '''Classe qui permet de g√©n√©rer un nouveau caract√®re √† la suite d'une s√©quence √† partir d'un mod√®le entrain√©'''
    
    def __init__(self, model, ids_from_chars, use_random_distribution: bool = True, temperature: float = 1.0):
        '''Initialisation de la classe
        
        Args:
            model: mod√®le √† utiliser pour les pr√©dictions
            ids_from_chars: tokenizer   
            use_random_distribution (bool): si le prochain caract√®re est choisie al√©atoirement selon la distribution des pr√©dictions
                ou si on prend syst√©matiquement le plus probable (attention, grande chance de r√©p√©tition dans le texte de sortie)
            temperature (float): param√®tre qui influence sur le choix "al√©atoire" du prochain caract√®re
                < 1.0 -> on va favoriser le caract√®re le plus probable
                > 1.0 -> on va donner plus de "chances" aux autres caract√®res
        '''
        super().__init__()
        self.model = model
        self.ids_from_chars = ids_from_chars
        self.use_random_distribution = use_random_distribution
        self.temperature = temperature
        self.chars_from_ids = preprocessing.StringLookup(vocabulary=ids_from_chars.get_vocabulary(), invert=True, mask_token=None)

        # On d√©finit un mask pour √©viter les predictions "[UNK]" (classe 'unknown' du tokenizer)
        skip_ids = self.ids_from_chars(['[UNK]'])[:, None]
        sparse_mask = tf.SparseTensor(
            values=[-float('inf')] * len(skip_ids), # -inf √† chaque mauvais index
            indices=skip_ids,
            dense_shape=[len(ids_from_chars.get_vocabulary())]
        )
        self.prediction_mask = tf.sparse.to_dense(sparse_mask)

    @tf.function
    def generate_one_step(self, inputs, states=None):
        '''Fonction pour g√©n√©rer un nouveau caract√®re
        
        Args:
            inputs: s√©quences textuelles en entr√©e
            states: √©tats des RNNs (d√©fault None)
        '''
        # On commence par transformer les phrases en IDs
        input_chars = tf.strings.unicode_split(inputs, 'UTF-8')
        input_ids = self.ids_from_chars(input_chars).to_tensor()
        

        # On fait tourner le mod√®le sur nos inputs
        predicted_logits, states = self.model(inputs=input_ids, states=states, return_state=True)
        
        # On r√©cup√®re uniquement la pr√©diction sur le dernier caract√®re
        predicted_logits = predicted_logits[:, -1, :]
        if self.use_random_distribution:
            predicted_logits = predicted_logits / self.temperature

        # On applique le masque pour enlever le caract√®re [UNK]
        predicted_logits = predicted_logits + self.prediction_mask

        # On r√©cup√®re les IDs √† partir des logits obtenues via les pr√©dictions
        if self.use_random_distribution:
            # On r√©cup√®re un caract√®re "al√©atoire" selon la distribution obtenue
            predicted_ids = tf.random.categorical(predicted_logits, num_samples=1)
            predicted_ids = tf.squeeze(predicted_ids, axis=-1)
        else:
            # On prend la caract√®re le plus probable
            predicted_ids = tf.math.argmax(predicted_logits, axis=-1)

        # On retransforme en texte
        predicted_chars = self.chars_from_ids(predicted_ids)

        # On retourne les caract√®res obtenus et les √©tats RNN
        return predicted_chars, states

    
hide_toggle(text_display='Toggle show/hide --- classe TextPredictor')

<IPython.core.display.Javascript object>

In [25]:
def generate_text(predictor, original_text: str, nb_chars: int = 100):
    '''Fonction pour g√©n√©rer du texte
    
    Args:
        original_text (str): phrase en entr√©e
        nb_chars (int): nombre de caract√®res √† cr√©er
    Returns:
        str: new song !
    '''
    start = time.time()

    # Init. variables
    states = None  # Pas d'√©tat au d√©but
    next_char = tf.constant([original_text])
    result = [next_char]

    # Pr√©diction des nouveaux caract√®res
    for n in range(nb_chars):
        next_char, states = predictor.generate_one_step(next_char, states=states)
        result.append(next_char)

    # Resultats finaux
    result = tf.strings.join(result)
    
    # Result as string
    result_str = result[0].numpy().decode('utf-8')
    
    # On recolle les points
    result_str = re.sub(r"(?<=\w)\s+\!", '!', result_str)
    result_str = re.sub(r"(?<=\w)\s+\?", '?', result_str)
    result_str = re.sub(r"(?<=\w)\s+\.", '.', result_str)
    
    # Affichage temps
    end = time.time()
    print(f"Temps de traitement : {end - start}s")
    
    return result_str


hide_toggle(text_display='Toggle show/hide --- fonction generate_text')

<IPython.core.display.Javascript object>

In [506]:
# On cr√©√© notre predictor
# Le choix de la valeur temperature va g√©n√©ralement d√©pendre de notre mod√®le
# Plus le mod√®le est performant, plus on va souhait√© augmenter cette valeur pour avoir un peu d'al√©atoire dans les g√©n√©rations
# Sinon, on va avoir tendance √† baisser cette valeur pour avoir plus de coh√©rence dans le texte g√©n√©r√©
predictor = TextPredictor(model, ids_from_chars, use_random_distribution=True, temperature=0.5)

In [507]:
# Generation d'un caract√®re - exemple
predictor.generate_one_step(tf.constant(['yo']))[0].numpy()

array([b'u'], dtype=object)

In [511]:
# On g√©n√®re de nouvelles paroles

# DISCLAIMER : les paroles de Hip-Hop peuvent contenir des insultes, obsc√©nit√©s, etc..
#              il est donc normal que notre algorithme fasse pareil ...

initial_text = "Devfest is"  # Texte de base √† utiliser
new_song_lyrics = generate_text(predictor, initial_text, nb_chars=1000)
# Affichage
print(new_song_lyrics)
# Sauvegarde
save_path = os.path.join(subfolder_path, datetime.now().strftime(f"lyrics_%Y_%m_%d-%H_%M_%S.txt"))
with open(save_path, 'w') as f:
    f.write(new_song_lyrics)

Temps de traitement : 2.4155220985412598s
Devfest is what club is a man but I don't like me I need you I don't see you with the weekend How I promise you broke you don't be blastin' I got the pain I don't care if I can see it in my life I love her a day I got something for this Walk that work it out see my shit bang Now a nigga with a fantass on my back off your back get your head like the barr to the car And the streets want to fuck with the good on the town You better be ready for the niggaz in the pen to the beat They say that you wanna fuck your face I had a lot of thing she love me say I make it a real nigga stay gettin' money I had to tell you when you get a chick shit She can do is come on and get you out here tryna function I know you make my day I got rich I don't wanna be with you I know I'm a soldier I can't do it for my life I got the system you know I'm the best I love to see the life is the way I like I was born in the game I can't stand it I'm a motherfucking game you kn

---
### Misc.

Pour information, le code utilis√© pour faire le pr√©traitement du jeu de donn√©es original est le suivant :

```python
import pandas as pd
import re

df = pd.read_csv("lyrics/lyrics_full.csv", sep=',', encoding='utf-8')  # Fichier non disponbile
df = df[~df["lyrics"].isna()]  # On enl√®ve les NaNs
text = df[df["genre"]=='Hip-Hop']  # Filtre Hip-Hop
text = text[text.lyrics.apply(len) > 200]  # On garde les paroles avec assez de texte
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"\?\s*\n+", '? ', x))  # "? \n"  ->   "? "
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"\!\s*\n+", '! ', x))  # "! \n"  ->   "! "
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"\.\s*\n+", '. ', x))  # ". \n"  ->   ". "
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"\n+", ' ', x))  # "\n\n"  ->   " "
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"\!+\.+", '!', x))  # "!."  ->   "!"
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"\?+\.+", '?', x))  # "?."  ->   "?"
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"\[[\w\d\s,:\(\)\_\-\+\?\!\.\"_;/\\\*\[]*\]", ' ', x))  # "(text)"  ->   ""
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"\([\w\d\s,:\[\]\_\-\+\?\!\.\"_;/\\\*\(]*\)", ' ', x))  # "[text]"  ->   ""
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"\!(?=\w)", '! ', x))  # "!text"  ->   "! text"
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"\?(?=\w)", '? ', x))  # "?text"  ->   "? text"
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"\.(?=\w)", '. ', x))  # ".text"  ->   ". text"
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"(?<=\w)\!", ' !', x))  # "text!"  ->   "text !"
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"(?<=\w)\?", ' ?', x))  # "text?"  ->   "text ?"
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"(?<=\w)\.", ' .', x))  # "text."  ->   "text ."
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"\.{2,}", '.', x))  # "..."  ->   "."  
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"\!{2,}", '!', x))  # "!!!"  ->   "!"
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"\?{2,}", '?', x))  # "???"  ->   "?"
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"[,:\[\]\(\)\"_\-\+_;/\\\*]", ' ', x))  # "text, -zea"  ->   "text zea"
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r'[^\x00-\x7f]', '', x))  # Suppression de certains caract√®res non ascii
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"[\t\f\v ]{2,}", ' ', x))  # "text  zea"  ->   "text zea"
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"^(\s)+", '', x))  # " text zea"  ->   "text zea"
text["lyrics"] = text["lyrics"].apply(lambda x: re.sub(r"(\s)+$", '', x))  # "text zea "  ->   "text zea"

text[['song', 'artist', 'year', 'lyrics']].reset_index(drop=True).to_csv('lyrics/lyrics_hip_hop.csv', sep=';', encoding='utf-8', index=None)
```