# Prétraitement à réaliser sur du texte

In [1]:
# Importation des bibliothèques nécessaires
import tensorflow as tf
from tensorflow.keras import layers
import re

# Chargement des données

La collection de données pour ce projet est composée de poèmes des illustres écrivains Guillaume Apollinaire et Victor Hugo. Ces œuvres ont été minutieusement sélectionnées et proviennent du [Projet Gutenberg](https://www.gutenberg.org/), une vaste bibliothèque numérique offrant un accès libre à une multitude d'eBooks, principalement des œuvres littéraires historiques dont les droits d'auteur ont expiré.


In [2]:
# Charger les données
with open("poeme_jour13.txt", "r") as file:
    data = file.read()

# Conversion en minuscule
data_lowercased = data.lower()

# Visualisation des premières lignes pour vérification
print(data_lowercased[:1000])  # Affichage des 500 premiers caractères pour vérification




il est temps que je me repose;
je suis terrassé par le sort.
ne me parlez pas d'autre chose
que des ténèbres où l'on dort!

que veut-on que je recommence?
je ne demande désormais
à la création immense
qu'un peu de silence et de paix!

pourquoi m'appelez-vous encore?
j'ai fait ma tâche et mon devoir.
qui travaillait avant l'aurore,
peut s'en aller avant le soir.

à vingt ans, deuil et solitude!
mes yeux, baissés vers le gazon,
perdirent la douce habitude
de voir ma mère à la maison.

elle nous quitta pour la tombe;
et vous savez bien qu'aujourd'hui
je cherche, en cette nuit qui tombe,
un autre ange qui s'est enfui!

vous savez que je désespère,
que ma force en vain se défend,
et que je souffre comme père,
moi qui souffris tant comme enfant!

mon oeuvre n'est pas terminée,
dites-vous. comme adam banni,
je regarde ma destinée,
et je vois bien que j'ai fini.

l'humble enfant que dieu m'a ravie
rien qu'en m'aimant savait m'aider;
c'était le bonheur de ma vie
de voir ses yeux me regarder.

# Nettoyage du texte

In [4]:
def clean_text(text):
    """
    Nettoie le texte en supprimant les caractères indésirables et en espaçant la ponctuation.
    
    Args:
    - text (str): le texte à nettoyer.

    Returns:
    - str: texte nettoyé.
    """
    # Espacer la ponctuation
    text = re.sub(r'([.,!?;])', r' \1 ', text)
    text = re.sub(r'\s{2,}', ' ', text)
    return text

data_cleaned = clean_text(data_lowercased)
print(data_cleaned[:500])  # Affichage des 500 premiers caractères pour vérification

 il est temps que je me repose ; je suis terrassé par le sort . ne me parlez pas d'autre chose
que des ténèbres où l'on dort ! que veut-on que je recommence ? je ne demande désormais
à la création immense
qu'un peu de silence et de paix ! pourquoi m'appelez-vous encore ? j'ai fait ma tâche et mon devoir . qui travaillait avant l'aurore , peut s'en aller avant le soir . à vingt ans , deuil et solitude ! mes yeux , baissés vers le gazon , perdirent la douce habitude
de voir ma mère à la maison . e


# Tokenisation


La tokenisation est un élément fondamental du prétraitement des données textuelles dans de nombreux domaines du traitement automatique du langage naturel. Elle consiste à diviser un texte en unités plus petites, appelées "tokens". Ces tokens peuvent représenter des **mots**, **des phrases**, **des caractères** ou d'autres subdivisions d'un texte.

## Pourquoi tokeniser ?

1. **Granularité** : En décomposant un texte en tokens, nous pouvons étudier le texte à une granularité plus fine, ce qui est essentiel pour de nombreuses tâches telles que l'analyse de sentiments ou la reconnaissance d'entités nommées.
  
2. **Facilité de traitement** : Il est souvent plus facile d'analyser, de compter ou d'effectuer des opérations sur des tokens individuels que sur de grandes portions de texte.

3. **Compatibilité avec les modèles** : Beaucoup de modèles d'apprentissage automatique fonctionnent sur la base de tokens plutôt que sur des chaînes de texte brut. La tokenisation fournit donc une représentation adaptée à l'entrée dans ces modèles.

### Tokenisation par mots vs tokenisation par caractères

- **Tokenisation par mots** : Ici, chaque token représente un mot du texte. C'est la forme de tokenisation la plus courante pour des tâches comme la traduction automatique ou l'analyse de sentiments.
  
- **Tokenisation par caractères** : Dans cette approche, chaque token est un caractère individuel. Cette forme de tokenisation est particulièrement utile pour des tâches comme la correction orthographique ou la génération de texte au niveau des caractères.



La tokenisation est une étape cruciale dans le prétraitement des données textuelles. Elle prépare le texte pour une analyse plus approfondie ou pour l'entraînement de modèles d'apprentissage automatique, en convertissant le texte brut en une structure plus manipulable et interprétable.

## Tokenisation par mots

In [5]:
# Création d'un tokenizeur pour les mots, en spécifiant qu'aucun filtre ne doit être utilisé pour le moment.
# Le paramètre 'oov_token' est utilisé pour gérer les mots qui ne sont pas présents dans le vocabulaire appris.
tokenizer_words = tf.keras.preprocessing.text.Tokenizer(filters='', oov_token='<OOV>')

# Adapter le tokenizeur aux données nettoyées, c'est-à-dire qu'il va apprendre le vocabulaire des mots présents dans 'data_cleaned'.
tokenizer_words.fit_on_texts([data_cleaned])
print(tokenizer_words.word_index)


{'<OOV>': 1, ',': 2, 'et': 3, 'la': 4, 'de': 5, 'le': 6, '.': 7, 'les': 8, '!': 9, ';': 10, 'des': 11, 'que': 12, 'dans': 13, 'à': 14, 'qui': 15, 'je': 16, 'en': 17, 'du': 18, 'un': 19, 'est': 20, 'nous': 21, 'au': 22, '?': 23, 'sur': 24, 'ce': 25, 'vous': 26, 'aux': 27, 'où': 28, 'tout': 29, 'ne': 30, 'se': 31, 'comme': 32, 'pas': 33, 'une': 34, 'il': 35, 'pour': 36, 'tu': 37, 'mon': 38, 'ces': 39, 'plus': 40, 'sans': 41, 'a': 42, 'dieu': 43, 'son': 44, 'nuit': 45, 'sont': 46, 'me': 47, 'sa': 48, 'quand': 49, 'tous': 50, "j'ai": 51, "l'homme": 52, "l'ombre": 53, "c'est": 54, 'ma': 55, 'par': 56, 'on': 57, 'mes': 58, 'ses': 59, 'sous': 60, 'nos': 61, 'cette': 62, 'avec': 63, 'fait': 64, 'ô': 65, 'leur': 66, 'elle': 67, 'yeux': 68, 'ciel': 69, 'ils': 70, 'suis': 71, 'ou': 72, 'si': 73, 'leurs': 74, 'donc': 75, 'bien': 76, 'jour': 77, 'moi': 78, "qu'on": 79, 'rien': 80, 'lui': 81, 'sombre': 82, "qu'il": 83, 'o': 84, 'mort': 85, 'vent': 86, 'toi': 87, 'notre': 88, 'vers': 89, 'ton': 90, '

In [6]:
# Calcul de la taille du vocabulaire. On ajoute 1 pour prendre en compte le token 'OOV' (out-of-vocabulary).
word_vocab_size = len(tokenizer_words.word_index) + 1
print(f"Taille du vocabulaire (mots) : {word_vocab_size}")


Taille du vocabulaire (mots) : 11683


In [7]:

# Convertir une phrase exemple en séquence numérique en utilisant le tokenizeur. 
# Cela sert à montrer comment un texte est transformé en une séquence de nombres où chaque nombre représente un mot.
example_sentence = "le ciel est bleu"
sequence_example = tokenizer_words.texts_to_sequences([example_sentence])
print(f"Texte : {example_sentence}")
print(f"Séquence : {sequence_example}")


Texte : le ciel est bleu
Séquence : [[6, 69, 20, 289]]


In [15]:
def sequence_to_text(sequence, tokenizer):
    """
    Convertit une séquence numérique en texte en utilisant le tokenizeur fourni.
    
    Args:
    - sequence (list of int): Séquence numérique à convertir.
    - tokenizer: Tokenizeur utilisé pour la conversion initiale du texte en séquence.

    Returns:
    - str: Texte reconstitué.
    """
    return ' '.join([tokenizer.index_word[i] for i in sequence])

# Exemple d'utilisation
example_sequence = [10, 700, 300, 230]
print(sequence_to_text(example_sequence, tokenizer_words))


; passants l'eau ayant


## Tokenisation par les caractères

In [16]:
tokenizer_chars = tf.keras.preprocessing.text.Tokenizer(char_level=True, filters='', oov_token='<OOV>')
tokenizer_chars.fit_on_texts([data_cleaned])
print(tokenizer_chars.word_index)

{'<OOV>': 1, ' ': 2, 'e': 3, 's': 4, 'a': 5, 't': 6, 'n': 7, 'u': 8, 'r': 9, 'i': 10, 'l': 11, 'o': 12, 'd': 13, 'm': 14, 'c': 15, 'p': 16, ',': 17, 'v': 18, "'": 19, 'é': 20, 'b': 21, 'f': 22, 'q': 23, 'h': 24, '\n': 25, 'g': 26, 'j': 27, 'x': 28, '.': 29, '-': 30, '!': 31, ';': 32, 'è': 33, 'à': 34, 'y': 35, 'ê': 36, 'z': 37, 'â': 38, '?': 39, 'ù': 40, ':': 41, 'ô': 42, 'î': 43, 'û': 44, '1': 45, '5': 46, '«': 47, '8': 48, '»': 49, 'ç': 50, '4': 51, 'ï': 52, 'ë': 53, '·': 54, 'k': 55, '3': 56, '6': 57, '2': 58, '_': 59, 'w': 60, '9': 61, '0': 62, '7': 63, '[': 64, ']': 65, '(': 66, ')': 67, '{': 68, '}': 69, 'æ': 70}


In [17]:

char_vocab_size = len(tokenizer_chars.word_index) + 1
print(f"Taille du vocabulaire (caractères) : {char_vocab_size}")


Taille du vocabulaire (caractères) : 71


In [18]:
example_sentence = "le ciel est bleu"
# Convertir un exemple de texte en séquence et le reconvertir en texte pour vérification
sequence_example_char = tokenizer_chars.texts_to_sequences([example_sentence])
print(f"Texte : {example_sentence}")
print(f"Séquence (caractères) : {sequence_example_char}")


Texte : le ciel est bleu
Séquence (caractères) : [[11, 3, 2, 15, 10, 3, 11, 2, 3, 4, 6, 2, 21, 11, 3, 8]]


In [22]:
example_sequence = [13, 3, 2, 65, 10, 3, 11, 2, 3, 4, 6, 2, 21, 11, 3, 8]
print(sequence_to_text(example_sequence, tokenizer_chars))

d e   ] i e l   e s t   b l e u


# Quiz

### Quiz sur le prétraitement du texte pour la génération du texte

---

**1. Qu'est-ce que la tokenisation dans le contexte du prétraitement du texte ?**

- [ ] A) La conversion du texte en une séquence de symboles ou d'images.
- [ ] B) La segmentation d'un texte en unités plus petites, généralement des mots ou des caractères.
- [ ] C) La conversion de toutes les lettres d'un texte en majuscules.
- [ ] D) L'application d'effets spéciaux au texte pour améliorer sa présentation.


---

**2. Lequel des éléments suivants n'est PAS une technique courante de prétraitement du texte ?**

- [ ] A) Tokenization (Tokenisation).
- [ ] B) Lemmatization (Lemmatisation).
- [ ] C) Suppression des mots vides (Stop word removal).
- [ ] D) Augmentation de la résolution des images.

---


**3. Quel est un avantage de la tokenisation par mot comparée à la tokenisation par caractère lors du prétraitement du texte ?**

- [ ] A) La tokenisation par mot réduit généralement la longueur des séquences, ce qui peut accélérer l'entraînement.
- [ ] B) La tokenisation par caractère capture toujours correctement le sens des mots dans toutes les langues.
- [ ] C) La tokenisation par mot nécessite plus de mémoire que la tokenisation par caractère.
- [ ] D) La tokenisation par caractère est meilleure pour gérer les fautes d'orthographe que la tokenisation par mot.




---


