In [3]:
#!gdown --id 1YAbKs98vGWgJqL6ZNN0W1-Pa-ar4ZrGV

# 01 Tokenization

*  La tokenization en traitement du langage naturel (NLP) fait référence au processus de diviser un texte en unités plus petites, appelées "tokens".

* Un token peut être soit un mot, soit un caractère, selon le niveau de granularité choisi.

* La tokenisation est une étape fondamentale dans le traitement automatique du langage naturel, car elle permet de traiter et d'analyser le texte de manière plus précise.

In [4]:
import os
import string
import re

In [30]:
with open('shakespeare.txt') as f:
    lines = f.readlines()
    print(lines[:30])
    #contents = f.read()
    #print(contents[:300])

['This is the 100th Etext file presented by Project Gutenberg, and\n', 'is presented in cooperation with World Library, Inc., from their\n', 'Library of the Future and Shakespeare CDROMS.  Project Gutenberg\n', 'often releases Etexts that are NOT placed in the Public Domain!!\n', '\n', 'Shakespeare\n', '\n', '*This Etext has certain copyright implications you should read!*\n', '\n', '<<THIS ELECTRONIC VERSION OF THE COMPLETE WORKS OF WILLIAM\n', 'SHAKESPEARE IS COPYRIGHT 1990-1993 BY WORLD LIBRARY, INC., AND IS\n', 'PROVIDED BY PROJECT GUTENBERG ETEXT OF ILLINOIS BENEDICTINE COLLEGE\n', 'WITH PERMISSION.  ELECTRONIC AND MACHINE READABLE COPIES MAY BE\n', 'DISTRIBUTED SO LONG AS SUCH COPIES (1) ARE FOR YOUR OR OTHERS\n', 'PERSONAL USE ONLY, AND (2) ARE NOT DISTRIBUTED OR USED\n', 'COMMERCIALLY.  PROHIBITED COMMERCIAL DISTRIBUTION INCLUDES BY ANY\n', 'SERVICE THAT CHARGES FOR DOWNLOAD TIME OR FOR MEMBERSHIP.>>\n', '\n', '*Project Gutenberg is proud to cooperate with The World Library*\n'

In [31]:
len(lines)

124456

In [32]:
text=lines[0]

In [33]:
text

'This is the 100th Etext file presented by Project Gutenberg, and\n'

In [34]:
# divisé en mots par espace blanc
words = text.split()

In [37]:
words

['This',
 'is',
 'the',
 '100th',
 'Etext',
 'file',
 'presented',
 'by',
 'Project',
 'Gutenberg,',
 'and']

# Expression régulière
Une expression régulière, souvent abrégée en regex, est un outil puissant pour la recherche de motifs dans les chaînes de caractères. Elle vous permet de chercher, de faire correspondre et de manipuler du texte en fonction de motifs spécifiques. Les expressions régulières sont largement utilisées dans des tâches telles que le traitement de texte, la validation de données et le raclage web.

En Python, vous pouvez travailler avec des expressions régulières en utilisant le module `re`. Voici un bref aperçu de comment utiliser les expressions régulières en Python :

1. **Importer le module `re`** :

   ```python
   import re
   ```

2. **Compiler une Expression Régulière** :

   Avant d'utiliser une expression régulière, il est recommandé de la compiler d'abord. Ce processus permet à Python d'optimiser et de sauvegarder l'expression régulière pour une utilisation ultérieure.

   ```python
   motif = re.compile(r'motif_ici')
   ```

   Le `r` avant la chaîne de motif indique une "chaîne brute", ce qui permet d'éviter les problèmes avec les barres obliques inverses.

3. **Utilisation de `re.search()`** :

   La fonction `re.search()` parcourt une chaîne de caractères, cherchant tout emplacement où le motif d'expression régulière correspond.

   ```python
   correspondance = motif.search(texte)
   if correspondance:
       print("Motif trouvé")
   else:
       print("Motif non trouvé")
   ```

4. **Utilisation de `re.findall()`** :

   Cette fonction trouve toutes les occurrences du motif dans une chaîne de caractères et les renvoie sous forme de liste de chaînes de caractères.

   ```python
   correspondances = motif.findall(texte)
   ```

5. **Utilisation de `re.sub()`** :

   La fonction `re.sub()` vous permet de remplacer les occurrences du motif par une chaîne de caractères spécifiée.

   ```python
   nouveau_texte = re.sub(motif, remplacement, texte)
   ```

   Par exemple :

   ```python
   nouveau_texte = re.sub(r'\d', 'X', 'Bonjour 123')
   # Résultat : 'Bonjour XXX'
   ```

6. **Syntaxe des Motifs** :

   Les expressions régulières utilisent des caractères spéciaux pour définir des motifs. Par exemple :
   - `.` correspond à n'importe quel caractère sauf un saut de ligne.
   - `*` correspond à 0 ou plusieurs occurrences du caractère précédent.
   - `+` correspond à 1 ou plusieurs occurrences du caractère précédent.
   - `^` correspond au début d'une chaîne de caractères.
   - `$` correspond à la fin d'une chaîne de caractères.
   - `[ ]` correspond à l'un des caractères inclus.
   - `( )` groupe les motifs ensemble.

7. **Indicateurs** :

   La fonction `re.compile()` peut prendre en option des indicateurs pour modifier le comportement du motif. Par exemple, `re.IGNORECASE` rend le motif insensible à la casse.

   ```python
   motif = re.compile(r'motif_ici', re.IGNORECASE)
   ```

Rappelez-vous, les expressions régulières peuvent être très puissantes mais peuvent aussi devenir complexes, surtout pour des motifs compliqués. Il est souvent conseillé de tester vos motifs avec diverses entrées pour vous assurer qu'ils se comportent comme prévu. De plus, il existe de nombreux outils et ressources en ligne disponibles pour vous aider à construire et tester des expressions régulières.

In [38]:
text

'This is the 100th Etext file presented by Project Gutenberg, and\n'

In [39]:
#créer une expression régulière
re_line_break = re.compile('\n' )
#applique l'expression régulière
text=re_line_break.sub('',text)

In [42]:
'[%s]' % re.escape(string.punctuation)

'[!"\\#\\$%\\&\'\\(\\)\\*\\+,\\-\\./:;<=>\\?@\\[\\\\\\]\\^_`\\{\\|\\}\\~]'

In [43]:
# préparer l'expression régulière pour le filtrage des caractères
re_punc = re.compile('[%s]' % re.escape(string.punctuation))

# supprimer la ponctuation de chaque mot
stripped = [re_punc.sub('', w) for w in words]
print(stripped[:100])

['This', 'is', 'the', '100th', 'Etext', 'file', 'presented', 'by', 'Project', 'Gutenberg', 'and']


In [45]:
# string.printable inverse de string.ponctuation

re_print = re.compile('[^%s]' % re.escape(string.printable))
result = [re_print.sub('', w) for w in words]
print(result)

['This', 'is', 'the', '100th', 'Etext', 'file', 'presented', 'by', 'Project', 'Gutenberg,', 'and']


In [48]:
'THe'.lower()

'the'

In [46]:
# Cas de normalisation
# divisé en mots par espace blanc
words = text.split()
# convertir en minuscule
words = [word.lower() for word in words]
print(words[:100])

['this', 'is', 'the', '100th', 'etext', 'file', 'presented', 'by', 'project', 'gutenberg,', 'and']


# Utiliser une bibliothèque tierce pour la tokenisation

La bibliothèque NLTK (Natural Language Toolkit) est une bibliothèque Python qui fournit des outils pour travailler avec des données textuelles. Elle offre un large éventail de fonctionnalités pour le traitement du langage naturel, telles que la tokenisation, l'analyse syntaxique, la lemmatisation, la classification de texte, etc.

Pour effectuer la tokenisation en utilisant NLTK en français, vous pouvez suivre ces étapes :

1. **Installer NLTK** : Si vous ne l'avez pas déjà installé, vous pouvez le faire en exécutant la commande suivante dans votre terminal :

```python
pip install nltk
```

2. **Importer la bibliothèque** : Dans votre script Python, importez la bibliothèque NLTK.

```python
import nltk
```

3. **Télécharger les ressources nécessaires** : NLTK fournit un certain nombre de ressources (comme des corpus, des modèles de tokenization, etc.) qui peuvent être téléchargées pour une utilisation ultérieure. Pour la tokenization en français, vous pouvez télécharger les modèles spécifiques en exécutant :

```python
nltk.download('punkt')
```

4. **Utiliser la tokenization** : Une fois que vous avez téléchargé les ressources, vous pouvez utiliser la fonction `word_tokenize` pour effectuer la tokenization d'une chaîne de texte en mots.

```python
from nltk.tokenize import word_tokenize

texte = "La tokenisation est une étape importante dans le traitement du langage naturel."

mots = word_tokenize(texte, language='french')
```

`mots` sera alors une liste de mots dans la chaîne de texte.

N'oubliez pas que la tokenization est une tâche complexe et peut nécessiter des ajustements en fonction du texte que vous traitez. Il est toujours bon de vérifier et de peaufiner les résultats en fonction de vos besoins spécifiques.

In [12]:
#!pip install nltk

In [None]:
# Tokenisation des paragraphes/phrases
import nltk
# nltk.download("popular") # utilisez ceci pour télécharger toutes les bibliothèques populaires dans nltk
#nltk.download('all')

In [16]:
with open('shakespeare.txt') as f:

    contents = f.read()
    print(contents[:300])

This is the 100th Etext file presented by Project Gutenberg, and
is presented in cooperation with World Library, Inc., from their
Library of the Future and Shakespeare CDROMS.  Project Gutenberg
often releases Etexts that are NOT placed in the Public Domain!!

Shakespeare

*This Etext has certain co


In [17]:
# Phrases tokenisées
sentences = nltk.sent_tokenize(contents[:10000])

In [23]:
print(len(sentences))

67


In [22]:
sentences[1]

'Project Gutenberg\noften releases Etexts that are NOT placed in the Public Domain!!'

In [24]:
# Mots tokenisés
words = nltk.word_tokenize(contents[:10000])

In [25]:
len(words), print(words[:100])

['This', 'is', 'the', '100th', 'Etext', 'file', 'presented', 'by', 'Project', 'Gutenberg', ',', 'and', 'is', 'presented', 'in', 'cooperation', 'with', 'World', 'Library', ',', 'Inc.', ',', 'from', 'their', 'Library', 'of', 'the', 'Future', 'and', 'Shakespeare', 'CDROMS', '.', 'Project', 'Gutenberg', 'often', 'releases', 'Etexts', 'that', 'are', 'NOT', 'placed', 'in', 'the', 'Public', 'Domain', '!', '!', 'Shakespeare', '*', 'This', 'Etext', 'has', 'certain', 'copyright', 'implications', 'you', 'should', 'read', '!', '*', '<', '<', 'THIS', 'ELECTRONIC', 'VERSION', 'OF', 'THE', 'COMPLETE', 'WORKS', 'OF', 'WILLIAM', 'SHAKESPEARE', 'IS', 'COPYRIGHT', '1990-1993', 'BY', 'WORLD', 'LIBRARY', ',', 'INC.', ',', 'AND', 'IS', 'PROVIDED', 'BY', 'PROJECT', 'GUTENBERG', 'ETEXT', 'OF', 'ILLINOIS', 'BENEDICTINE', 'COLLEGE', 'WITH', 'PERMISSION', '.', 'ELECTRONIC', 'AND', 'MACHINE', 'READABLE', 'COPIES']


(1958, None)

In [26]:
stripped = [re_punc.sub('', w.lower()) for w in words]
print(stripped[:100])

['this', 'is', 'the', '100th', 'etext', 'file', 'presented', 'by', 'project', 'gutenberg', '', 'and', 'is', 'presented', 'in', 'cooperation', 'with', 'world', 'library', '', 'inc', '', 'from', 'their', 'library', 'of', 'the', 'future', 'and', 'shakespeare', 'cdroms', '', 'project', 'gutenberg', 'often', 'releases', 'etexts', 'that', 'are', 'not', 'placed', 'in', 'the', 'public', 'domain', '', '', 'shakespeare', '', 'this', 'etext', 'has', 'certain', 'copyright', 'implications', 'you', 'should', 'read', '', '', '', '', 'this', 'electronic', 'version', 'of', 'the', 'complete', 'works', 'of', 'william', 'shakespeare', 'is', 'copyright', '19901993', 'by', 'world', 'library', '', 'inc', '', 'and', 'is', 'provided', 'by', 'project', 'gutenberg', 'etext', 'of', 'illinois', 'benedictine', 'college', 'with', 'permission', '', 'electronic', 'and', 'machine', 'readable', 'copies']


spaCy

1. **Installer spaCy** : Si vous ne l'avez pas déjà installé, vous pouvez le faire en exécutant la commande suivante dans votre terminal :

```python
pip install spacy
```

2. **Télécharger le modèle en français** : spaCy propose des modèles de traitement du langage naturel pour différentes langues. Vous pouvez télécharger le modèle en français avec la commande suivante :

```python
python -m spacy download fr_core_news_sm
```

3. **Importer spaCy** : Dans votre script Python, importez spaCy.

```python
import spacy
```

4. **Charger le modèle** : Chargez le modèle en français que vous venez de télécharger.

```python
nlp = spacy.load('fr_core_news_sm')
```

5. **Utiliser la tokenisation** : Utilisez le modèle pour effectuer la tokenisation.

```python
texte = "La tokenisation est une étape importante dans le traitement du langage naturel."

doc = nlp(texte)

# Accédez aux tokens
mots = [token.text for token in doc]
```

`mots` contiendra une liste de mots dans la chaîne de texte.

spaCy va plus loin en fournissant également d'autres informations sur les tokens, telles que le lemme, la partie du discours, etc., qui peuvent être très utiles dans des tâches de traitement du langage naturel plus avancées.

N'oubliez pas d'installer le modèle approprié en fonction de la langue que vous souhaitez traiter. Dans cet exemple, nous avons utilisé `fr_core_news_sm` pour le français, mais spaCy propose également des modèles pour d'autres langues.

In [None]:
#!pip install -U spacy
#!python -m spacy download en_core_web_sm

In [27]:
import spacy
nlp = spacy.load('en_core_web_sm')

In [None]:
are,is -> be

In [28]:
var1 = nlp(u"John Adam is one the researcher who invent the direction of way towards success!")

for token in var1:
    print(token.text, '\t', token.pos_, '\t', token.lemma, '\t', token.lemma_)

John 	 PROPN 	 11174346320140919546 	 John
Adam 	 PROPN 	 14264057329400597350 	 Adam
is 	 AUX 	 10382539506755952630 	 be
one 	 NUM 	 17454115351911680600 	 one
the 	 DET 	 7425985699627899538 	 the
researcher 	 NOUN 	 1317581537614213870 	 researcher
who 	 PRON 	 3876862883474502309 	 who
invent 	 VERB 	 5373681334090504585 	 invent
the 	 DET 	 7425985699627899538 	 the
direction 	 NOUN 	 895834437038626927 	 direction
of 	 ADP 	 886050111519832510 	 of
way 	 NOUN 	 6878210874361030284 	 way
towards 	 ADP 	 9315050841437086371 	 towards
success 	 NOUN 	 16089821935113899987 	 success
! 	 PUNCT 	 17494803046312582752 	 !
