# <center> Utilisation des Regex <center>

Sommaire: 
1. [Introduction](#introduction)
2. [Suppression des caractères](#suppressioncaractères)
3. [Extraction des caractères](#extractioncaractères)
4. [Correction des chaines de caractères](#correction)
5. [Regex spécifiques avec re.search](#regexspecifiques)
6. [Autres exemples](#divers)

> **Introduction** <a id='introduction'></a>

<hr/>
Ce notebook présente en détail des cas d'utilisation des expressions régulières dans l'optique de supprimmer ou extraire des éléments d'une chaine de caractère dans le language Pytrhon. 
Pour aller plus loin sur le fonctionnement des regex, je recommande les deux excellents tutoriels sur le sujet proposé par le site Real Python 
<a href="https://realpython.com/regex-python/">https://realpython.com/regex-python/</a>


Dans ce notebook nous utiliserons ce texte ci-dessous pour illustrer les possibilités d'utiliation des regex. <hr/>

In [1]:
import regex as re
import string
sample_text = "Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions \
régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement \
automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi \
que les chiffres par exemple 100$ ($100) ou 90€ (€90) . \
Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). \
A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] \
lorsque l'on souhaite nettoyer des chaines de caractère le + vite. \
Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. \
En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) \
sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre est tout aussi fantastique." 

> **Suppression de caractère spécifiques** <a id='suppressioncaractères'></a>

##### Supprimmer des lettres

In [3]:
print(f'Texte original ---- \n {sample_text}')

print('\n')
print('\033[1m Suppression des lettres tout en gardant les nombres \033[0m')
text =  re.sub('\D',' ', sample_text) #non digit
text =  re.sub('\s+',' ', text) #extraspace
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

 ##### Supprimer des chiffres

In [4]:
print(f'Texte original ---- \n {sample_text}')
print('\n')

print("\033[1mSuppression des nombres et remplacement du caractère par un espace blanc\033[0m")
text = re.sub('\d+', '', sample_text)
text =  re.sub('\s+',' ', text) #extraspace
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Suppression des nombres ayant des unités attachées ($,€ )

In [5]:
print(f'Texte original ---- \n {sample_text}')
print('\n')
print("\033[1mSuppression des nombres seuls et ainsi que unités attachées ($,€,..;)\033[0m")
text = re.sub(r'[\€|\$\d+]','', sample_text)
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

In [6]:
print(f'Texte original ---- \n {sample_text}')
print('\n')

print('\033[1mSuppression des nombres en combinaison avec certains éléments\033[0m')

text = re.sub(r'(\d+)(er|ier|ière|ième)','', sample_text)
print(text)
print("\n")

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

#####  Suppression des lettres et des nombres pour ne garder que les caractères spéciaux

In [7]:
print(f'Texte original ---- \n {sample_text}')
print('\n')

print("\033[1mSuppression des lettres et des nombres pour ne garder que les caractères spéciaux\033[0m")
text = re.sub('\w', '', sample_text) 
text =  re.sub('\s+',' ', text) #extraspace
print(text)
print("\n")

print("\033[1mSuppression des lettres et des nombres pour ne garder que les caractères spéciaux. \
Les caractères avec les accents apparaissent dans les résultats\033[0m")
text = re.sub("[A-Za-z0-9_]",'', sample_text) 
text =  re.sub('\s+',' ', text) #extraspace
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Suppression des mots comprenant à la fois des lettres et des chiffres

In [8]:
print(f'Texte original ---- \n {sample_text}')
print("\n")

print("\033[1mSuppression des mots comprenant à la fois des caractères en lettre et des chiffres\033[0m")
text = re.sub(r'(\d+)([a-zA-Z]*)', '', sample_text)
print(text)
print("\n")

print("\033[1mSuppression des nombres et des mots contenant des nombres avec remplacement du caractère par un espace blanc\033[0m")
text = re.sub('\w*\d\w*', '[SUB]', sample_text)
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Suppression des majuscules

In [9]:
print(f'Texte original ---- \n {sample_text}')
print('\n')

print('\033[1mSuppression des majuscules\033[0m')
text =  re.sub(r'[A-Z]','', sample_text)
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Suppression des caractères hors lettres et nombres

In [10]:
print(f'Texte original ---- \n {sample_text}')
print('\n')

print("\033[1mSuppression de tout sauf les lettres et des nombres\033[0m")
text = re.sub(r"\W", " ", sample_text)
text = re.sub('\s+',' ', text)
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Suppression des éléments de ponctuation

In [11]:
print(f'Texte original ---- \n {sample_text}')
print('\n')
print("\033[1mTRAITEMENT DE LA PONCTUATION\033[0m")
print("\n")
print('\033[1mListe par défaut des caractères de punctuation\033[0m')
#supprime l'ensembe des caractères de punctuation  [!”#$%&’()*+,-./:;<=>?@[\]^_`{|}~]
print(string.punctuation)
print("\n")

print('\033[1mUtilisation de la liste par défaut des caractères de punctuation\033[0m')
text = re.sub('[%s]' % re.escape(string.punctuation), ' ', sample_text) 
print(text)
print("\n")

print('\033[1mUtilisation d\'une liste spécifique des caractères de punctuation\033[0m')
ma_ponctuation ='!"$%&\'()*+,-./:;<=>?[\\]^_`{|}~•@'
text = re.sub('['+ma_ponctuation + ']+', ' ', sample_text) # Comprendre importance du +
print(text)
print("\n")

print('\033[1mUtilisation d\'une liste adhoc sous la forme d\'une classe de caractères\033[0m')
text = re.sub(r"[,@\'?\.$%_]", " ", sample_text, flags=re.I)
print(text)
print("\n")

print('\033[1mUtilisation d\'une liste qui supprimme les caractères spéciaux sauf accents\033[0m') 
text = re.sub(r'[^ \nA-Za-z0-9À-ÖØ-öø-ÿЀ-ӿ/]+', ' ', sample_text)
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Suppression des espaces

In [12]:
print(f'Texte original ---- \n {sample_text}')
print('\n')

print('\033[1mSuppression des extra "white spaces"\033[0m')
text = re.sub(r'\s+', ' ', sample_text)# matches 1 et inf+ espaces
print(text)
print("\n")

print('\033[1mSuppression des extra "white spaces" au début d\'une phrase\033[0m')
text = re.sub(r"^\s+", "", sample_text)
print(text)
print("\n")
print('\033[1mSuppression des extra "white spaces" à la fin d\'une phrase\033[0m')
text = re.sub(r"\s+\.", ". ", sample_text)
print(text)
print("\n")
      
print('\033[1mSuppression des doubles "white spaces" en un seul\033[0m')
text = re.sub(r'\n{2,}',' ', sample_text)
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Suppression des éléments inférieurs à x caractères

In [13]:
print(f'Texte original ---- \n {sample_text}')
print('\n')

print('\033[1mSuppression des éléments inférieurs à 3 caractères\033[0m') 
# utilisation des ancres + 1 ou 2 caractères comme bornes inférieures et supérieures
text = re.sub(r'\b\w{1,2}\b', ' ', sample_text)
print(text)
print('\n')

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Suppression des urls, hashtags, mentions et adresses email

In [14]:
print(f'Texte original ---- \n {sample_text}')
print("\n")

print('\033[1mSupprime une url commençant par https ou http\033[0m')
text = re.sub(r'https?:\/\/.*[\r\n]*', '', sample_text)
print(text)
print("\n")

print('\033[1mSupprime une url commençant par https ou http\033[0m')
text = re.sub('http\S+\s*', '', sample_text)
print(text)
print("\n")

print('\033[1mSupprimme pic.twitter.com\033[0m')
text = re.sub('pic.twitter.com\S+\s*','', sample_text)
print(text)
print("\n")

print('\033[1mSupprimme les adresses mails\033[0m')
text = re.sub('\S*@\S*\s?','',  sample_text)
print(text)
#Explication
#\S* : match as many non-space characters you can
#@ : then a @
#\S* : then another sequence of non-space characters
#s? : And eventually a space, if there is one. Note that the 
#'?' is needed to match an address at the end of the line. 
#Because of the greediness of '?', if there is a space, it will always be matched.
print("\n")

print('\033[1m' +'Test global: traitement simultanée des mentions, hashtags et urls'+'\033[0m')
text =  re.sub('@(\w+)| http\S+\s* | #(\w+) | \S*@\S*\s',' ', sample_text) #|[^\w\s] 
print(text)
print("\n")

print('\033[1m' +'Fonctions de nettoyage pour données twitter'+'\033[0m')
def remove_users(tweet):
    '''Suppression des retweet and @user information'''
    tweet = re.sub('(RT\s@[A-Za-z]+[A-Za-z0-9-_]+)', '', tweet) # remove retweet
    tweet = re.sub('(@[A-Za-z]+[A-Za-z0-9-_]+)', '', tweet) # remove tweeted at
    return tweet

remove_users(sample_text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

"Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet ( ou f_chollet ( françois.chollet.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre est tout aussi fantastique."

##### Suppression du contenu entre deux parenthèses et/ou crochets

In [15]:
print(f'Texte original ---- \n {sample_text}')
print("\n")

print('\033[1mSuppression texte entre parenthèses et crochets\033[0m') 
text = re.sub("[\(\[].*?[\)\]]", "",  sample_text)
print(text)
print("\n")

print('\033[1mSuppression texte entre parenthèses\033[0m') 
text = re.sub(r'\(.*?\)', '', sample_text)
text = re.sub(r'\s+', ' ',text)
print(text) 

print("\n")
print('\033[1mSuppression texte entre crochets\033[0m')
text = re.sub(r'\[.*?\]', '', sample_text)
text = re.sub(r'\s+', ' ',text)
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Suppression sur la base d'un caractère spécial (#, @, etc...)
Suppression, suppression du contenu entre deux occurences, suppression avant/après présence du caractère

In [16]:
print(f'Texte original ---- \n {sample_text}')
print("\n")

print('\033[1mSuppression d\'un caractère spécial (ici apostrophe)\033[0m') 
text = re.sub(r"\'", " ", sample_text)
print(text)
print("\n")

print('\033[1mSuppression d\'un caractère spécial + texte attaché(ici #)\033[0m')
text = re.sub(r"\#\w+", '',  sample_text)
print(text)
print("\n")

print('\033[1mSuppression d\'un caractère avant le matching spécial + texte attaché(ici "_")\033[0m') 
text = re.sub(r"^[^_]*", '',  sample_text)
print(text)
print("\n")

print('\033[1mSuppression d\'un caractère spécial (ici \)\033[0m')
#text = re.sub("\\\\", " ", sample_text)
text = re.sub(r"\\", " ", sample_text) # ou 
 
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Supprimmer des éléments à partir d'une classe de caractère

In [17]:
print(f'Texte original ---- \n {sample_text}')
print('\n')

print('\033[1mSupprimme les éléments spécifiques à l\'aide  d\'une classe []\033[0m')
text = re.sub(r"[,\!\?\%\(\)\/\"\.\[\]]", "",  sample_text)
print(text)
print("\n")
print('\033[1mSupprimme certains éléments présents entre des crochets []\033[0m')
text = re.sub(r'\[[^\[\]]*\]', '[SUB]',  sample_text) 
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Suppression des éléments en fonction de séquences 

In [18]:
print(f'Texte original ---- \n {sample_text}')
print('\n')
print('\033[1mSuppression des sequences comme [mon texte] ou (https://....)\033[0m')
text = re.sub(r'\[([^\[\]]*)\]\([^\(\)]*\)', r'\1',  sample_text)
print(text)
print("\n")

print('\033[1mSuppression des constructions contenant des caractères spéciaux (Ok --> &# !=> #cool)\033[0m')
text = re.sub(r'(?:^|\s)[&#<>{}\[\]+|\\:-]{1,}(?:\s|$)', ' ',  sample_text)
print(text)
print("\n")

print('\033[1mtest\033[0m')
text = re.sub(r"\&\S*\s", "",  sample_text)
print(text)
print("\n")

print('\033[1mSuppression des sequences comme --- or ==\033[0m')
text = re.sub(r'(?:^|\s)[\-=\+]{2,}(?:\s|$)', ' ',  sample_text)
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Suppression d'éléments à partir d'une utilisation simple d'un groupe

In [19]:
print('\033[1m Suppression des mentions, hastags et url \033[0m')
text = re.sub('@[^\s]+ | http\S+\s* | #[^\s]+ | \S*@\S*\s',' ', sample_text, flags = re.UNICODE)
print(text)
print("\n") 

[1m Suppression des mentions, hastags et url [0m
Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet ou f_chollet ( sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre est tout aussi fantastique.




> **Extraction de caractère spécifiques** <a id='extractioncaractères'></a>

##### Extraction d'éléments en fonction de la longueur du texte

In [20]:
print(f'Texte original ---- \n {sample_text}')
print('\n')

print('\033[1mExtraction des mots qui ont une longueur de caractères supérieure à 3\033[0m')
# borne inférieure ->3, pas de limite supérieure
text = re.findall('\w{3,}', sample_text) 
print(text)
print('\n')

print('\033[1mExtraction des mots qui ont une longueur de caractères supérieure à 3 et inférieure à 8 caractère\033[0m')
# borne inférieure ->3, pas de limite supérieure
text = re.findall('\w{3,8}', sample_text) 
print(text)
print('\n')

print('\033[1mExtracton des mots qui ont une longueur de caractère inférieure à 8 caractères\033[0m')
# utilisation des ancres + 1 ou 2 caractères comme bornes inférieures et supérieures
text = re.findall('\w{,8}', sample_text) 
print(text)
print('\n')

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Extraction d'éléments avec re.search et re.findall

In [21]:
print(f'Texte original ---- \n {sample_text}')
print('\n')

print('\033[1mExtraction des hashtags\033[0m')
text = re.findall('(#[A-Za-z0-9-_]+)', sample_text)  
print(text)
print("\n")
print('\033[1mExtraction des hashtags sans le terme #\033[0m')
text = re.findall(r'(?<=#)\w+', sample_text) #lookahead
print(text)
print("\n")
print('\033[1mExtraction des hashtags sans le terme #\033[0m')
text = re.findall(r'#(\w+)', sample_text)  
print(text)
print("\n")
print('\033[1mExtraction des hashtags sans le terme #\033[0m')
for i in re.finditer(r'#(\w+)', sample_text):
    print(i)


Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Extraction d'éléments à partir d'une utilisation simple d'un groupe

In [22]:
print(f'Texte original ---- \n {sample_text}')
print('\n')

print('\033[1mExtraction des mentions\033[0m')
text = re.findall('(@[A-Za-z]+[A-Za-z0-9-_]+)', sample_text)  
print(text)
print("\n")

print('\033[1mExtraction des mentions sans le caractère @\033[0m')
text = re.findall(r'(?<=@)\w+', sample_text)
print(text)

print('\033[1mExtraction des mentions\033[0m')
text = re.findall('(#[A-Za-z]+[A-Za-z0-9-_]+)', sample_text)  
print(text)
print("\n")

print('\033[1mExtraction des hashtags sans le caractère #\033[0m')
text = re.findall(r'(?<=#)\w+', sample_text)
print(text)

print("\n")  
print('\033[1mExtraction des hashtags sans le caractère #\033[0m')
#re.findall(r'(?i)\#\w+', sample_text) # avec #
text = re.findall(r'(?i)(?<=\#)\w+', sample_text) # sans #
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Extraction adresse mail et séparation des éléments

In [23]:
print(f'Texte original ---- \n {sample_text}')
print('\n')

print('\033[1m' +'Extraction des adresses mail' + '\033[0m')
text = re.findall(r'[\w\.]+@[\w\.]+',str(sample_text))
print(text)

print('\033[1m' +'Extraction adresse mail' + '\033[0m')
match = re.search(r'([\w\.-]+)@([\w\.-]+)', sample_text)
if sample_text:
    print("Adresse email:", match.group()) # Adresse complète
    print("Username:", match.group(1)) # Username (groupe 1)
    print("Hébergeur:", match.group(2)) # Hébergeur (groupe 2)
print("\n") 

print('\033[1m' +'Extraction adresse mail (méthode classe)' + '\033[0m')     
match = re.search(r'(?P<email>(?P<username>[\w\.-]+)@(?P<host>[\w\.-]+))', sample_text)
if sample_text:
    print("Adresse email:", match.group('email')) # Adresse complète
    print("Username:", match.group('username')) # Username (groupe 1)
    print("Hébergeur:", match.group('host')) # Hébergeur (groupe 2)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

In [24]:
print(f'Texte original ---- \n {sample_text}')
print('\n')

print('\033[1m' +'Extraction des adresses mail' + '\033[0m')

text = re.findall(r'\b[A-Z]\w+',  sample_text) 
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

In [25]:
print(f'Texte original ---- \n {sample_text}')
print('\n')

print('\033[1mUtilisation du wild character "."\033[0m')
text = re.findall(r'N.P', sample_text) 
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

 ##### Extraire un des caractères spécifiques

In [26]:
print(f'Texte original ---- \n {sample_text}')
print('\n')

print('\033[1mTrouver un caractère spécial ici "C"\033[0m')
text = re.findall(r'C', sample_text) 
print(text)
print('\n')

print('\033[1mTrouver un caractère spécial ici "."\033[0m')
text = re.findall(r'\.', sample_text) 
print(text)
print('\n')

print('\033[1mTrouver un caractère spécial ici "0-9"\033[0m')
text = re.findall(r'[0-9]+', sample_text)
print(text)
print('\n')

print('\033[1mTrouver un caractère spécial ici "0-6"\033[0m')
text = re.findall(r'[0-6]', sample_text) 
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Extraction d'une date
- En fonction du format de la date, il est nécessaire de modifier la regex. Deux stratégies sont possibles. Soit écrire une regex "réduite" qui permettra de traiter des cas spécifiques (hypothèse que les dates sont similaires dans les documents qunat à leur formatage) ou développer des regex "développées" capables de gérer différents formatage de date (ex mm/dd/aaaa, dd/mm/aaaa, dd-mm-aaaa, etc...)

In [27]:
print('\033[1m Utilisation d\'un pattern simple pour extraire une date\033[0m')
text = re.findall(r'\d{1,2}\/\d{1,2}\/\d{4}', sample_text) #re.findall('\d{2}[ |,][a-z]{3}[ |,]\d{4}',date)
print(text)

[1m Utilisation d'un pattern simple pour extraire une date[0m
['18/10/2020']


In [28]:
print(f'Texte original ---- \n {sample_text}')
print('\n')
print('Pattern plus élaboré')
text = re.search(r'(\d+(/|-){1}\d+(/|-){1}\d{2,4})', sample_text)
#text = re.findall(r'(^(0[1-9]|1[012])[- /.](0[1-9]|[12][0-9]|3[01])[- /.](19|20)\d\d$)', sample_text)
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

In [29]:
print(f'Texte original ---- \n {sample_text}')
print('\n')
print('\033[1mExtraction de l\'année\033[0m')
text = re.search(r'([0-9]|1[0-9]|2[0-9]|3[0-5])/([0-9]|1[0-9]|2[0-9]|3[0-5])/([0-9][0-9][0-9][0-9])', sample_text)
print(text)
print("\n")

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Extraction d'éléments sur la base d'un mot clé

In [30]:
print(f'Texte original ---- \n {sample_text}')
print('\n')
print('\033[1mPattern simple\033[0m')
keyword = "NLP"    
text = re.findall(r'([^.]*'+keyword+'[^.]*)', sample_text)  
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Extaire les chiffres

In [31]:
print(f'Texte original ---- \n {sample_text}')
print('\n')

print('\033[1mAfficher seulement les chiffres\033[0m')
text = re.findall(r'\b\d+\b', sample_text)
print(text)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

> **Correction des chaines de caractères** <a id='correction'></a>
- Quelques regex visant à corriger répétitions de mots, de phrases ou erreurs de frappe

In [32]:
mon_text = "J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnent\
d'un vrai travail de vulgarisation à destination des practiciens de la data !!"

##### Insérer un espace après un point si inexistant

In [33]:
print(f'Texte original ---- \n {mon_text}')
print('\n')

print('\033[1mInsérer un espace après un point si inexistant\033[0m')
def corr(s):
    return re.sub(r'\.(?!\r)', '. ', re.sub(r' +', ' ', s))

print(corr(mon_text))

Texte original ---- 
 J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


[1mInsérer un espace après un point si inexistant[0m
J'aime travailler suuur le NLP. J'aime travailler suur le NLP.  Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


##### Insérer un espace et un point avant une lettre majuscule identifiée dans un mot

In [34]:
print(f'Texte original ---- \n {mon_text}')
print('\n')

print('\033[1mInsérer un espace et un point avant une lettre majuscule identifiée dans un mot\033[0m')

text =  re.sub(r'([a-z])([A-Z])', r'\1. \2', mon_text)
print(text)

Texte original ---- 
 J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


[1mInsérer un espace et un point avant une lettre majuscule identifiée dans un mot[0m
J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières années. Heureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


##### Insérer un espace avant et après un mot en majuscule

In [35]:
print(f'Texte original ---- \n {mon_text}')
print('\n')

print('\033[1mInsérer un espace avant et après un mot en majuscule\033[0m')

text = re.sub(r'\b([A-Z]+(?:\s+[A-Z]+)*)\b', r' \1 ', mon_text)
print(text)

Texte original ---- 
 J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


[1mInsérer un espace avant et après un mot en majuscule[0m
 J 'aime travailler suuur le  NLP . J 'aime travailler suur le  NLP . Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


##### Supprimmer les erreurs de frappe provenant des répétitions de même caractère

In [36]:
print(f'Texte original ---- \n {mon_text}') #problème sup à 3
print('\n')

print('\033[1mSupprimmer les erreurs de frappe provenant des répétitions de même caractère\033[0m')
text =  re.sub(r'([a-z])\1{2,}', r'\1', mon_text)

print(text)

Texte original ---- 
 J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


[1mSupprimmer les erreurs de frappe provenant des répétitions de même caractère[0m
J'aime travailler sur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


##### Supprimmer les erreurs de frappe provenant des répétitions d'un caractère de ponctuation

In [37]:
print(f'Texte original ---- \n {mon_text}')
print('\n')

print('\033[1mSupprimmer les répétitions de caractère de ponctuation(erreur de frappe)\033[0m')
text =  re.sub(r'([\W+])\1{1,}', r'\1',mon_text) 

print(text)

Texte original ---- 
 J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


[1mSupprimmer les répétitions de caractère de ponctuation(erreur de frappe)[0m
J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !


##### Supprimmer une phrase en répétition

In [38]:
print(f'Texte original ---- \n {mon_text}')
print('\n')

print('\033[1mSupprimmer une phrase en répétition\033[0m')
text =  re.sub(r'(.{2,}?)\1{1,}', r'\1', mon_text)

print(text)

Texte original ---- 
 J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


[1mSupprimmer une phrase en répétition[0m
J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


In [39]:
print(f'Texte original ---- \n {mon_text}')
print('\n')

print('\033[1mSupprimmer le texte et tout ce qui suit ensuite\033[0m') 
text =  re.sub(r'ces dernières annéesHeureusement, ces[.|\.|! ].+', '', mon_text)

print(text)

Texte original ---- 
 J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


[1mSupprimmer le texte et tout ce qui suit ensuite[0m
J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de 


##### Supprimmer un mot sur la base d'une regex
- Utilisation par exemple pour supprimmer une famille de mots ayant la même racine

In [40]:
print(f'Texte original ---- \n {mon_text}')
print('\n')

print('\033[1mSupprimmer le texte matchant une regex\033[0m') 
text =  re.sub(r'(pr(\s-\s)?.*ès)', '', mon_text)
print(text) 

Texte original ---- 
 J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


[1mSupprimmer le texte matchant une regex[0m
J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les  s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


> **Regex spécifiques avec re.search** <a id='regexspecifiques'></a>
- Regex spécifiques autour de la recherche d'éléments (re.search)

In [41]:
print(f'Texte original ---- \n {mon_text}')
print('\n')

text =  re.search(r'L[PN]', mon_text)
print(text) # seulement premier résultat

Texte original ---- 
 J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


<regex.Match object; span=(28, 30), match='LP'>


##### Extraction des majuscules

In [42]:
print(f'Texte original ---- \n {mon_text}')
print('\n')

text =  re.sub(r'[^A-Z]','', mon_text)
print(text)

Texte original ---- 
 J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


JNLPJNLPLH


In [43]:
print(f'Texte original ---- \n {mon_text}')
print('\n')
text =  re.sub(r'[a-z]','', mon_text)
print(text)
print('\n')

Texte original ---- 
 J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


J'    NLP.J'    NLP. L è  éé   2021 à '   è éH,  è ''     à       !!




In [44]:
print(f'Texte original ---- \n {mon_text}')
print('\n')

text =  re.sub(r'[0-9]','', mon_text)
print(text)

Texte original ---- 
 J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en  à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


In [45]:
print(f'Texte original ---- \n {mon_text}')
print('\n')

text =  re.sub(r'[a-zA-Z0-9-_]','', mon_text)
print(text)

Texte original ---- 
 J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


'    .'    .  è  éé    à '   è é,  è ''     à       !!


In [46]:
print(f'Texte original ---- \n {mon_text}')
print('\n')

text =  re.sub(r'[NLP]*[\s!]',' ', mon_text)
print(text)

Texte original ---- 
 J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data   


In [47]:
print(f'Texte original ---- \n {mon_text}')
print('\n')

text =  re.sub(r'[Ss]',' ', mon_text)
print(text)

Texte original ---- 
 J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


J'aime travailler  uuur le NLP.J'aime travailler  uur le NLP. Le  progrè  ont été fulgurant  en 2021 à l'image de ce  dernière  année Heureu ement, ce  progrè   'accompagnentd'un vrai travail de vulgari ation à de tination de  practicien  de la data !!


In [48]:

print(f'Texte original ---- \n {mon_text}')
print('\n')

text =  re.sub(r'a.m','', mon_text) #. n'importe quel caractère entre a et m
print(text)

Texte original ---- 
 J'aime travailler suuur le NLP.J'aime travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


J'e travailler suuur le NLP.J'e travailler suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


In [49]:
text =  re.sub(r'ai(me|ller| )','', mon_text) #ai + me ou lller --> matching aime et travailler
print(text)

J' trav suuur le NLP.J' trav suur le NLP. Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrtravail de vulgarisation à destination des practiciens de la data !!


In [50]:
text =  re.sub(r'[nN]LP','', mon_text)
print(text)

J'aime travailler suuur le .J'aime travailler suur le . Les progrès ont été fulgurants en 2021 à l'image de ces dernières annéesHeureusement, ces progrès s'accompagnentd'un vrai travail de vulgarisation à destination des practiciens de la data !!


> **Autres exemples** <a id='divers'></a>

##### Compter le nombre de mots d'une phrase

In [51]:
print(f'Texte original ---- \n {sample_text}')
print("\n")
def compte_mot (x): 
    count = len(re.findall(r'\w+', x))
    return (count)

count = len(re.findall(r'\w+',  sample_text))
print(count)

Texte original ---- 
 Il s'agit d'un texte de test pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou traitement automatique du language naturel soit le TALN). Les expressions régulières permettent de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une alternative [possible] lorsque l'on souhaite nettoyer des chaines de caractère le + vite. Depuis le 18/10/2020, je compile les articles sur Regex sur le site https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twitter.com/DxSqnJPFWp. La   1ière version était pédagogique, la 2ième version du livre e

##### Répétition regex

In [52]:
for i in range(1, 6):
    s = f"x{'-' * i}x"
    print(f'{i}  {s:10}', re.search('x-{2,4}x', s))# recherche répétitions de - entre deux et quatre fois  

1  x-x        None
2  x--x       <regex.Match object; span=(0, 4), match='x--x'>
3  x---x      <regex.Match object; span=(0, 5), match='x---x'>
4  x----x     <regex.Match object; span=(0, 6), match='x----x'>
5  x-----x    None


In [53]:
for i in range(1, 6):
    s = f"x{'-' * i}x"
    print(f'{i}  {s:10}', re.search('x-{,4}x', s)) # recherche répétitions au max quatre fois

1  x-x        <regex.Match object; span=(0, 3), match='x-x'>
2  x--x       <regex.Match object; span=(0, 4), match='x--x'>
3  x---x      <regex.Match object; span=(0, 5), match='x---x'>
4  x----x     <regex.Match object; span=(0, 6), match='x----x'>
5  x-----x    None


In [54]:
for i in range(1, 6):
    s = f"x{'-' * i}x"
    print(f'{i}  {s:10}', re.search('x-{3,}x', s))# recherche répétitions au min deux fois

1  x-x        None
2  x--x       None
3  x---x      <regex.Match object; span=(0, 5), match='x---x'>
4  x----x     <regex.Match object; span=(0, 6), match='x----x'>
5  x-----x    <regex.Match object; span=(0, 7), match='x-----x'>


In [55]:
for i in range(1, 6):
    s = f"x{'-' * i}x"
    print(f'{i}  {s:10}', re.search('x-{,}x', s))# pas de condition min ou max 

1  x-x        <regex.Match object; span=(0, 3), match='x-x'>
2  x--x       <regex.Match object; span=(0, 4), match='x--x'>
3  x---x      <regex.Match object; span=(0, 5), match='x---x'>
4  x----x     <regex.Match object; span=(0, 6), match='x----x'>
5  x-----x    <regex.Match object; span=(0, 7), match='x-----x'>


##### Utilisation d'un groupe

In [56]:
import regex as re

print("Utilisation simple d'un groupe")
  
text = re.sub(r'(te)', '[SUB]', sample_text) #
print(text)
print("\n")  
print("Utilisation simple d'un groupe") 
text = re.sub(r'(NLP)', '[SUB]', sample_text) # X patterns ==> X sub
print(text)
print("\n")  
print("Solution alternative sans création d'un groupe")
 
text = re.sub('NLP+', '[SUB]', sample_text)  # X patterns ==> 1 sub
print(text)
print("\n")

print("Utilisation simple d'un groupe + recherche de répétitions")

text = re.sub(r'(NLP)+', '[SUB]', sample_text)  # X patterns ==> 1 sub
print(text)

Utilisation simple d'un groupe
Il s'agit d'un [SUB]x[SUB] de [SUB]st pour mieux comprendreles possibilités des expressions régulières en Python dans une utilisation en #NLP (Natural Language Processing ou trai[SUB]ment automatique du language naturel soit le TALN). Les expressions régulières permet[SUB]nt de gérer les lettres ainsi que les chiffres par exemple 100$ ($100) ou 90€ (€90) . Il suffit de combiner les règles pour arriver à ses fins  . C'est presque magique ! ;-). A défaut d'être #compréhensibles à la lecture (surtout les regex complexes), une regex est une al[SUB]rnative [possible] lorsque l'on souhai[SUB] nettoyer des chaines de caractère le + vi[SUB]. Depuis le 18/10/2020, je compile les articles sur Regex sur le si[SUB] https://towardsdatascience.com/ ou des bit.ly. En parrallèle, sur le sujet du nlp,  j'utilise le livre de François Chollet (@fchollet ou f_chollet ( françois.chollet@google.com) sur le Deep Learning pic.twit[SUB]r.com/DxSqnJPFWp. La   1ière version était p