

<H1><center>CORRECTIONS ORTHOGRAPHIQUES À L'AIDE DES EXPRESSIONS RÉGULIÈRES</center></h1>
<p><center>Aurélien Vannieuwenhuyze - 01 Novembre 2021<center></p>
<p><center>Traitement automatique du langage naturel (français)<center></p>
<p><center>www.qstom-it.com<center></p>
<image src="https://www.gnu.org/graphics/gplv3-with-text-136x68.png" width=70/>


## OBJET

Peu utilisées, les expressions régulières peuvent être un atout dans la préparation et l'analyse de textes.  
À travers un projet articulé sous forme d'exercices progressifs, nous allons mettre en oeuvre les expressions régulières dans le but de créer un correcteur grammatical.  
Ce correcteur grammatical sera, <b>dans une certaine mesure</b>, capable de vérifier les accords pluriels des noms.


##UTILISATION DES EXPRESSIONS REGULIERES


Voici quelques exemples d'utilisations des expressions régulières dans le traitement du texte:

In [123]:
#Import de la librairie permettant d'utiliser les expressions régulières
import re

#1: La phrase commence-t-elle par un ou une ?
phrase = "Un petit chat sur le rebord de la fenêtre."
resultat = re.search("^Un|^Une",phrase)
print("Ex 1: ",resultat)

#2: Prise en compte des majuscules et minuscules dans la recherche
phrase = "un petit chat sur le rebord de la fenêtre."
resultat = re.search("^[uU]n|^[uU]ne",phrase)
print("-"*10)
print("Ex 2: ",resultat)

#3: Iterations des résultats issus d'une recherche
phrase = "un petit chat, une balle, un arbre."
resultats = re.finditer("[uU]n|[uU]ne",phrase)
lstResultats = list(resultats)
print("-"*10)
print("Ex 3: ")
print(lstResultats)
for i in range(0,len(lstResultats)):
  print(lstResultats[i].span()) #Affichage de la position

#4: Le mot se termine-t-il par ais ?
phrase = "balayais"
resultat = re.search("ais$",phrase)
print("-"*10)
print("Ex 4: ",resultat)

#5: Le mot se termine-t-il par ais ou ait?
phrase = "balayait"
resultat = re.search("ais$|ait$",phrase)
print("-"*10)
print("Ex 5: ",resultat)

#6: Touver l'usage strict d'un mot : Recherche du mot cat
#Note : On utilise le r (raw) pour pouvoir utiliser l'instruction \b 
phrase = "cat cathedrale vitrification cat"
resultats = re.finditer(r"\b(cat)\b",phrase) 
lstResultats = list(resultats)
print("-"*10)
print("Ex 6: ",lstResultats)

#7: Trouver toutes les utilisations d'un mot : Recherche du mot cat
phrase = "cat cathedrale vitrification"
resultats = re.finditer(r"cat",phrase)
lstResultats = list(resultats)
print("-"*10)
print("Ex 7: ",lstResultats)

#8: Découper une chaine de caracteres
phrase = "cat cathedrale vitrification"
resultats = re.split(" ",phrase)
lstResultats = list(resultats)
print("-"*10)
print("Ex 8: ",lstResultats)

#9: Effectuer des remplacement
phrase = "manger, feter, ranger"
resultat = re.sub("er","era",phrase)
print("-"*10)
print("Ex 9: ",resultat)

Ex 1:  <re.Match object; span=(0, 2), match='Un'>
----------
Ex 2:  <re.Match object; span=(0, 2), match='un'>
----------
Ex 3: 
[<re.Match object; span=(0, 2), match='un'>, <re.Match object; span=(15, 17), match='un'>, <re.Match object; span=(26, 28), match='un'>]
(0, 2)
(15, 17)
(26, 28)
----------
Ex 4:  <re.Match object; span=(5, 8), match='ais'>
----------
Ex 5:  <re.Match object; span=(5, 8), match='ait'>
----------
Ex 6:  [<re.Match object; span=(0, 3), match='cat'>, <re.Match object; span=(29, 32), match='cat'>]
----------
Ex 7:  [<re.Match object; span=(0, 3), match='cat'>, <re.Match object; span=(4, 7), match='cat'>, <re.Match object; span=(22, 25), match='cat'>]
----------
Ex 8:  ['cat', 'cathedrale', 'vitrification']
----------
Ex 9:  mangera, fetera, rangera


Pour aller plus loin, la lecture de l'ouvrage "Regular Expressions Cookbook: Detailed Solutions in Eight Programming Languages - Jan Goyvaerts" est conseillée.  
> (https://www.amazon.fr/dp/B008Y4OP1O/ref=dp-kindle-redirect?_encoding=UTF8&btkr=1) 

## CAS PRATIQUE : APPLICATION ET CORRECTION DU PLURIEL

### Exercice 1 : Le pluriel d'un mot

Ecrire un programme capable d'identifier si l'usage du pluriel est respecté pour un mot donné.
- La phrase <b>doit commencer</b> par Les ou Des ou Ces ou Ses
- Si la notion de pluriel est détectée, alors le mot à accorder doit se terminer par un s
- On ne prendra pas en compte les exceptions française (chevaux...), la présences de multiples indicateurs pluriels

Ex : 
- Les dessins : Pas d'erreur
- Les dessin : Erreur
- les dessins ! : Pas d'erreur
- les dessin. : Erreur
- le dessin : Pas de présence de pluriel

Aide :
- Utiliser le symbole ^ pour détecter la présence de Les, Des, Ces et Ses en début de phrases
- Ne pas oublier que la phrase peut ne pas commencer par une majuscule
- Attention à la ponctuation et à ses règles de d'utilisation (utilisation d'espace avant un !)
- L'usage de la propriété span du retour de l'évaluation par l'expression régulière peut être utile pour cet exercice

Bonus :
- A l'aide des librairies suivantes, proposer le soulignement de la correction pour les mots
  > from IPython.core.display import display, HTML.

  Ex:  
  Les éléphant !  
  Les éléphant<u>s</u> !


In [2]:
import re

#Librairie permettant l'affichage HTML dans la console
from IPython.core.display import display, HTML

texte = "les éléphant !"

#1: Calcul de la longueur de la chaine
nbCaracteres = len(texte)

#2: Recherche du pluriel
recherchePluriel = re.finditer(r"^[lL]es|^[dD]es|^[cC]es|^[sS]es", texte)
listePluriel = list(recherchePluriel)

#Tableau d'erreurs et de corrections
erreurs = []
corrections = []

#3: Si pluriel
if len(listePluriel) == 1:
  
  #Recuperation du token pluriel (les ou des ou ces...)
  coordonnees = listePluriel[0].span()
  token = texte[coordonnees[0]:coordonnees[1]]
 
  #Recuperation du mot (avec prise en compte de l'espace entre l'indicateur du 
  #pluriel et du mot) Pour cela on utilise les coordonnées
  mot = texte[coordonnees[1]+1:nbCaracteres]

  #On supprime les éventuels élements de ponctuation
  mot = re.sub(r'[.!?,:]', '', mot)
  
  #On supprime les éventuels espaces liés à la suppression de la ponctuation
  #(On ajoute généralement un espace avant le !)
  mot = re.sub(r'[ ]', '', mot)

  #Recherche de l'application du pluriel (Se termine par s ou S)
  if(len(mot)>0):
    accord = re.finditer(r"[sS]$", mot)
    if len(list(accord))==1:
      print("Pas d'erreur")
    else:
      #Ajout du mot dans la liste d'erreurs
      erreurs.append(mot)
      corrections.append(mot+"<u>s</u>")

      #Réalisation des corrections
      texteCorrige = texte
      for i in range(0,len(erreurs)):
        texteCorrige = re.sub(erreurs[i],corrections[i],texteCorrige)

      display(HTML(texte))
      display(HTML(texteCorrige))
else :
  print("Pluriel non détecté")


### Exercice 2 : Le pluriel d'une suite de mots avec prise en compte de la ponctuation

Ecrire un programme capable d'identifier si l'usage du pluriel est respecté pour une suite de mots donnée.

- La phrase doit commencer par Les ou Des ou Ces ou Ses
- Si la notion de pluriel est détectée, alors les mots à accorder doivent se terminer par un s
- On ne prendra pas en compte les exceptions française (chevaux...)
- On ne prendra pas en compte les phrases verbales
- On ne prendra pas en compte les énumérations (les chiens, les chats, ...)

Ex :
- Les petits éléphants roses : Accord OK
- Les petits éléphants roses ! : Accord OK
- Les petits éléphant rose !: Erreur
- Les petit éléphants roses : Erreur
- Les petits éléphant roses : Erreur
...

Aide :

- Utiliser le symbole ^ pour détecter la présence de Les, Des, Ces et Ses en début de phrases
- Spéficier l'option r (raw string) pour permettre l'utilisation des instructions de type \b
- Ne pas oublier que la phrase peut ne pas commencer par une majuscule
- Attention à la ponctuation et à ses règles de d'utilisation (utilisation d'espace avant un !)
- L'usage de la propriété span du retour de l'évaluation par l'expression régulière ainsi que la fonction split du module re, peuvent êtres utiles pour cet exercice


Bonus :
- Proposer un affichage HTML, où seront soulignées les corrections apportées.

In [7]:
import re
from IPython.core.display import display, HTML

#Texte à analyser
texte = "Les petit, elephant rose."

#1: Calcul de la longueur de la chaine
nbCaracteres = len(texte)

#2: Recherche du pluriel
recherchePluriel = re.finditer(r"^[lL]es|^[dD]es|^[cC]es|^[sS]es", texte)
listePluriel = list(recherchePluriel)


#3: Si pluriel
if len(listePluriel) == 1:
  
  #Recuperation du token pluriel
  coordonnees = listePluriel[0].span()
  token = texte[coordonnees[0]:coordonnees[1]]
 
  #Recuperation du reste de la phrase (avec prise en compte de l'espace entre 
  # le token du pluriel et le mot suivant)
  phrases = texte[coordonnees[1]+1:nbCaracteres]

  #Extraction de la liste de mots
  listeMots = re.split(r" ",phrases)
  
  corrections = []
  erreurs = []
  texteCorrige = texte


  #Analyse des mots
  for mot in listeMots:

    #On supprime les éventuels élements de ponctuation
    mot = re.sub(r'[.!?,:]', '', mot)

    #On supprime les éventuels espaces liés à la suppression de la ponctuation
    #(Dans l'usage, on ajoute généralement un espace avant le !)
    mot = re.sub(r'[ ]', '', mot)

    #Vérification de l'accord à condition que le mot ait une taille supérieure
    #à 0 (Cas d'un caractère unique de type ! qui serait supprimé)
    if(len(mot)>0):
      accord = re.finditer(r"[sS]$", mot)
      if len(list(accord))!=1:
        #Ajout du mot dans la liste d'erreurs
        erreurs.append(mot)
        corrections.append(mot+"<u>s</u>")


  #Réalisation des corrections par remplacement
  for i in range(0,len(erreurs)):
      texteCorrige = re.sub(erreurs[i],corrections[i],texteCorrige)

  #Affichage des corrections
  if(len(erreurs) > 0):
    display(HTML(texte))
    display(HTML(texteCorrige))
  else:
    print("Pas d'erreur.")

else :
  print("Pluriel non détecté")

### Exercice 3 : Le pluriel dans une phrase un peu plus complexe

Ecrire un programme capable d'identifier si l'usage du pluriel est respecté pour une suite de mots donnée.  
Cet exercice ressemble à l'exercice précédent à la différence que :
- La phrase peut ne pas commencer par Les, Des, Ces, Ses mais doit les contenir
- On ne prendra pas en compte les énumérations (les chiens, les chats, ...)
- On ne prendra pas en compte la présence d'un mot à la fois au singulier et au pluriel dans la même phrase : un arbre, des arbres.

<b>Exemple traité :</b> 
- Jean qui habite près du parc, aime regarder les jolies fleurs jaunes.

<b>Exemple NON traité </b> par cet exercice car cela necessite la mise en place d'une analyse lexicale (identification des verbes...):

- Jean qui habite près du parc, aime regarder les jolies fleurs jaunes regroupées en tas au pied des arbres.

Aide :
- Utiliser la notion de word boundaries



In [9]:
import re
from IPython.core.display import display, HTML

#Texte à analyser
texte = "Jean habite près du parc ou se trouvent ces jolie fleur !"

#1: Calcul de la longueur de la chaine
nbCaracteres = len(texte)

#2: Recherche du pluriel
recherchePluriel = re.finditer(r"\b[lL]es\b|\b[dD]es|\b[cC]es\b|\b[sS]es\b", texte)
listePluriel = list(recherchePluriel)


#3: Si pluriel
if len(listePluriel) == 1:
  
  #Recuperation du token
  coordonnees = listePluriel[0].span()
  token = texte[coordonnees[0]:coordonnees[1]]
 
  #Recuperation du reste de la phrase (avec prise en compte de l'espace)
  phrases = texte[coordonnees[1]+1:nbCaracteres]

  #Extraction de la liste de mots
  listeMots = re.split(" ",phrases)
  
  corrections = []
  erreurs = []
  texteCorrige = texte
  
  #Analyse des mots
  for mot in listeMots:

    #On supprime les éventuels élements de ponctuation
    mot = re.sub('[.!?,:]', '', mot)

    #On supprime les éventuels espaces liés à la suppression de la ponctuation
    #(On ajoute généralement un espace avant le !)
    mot = re.sub('[ ]', '', mot)

    #Vérification de l'accord à condition que le mot ait une taille supérieure
    #à 0 (Cas d'un caractère unique de type ! qui serait supprimé)
    if(len(mot)>0):
      accord = re.finditer(r"[sS]$", mot)
      if len(list(accord))!=1:
        #Ajout du mot dans la liste d'erreurs
        erreurs.append(mot)
        corrections.append(mot+"<u>s</u>")


  #Réalisation des corrections par remplacement
  for i in range(0,len(erreurs)):
      texteCorrige = re.sub(erreurs[i],corrections[i],texteCorrige)

  #Affichage des corrections
  if(len(erreurs) > 0):
    display(HTML(texte))
    display(HTML(texteCorrige))
  else:
    print("Pas d'erreur.")

else :
  print("Pluriel non détecté")

### Exercice 4 : Le pluriel dans une phrase un peu plus complexe (suite)

Même exercice que précédemment mais cette fois ci :
- Prise en compte des énumérations et de plusieurs utilisations des mots les, des, ces, ses
- Prise en compte d'un même mot pouvant à la fois être au singulier et au pluriel dans la même phrase : un arbre, des arbres
- Utilisation possible de la conjonction de coordination : et

Aide :
- La stratégie de remplacement par les corrections ne peut s'appliquer ici, au risque de remplacer un mot singulier par un mot au pluriel. Il convient alors d'utiliser la relation existante, entre le pluriel (les, des,...) et la phrase concernée par celui-ci, afin de n'apporter que des corrections sur cette phrase:
Ex :
- "Regarde cet arbre et ces arbre !"
On recherche le token ces et on corrige la phrase liées à ce token :  
  - Regarde cet arbre et ces arbre<u>s</s>



Exemple de texte à valider :
- Regarde cet arbre et ces arbre !
- il aime les arbre et les fleur !!
- il habite prés de la forêt ou se trouve un arbre, des arbuste et ces fleur
- nous avons mangé des pomme et des banane jaune

Corrections attendues :
- Regarde cet arbre et ces arbre<u>s</u> !
- il aime les arbre<u>s</u> et les fleur<u>s</u> !!
- il habite prés de la forêt ou se trouve un arbre, des arbuste<u>s</u> et ces fleur<u>s</u>
- nous avons mangé des pomme<u>s</u> et des banane<u>s</u> jaune<u>s</u>

In [85]:
import re
from IPython.core.display import display, HTML

#Texte à analyser
texte = "il habite prés de la forêt ou se trouve un arbre, des arbuste et ces fleur et ces chevalet."

#Initialisation du nombre d'erreurs détectées
nbErreurs = 0

#1: Calcul de la longueur de la chaine
nbCaracteres = len(texte)

#2: Recherche du pluriel
recherchePluriel = re.finditer(r"\b[lL]es\b|\b[dD]es|\b[cC]es\b|\b[sS]es\b", texte)
listePluriels = list(recherchePluriel)


if len(listePluriels)>0:

  #3: Pour chaque pluriel détecté extraction des coordonnées :
  tokens =[]
  for pluriel in listePluriels:
    tokens.append(pluriel.span())

  #4: Extraction des phrases relatives à chaque pluriel
  phrases = []
  for index in range (0,len(tokens)):
    debutPhrase = tokens[index][1]+1
    if index+1 < len(tokens):
      finPhrase = tokens[index+1][0]
    else:
      finPhrase = nbCaracteres
    phrases.append(texte[debutPhrase:finPhrase])


  #5: Extraction et préparation des mots
  #Pour chacun des tokens pluriel, on recherche les mots à analyser dans la phrase 
  #correspondante à ce token

  #Initialisation d'un tableau permettant de stocker :
  # Le token associé
  # Le mot
  # Sa correction éventuelle
  tableauMots = []
  #Pour chacun des tokens
  for indexToken in range(0,len(tokens)):

    #Extraction de la liste de mots de la phrase associée
    listeMots = re.split(" ",phrases[indexToken])
    
    #Préparation des mots
    for mot in listeMots:

      #On supprime les éventuels élements de ponctuation
      mot = re.sub('[.!?,:]', '', mot)

      #On supprime la conjonction de coordination et car elle ne s'accorde pas
      cccc

      #On supprime les éventuels espaces liés à la suppression de la ponctuation
      #(On ajoute généralement un espace avant le !)
      mot = re.sub('[ ]', '', mot)

      #On stocke le token associé au mot
      tableauMots.append([indexToken,mot,""])


  #6: Analyse des mots de chacune des phrases
  nbAccords = 0
  for i in range(len(tableauMots)):
    mot = tableauMots[i][1]
    
    if(len(mot)>0):  
      accord = re.finditer(r"[sS]$", mot)
      if len(list(accord))!=1:
        #Ajout de la correction
        nbErreurs += 1
        tableauMots[i][2]=mot+"<u>s</u>"



  #7: Correction des phrases liées à chaque token
  #Pour chacune des phrases à analyser
  for indexPhrases in range(0,len(phrases)):

    #Récuperation de la phrase
    phrase = phrases[indexPhrases]

    #Recherche des corrections éventuelles
    for i in range(0,len(tableauMots)):
      indexToken = tableauMots[i][0]
      correction = tableauMots[i][2]
      if(indexToken==indexPhrases and correction!=""):
        motAremplacer = tableauMots[i][1]
        phrase = re.sub(motAremplacer,correction,phrase)

    
    #On remplace la phrase par sa correction
    phrases[indexPhrases] = phrase



  #8: Reconstruction du texte complet et affichage
  #Le début de texte se trouve avant le premier token
  texteCorrige = ""
  positionPremierToken = tokens[0][0]
  texteCorrige += texte[0:positionPremierToken]

  #Pour chaque token on récupere son libellé et sa phrase éventuellement corrigée
  for i in range(0,len(tokens)):
    labelToken = texte[tokens[i][0]:tokens[i][1]]
    texteCorrige += labelToken
    texteCorrige += " "+phrases[i]

  #Affichage des corrections
  if(nbErreurs>0):
    display(HTML(texte))
    display(HTML(texteCorrige))
  else:
    print("Pas d'erreur")

else :
  print("Pluriel non détecté")


### Exercice 5 : Différents pluriels et exceptions associées


Améliorer le correcteur orthographique à partir des règle suivantes :

-AU -EAU -EU

Pour former le pluriel des noms qui se terminent par –au, –eau et –eu, il faut ajouter un x à la fin du nom singulier : un chameau, des chameaux.

Quatre noms font exception à cette règle ; il s’agit des noms landau,
sarrau, bleu et pneu, auxquels on ajoute plutôt un s.


-AL

Pour former le pluriel des noms qui se terminent par –al, il faut modifier la terminaison du nom singulier en –al par –aux : un hôpital, des hôpitaux ; un cheval, des chevaux.
Plusieurs noms font exception à cette règle, entre autres les noms aval,
bal, cal, carnaval, chacal, festival, pal, récital et régal, auxquels on ajoute un s.

-OU  

Pour former le pluriel des noms qui se terminent par –ou, il faut ajouter un s à la fin du nom singulier : un fou, des fous.  
Sept noms font exception à cette règle ; il s’agit des noms bijou, caillou,
chou, genou, hibou, joujou et pou, auxquels on ajoute un x.

-AIL

Pour former le pluriel des noms qui se terminent par –ail, il faut ajouter un s à la fin du nom singulier : un éventail, des éventails.  
Quelques noms font exception à cette règle ; il s’agit des noms bail, corail,
émail, fermail, gemmail, soupirail, travail, vantail, ventail et vitrail, dont il faut remplacer la terminaison par –aux.


Exemple de texte à valider :
- des chevals.
- des cheval noir !!
- des chevaux noir.
- Elle portait ses bijoux rouge.
- Regarde ces hibou cachés dans les arbre.
- Les petit filou !!
- Au temps des carnaval
- ces jeu, des pneux

Corrections attendues :
- des chev<u>aux</u>.
- des chev<u>aux</u> noir<u>s</u> !!
- des chevaux noir<u>s</u>.
- Elle portait ses bijoux rouge<u>s</u>.
- Regarde ces hibou<u>x</u> cachés dans les arbre<u>s</u>.
- Les petit<u>s</u> filou<u>s</u> !!
- Au temps des carnaval<u>s</u>
- ces jeu<u>x</u>, des pneu<u>s</u>



In [86]:
import re
from IPython.core.display import display, HTML

#Texte à valider
texte = "des chevaux noir"

#Initialisation du nombre d'erreurs détectées
nbErreurs = 0

#Liste d'exceptions:
exceptions_AL = "bal|cal|carnaval|chacal|festival|pal|récital|régal|choral"
exceptions_AU_EAU_EU = "landau|sarrau|bleu|pneu"
exceptions_OU = "bijou|caillou|chou|genou|hibou|joujou|pou"
exceptions_AIL = "bail|corail|émail|fermail|gemmail|soupirail|travail|vantail|vitrail"


#1: Calcul de la longueur de la chaine
nbCaracteres = len(texte)

#2: Recherche du pluriel
recherchePluriel = re.finditer(r"\b[lL]es\b|\b[dD]es|\b[cC]es\b|\b[sS]es\b", texte)
listePluriels = list(recherchePluriel)


if (len(listePluriels)>0):

  #3: Pour chaque pluriel détecté extraction des coordonnées :
  tokens =[]
  for pluriel in listePluriels:
    tokens.append(pluriel.span())

  #4: Extraction des phrases relatives à chaque pluriel
  phrases = []
  for index in range (0,len(tokens)):
    debutPhrase = tokens[index][1]+1
    if index+1 < len(tokens):
      finPhrase = tokens[index+1][0]
    else:
      finPhrase = nbCaracteres
    phrases.append(texte[debutPhrase:finPhrase])


  #5: Extraction et préparation des mots
  tableauMots = []
  #Pour chacun des tokens
  for indexToken in range(0,len(tokens)):

    #Extraction de la liste de mots de la phrase associée
    listeMots = re.split(" ",phrases[indexToken])
    
    #Préparation des mots
    for mot in listeMots:

      #On supprime les éventuels élements de ponctuation
      mot = re.sub('[.!?,:]', '', mot)

      #On supprime la conjonction de coordination et car elle ne s'accorde pas
      mot = re.sub(r'\bet\b', '', mot)

      #On supprime les éventuels espaces liés à la suppression de la ponctuation
      #(On ajoute généralement un espace avant le !)
      mot = re.sub('[ ]', '', mot)

      #On stocke le token associé au mot
      tableauMots.append([indexToken,mot,""])


  #6: Analyse des mots de chacune des phrases
  for i in range(len(tableauMots)):
    mot = tableauMots[i][1]
    
    if(len(mot)>0):  

      #Le mot fait-il parti des mots en AL,EAU...
      casParticulier = False

      #On enlève le s ou le x final pouvant avoir été ajouté pour faire le pluriel
      #> des chevals par exemple (application de la règle du pluriel par défaut).
      #devient des cheval, ce mot rentrera dans la validation des mots en al
      #> des chevaux devient des chevau. Ce mot entrera dans la valiation des mots
      #en au et un x lui sera appliqué 
      #Cela permet de vérifier les différents type d'accord
      motSansS = re.sub("[sSxX]$","",mot)

      #Cas en AL
      if (re.search(r"al$",motSansS)!=None):
        casParticulier = True
        #Le mot sans S fait il parti des exceptions ?
        if (re.search(r""+exceptions_AL,motSansS)!=None):
          #Si oui, recherche du s final dans le mot originel
          accord = re.finditer(r"[sS]$", mot)
          if len(list(accord))!=1:
            nbErreurs += 1
            tableauMots[i][2]=motSansS+"<u>s</u>"
        #Si le mot sans S ne fait pas parti des exceptions
        else:
          #Recherche du la présence du aux en fin de mots originel
          accord = re.finditer(r"[auxAUX]$", mot)
          if len(list(accord))!=1:
            nbErreurs += 1
            tableauMots[i][2]=re.sub("al$","<u>aux</u>",motSansS)


      #Cas en AU, EAU et EU
      if (re.search(r"au$|eau$|eu$",motSansS)!=None):
        casParticulier = True
        if (re.search(r""+exceptions_AU_EAU_EU,motSansS)!=None):
          accord = re.finditer(r"[sS]$", mot)
          if len(list(accord))!=1:
            nbErreurs += 1
            tableauMots[i][2]=motSansS+"<u>s</u>"
        else:
          accord = re.finditer(r"[xX]$", mot)
          if len(list(accord))!=1:
            nbErreurs += 1
            tableauMots[i][2]=motSansS+"<u>x</u>"


      #Cas en OU
      if (re.search(r"ou$",motSansS)!=None):
        casParticulier = True
        if (re.search(r""+exceptions_OU,motSansS)!=None):
          accord = re.finditer(r"[xX]$", mot)
          if len(list(accord))!=1:
            nbErreurs += 1
            tableauMots[i][2]=motSansS+"<u>x</u>"
        else:
          accord = re.finditer(r"[sS]$", mot)
          if len(list(accord))!=1:
            nbErreurs += 1
            tableauMots[i][2]=motSansS+"<u>s</u>"


      #Cas en AIL
      if (re.search(r"ail$",motSansS)!=None):
        casParticulier = True
        if (re.search(r""+exceptions_AIL,motSansS)!=None):
          accord = re.finditer(r"[auxAUX]$", mot)
          if len(list(accord))!=1:
            tableauMots[i][2]=re.sub("ail$","<u>aux</u>",motSansS)
        else:
          accord = re.finditer(r"[sS]$", mot)
          if len(list(accord))!=1:
            nbErreurs += 1
            tableauMots[i][2]=motSansS+"<u>s</u>"
      
      #Cas normal ou supposé normal en fonction de la terminaison, car si
      #on note la présence d'un s ou d'un x on suppose que l'accord est 
      #correctement effectué. Des cheveaux pourra donc être considéré comme
      #Ok. Pour corriger cette erreur, nous devrions rechercher le singulier des
      #mots pour en déduire ensuite le bon orthographe du pluriel.
      if(casParticulier==False):
        accord = re.finditer(r"[sS|xX]$", mot)
        if len(list(accord))!=1:
            nbErreurs += 1
            tableauMots[i][2]=motSansS+"<u>s</u>"


  #7: Correction des phrases liées à chaque token
  #Pour chacune des phrases à analyser
  for indexPhrases in range(0,len(phrases)):

    #Récuperation de la phrase
    phrase = phrases[indexPhrases]

    #Recherche des corrections éventuelles
    for i in range(0,len(tableauMots)):
      indexToken = tableauMots[i][0]
      correction = tableauMots[i][2]
      if(indexToken==indexPhrases and correction!=""):
        motAremplacer = tableauMots[i][1]
        phrase = re.sub(motAremplacer,correction,phrase)

    
    #On remplace la phrase par sa correction
    phrases[indexPhrases] = phrase



  #8: Reconstruction du texte complet et affichage
  #Le début de texte se trouve avant le premier token
  texteCorrige = ""
  positionPremierToken = tokens[0][0]
  texteCorrige += texte[0:positionPremierToken]

  #Pour chaque token on récupere son libellé et sa phrase éventuellement corrigée
  for i in range(0,len(tokens)):
    labelToken = texte[tokens[i][0]:tokens[i][1]]
    texteCorrige += labelToken
    texteCorrige += " "+phrases[i]

  #Affichage des corrections
  if(nbErreurs>0):
    display(HTML(texte))
    display(HTML(texteCorrige))
  else:
    print("Pas d'erreur")

else:
  print("Pluriel non détecté")

### Exercice 6 : Test sur un exercice de classe de CE1

Ecrire une fonction du code précédent

Une fois cette fonction écrite:  
- l'utiliser pour mettre au pluriel les mots suivants (exercice issu d'une classe de CE1) :


```
accordsARealiser = ["des oiseau","des feu", "ces bureau", "des pneu", "des bateau",
           "des sceau","des eau", "des bleu", "ces boyau", "des essieu",
           "des noyau", "des landau", "des dieu", "des joyau", "des sarrau", 
           "les chapeau", "ces milieu", "des tableau"]

```



- L'utiliser pour valider les accords des mots suivants (exercice issu d'une classe de CE1) :



```
accordsAVerifier = ["Des chorals", "Des générals", "des régals", "des journals",
                    "des métaux", "Les miroir, les métals, les étoffe", 
                    "des cou", "les kangourou", "les caillous", "les détail", "les rails","des cheveux"]
```





In [92]:
import re
from IPython.core.display import display, HTML

def verificationAccordPluriel(texteParametre):
  
  #Texte à valider
  texte = texteParametre

  #Initialisation du nombre d'erreurs détectées
  nbErreurs = 0

  #Liste d'exceptions:
  exceptions_AL = "bal|cal|carnaval|chacal|festival|pal|récital|régal|choral"
  exceptions_AU_EAU_EU = "landau|sarrau|bleu|pneu"
  exceptions_OU = "bijou|caillou|chou|genou|hibou|joujou|pou"
  exceptions_AIL = "bail|corail|émail|fermail|gemmail|soupirail|travail|vantail|vitrail"


  #1: Calcul de la longueur de la chaine
  nbCaracteres = len(texte)

  #2: Recherche du pluriel
  recherchePluriel = re.finditer(r"\b[lL]es\b|\b[dD]es|\b[cC]es\b|\b[sS]es\b", texte)
  listePluriels = list(recherchePluriel)


  if (len(listePluriels)>0):

    #3: Pour chaque pluriel détecté extraction des coordonnées :
    tokens =[]
    for pluriel in listePluriels:
      tokens.append(pluriel.span())

    #4: Extraction des phrases relatives à chaque pluriel
    phrases = []
    for index in range (0,len(tokens)):
      debutPhrase = tokens[index][1]+1
      if index+1 < len(tokens):
        finPhrase = tokens[index+1][0]
      else:
        finPhrase = nbCaracteres
      phrases.append(texte[debutPhrase:finPhrase])


    #5: Extraction et préparation des mots
    tableauMots = []
    #Pour chacun des tokens
    for indexToken in range(0,len(tokens)):

      #Extraction de la liste de mots de la phrase associée
      listeMots = re.split(" ",phrases[indexToken])
      
      #Préparation des mots
      for mot in listeMots:

        #On supprime les éventuels élements de ponctuation
        mot = re.sub('[.!?,:]', '', mot)

        #On supprime la conjonction de coordination et car elle ne s'accorde pas
        mot = re.sub(r'\bet\b', '', mot)

        #On supprime les éventuels espaces liés à la suppression de la ponctuation
        #(On ajoute généralement un espace avant le !)
        mot = re.sub('[ ]', '', mot)

        #On stocke le token associé au mot
        tableauMots.append([indexToken,mot,""])


    #6: Analyse des mots de chacune des phrases
    for i in range(len(tableauMots)):
      mot = tableauMots[i][1]
      
      if(len(mot)>0):  

        #Le mot fait-il parti des mots en AL,EAU...
        casParticulier = False

        #On enlève le s ou le x final pouvant avoir été ajouté pour faire le pluriel
        #> des chevals par exemple (application de la règle du pluriel par défaut).
        #devient des cheval, ce mot rentrera dans la validation des mots en al
        #> des chevaux devient des chevau. Ce mot entrera dans la valiation des mots
        #en au et un x lui sera appliqué 
        #Cela permet de vérifier les différents type d'accord
        motSansS = re.sub("[sSxX]$","",mot)

        #Cas en AL
        if (re.search(r"al$",motSansS)!=None):
          casParticulier = True
          #Le mot sans S fait il parti des exceptions ?
          if (re.search(r""+exceptions_AL,motSansS)!=None):
            #Si oui, recherche du s final dans le mot originel
            accord = re.finditer(r"[sS]$", mot)
            if len(list(accord))!=1:
              nbErreurs += 1
              tableauMots[i][2]=motSansS+"<u>s</u>"
          #Si le mot sans S ne fait pas parti des exceptions
          else:
            #Recherche du la présence du aux en fin de mots originel
            accord = re.finditer(r"[auxAUX]$", mot)
            if len(list(accord))!=1:
              nbErreurs += 1
              tableauMots[i][2]=re.sub("al$","<u>aux</u>",motSansS)


        #Cas en AU, EAU et EU
        if (re.search(r"au$|eau$|eu$",motSansS)!=None):
          casParticulier = True
          if (re.search(r""+exceptions_AU_EAU_EU,motSansS)!=None):
            accord = re.finditer(r"[sS]$", mot)
            if len(list(accord))!=1:
              nbErreurs += 1
              tableauMots[i][2]=motSansS+"<u>s</u>"
          else:
            accord = re.finditer(r"[xX]$", mot)
            if len(list(accord))!=1:
              nbErreurs += 1
              tableauMots[i][2]=motSansS+"<u>x</u>"


        #Cas en OU
        if (re.search(r"ou$",motSansS)!=None):
          casParticulier = True
          if (re.search(r""+exceptions_OU,motSansS)!=None):
            accord = re.finditer(r"[xX]$", mot)
            if len(list(accord))!=1:
              nbErreurs += 1
              tableauMots[i][2]=motSansS+"<u>x</u>"
          else:
            accord = re.finditer(r"[sS]$", mot)
            if len(list(accord))!=1:
              nbErreurs += 1
              tableauMots[i][2]=motSansS+"<u>s</u>"


        #Cas en AIL
        if (re.search(r"ail$",motSansS)!=None):
          casParticulier = True
          if (re.search(r""+exceptions_AIL,motSansS)!=None):
            accord = re.finditer(r"[auxAUX]$", mot)
            if len(list(accord))!=1:
              tableauMots[i][2]=re.sub("ail$","<u>aux</u>",motSansS)
          else:
            accord = re.finditer(r"[sS]$", mot)
            if len(list(accord))!=1:
              nbErreurs += 1
              tableauMots[i][2]=motSansS+"<u>s</u>"
        
        #Cas normal ou supposé normal en fonction de la terminaison, car si
        #on note la présence d'un s ou d'un x on suppose que l'accord est 
        #correctement effectué. Des cheveaux pourra donc être considéré comme
        #Ok. Pour corriger cette erreur, nous devrions rechercher le singulier des
        #mots pour en déduire ensuite le bon orthographe du pluriel.
        if(casParticulier==False):
          
          accord = re.finditer(r"[sS|xX]$", mot)
          if len(list(accord))!=1:
              nbErreurs += 1
              tableauMots[i][2]=motSansS+"<u>s</u>"


    #7: Correction des phrases liées à chaque token
    #Pour chacune des phrases à analyser
    for indexPhrases in range(0,len(phrases)):

      #Récuperation de la phrase
      phrase = phrases[indexPhrases]

      #Recherche des corrections éventuelles
      for i in range(0,len(tableauMots)):
        indexToken = tableauMots[i][0]
        correction = tableauMots[i][2]
        if(indexToken==indexPhrases and correction!=""):
          motAremplacer = tableauMots[i][1]
          phrase = re.sub(motAremplacer,correction,phrase)

      
      #On remplace la phrase par sa correction
      phrases[indexPhrases] = phrase



    #8: Reconstruction du texte complet et affichage
    #Le début de texte se trouve avant le premier token
    texteCorrige = ""
    positionPremierToken = tokens[0][0]
    texteCorrige += texte[0:positionPremierToken]

    #Pour chaque token on récupere son libellé et sa phrase éventuellement corrigée
    for i in range(0,len(tokens)):
      labelToken = texte[tokens[i][0]:tokens[i][1]]
      texteCorrige += labelToken
      texteCorrige += " "+phrases[i]

    #Renvoi des corrections
    if(nbErreurs>0):
      return texteCorrige
    else:
      return("Pas d'erreur")

  else:
    return("Pluriel non détecté")



#### Mettre au pluriel

In [90]:
#Mettre au pluriel
accordsARealiser = ["des oiseau","des feu", "ces bureau", "des pneu", "des bateau",
           "des sceau","des eau", "des bleu", "ces boyau", "des essieu",
           "des noyau", "des landau", "des dieu", "des joyau", "des sarrau", 
           "les chapeau", "ces milieu", "des tableau"]


for accord in accordsARealiser:
  evaluation = verificationAccordPluriel(accord)
  affichage = accord +" -> "+evaluation
  display(HTML(affichage))

#### Verifier l'accord

In [96]:
accordsAVerifier = ["Des chorals", "Des générals", "des régals", "des journals",
                    "des métaux", "Les miroir, les métals, les étoffe", 
                    "des cou", "les kangourou", "les caillous", "les détail", "les rails","des cheveux"]

for accord in accordsAVerifier:
  evaluation = verificationAccordPluriel(accord)
  affichage = accord +" -> "+evaluation
  display(HTML(affichage))

## CONCLUSION

À travers ces exercices nous sommes parvenus à créer un correcteur orthographique simple offrant des résultats satisfaisants. Mais il reste encore beaucoup à faire !

Que pensez-vous des résultats obtenus à partir de ces phrases :



In [95]:
evaluation = verificationAccordPluriel("Nous mangeons des pommes de terre")
display(HTML(evaluation))

evaluation = verificationAccordPluriel("Ces cheval ont parcourus des kilometre")
display(HTML(evaluation))

Afin d'obtenir une bonne correction de ces deux phrases, nous devons faire appel à des notions de grammaire en identifiant, les verbes, les sujets et les règles d'accord. En effet "de terre" ne s'accorde pas.
Sans oublier les mots invariables et autres exceptions de la langue française.

Ces identifications deviennent très compliquées par le simple usage des expressions régulières.

Néanmoins, à travers ces exercices, nous avons pu utiliser différentes expressions régulières qui pourront nous être utiles lors des phases de préparation du texte avant son utilisation dans divers algorithmes de machine learning.