Skip to content

momenttech/GAFF

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

GAFF

Générateur Automatique de Fotes de Français

Ce projet est dans le cadre de la réalisation d'un générateur de "fotes" de français afin d’entraîner infine un réseau de neurones

Recherche, code & développement

Recherches

Les débuts de tests et d'appropriation de Keras se sont fait principalement à l'aide du code en exemple dans la documentation Keras. Plus précisément la partie qui concerne le Seq2Ses d'entrainement Keras et le Seq2Seq prédictif. J'ai pu aussi tester la génération de texte par LSTM en changeant le dataset par du contenu venant du dataset Wikiquote.

Développement

Prérequis

Avant de pouvoir utiliser certains fichiers, il faut disposer des librairies suivantes : [ ! ] L'utilisation d'un venv est fortement conseillé

  • Pip
sudo apt install python3-pip
  • LXML
pip3 install lxml
  • Scipy
pip3 install numpy scipy matplotlib ipython jupyter pandas sympy nose
  • Jupyter
pip3 install jupyterlab

Utilisation

Pour lancer le .ipynb, exécuter dans un terminal :

jupyter-lab

GAFF

Après avoir utilisé différents corpus, différents fichiers de développement ont été développés, notamment :

  • Mistake injector. Permet de générer des phrases avec erreurs à partir d'un dataset de phrases propres

    • Fichier d'entrée : fichier de lignes extraites auparavant du corpus WiCoPaCo ;
    • Fichier de sortie : results/CC-resultTest.txt (nom modifiable et généré automatiquement) ;

Outils

  • XML strainer. Permet d'extraire le contenu des balises "modif" dans le corpus v1 ou v2 de WiCoPaCo en un fichier .csv ou .txt. Si extraction en .txt, alors utilisation possible du corpus_breaker.py à l'issue

  • Corpus breaker. Permet de diviser un gros corpus en des "corpus" plus petits. Le corpus en entrée doit être extrait au préalable et doit respecter un format bien spécifique pour être segmenté en fichiers de n lignes souhaitées.

Avancement des types de fautes prisent en compte dans le générateur de fautes

Type de fautes Non géré En cours En partie Géré
Omission de lettre X
Inversion de lettre X X
Ajout de lettre X
Confusion X X
Erreur phonétique X X
Morphogramme X
Erreur logrammique X X
Erreur non fonctionnelle X

Résultats :

  • Test génération de fautes versus Grammalecte :
    • toutes les fautes sont trouvés hormis celle qui produise d'autre mots existant dans la langue française ;
    • Lorsqu'on demande la correction du mot par Grammalecte, celui-ci donnes en premier lieux les mots originaux.

Validation

  • Grammalecte : baseline afin de vérifier les fautes générés.

Projets connexes & ressources

Dans le répertoire "Papiers" se trouve des papiers de recherches sur l'orthographe français

  • Des corpus d'erreurs pour TRACE
  • Typologie des modifications dans les révisions de Wikipédia
  • Comparaison de types d erreurs orthographiques en FLM et FLE
  • Identifier les erreurs : une typologie des erreurs & Typologie erreurs CATACH
    • A partir du chapitre 6, la fin n'est pas la même
  • Quelle typologie adopter pour l analyse des erreurs orthographiques des apprenants du FLE

Plus sur ce qui est du Seq2Seq :

  • Sequence to Sequence Learning with Neural Networks
  • Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

Autre :

  • Liste orthographique de base

Corpus

Des travaux sur la langue française existe déjà, notamment :

Ressources pour tous les types de fautes :

  • Article sans prétention, sur les fautes d'orthographe dans les blog

  • Article Wikipédia sur la fréquence d'apparition des lettres de l'alphabet : ici et ainsi que l'étude

  • Liste exhaustive de suffixation

  • Liste des différents homophones

  • Liste de fautes courantes

  • Etude comparative de types d’erreurs orthographiques en FLM et FLE

  • Etude sur la normalisation orthographique de corpus dit "bruités"

  • Liste d'archive sur le traitement automatique du langage naturel

  • Liste d'archive sur les dictionnaires électroniques

  • Etude/Liste des "400" mots les plus utilisés de la langue Française Annexe

  • Evaluation gouvernementale sur les performances en orthographe des élèves en fin d'école primaire

  • WiCoPaCo :

About

Generateur Automatique de Fotes de Français

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published