GAFF

Générateur Automatique de Fotes de Français

Ce projet est dans le cadre de la réalisation d'un générateur de "fotes" de français afin d’entraîner infine un réseau de neurones

Recherche, code & développement

Recherches

Les débuts de tests et d'appropriation de Keras se sont fait principalement à l'aide du code en exemple dans la documentation Keras. Plus précisément la partie qui concerne le Seq2Ses d'entrainement Keras et le Seq2Seq prédictif. J'ai pu aussi tester la génération de texte par LSTM en changeant le dataset par du contenu venant du dataset Wikiquote.

Développement

Prérequis

Avant de pouvoir utiliser certains fichiers, il faut disposer des librairies suivantes : [ ! ] L'utilisation d'un venv est fortement conseillé

Pip

sudo apt install python3-pip

LXML

pip3 install lxml

Scipy

pip3 install numpy scipy matplotlib ipython jupyter pandas sympy nose

Jupyter

pip3 install jupyterlab

Utilisation

Pour lancer le .ipynb, exécuter dans un terminal :

jupyter-lab

GAFF

Après avoir utilisé différents corpus, différents fichiers de développement ont été développés, notamment :

Mistake injector. Permet de générer des phrases avec erreurs à partir d'un dataset de phrases propres
- Fichier d'entrée : fichier de lignes extraites auparavant du corpus WiCoPaCo ;
- Fichier de sortie : results/CC-resultTest.txt (nom modifiable et généré automatiquement) ;

Outils

XML strainer. Permet d'extraire le contenu des balises "modif" dans le corpus v1 ou v2 de WiCoPaCo en un fichier .csv ou .txt. Si extraction en .txt, alors utilisation possible du corpus_breaker.py à l'issue
Corpus breaker. Permet de diviser un gros corpus en des "corpus" plus petits. Le corpus en entrée doit être extrait au préalable et doit respecter un format bien spécifique pour être segmenté en fichiers de n lignes souhaitées.

Avancement des types de fautes prisent en compte dans le générateur de fautes

Type de fautes	En cours	En partie	Géré
Omission de lettre			X
Inversion de lettre		X	X
Ajout de lettre	X
Confusion		X	X
Erreur phonétique		X	X
Morphogramme		X
Erreur logrammique		X	X
Erreur non fonctionnelle			X

Résultats :

Test génération de fautes versus Grammalecte :
- toutes les fautes sont trouvés hormis celle qui produise d'autre mots existant dans la langue française ;
- Lorsqu'on demande la correction du mot par Grammalecte, celui-ci donnes en premier lieux les mots originaux.

Validation

Grammalecte : baseline afin de vérifier les fautes générés.

Projets connexes & ressources

Dans le répertoire "Papiers" se trouve des papiers de recherches sur l'orthographe français

Des corpus d'erreurs pour TRACE
Typologie des modifications dans les révisions de Wikipédia
Comparaison de types d erreurs orthographiques en FLM et FLE
Identifier les erreurs : une typologie des erreurs & Typologie erreurs CATACH
- A partir du chapitre 6, la fin n'est pas la même
Quelle typologie adopter pour l analyse des erreurs orthographiques des apprenants du FLE

Plus sur ce qui est du Seq2Seq :

Sequence to Sequence Learning with Neural Networks
Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

Autre :

Liste orthographique de base

Corpus

Des travaux sur la langue française existe déjà, notamment :

Wikipedia Correction and Paraphrase Corpus (WiCoPaCo)
- Corpus extrait de la totalité des sites Wikimedia Foundation, Inc (Wikipédia, Wikilivres, Wikinews, etc...)
Corpus LARA
frWac
- Le corpus frWaC est un corpus de textes français collectés dans le domaine .fr avec l'utilisation de mots de moyenne fréquence du corpus Le Monde Diplomatique et de listes de vocabulaire français de base comme la sémantique. Le corpus se compose de sites Web français d'une taille totale de 1,3 milliard de mots.
- autre source

Ressources pour tous les types de fautes :

Article sans prétention, sur les fautes d'orthographe dans les blog
Article Wikipédia sur la fréquence d'apparition des lettres de l'alphabet : ici et là ainsi que l'étude
Liste exhaustive de suffixation
Liste des différents homophones
Liste de fautes courantes
Etude comparative de types d’erreurs orthographiques en FLM et FLE
Etude sur la normalisation orthographique de corpus dit "bruités"
Liste d'archive sur le traitement automatique du langage naturel
Liste d'archive sur les dictionnaires électroniques
Etude/Liste des "400" mots les plus utilisés de la langue Française Annexe
Evaluation gouvernementale sur les performances en orthographe des élèves en fin d'école primaire
WiCoPaCo :

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
Corpus		Corpus
Papiers		Papiers
gaff		gaff
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

GAFF

Recherche, code & développement

Recherches

Développement

Prérequis

Utilisation

GAFF

Outils

Avancement des types de fautes prisent en compte dans le générateur de fautes

Validation

Projets connexes & ressources

Corpus

Ressources pour tous les types de fautes :

About

Releases

Packages

Contributors 2

Languages

License

momenttech/GAFF

Folders and files

Latest commit

History

Repository files navigation

GAFF

Recherche, code & développement

Recherches

Développement

Prérequis

Utilisation

GAFF

Outils

Avancement des types de fautes prisent en compte dans le générateur de fautes

Validation

Projets connexes & ressources

Corpus

Ressources pour tous les types de fautes :

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages