Générateur Automatique de Fotes de Français
Ce projet est dans le cadre de la réalisation d'un générateur de "fotes" de français afin d’entraîner infine un réseau de neurones
Les débuts de tests et d'appropriation de Keras se sont fait principalement à l'aide du code en exemple dans la documentation Keras. Plus précisément la partie qui concerne le Seq2Ses d'entrainement Keras et le Seq2Seq prédictif. J'ai pu aussi tester la génération de texte par LSTM en changeant le dataset par du contenu venant du dataset Wikiquote.
Avant de pouvoir utiliser certains fichiers, il faut disposer des librairies suivantes : [ ! ] L'utilisation d'un venv est fortement conseillé
- Pip
sudo apt install python3-pip
- LXML
pip3 install lxml
- Scipy
pip3 install numpy scipy matplotlib ipython jupyter pandas sympy nose
- Jupyter
pip3 install jupyterlab
Pour lancer le .ipynb, exécuter dans un terminal :
jupyter-lab
Après avoir utilisé différents corpus, différents fichiers de développement ont été développés, notamment :
-
Mistake injector. Permet de générer des phrases avec erreurs à partir d'un dataset de phrases propres
- Fichier d'entrée : fichier de lignes extraites auparavant du corpus WiCoPaCo ;
- Fichier de sortie : results/CC-resultTest.txt (nom modifiable et généré automatiquement) ;
-
XML strainer. Permet d'extraire le contenu des balises "modif" dans le corpus v1 ou v2 de WiCoPaCo en un fichier .csv ou .txt. Si extraction en .txt, alors utilisation possible du corpus_breaker.py à l'issue
-
Corpus breaker. Permet de diviser un gros corpus en des "corpus" plus petits. Le corpus en entrée doit être extrait au préalable et doit respecter un format bien spécifique pour être segmenté en fichiers de n lignes souhaitées.
Type de fautes | Non géré | En cours | En partie | Géré |
---|---|---|---|---|
Omission de lettre | X | |||
Inversion de lettre | X | X | ||
Ajout de lettre | X | |||
Confusion | X | X | ||
Erreur phonétique | X | X | ||
Morphogramme | X | |||
Erreur logrammique | X | X | ||
Erreur non fonctionnelle | X |
Résultats :
- Test génération de fautes versus Grammalecte :
- toutes les fautes sont trouvés hormis celle qui produise d'autre mots existant dans la langue française ;
- Lorsqu'on demande la correction du mot par Grammalecte, celui-ci donnes en premier lieux les mots originaux.
- Grammalecte : baseline afin de vérifier les fautes générés.
Dans le répertoire "Papiers" se trouve des papiers de recherches sur l'orthographe français
- Des corpus d'erreurs pour TRACE
- Typologie des modifications dans les révisions de Wikipédia
- Comparaison de types d erreurs orthographiques en FLM et FLE
- Identifier les erreurs : une typologie des erreurs & Typologie erreurs CATACH
- A partir du chapitre 6, la fin n'est pas la même
- Quelle typologie adopter pour l analyse des erreurs orthographiques des apprenants du FLE
Plus sur ce qui est du Seq2Seq :
- Sequence to Sequence Learning with Neural Networks
- Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation
Autre :
- Liste orthographique de base
Des travaux sur la langue française existe déjà, notamment :
-
Wikipedia Correction and Paraphrase Corpus (WiCoPaCo)
- Corpus extrait de la totalité des sites Wikimedia Foundation, Inc (Wikipédia, Wikilivres, Wikinews, etc...)
-
- Le corpus frWaC est un corpus de textes français collectés dans le domaine .fr avec l'utilisation de mots de moyenne fréquence du corpus Le Monde Diplomatique et de listes de vocabulaire français de base comme la sémantique. Le corpus se compose de sites Web français d'une taille totale de 1,3 milliard de mots.
- autre source
-
Article sans prétention, sur les fautes d'orthographe dans les blog
-
Article Wikipédia sur la fréquence d'apparition des lettres de l'alphabet : ici et là ainsi que l'étude
-
Liste exhaustive de suffixation
-
Liste des différents homophones
-
Liste de fautes courantes
-
Etude comparative de types d’erreurs orthographiques en FLM et FLE
-
Etude sur la normalisation orthographique de corpus dit "bruités"
-
Liste d'archive sur le traitement automatique du langage naturel
-
Liste d'archive sur les dictionnaires électroniques
-
Etude/Liste des "400" mots les plus utilisés de la langue Française Annexe
-
Evaluation gouvernementale sur les performances en orthographe des élèves en fin d'école primaire
-
WiCoPaCo :