Skip to content

albaclara/octokenize

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

octokenize

Tokenize strings or files in occitan

Entrée : fichiers texte brut (ou avec balises html) dans ./corpus_brut

Sortie : fichiers tokenisés dans ./corpus_seg (en faire une sauvegarde ailleurs) et fichier reject.txt dans ./progTokenize qui liste les mots rejetés.

Vérifier que ./corpus_seg est vide avant le lancement du programme dans le répertoire ./progTokenize :

python3 multiTokenizingOc.py

Le programme fait appel à tokenizingOc.py qui exécute les traitements sur chaque fichier. Les fichiers en sortie s’appellent S_NomDuFichierEntrée.

La tokenisation s’effectue en plusieurs phases :

• standardisation de la ponctuation
• tokenisation avec word_tokenize de nltk.tokenize 
• normalisation (en particulier traitement des pronoms gascons et de l’apostrophe en limousin)
• nettoyage   ( le paramètre clean est à 1) : suppression des noms propres (s’il ne sont pas derrière . ? ! suivi d’un espace), des unités de mesure, des signes de ponctuations, des nombres, des mots contenant des caractères qui ne font pas partie de l’alphabet occitan, des mots de la liste des mots interdits (« pdf »  par exemple)

About

Tokenize strings or files in occitan

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors