Cela permet d'enregistrer des fichiers, telles que des factures, fiches de paie, en utilisant de l'OCR (Opticial Recognization Character) afin de pouvoir les trier.
Dans un premier, l'installation des librairies est impérative :
- Tkinter
- Tesseract
Une fois Tesseract correctement installé, il faut modifier le fichier .env en introduisant l'adresse du fichier .exe de tesseract dans le champ TESSERACT_DIR.
Une fois le programme lancé, nous avons la fenêtre suivante :
Il s'agit de l'interface principale, cette fenêtre possède 4 fonctionnalités principales :
- Gestion de la liste de fichiers (supprimer, ajouter, et tout sélectionner les fichiers).
- Visualisser le pdf, cette option permet de consulter le PDF ainsi qu'ajuster les paramètres pour l'OCR dont la definition des zones de reconnaissances
- Définir les types d'un fichier, c'est-à-dire définir si le fichier est une facture ou une fiche de paie ainsi que le modèle correspondant
- Insérer les données récupérées par l'algorithme OCR dans la base de données
Cette interface permet des créer nos propres modèles pour un type de fichier (facture, fiche de paie) :
- le bouton "test" permet d'afficher le résultat de l'OCR ainsi l'utilisateur peut vérifier la zone sélectionnée
- L'option "Debug" affiche toutes les zones enregistrées en bleu
- L'option deroulant gère le choix du type de fichier
- Le bouton "Enregistrer zone de détection" sauvegarde la zone définie et la sélection dans le tableau des valeurs importantes
- "Enregistrer modèle" insère les données des zones dans la base de données
Le Trello