Skip to content
Permalink
Branch: master
Find file Copy path
Find file Copy path
Fetching contributors…
Cannot retrieve contributors at this time
118 lines (83 sloc) 5.04 KB

Build Status

Transformez vos documents en données!

English | 中文

Parsr est une chaîne d'outils de nettoyage, d'analyse et d'extraction de documents (image, pdf) qui génère des données facilement disponibles, organisées et utilisables pour les développeurs et les scientifiques de données (data scientists).

Il fournit aux utilisateurs un ensemble d'informations structurées et enrichies de label propres pour des applications prêtes à l'emploi allant de l'automatisation de la saisie de données à l'analyse de documents, en passant par l'archivage et bien d'autres.

Actuellement, Parsr peut effectuer:

  • Régénération de la hiérarchie des documents
  • Mots, lignes et paragraphes
  • Détection des titres
  • Détection et reconstruction des tableaux
  • Détection des listes
  • Détection de l'ordre des paragraphes
  • Reconnaissance des entités nommées (dates, pourcentages, etc.)
  • Détection de paires clé-valeur (pour l'extraction d'entrées spécifiques basées sur un formulaire)
  • Détection des numéros de page
  • Détection d'entête et pied de page
  • Détections de liens
  • Suppression des espaces blancs

Parsr prend en entrée une image (.jpg, .png, .tiff, ...) ou un pdf et génère les formats de sortie suivants:

  • JSON
  • Markdown
  • Texte
  • CSV (pour les tableaux) ou Pandas Dataframes (voir ici)
  • PDF

Table des matières

Débuter avec Parsr

Installation

-- Le guide d'installation avancé est disponible ici --

Le moyen le plus rapide pour installer et exécuter l'API Parsr est via l'image docker:

docker pull axarev/parsr

Si vous souhaitez également installer l'interface graphique pour l'envoi de documents et la visualisation des résultats:

docker pull axarev/parsr-ui-localhost

Remarque: Parsr peut également être installé directement sur la machine (sans Docker)" - voir la procédure sur guide d'installation.

Utilisation

-- Le guide d'utilisation avancé est disponible ici --

Pour exécuter l'API, lancez:

docker run -p 3001:3001 axarev/parsr

qui le lancera sur http://localhost:3001. Consultez la documentation sur l'utilisation de l'API.

  1. Pour utiliser le Jupyter Notebook et l'interface python de l'API Parsr, cliquez ici.
  2. Pour utiliser l'outil GUI (l'API doit déjà être en cours d'exécution), lancez:
    docker run -t -p 8080:80 axarev/parsr-ui-localhost:latest
    Ensuite, accédez-y via http://localhost:8080.

Reportez-vous à la Documentation de configuration pour interpréter les options configurables dans l'interface graphique.

Utilisation basée sur l'API et utilisation en ligne de commande sont documentées dans utilisation avancée.

Documentation

Tous les fichiers de documentation peuvent être trouvés ici - actuellement en anglais seulement.

Comment contribuer

Veuillez vous référer aux directives de contribution.

Licences tierces

Licences de bibliothèques tierces pour ces dépendances:

  1. QPDF: Apache http://qpdf.sourceforge.net
  2. GraphicsMagick: MIT http://www.graphicsmagick.org/index.html
  3. ImageMagick: Apache 2.0 https://imagemagick.org/script/license.php
  4. Pdfminer.six: MIT https://github.com/pdfminer/pdfminer.six/blob/master/LICENSE
  5. PDF.js: Apache 2.0 https://github.com/mozilla/pdf.js
  6. Tesseract: Apache 2.0 https://github.com/tesseract-ocr/tesseract
  7. Camelot: MIT https://github.com/camelot-dev/camelot
  8. MuPDF (Dépendance optionnelle): AGPL https://mupdf.com/license.html
  9. Pandoc (Dépendance optionnelle): GPL https://github.com/jgm/pandoc

Licence

Copyright 2019 AXA Group Operations S.A. Sous licence Apache 2.0 (voir le fichier LICENSE).

You can’t perform that action at this time.