# **Outil d'océrisation automatique de fichiers images**

Cet outil permet d'océriser des documents au format image (JPG) afin d'en extraire le texte au format numérique. Par exemple, on peut utiliser cet outil pour récupérer le texte d’un image d’une page d’un livre ou d’un journal. Cet outil utilise le logiciel de reconnaissance optique de caractères Tesseract qui reconnaît le texte et la langue.

*Documents d'entrée* : corpus d'images sous format JPG.

*Documents de sortie* : deux dossiers, l'un contenant les fichiers textes des images (TXT) et l'autre contenant les fichiers HOCR (XML) avec la position du texte sur les images.

In [None]:
#@markdown # Connexion du notebook à son compte Google Drive et signalement du dossier de travail :

''' 
Google Colab notebook.
Python == 3.7.11

BaOIA - La Contemporaine - Université de Nanterre
'''
## Installation des bibliothèques nécessaires à l'exécution du script et connexion au compte Google Drive

#@markdown - Lancer la cellule
#@markdown - Cliquer sur « Exécuter malgré tout » lors de l’apparition du message d’avertissement indiquant que le notebook n’a pas été créé par Google
#@markdown - Cliquer sur « Se connecter à Google Drive » lors de l’apparition du second message d’avertissement pour donner l’autorisation au notebook d’accéder à vos fichiers Google Drive
#@markdown - Choisir son compte Gmail puis cliquer sur « Autoriser »

#@markdown Indiquer le chemin vers le dossier de travail sur le Google Drive (si le dossier n'existe pas encore, il sera créé lors de l'exécution de la cellule):
chemin_vers_dossier_travail = '/content/drive/MyDrive/ocerisation_corpus/'#@param {type:"string"}

!sudo apt install tesseract-ocr
!pip install pytesseract==0.3.7
import pytesseract
from pytesseract import Output
import cv2
import glob
from google.colab.patches import cv2_imshow
import shutil
import os
import random
try:
 from PIL import Image
except ImportError:
 import Image
from google.colab import files
from google.colab import drive

drive.mount('/content/drive/')
%cd /content/drive/My Drive/
if not os.path.exists(chemin_vers_dossier_travail):
  os.mkdir(chemin_vers_dossier_travail)
os.chdir(chemin_vers_dossier_travail)

In [None]:
#@markdown # Accès au corpus d'images :

#@markdown Indiquer le chemin vers le dossier d'images à océriser (il doit se trouver à l'intérieur du dossier de travail cité plus haut):
chemin_vers_dossier_images = '/content/drive/MyDrive/ocerisation_corpus/corpus_format_image/'#@param {type:"string"}

#@markdown Choisir les formats de fichiers à télécharger :
telecharger_format_TXT = True #@param {type:"boolean"}
telecharger_format_HOCR_XML = True #@param {type:"boolean"}

if telecharger_format_TXT == True:
  os.chdir(chemin_vers_dossier_travail)
  if not os.path.exists('txt'):
    os.mkdir('txt')
  os.chdir('txt')
  chemin_glob = ''.join(chemin_vers_dossier_images+'/*.jpg')
  print(chemin_glob)
  for image in glob.glob(chemin_glob):
    nom_doc = os.path.basename(image)
    image = Image.open(image)
    extractedInformation = pytesseract.image_to_string(image)
    nom_ocr = ''.join(nom_doc[:-4] + "_ocr.txt")
    with open(nom_ocr, 'w') as f:
      f.write(extractedInformation)


if telecharger_format_HOCR_XML == True:
  os.chdir(chemin_vers_dossier_travail)
  if not os.path.exists('hocr'):
    os.mkdir('hocr')
  os.chdir('hocr')

  chemin_glob = ''.join(chemin__dossier_images+'/*.jpg')
  for image in glob.glob(chemin_glob):
    nom_doc = os.path.basename(image)
    image = Image.open(image)
    nom_hocr = ''.join(nom_doc[:-4] + "_hocr.xml")
    hocr = pytesseract.image_to_pdf_or_hocr(image, extension='hocr')
    with open(nom_hocr, 'wb') as f:
      f.write(hocr)

