The point of this exercise is to get the Pytasseract package to run, now that Tesseract 5.3.1 has been successfully installed on this computer.
Given that batch processing of OCR files is obviously possible in Tesseract 5.3.1 (see https://medium.com/quantrium-tech/installing-and-using-tesseract-4-on-windows-10-4f7930313f82), the question is to what extent pytesseract is really necessary. 
The answer will probably be: If it can be integrated into more comprehensive Python production pipelines, it may offer added value.

In [3]:
import os 
import pytesseract


In [26]:
import pyppeteer

In [2]:
!pip install pytesseract


Collecting pytesseract
  Downloading pytesseract-0.3.10-py3-none-any.whl (14 kB)
Installing collected packages: pytesseract
Successfully installed pytesseract-0.3.10


In [4]:
pytesseract.pytesseract.tesseract_cmd="C:\\Program Files\\Tesseract-OCR\\tesseract.exe"

For the following, I relied on https://www.youtube.com/watch?v=O8maBz1yXe0 (Pantech eLearning Channel, How to Install and Import Pytesseract | Pytesseract OCR)

Open CV lives at https://pypi.org/project/opencv-python/ . 

### On OpenCV

"OpenCV (Open Source Computer Vision Library) is a library of programming functions mainly for real-time computer vision.[1] Originally developed by Intel, it was later supported by Willow Garage, then Itseez (which was later acquired by Intel[2]). The library is cross-platform and licensed as free and open-source software under Apache License 2. Starting in 2011, OpenCV features GPU acceleration for real-time operations.[3]" (Wikipedia. https://en.wikipedia.org/wiki/OpenCV)

OpenCV makes this tool available within python.

In [6]:
#!pip install opencv-python

Collecting opencv-python
  Downloading opencv_python-4.7.0.72-cp37-abi3-win_amd64.whl (38.2 MB)
Installing collected packages: opencv-python
Successfully installed opencv-python-4.7.0.72


In [7]:
import cv2

Note that most Python-related publications will urge you to install the PIL image processing package instead. OpenCR appears to be a more efficient alternative, but it is written in C, rather than in Python itself. 

For a comparison of both packages, see
https://towardsdatascience.com/image-processing-opencv-vs-pil-a26e9923cdf3 (Suraj Gurav, "Image Processing — OpenCV Vs PIL", Jun 21, 2021)





### Obtaining the Image

In [11]:
# Load the image
image = cv2.imread("C:\\Users\\johag\\Documents\\TroisAmis\\Ch_1\\101.jpg")
 
# Display the image
cv2.imshow("Image", image)
 
# Wait for the user to press a key
cv2.waitKey(0)
 
# Close all windows
cv2.destroyAllWindows()

### Recognizing the Image via Pytesseract

In [18]:
my_text = pytesseract.image_to_string(image)

In [19]:
my_text

"ment en commun nos élaborations mentales pour en faire\nun livre de plus. Certains aiment inventer des concepts, et\nils s’attachent ensuite a l’idée de les propager. Notre but\nest plutét le partage de ce que nous avons appris de nos\nmaitres, spirituels ou autres, de nos études et de notre pra-\ntique méditative ou thérapeutique.\n\nEn ce qui me concerne, c’est grace a la sagesse et ala\nbonté de mes maitres spirituels que j’ai pu me transformer\nun tant soit peu et me mettre au service d’autrui. J’essaie\ndonc, 4 mon tour, de partager ce qu’ils m’ont apporté en\nfaisant de mon mieux pour ne pas trahir ni dénaturer leur\n\nmessage.\n\nAtexanpee : I] n’y a qu’une urgence, c’est de nous engager\n4 fond dans une pratique, nourrir en soi un ardent désir\nde progresser, et réaliser que nous pouvons échapper ala\nprison de notre mental. Chacun peut disserter a l’envi sur\nla pratique, mais la vivre jour aprés jour, voila la grande\naffaire... Lors d’une conférence a l'association des Indi

This works, but the specific French characters have not been recognized. 
We need to see how to reference the French character recognition from pytesseract. 

In [15]:
pytesseract.get_languages()

['afr',
 'amh',
 'ara',
 'asm',
 'aze',
 'aze_cyrl',
 'bel',
 'ben',
 'bod',
 'bos',
 'bre',
 'bul',
 'cat',
 'ceb',
 'ces',
 'chi_sim',
 'chi_sim_vert',
 'chi_tra',
 'chi_tra_vert',
 'chr',
 'cos',
 'cym',
 'dan',
 'deu',
 'div',
 'dzo',
 'ell',
 'eng',
 'enm',
 'epo',
 'equ',
 'est',
 'eus',
 'fao',
 'fas',
 'fil',
 'fin',
 'fra',
 'frk',
 'frm',
 'fry',
 'gla',
 'gle',
 'glg',
 'grc',
 'guj',
 'hat',
 'heb',
 'hin',
 'hrv',
 'hun',
 'hye',
 'iku',
 'ind',
 'isl',
 'ita',
 'ita_old',
 'jav',
 'jpn',
 'jpn_vert',
 'kan',
 'kat',
 'kat_old',
 'kaz',
 'khm',
 'kir',
 'kmr',
 'kor',
 'lao',
 'lat',
 'lav',
 'lit',
 'ltz',
 'mal',
 'mar',
 'mkd',
 'mlt',
 'mon',
 'mri',
 'msa',
 'mya',
 'nep',
 'nld',
 'nor',
 'oci',
 'ori',
 'osd',
 'pan',
 'pol',
 'por',
 'pus',
 'que',
 'ron',
 'rus',
 'san',
 'sin',
 'slk',
 'slv',
 'snd',
 'spa',
 'spa_old',
 'sqi',
 'srp',
 'srp_latn',
 'sun',
 'swa',
 'swe',
 'syr',
 'tam',
 'tat',
 'tel',
 'tgk',
 'tha',
 'tir',
 'ton',
 'tur',
 'uig',
 'ukr',
 'u

The language can now be referenced as a parameter of the .image_to_string() function as follows:

In [21]:
my_text1 = pytesseract.image_to_string(image, lang='fra')

In [22]:
my_text1

"ment en commun nos élaborations mentales pour en faire\nun livre de plus. Certains aiment inventer des concepts, et\nils s’attachent ensuite à l’idée de les propager. Notre but\nest plutôt le partage de ce que nous avons appris de nos\nmaîtres, spirituels ou autres, de nos études et de notre pra-\ntique méditative ou thérapeutique.\n\nEn ce qui me concerne, c’est grâce à la sagesse et à la\nbonté de mes maîtres spirituels que j'ai pu me transformer\nun tant soit peu et me mettre au service d’autrui. J'essaie\ndonc, à mon tour, de partager ce qu’ils m'ont apporté en\nfaisant de mon mieux pour ne pas trahir ni dénaturer leur\n\nmessage.\n\nALEXANDRE : Il n’y a qu’une urgence, c’est de nous engager\nà fond dans une pratique, nourrir en soi un ardent désir\nde progresser, et réaliser que nous pouvons échapper à la\nprison de notre mental. Chacun peut disserter à l’envi sur\nla pratique, mais la vivre jour après jour, voilà la grande\naffaire. Lors d’une conférence à l'association des Indi

On the basis of an existing, functional Tesseract installation, this text has provided information on how to get pytesseract to run for basic ocr. 