# Test the `pytesseract` package

---

To install tesseract on Ubuntu I used : https://www.datacorner.fr/tesseract/

## Import package

In [3]:
try:
    from PIL import Image
except ImportError:
    import Image
    
import pytesseract
from scipy import ndimage

from os import listdir
from os.path import isfile, join, isdir
import os.path

import matplotlib.pyplot as plt
import matplotlib.image as mpimg

In [7]:
%env TESSDATA_PREFIX /usr/share/tesseract-ocr/4.00/tessdata/

env: TESSDATA_PREFIX=/usr/share/tesseract-ocr/4.00/tessdata/


## List examples files

In [8]:
# Get all directories with examples
example_path = '../Exemples/'
subdir_paths = [
    join(example_path, p) 
    for p in listdir(example_path) 
    if isdir(join(example_path, p))
]

# Retrieves all files in example dir
files = []
for p in [example_path] + subdir_paths:
    _files = [join(p, f) for f in listdir(p) if isfile(join(p, f))]
    
    files = files + _files
    

# Keeps only jpg extension files
files = [f for f in files if f[-3:] in ['jpg']]


files

['../Exemples/Ex_Maths/IMG_20210329_123828.jpg',
 '../Exemples/Ex_Maths/IMG_20210329_122221.jpg',
 '../Exemples/Ex_Maths/IMG_20210329_123818.jpg',
 '../Exemples/Ex_Maths/IMG_20210329_122227.jpg',
 '../Exemples/Ex_Maths/IMG_20210329_122202.jpg',
 '../Exemples/Ex_Maths/IMG_20210329_122715.jpg',
 '../Exemples/Ex_Maths/IMG_20210329_122724.jpg',
 '../Exemples/Ex_Maths/IMG_20210329_123813.jpg',
 '../Exemples/Ex_Maths/IMG_20210329_122157.jpg',
 '../Exemples/Ex_Maths/IMG_20210329_122738.jpg',
 '../Exemples/Histoire_Geo/IMG_20210329_122543.jpg',
 '../Exemples/Histoire_Geo/IMG_20210329_123005.jpg',
 '../Exemples/Histoire_Geo/IMG_20210329_122940.jpg',
 '../Exemples/Histoire_Geo/IMG_20210329_123000.jpg',
 '../Exemples/Histoire_Geo/IMG_20210329_122932.jpg',
 '../Exemples/Histoire_Geo/IMG_20210329_122524.jpg',
 '../Exemples/Histoire_Geo/IMG_20210329_122536.jpg',
 '../Exemples/Dictee/IMG_20210329_122324.jpg',
 '../Exemples/Dictee/IMG_20210329_122825.jpg',
 '../Exemples/Dictee/IMG_20210329_122839.jpg'

## Try pytesseract usage

More details on the Pypi page : https://pypi.org/project/pytesseract/

In [14]:
def extract_text_from_image(fpath, rotate=None):
    img = Image.open(fpath)
    
    if rotate is not None:
        img = ndimage.rotate(img, rotate)
    
    res = pytesseract.image_to_string(img, lang='fra')
    
    return res

def show_image(fpath, rotate=None):
    fig, ax = plt.subplots(figsize=(10,10))
    
    img = mpimg.imread(fpath)
    
    if rotate is not None: 
        img = ndimage.rotate(img, rotate)
    
    imgplot = plt.imshow(img)
    
    plt.show()

In [20]:
f = files[22]
f

'../Exemples/SVT/IMG_20210329_122617.jpg'

![](../Exemples/SVT/IMG_20210329_122617.jpg)

In [24]:
txt = extract_text_from_image(f, rotate=270)

In [25]:
print(txt)

  

La plante est composée:
d’une partie souterraine qui s’é
d’une partie en surface (tige,

2

Les plantes

De quoi est composée la plante?

tend (parfois très loin de l'endroit
feuilles,graines.ﬁuîts,ﬂeuœ)

De quoi a besoin la plante?

2.1.

A

2.3.

   
 
    
    
   
  
  
  
  
  
   

où se trouve la plante en surface),

Le soleil permet à la plante de récupérer de l’'énergie pour se développer.
Sans soleil, elle ne peut pas récolter de l’énergie pour survivre.

Tout comme le soleil, l'oxygène est essentiel pour la survie de la plante.

L’eau apporte des nutriments (qui sont essentiels à la plante pour
rester en bon état).

La partie souterraine de la plante peut prendre beaucoup de
place. Si les racines ne peuvent pas aller où elles veulent, la
croissance de la plante peut être empêchée.



'‘egyceduwe a1je jnad ajue|d ej ap souessiO1\ne| JU@|N@A saJjO NO Jojje sed juoanad au seulde1 sa| 1S ‘eoe|d\n\nep dnooneaq a1puad ]ned ajue|d e| op auieuajnos elued e\nsIe|d\n\n‘(J819 UOq US Ja)se1\n1nod S]ue]d EJ & sjonuesse Juos Inb) sjuewuynu sep ayuodde nea,1\n\nne3\n\n‘aJue|d e| ap avuns e; inod jonuasse ]sa eua6AX0,| ‘JlaJ0S a] aWWOI 3noL\nou26AXO\n\n‘@JAWUNs 1nod aibieua | op 1210981 sed ]ned au ajje ‘Jlajos sues\n1eddojengp as 1nod aib:9u3,1 ap 1919dn981 ap ajue|d e| e jouuad |l9j0s 97\n\nlajos LZ\nje]ue|d e| uIOsaq e 1onb ea =\n\nî:æ=.æ.Ê.……æ:…œäâm..äê ‘361) ooeyuns ue ar\n\n| I } Medaunp -\n\n(e0eyns ue ajue|d e; @An01} 9S NO JIO1pUA,| 8P UIO] SU SioJued) puaje,s inb SuIeISINOs aiLEd aun b>\n‘@9sodw09 }se ajue|d e]\n\n4S]UB|d E| 99s0dw09 }ssionbeg -;\n\nsojuejd se\n\n \n\x0c'