En esta clase veremos algunos ejemplos de utilización de Tesseract-OCR, una biblioteca creada por HP (y actualmente mantenida por Google) para realizar reconocimiento óptico de caracteres.

Importamos las bibliotecas que vamos a usar en la clase

In [None]:
import tesserocr # Para hacer OCR
import numpy as np # Para hacer manipulación básica de imágenes
import matplotlib.pyplot as plt # Para visualizar imágenes
from PIL import Image # Para cambiar el formato de archivos
%matplotlib inline

Importemos una imagen de prueba que contiene texto

In [None]:
texto_largo = plt.imread('texto_largo.png')
plt.figure(figsize=(15,5))
plt.imshow(texto_largo)
plt.axis(False);

Usando la función `file_to_text` podemos convertir directamente el archivo a texto sin la necesidad de importarlo primero. 

In [None]:
texto_ocr = tesserocr.file_to_text('texto_largo.png', lang='spa')

In [None]:
type(texto_ocr)

In [None]:
print(texto_ocr)

Probemos otro ejemplo

In [None]:
img = plt.imread('imagen de prueba.png')

In [None]:
plt.imshow(img)

In [None]:
texto_ocr = tesserocr.file_to_text('imagen de prueba.png', lang='spa')
print(texto_ocr)

En este caso vemos que el reconocimiento no funciona demasiado bien. Esto es porque la imagen tiene las letras claras sobre un fondo oscuro y los bordes son un poco difusos. Vamos a usar Numpy para hacer un procesamiento básico de imágenes y ver si podemos mejorar el reconocimiento. (Para procesamientos más complejos de los que vamos a hacer ahora, te recomiendo que investigues la biblioteca OpenCV) 

Veamos qué forma tiene la imagen

In [None]:
img.shape

Es de 62x228 píxeles y tiene 4 canales (RGBA). Eliminemos el canal alpha ya que esta imagen no tiene transparencia

In [None]:
img_rgb = img[:,:,:3]

In [None]:
img_rgb.shape

In [None]:
plt.imshow(img_rgb)

Los valores de cada píxel pueden estar entre 0 y 1 o entre 0 y 255 (usualmente). Veamos nuestro caso

In [None]:
img_rgb[0,0,0]

Para invertir los colores, debemos tomar el complemento a 1 de cada píxel

In [None]:
img_inv = 1 - img_rgb
plt.imshow(img_inv)

Ahora podemos condensar los 3 canales en uno solo, tomando el promedio para cada píxel

In [None]:
img_gr = img_inv.mean(axis=2)

In [None]:
plt.imshow(img_gr, cmap='Greys_r' )

Ya tenemos una imagen en escala de grises, con fondo blanco y letras oscuras. Intentemos nuevamente hacer OCR.

In [None]:
# Como ya tenemos la imagen cargada, debemos usar otra función
tesserocr.image_to_text(img_gr, lang='spa')

Obtuvimos un error porque tesseract no está preparado para trabajar con arrays de numpy. Debemos convertir el formato a Image

In [None]:
img_pil = Image.fromarray(np.uint8(img_gr*255))

In [None]:
type(img_pil)

In [None]:
print(tesserocr.image_to_text(img_pil, lang='spa'))

Mucho mejor, pero seguimos teniendo un problema ya que este curso es de Web Scraping, no Heb Scraping. Tal vez perdimos demasiada información al pasar la imagen a escala de grises. Intentemos con la imagen invertida en RGB.

In [None]:
img_pil_inv = Image.fromarray(np.uint8(img_inv*255))

In [None]:
print(tesserocr.image_to_text(img_pil_inv, lang='spa'))