In [2]:
from PIL import Image
import pytesseract
import re

# Asegúrate de que Tesseract esté instalado y configurado en tu PATH
# Si no, puedes especificar la ruta a tu ejecutable de tesseract:
# pytesseract.pytesseract.tesseract_cmd = r'/usr/local/bin/tesseract' # o la ruta en Windows

# Cargar la imagen (tendrías que cortar la imagen a cada recuadro si quieres precisión)
# O procesar la imagen completa y luego analizar el texto
img = Image.open('embedded_p021_6.jpg')

# Realizar OCR en la imagen
text_from_image = pytesseract.image_to_string(img)

print("Texto reconocido por OCR:")
print(text_from_image)

# --- Ejemplo de post-procesamiento con expresiones regulares ---
# Esto es una simplificación, la regex real dependerá de la calidad de la salida OCR
# y de cómo quieres estructurar los datos.

lines = text_from_image.split('\n')
extracted_data = []

# Patrón para el nombre del pozo (ej. MLW-09, ML23-965)
# y los datos (ej. 3.00 m @ 4.20 g/t AuEq)
# Esto es una simplificación, ya que los recuadros tienen múltiples líneas y formatos
# Tendrías que iterar sobre los bloques de texto o áreas de interés.

# Un enfoque sería identificar patrones para los nombres de los pozos y luego
# los datos asociados debajo.
# Por ejemplo, buscar líneas que contengan "MLW-" o "ML23-"
# y luego las líneas siguientes que contengan "m @" y "g/t AuEq".

for line in lines:
    match_name = re.search(r'(MLW-\d+|ML23-\d+|SS-\d+)', line)
    if match_name:
        current_hole_name = match_name.group(1)
        # Buscar la siguiente línea o un patrón de datos de perforación en la misma línea
        # Esto requeriría lógica más compleja o un enfoque de detección de regiones OCR.
        # Por ejemplo, si tienes "MLW-09\n3.00 m @ 4.20 g/t AuEq"
        # Puedes usar un patrón multilínea o procesar línea por línea.

        # Ejemplo muy básico para una línea de datos si estuvieran juntas
        match_data = re.search(r'(\d+\.\d+)\s*m\s*@\s*(\d+\.\d+)\s*g/t\s*AuEq', line)
        if match_data:
            depth = float(match_data.group(1))
            grade = float(match_data.group(2))
            extracted_data.append({
                'hole_name': current_hole_name,
                'depth': depth,
                'grade': grade
            })

print("\nDatos extraídos (ejemplo simplificado):")
for item in extracted_data:
    print(item)

Texto reconocido por OCR:
£ 421500 £ 422250 £ 423000

iy
\\ ELG UNDERGROUND- PLAN VIEW
'
: tt
LDUG-262 a\ i
5.0m @ 8.01g/t AuEq \\ . N |
8.5m @ 5.41g/t AuEq Ne ae
5.3m @ 5.95g/t AUEq 2 Z LDUG-234
A 9.9m @ 3.92g/t AuEG |
9.1m @ 33.91g/t AuEq a a if , q SST-312
: .. 9 é 4.0m @ 21.32g/t AuEq
4.8m @ 35.81g/t AuEq ST-31:

SST-313
LDUG-268 \ 4.7m @ 23.32g/t AuEq
5.4m @ 6.87¢/t AuEq . SST-312

\| ~ - 3 42.41 19.45g/t AuE
LDUG-276 | ees
8.3m @ 4.11g/t AuEq ‘wy

: ; 1-137
TDUG-271 j 6.7m @ 21.44g/t AuEq
5.6m @ 13.65g/t AuEq

LDUG-277
8.9m @ 11.71g/t AuEq

1s-249
7.6m @ 9.51g/t AuEq

18-246
10.2m @ 10.13g/t AuEq

LDUG-296
4.4m @ 10.03g/t AuEq] — LS-248
. : 10.9m @ 10.69¢/t AuEg|
LDUG-308 .

8.7m @ 11.36g/t AuEq e i y ° > i oe
Z 8. 44,938/t AuEt

[DUG-239 \ 3 “ae aan

22.9m @ 11./5¢/t AuEQ| yee adm @ se Sig/t AUE
LDUG-290 5; =

4.9m @ 11.55¢/t AuEq A a5 ayn E
.Sm . ‘UE

1s-134

6.4m @ 14,72¢/tAuEG 1.2m @ S074/tAUE

2m . \UEG,

18-234 2
14.0m @ 14.45g/t AuEg} Ls-276
* 10.51 11.37g/t AuEt
Ls-229 z 