ocrgrep è un tool da linea di comando che combina OCR e grep:
estrae testo da PDF e immagini tramite Tesseract OCR e permette di cercare parole o espressioni regolari all’interno del testo.
- Estrazione testo da:
- PDF nativi
- PDF scansiti (OCR pagina per pagina)
- Immagini (
.png,.jpg,.tif,.webp) - File di testo
- Ricerca con:
- regex o stringa fissa
- case-insensitive (default) o case-sensitive
- ricerca ricorsiva nelle cartelle (default)
- Output a terminale con file, pagina, linea e contesto
- Esportazione dei risultati in JSON e/o CSV
Scarica il repository, entra nella cartella ed esegui:
chmod +x installer.sh
./installer.shDopo l’installazione puoi verificare con:
ocrgrep -h