apache · epugh · Oct 20, 2019 · Oct 21, 2019 · Oct 21, 2019 · Oct 21, 2019
diff --git a/tika-app/src/main/java/org/apache/tika/cli/TikaCLI.java b/tika-app/src/main/java/org/apache/tika/cli/TikaCLI.java
@@ -49,6 +49,7 @@
 import java.util.Enumeration;
 import java.util.HashMap;
 import java.util.HashSet;
+import java.util.Iterator;
 import java.util.List;
 import java.util.Locale;
 import java.util.Map;
@@ -98,6 +99,8 @@
 import org.apache.tika.parser.PasswordProvider;
 import org.apache.tika.parser.RecursiveParserWrapper;
 import org.apache.tika.parser.html.BoilerpipeContentHandler;
+import org.apache.tika.parser.ocr.TesseractOCRConfig;
+import org.apache.tika.parser.ocr.TesseractOCRParser;
 import org.apache.tika.parser.pdf.PDFParserConfig;
 import org.apache.tika.parser.utils.CommonsDigester;
 import org.apache.tika.sax.BasicContentHandlerFactory;
@@ -193,6 +196,23 @@ private void extractInlineImagesFromPDFs() {
             context.set(PDFParserConfig.class, pdfParserConfig);
         }
     }
+
+    private void enableOCRPDF() throws TikaException, IOException, SAXException {
+
+    	configure();
+
+    	CompositeParser parser = (CompositeParser)config.getParser();
+    	Iterator<Parser> iter = parser.getAllComponentParsers().iterator();
+    	while(iter.hasNext()) {
+    		Parser p = iter.next();
+    		if (p instanceof TesseractOCRParser) {
+    			TesseractOCRConfig tesseractOCRConfig = ((TesseractOCRParser) p).getDefaultConfig();
+    			context.set(TesseractOCRConfig.class, tesseractOCRConfig);
+    			// TODO Should we mimic the warn from extractInlineImagesFromPDFs?
+    		}
+    	}
+
+    }    
 
     private class OutputType {
         public void process(
@@ -452,6 +472,7 @@ public void process(String arg) throws Exception {
             extractDir = new File(dirPath);
         } else if (arg.equals("-z") || arg.equals("--extract")) {
             extractInlineImagesFromPDFs();
+            enableOCRPDF();
             type = NO_OUTPUT;
             context.set(EmbeddedDocumentExtractor.class, new FileEmbeddedDocumentExtractor());
         } else if (arg.equals("-r") || arg.equals("--pretty-print")) {

diff --git a/tika-app/src/test/java/org/apache/tika/cli/TikaCLITest.java b/tika-app/src/test/java/org/apache/tika/cli/TikaCLITest.java
@@ -470,6 +470,18 @@ public void testConfig() throws Exception {
         assertTrue(content.contains("apple"));
         assertTrue(content.contains("org.apache.tika.parser.html.HtmlParser"));
     }
+
+    @Test
+    public void testModifyAndRunTesseractViaConfig() throws Exception {
+    	String[] params = new String[]{"--config="+testDataFile.toString()+"/tika-config-ocr-pdf.xml", "--jsonRecursive","--extract","--pretty-print","-v","-x", resourcePrefix+"testPDF_bom.pdf"};
+        TikaCLI.main(params);
+        String content = outContent.toString(UTF_8.name());
+        assertTrue(content.contains("org.apache.tika.parser.ocr.TesseractOCRParser"));
+        assertTrue(content.contains("Hello"));
+        assertTrue(content.contains("bbox"));
+        assertTrue(content.contains("ocr_line"));
+
+    }
 
     @Test
     public void testConfigIgnoreInit() throws Exception {

diff --git a/tika-app/src/test/resources/test-data/testPDF_bom.pdf b/tika-app/src/test/resources/test-data/testPDF_bom.pdf
diff --git a/tika-app/src/test/resources/test-data/tika-config-ocr-pdf.xml b/tika-app/src/test/resources/test-data/tika-config-ocr-pdf.xml
@@ -0,0 +1,23 @@
+<?xml version="1.0" encoding="UTF-8" standalone="no"?>
+<properties>
+  <parsers>
+    <parser class="org.apache.tika.parser.DefaultParser">
+      <parser-exclude class="org.apache.tika.parser.ocr.TesseractOCRParser"/>
+      <parser-exclude class="org.apache.tika.parser.pdf.PDFParser"/>
+    </parser>
+    <parser class="org.apache.tika.parser.ocr.TesseractOCRParser">
+      <params>
+        <param name="tesseractPath" type="string">/usr/local/bin/</param>
+        <param name="tessdataPath" type="string">/usr/local/Cellar/tesseract/4.1.0/share/tessdata</param>
+        <param name="outputType" type="string">hocr</param>
+      </params>
+    </parser>
+    <parser class="org.apache.tika.parser.pdf.PDFParser">
+      <params>
+        <param name="ocrStrategy" type="string">ocr_only</param>
+        <param name="extractInlineImages" type="bool">true</param>
+      </params>
+    </parser>
+
+  </parsers>
+</properties>