Names in scanned legacy documents #26

opensemanticsearch · 2018-05-18T07:11:55Z

Names of Entities in old/legacy documents are often written with whitespaces like
John D O E
which should be recognized as John Doe, too.

Mandalka · 2019-11-23T12:27:49Z

Seems the Tesseract release 4 integrated in Apache Tika / Open Semantic ETL / Open Semantic Search recognizing such cases well, so for example "E l s e r" or "Otto S t r a s s e r" in https://commons.wikimedia.org/wiki/File:Gestapo-Akte_Georg_Elser_(Delikt).jpg is "Elser" or "Otto Strasser" in OCRd output plain text.

If there are OCR Software or yet OCRd documents where this is not the case please reopen or comment, so i can integrate some related name variant extension functions to entity extraction like:

def disjoin_chars(name):

namevariants = []

words = name.split(" ")

for i in range(len(words)):
	namevariant = " ".join(words[0:i])
	for word in words[i:]:
		if namevariant:
			namevariant += " "
		namevariant += " ".join(list(word))

	namevariants.append(namevariant)

return namevariants

generating name variants like
print(entity_manager.disjoin_chars("Georg Elser"))
['G e o r g E l s e r', 'Georg E l s e r']

opensemanticsearch added the enhancement New feature or request label May 18, 2018

opensemanticsearch assigned Mandalka May 18, 2018

Mandalka closed this as completed Nov 23, 2019

opensemanticsearch added the help wanted Extra attention is needed label Nov 24, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Names in scanned legacy documents #26

Names in scanned legacy documents #26

opensemanticsearch commented May 18, 2018 •

edited by Mandalka

Mandalka commented Nov 23, 2019 •

edited by opensemanticsearch

Names in scanned legacy documents #26

Names in scanned legacy documents #26

Comments

opensemanticsearch commented May 18, 2018 • edited by Mandalka

Mandalka commented Nov 23, 2019 • edited by opensemanticsearch

opensemanticsearch commented May 18, 2018 •

edited by Mandalka

Mandalka commented Nov 23, 2019 •

edited by opensemanticsearch