Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Unterstützung von textuellen Datumsformat #6

Closed
erd82 opened this issue Mar 28, 2023 · 33 comments
Closed

Unterstützung von textuellen Datumsformat #6

erd82 opened this issue Mar 28, 2023 · 33 comments
Labels
bug Something isn't working python issue affects the language python question Further information is requested

Comments

@erd82
Copy link

erd82 commented Mar 28, 2023

Hi Stephan,

die automatische Datumserkennung ist wirklich ein großartiges Feature und in meinen Augen ein Game-Changer! (im Vergleich zu vor einem Jahr). Denn genau das kostet bei der Digitalisierung und Umbenennen von Dokumenten sehr viel Zeit.

Wenn im Dokument das Format TT.MM.JJJJ (z.B. 13.04.2023) verwendet wird, funktioniert das Feature bei mir derzeit fabelhaft!

Wenn jedoch das Datumsformat TT. MMM JJJJ (z.B. 13. Okt 2023) oder TT. MMMM JJJJ (z.B. 13. Oktober 2023) vorliegt, wird derzeit das Datum nicht erkannt und es wird lediglich das Datum des Dokuments verwendet.
image

Ist es geplant, dieses Datumsformat auch zu erkennen?

Viele Grüße

@geimist
Copy link
Owner

geimist commented Mar 28, 2023

Welche synOCR Version nutzt du?
Auf dem ersten Blick sieht es auch so aus, als ob du nur mit der internen RegEx-Suche suchst, aber nicht mit dem Pythonmodule.

@geimist geimist added question Further information is requested python issue affects the language python labels Mar 28, 2023
@erd82
Copy link
Author

erd82 commented Mar 28, 2023

ich verwende die Version 1.3.1. Und ja du hast Recht, ich verwende aktuell die RegEx-Suche laut GUI:
image

Also würdest du empfehlen auf Python umzustellen? Ist dies schon irgendwo dokumentiert? Vielleicht hätte ich da auch selbst drauf stoßen können :-).

Update: Ja hätte ich wohl selbst herausfinden können, da es in der Information am entsprechenden Feld Dokumentiert war :-). Aber vielleicht wäre das Thema "Konfiguration der Datumserkennung" (als Gesamtes) mal etwas für die Doku im Wiki.

@geimist
Copy link
Owner

geimist commented Mar 28, 2023

Ja, das solltest du umstellen, um davon profitieren zu können. Zu Beginn haben wir RegEx noch als Default Einstellung belassen. Aber du hast recht: dass sollte man mal umstellen (greift dann aber nur bei Neuinstallationen).

Bitte berichte mal, ob dein gewünschtes Format gefunden wird.

@erd82
Copy link
Author

erd82 commented Mar 28, 2023

Mmmh, aus irgendeinem Grund läuft er bei mir in einen Fehler.
image

Hast du eine Idee?

@geimist
Copy link
Owner

geimist commented Mar 28, 2023

Kannst du mir mal bitte ein komplettes Log schicken?

@erd82
Copy link
Author

erd82 commented Mar 28, 2023

Habs dir hochgeladen. Ist das komplett bzw. ausreichend?

@geimist
Copy link
Owner

geimist commented Mar 28, 2023

Ja, ist da - aber lässt mich grübeln ... 🤔
An so einen Fehler kann ich mich die letzten Monate auch nicht wirklich erinnern (ist ja auch nicht gerade sehr aussagekräftig).
Hättest du mal ein Testfile?

Edit:
Bzw. mal bitte mit dem Loglevel 2 (debug mode) laufen lassen. Die Einstellung dafür findest du ganz unten im Konfigurationsprofil.

@erd82
Copy link
Author

erd82 commented Mar 28, 2023

Ich hab dir mal ein Test-File hochgeladen, welches aktuell zum gleichen Ergebnis führt.
Zudem hab ichs jetzt mit log level 2 durchgeführt und dir auch das log hochgeladen.

@geimist
Copy link
Owner

geimist commented Mar 28, 2023

Loglevel 2 war schon besser.
Kannst du mir mal bitte deinen Pfad zum Logordner schreiben?

@erd82
Copy link
Author

erd82 commented Mar 28, 2023

Das ist der Log-Ordner: /volume1/data/# Document Inbox/# synOCR/Log

Was mir auch auffällt, dass nach der Umstellung auf Python die RegEx Regeln (also Verschiebung, Umbenennung) nicht mehr funktionieren.

Und kann es einen Einfluss haben, dass ich gestern lediglich die neuere Version (1.3.1) über die damalige Version 1.1.902 drüber installiert habe? Gibt es vielleicht noch ungewollte (alte) Einstellungen?

@geimist
Copy link
Owner

geimist commented Mar 28, 2023

Das Update sollte kein Problem sein. Ich vermute, dass uns hier die Raute # im Pfad ärgert. Wäre es ein großer Aufwand, das mal zu checken? (Vielleicht nur mal das aktuelle Profil clonen und zum Test einen anderne Quell- und Logpfad ohne Raute probieren).

@Gthorsten65 kann es sein, dass es hier ein Problem bei der Übergabe der Parameter gibt?

  -----------------------------------------------------------------------------------
  | search for a valid date in ocr text:                                            |
  -----------------------------------------------------------------------------------

ERROR at line 1007: founddatestr=$( python3 ./includes/find_dates.py -fileWithTextFindings "$searchfile" $arg_searchnearest -dateBlackList "$ignoredDate" -dbg_file $current_logfile -dbg_lvl "$loglevel" -minYear "$minYear" -maxYear "$maxYear" 2>&1)
                find_dates.py result:
                usage: find_dates.py [-h] [-fileWithTextFindings FILEWITHTEXTFINDINGS]
                                     [-dateBlackList DATEBLACKLIST]
                                     [-searchnearest SEARCHNEAREST] [-dbg_file DBG_FILE]
                                     [-dbg_lvl {0,1,2}] -minYear MINYEAR -maxYear MAXYEAR
                find_dates.py: error: unrecognized arguments: Document Inbox/# synOCR/Log/synOCR_2023-03-28_20-19-58.log
                ERROR at line 1007: python3 ./includes/find_dates.py -fileWithTextFindings "$searchfile" $arg_searchnearest -dateBlackList "$ignoredDate" -dbg_file $current_logfile -dbg_lvl "$loglevel" -minYear "$minYear" -maxYear "$maxYear" 2>&1

Edit:
Ich sehe gerade auch, dass ich den Logpfad nicht maskiert an das Pythonskript übergebe. Hier vermute ich den Auslöser

@Gthorsten65
Copy link
Collaborator

@geimist Hmm, hast du mal den Python teil des log files?
Kann aus deinem post nicht erkennen wie die Parameter sind.
Im logile, also das was ich logge, sollte alle drin stehen.
Welcher Parameter hat denn ein#? Kann das mal ausprobieren

@geimist
Copy link
Owner

geimist commented Mar 28, 2023

Das ist ja dein Log Part. Du gibst nur die Hilfe zurück.
Aber dadurch, dass eine Raute im Pfad ist und ich den Pfad unmaskiert übergebe, wird der Aufruf vor der Raute enden (ab der Raute gilt es als Kommentar) und du bekommst ein ungültiges Parameterset. Das wäre für mich jetzt die naheliegendste Ursache.

@erd82
Copy link
Author

erd82 commented Mar 28, 2023

Vielleicht nur mal das aktuelle Profil clonen und zum Test einen anderne Quell- und Logpfad ohne Raute probieren.

Das habe ich mal gemacht und du hast völlig Recht. Ohne der Raute im Pfad funktioniert die Datumserkennung.
Wie oben beschrieben funktionieren nach der Umstellung auf Python die Regeln nicht mehr (vielleicht auch ein wichtiger Hinweis).

@geimist
Copy link
Owner

geimist commented Mar 28, 2023

Schön und nicht schön - aber Fehler gefunden. Das ist gut. Funktionieren die Regeln beim Test wieder? Eigentlich sollte die Umstellung auf die Pythonsuche damit nichts zu tun haben.

@geimist geimist added the bug Something isn't working label Mar 28, 2023
@Gthorsten65
Copy link
Collaborator

Habe gerade mal geschaut. So wie Du den lognamen übergibst geht das nicht. Das sieht das Pythonscript als mehrere Parameter.
Es sind Leerzeichen vorhanden.
Dann musst du das in "" oder '' setzen.

@erd82
Copy link
Author

erd82 commented Mar 28, 2023

Schön und nicht schön - aber Fehler gefunden. Das ist gut. Funktionieren die Regeln beim Test wieder? Eigentlich sollte die Umstellung auf die Pythonsuche damit nichts zu tun haben.

Ich hab auch noch mal hin und her getestet. Du hattest Recht! Ich hatte wohl in meiner Regeldatei einen Typo drin, sodass die Regeln nicht mehr gezogen haben. Also das Datums-Problem ist wohl lediglich durch die Raute im Pfad verursacht.

@geimist
Copy link
Owner

geimist commented Mar 28, 2023

Dann musst du das in "" oder '' setzen.

Korrekt, das mache ich eigentlich auch schon aus Prinzip. Ist hier wohl verloren gegangen und keiner hat's gemerkt 🙈

Wie oben beschrieben funktionieren nach der Umstellung auf Python die Regeln nicht mehr (vielleicht auch ein wichtiger Hinweis).

Im originalen Profil wird deine Krankenkasse gefunden. Im geclonten gibt es Fehlermeldungen, die ich jetzt gerade auch nicht zuordnen kann.

Hier ist eine BETA, die diesen Fehler fixen sollte. bitte checke mal, ob mit dem default Profil auch wieder die Regeln funktionieren.

@erd82
Copy link
Author

erd82 commented Mar 28, 2023

Wie oben beschrieben funktionieren nach der Umstellung auf Python die Regeln nicht mehr (vielleicht auch ein wichtiger Hinweis).

Ja wie gesagt war das mein Fehler. Ich hatte einen Typo in der Regeldatei.

Hier ist eine BETA, die diesen Fehler fixen sollte. bitte checke mal, ob mit dem default Profil auch wieder die Regeln funktionieren.

Die Beta habe ich installiert und das Monitoring neu gestartet (müsste doch reichen oder?).
image

Leider wird das Datum noch nicht korrekt verarbeitet. Aber könnte es an den zwei Rauten im Pfad (sowohl für Logs als auch für Input/Output Ordner) liegen?

@geimist
Copy link
Owner

geimist commented Mar 28, 2023

Die Beta habe ich installiert und das Monitoring neu gestartet (müsste doch reichen oder?).

Korrekt.

Für das Datumsproblem bräuchte ich wieder das Log, bzw. den unmittelbaren Teil ab hier:

  -----------------------------------------------------------------------------------
  | search for a valid date in ocr text:                                            |
  -----------------------------------------------------------------------------------

@Gthorsten65
Copy link
Collaborator

Genau das würde helfen

@erd82
Copy link
Author

erd82 commented Mar 28, 2023

habs Stephan hochgeladen. Aber auch hier der direkte Abschnitt:
image

@geimist
Copy link
Owner

geimist commented Mar 28, 2023

Du hast die Standardregexsuche aktiv (bist glaube auch in deinem Testprofil) 😉

@erd82
Copy link
Author

erd82 commented Mar 28, 2023

Ich habe wieder mein Default Profil laufen, extra nochmal das Monitoring neu gestartet.
Und weiterhin läuft die Datumssuche mittels Python.
image

Im Ergebnis kommt leider noch das falsche Datum heraus:
image

@geimist
Copy link
Owner

geimist commented Mar 28, 2023

Bitte ein Log 😃
(gespeichert hast du ja dein Profil?)

@geimist
Copy link
Owner

geimist commented Mar 28, 2023

Dein Logfile:

current Profil: clone

Bitte beachte: Alle Profile sind gleichberechtigt. Es ist also unerheblich, welches in der GUI ausgewählt wird.

@erd82
Copy link
Author

erd82 commented Mar 28, 2023

Hab dir das Log hochgeladen (mache dann nur noch einen Daumen auf deinen Comment, wenn ich es hochgeladen habe, Dann bläht es die Konversation nicht weiter auf).

Explizites Speichern des Profils werde ich noch mal versuchen. Da ich aber nicht mehr das Profil (Methode der Datumsuche) geändert habe, schließe ich das nahezu aus. Aber ein Versuch ist es Wert :).

@geimist
Copy link
Owner

geimist commented Mar 28, 2023

Möglicherweise musst du das Testprofile clone mal deaktivieren, wenn es noch falsch konfiguriert ist und vielleicht immer vor deinem Default-Profil abgearbeitet wird. Denn es scheint mir, dass es die gleichen Pfade wie dein Default-Profil nutzt.

@erd82
Copy link
Author

erd82 commented Mar 28, 2023

Absolut korrekt ! Das Problem sitzt wohl manchmal vorm Rechner ! :-o
Ich hatte beide Profile verwechselt und dachte, ich arbeite im anderen Profil.

Jetzt hat es super funktioniert 👍.

Entschuldigt bitte die Umstände und danke für die super schnelle Hilfe !!

@geimist
Copy link
Owner

geimist commented Mar 28, 2023

Alles gut - schön, wenn es jetzt funktioniert. 🙂

Dein ursprünglich gesuchtes Datum ist da?

@erd82
Copy link
Author

erd82 commented Mar 28, 2023

Jap, funktioniert jetzt korrekt und das Datum ist da 👍.
Ich habe gerade auch mal mit anderen Dokumente getestet, die einen textuellen Monat hatten. Hat auch bisher super geklappt bei allen fünf Versuchen. :)

TOP!

@geimist geimist closed this as completed Mar 28, 2023
geimist added a commit that referenced this issue Mar 28, 2023
if the path to the log file contained a hash, the date search via Python failed #6
@geimist
Copy link
Owner

geimist commented Mar 29, 2023

@erd82

Hier ist eine BETA, die diesen Fehler fixen sollte.

Wie ich heute gesehen hatte, gab es einen Fehler in dieser Version, der zu einer Endlosschleife führte, sofern kein Datum gefunden werden konnte. Unter demselben Link gibt es eine aktualisierte Version.

@erd82
Copy link
Author

erd82 commented Mar 29, 2023

cool, ganz vielen Dank für den Fix und die neue Version ! Ich habe sie gleich installiert 👍. Merci & viele Grüße

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working python issue affects the language python question Further information is requested
Projects
None yet
Development

No branches or pull requests

3 participants