fixed minor parsing issues for documents with ocr errors / spurious s…

…paces
staffanm · Aug 7, 2018 · d8aa8c9 · d8aa8c9
1 parent 9e37da0
commit d8aa8c9
Show file tree

Hide file tree

Showing 5 changed files with 40 additions and 4 deletions.
diff --git a/ferenda/sources/legal/se/dv.py b/ferenda/sources/legal/se/dv.py
@@ -810,7 +810,7 @@ def parse_not(self, text, basefile, filetype):
         if coll == "HDO":
             # keep this in sync w extract_notis
             re_notisstart = re.compile(
-                "(?:Den (?P<avgdatum>\d+):[ae].\s+|)(?P<ordinal>\d+)\.[ \xa0]*\((?P<malnr>\w[ \xa0]\d+-\d+)\)",
+                "(?:Den (?P<avgdatum>\d+):[ae].\s+|)(?P<ordinal>\d+)\s*\.\s*\((?P<malnr>\w[ \xa0]\d+-\d+)\)",
                 flags=re.UNICODE)
             re_avgdatum = re_malnr = re_notisstart
             re_lagrum = re_sokord = None
@@ -966,7 +966,7 @@ def parse_ooxml(self, text, basefile):
         # domstolen") följt av referatnumret ("NJA 1987
         # s. 113").
         firstfield = soup.find("w:t")
-        # Ibland ärdomstolsnamnet uppsplittat på två
+        # Ibland är domstolsnamnet uppsplittat på två
         # w:r-element. Bäst att gå på all text i
         # föräldra-w:tc-cellen
         firstfield = firstfield.find_parent("w:tc")
@@ -1091,7 +1091,7 @@ def parse_antiword_docbook(self, text, basefile):
     def sanitize_metadata(self, head, basefile):
         basefile_regex = re.compile('(?P<type>\w+)/(?P<year>\d+)-(?P<ordinal>\d+)')
         nja_regex = re.compile(
-            "NJA ?(\d+) ?s\.? ?(\d+) ?\( ?(?:NJA|) ?[ :]?(\d+) ?: ?(\d+)")
+            "NJA ?(\d+) ?s\.? ?(\d+) *\( ?(?:NJA|) ?[ :]?(\d+) ?: ?(\d+)")
         date_regex = re.compile("(\d+)[^\d]+(\d+)[^\d]+(\d+)")
         referat_regex = re.compile(
             "(?P<type>[A-ZÅÄÖ]+)[^\d]*(?P<year>\d+)[^\d]+(?P<ordinal>\d+)")

diff --git a/ferenda/sources/legal/se/propositioner.py b/ferenda/sources/legal/se/propositioner.py
@@ -807,7 +807,10 @@ def find_firstpage_metadata(self, firstpage, basefile):
             self.log.warning("%s: Couldn't find date in first %s characters (first page)" %
                              (basefile, len(firstpage)))
         else:
-            res["dcterms:issued"] = self.parse_swedish_date(m.group(1).lower())
+            try:
+                res["dcterms:issued"] = self.parse_swedish_date(m.group(1).lower())
+            except ValueError as e:
+                self.log.warning("%s: Couldn't parse date %s" % (basefile, m.group(1)))
         return res
 
     def extract_body(self, fp, basefile):

diff --git a/lagen/nu/res/patches/dv/patches/HDO/Ö1229-17.patch b/lagen/nu/res/patches/dv/patches/HDO/Ö1229-17.patch
@@ -0,0 +1,11 @@
+--- qngn/qi/vagrezrqvngr/UQB/Ö1229-17.kzy.om2
++++ 
+@@ -25,7 +25,7 @@ Xbeevtrenq eäggfsnyyforgrpxavat
+      <j:c>
+       <j:e>
+        <j:g>
+-        AWN 2017 f.683 (AWN:65)
++        AWN 2017 f.683 (AWN 2017:65)
+        </j:g>
+       </j:e>
+      </j:c>
diff --git a/lagen/nu/res/patches/dv/patches/HDO/Ö663-17.patch b/lagen/nu/res/patches/dv/patches/HDO/Ö663-17.patch
@@ -0,0 +1,11 @@
+--- qngn/qi/vagrezrqvngr/UQB/Ö663-17.kzy.om2
++++ 
+@@ -25,7 +25,7 @@ Xbeevtrenq eäggfsnyyforgrpxavat
+      <j:c>
+       <j:e>
+        <j:g>
+-        AWN 2017 f.683 (AWN:65)
++        AWN 2017 f.683 (AWN 2017:65)
+        </j:g>
+       </j:e>
+      </j:c>
diff --git a/lagen/nu/res/patches/dv/patches/HDO/Ö754-17.patch b/lagen/nu/res/patches/dv/patches/HDO/Ö754-17.patch
@@ -0,0 +1,11 @@
+--- qngn/qi/vagrezrqvngr/UQB/Ö754-17.kzy.om2
++++ 
+@@ -25,7 +25,7 @@ Xbeevtrenq eäggfsnyyforgrpxavat
+      <j:c>
+       <j:e>
+        <j:g>
+-        AWN 2017 f.683 (AWN:65)
++        AWN 2017 f.683 (AWN 2017:65)
+        </j:g>
+       </j:e>
+      </j:c>