open-contracting · jpmckinney · Feb 9, 2021 · Dec 2, 2020 · Dec 2, 2020 · Dec 3, 2020
diff --git a/kingfisher_scrapy/base_spider.py b/kingfisher_scrapy/base_spider.py
@@ -6,7 +6,6 @@
 from math import ceil
 from zipfile import ZipFile
 
-import ijson
 import scrapy
 from jsonpointer import resolve_pointer
 from rarfile import RarFile
@@ -30,17 +29,21 @@ class BaseSpider(scrapy.Spider):
     -  If the spider doesn't work with the ``pluck`` command, set a ``skip_pluck`` class attribute to the reason.
     -  If a spider collect data from CSV or XLSX files, add a ``unflatten = True`` class attribute to process each item
        in the Unflatten pipeline class using the ``unflatten`` command from Flatten Tool.
+    -  If the data source is not packaged within a record or release package set ``root_path`` to point to where the
+       data ``data_type`` is.
     If ``date_required`` is ``True``, or if either the ``from_date`` or ``until_date`` spider arguments are set, then
     ``from_date`` defaults to the ``default_from_date`` class attribute, and ``until_date`` defaults to the
     ``get_default_until_date()`` return value (which is the current time, by default).
     """
-    MAX_RELEASES_PER_PACKAGE = 100
     VALID_DATE_FORMATS = {'date': '%Y-%m-%d', 'datetime': '%Y-%m-%dT%H:%M:%S'}
 
     ocds_version = '1.1'
     date_format = 'date'
     date_required = False
     unflatten = False
+    root_path = ''
+    # override this if the file is in json_line format
+    file_format = None
 
     def __init__(self, sample=None, note=None, from_date=None, until_date=None, crawl_time=None,
                  keep_collection_open=None, package_pointer=None, release_pointer=None, truncate=None, *args,
@@ -242,46 +245,6 @@ def build_file_error_from_response(self, response, **kwargs):
         item.update(kwargs)
         return item
 
-    def _get_package_metadata(self, f, skip_key):
-        """
-        Returns the package metadata from a file object.
-
-        :param f: a file object
-        :param str skip_key: the key to skip
-        :returns: the package metadata
-        :rtype: dict
-        """
-        package = {}
-        for item in util.items(ijson.parse(f), '', skip_key=skip_key):
-            package.update(item)
-        return package
-
-    def parse_json_lines(self, f, *, file_name='data.json', url=None, data_type=None, encoding='utf-8'):
-        for number, line in enumerate(f, 1):
-            if self.sample and number > self.sample:
-                break
-            if isinstance(line, bytes):
-                line = line.decode(encoding=encoding)
-            yield self.build_file_item(number=number, file_name=file_name, url=url, data=line, data_type=data_type,
-                                       encoding=encoding)
-
-    def parse_json_array(self, f_package, f_list, *, file_name='data.json', url=None, data_type=None, encoding='utf-8',
-                         array_field_name='releases'):
-        if self.sample:
-            size = self.sample
-        else:
-            size = self.MAX_RELEASES_PER_PACKAGE
-
-        package = self._get_package_metadata(f_package, array_field_name)
-
-        for number, items in enumerate(util.grouper(ijson.items(f_list, f'{array_field_name}.item'), size), 1):
-            package[array_field_name] = filter(None, items)
-            data = json.dumps(package, default=util.default)
-            yield self.build_file_item(number=number, file_name=file_name, url=url, data=data, data_type=data_type,
-                                       encoding=encoding)
-            if self.sample:
-                break
-
     @classmethod
     def get_default_until_date(cls, spider):
         """
@@ -329,6 +292,7 @@ def parse(self, response):
 class CompressedFileSpider(BaseSpider):
     """
     This class makes it easy to collect data from ZIP or RAR files. It assumes all files have the same data type.
+    Each compressed file is saved to disk. The archive file is *not* saved to disk.
 
     #. Inherit from ``CompressedFileSpider``
     #. Set a ``data_type`` class attribute to the data type of the compressed files
@@ -338,14 +302,11 @@ class CompressedFileSpider(BaseSpider):
 
        ``json_lines``
          Yields each line of each compressed file.
-         The archive file is saved to disk. The compressed files are *not* saved to disk.
        ``release_package``
          Re-packages the releases in the compressed files in groups of
          :const:`~kingfisher_scrapy.base_spider.BaseSpider.MAX_RELEASES_PER_PACKAGE`, and yields the packages.
-         The archive file is saved to disk. The compressed files are *not* saved to disk.
        ``None``
          Yields each compressed file.
-         Each compressed file is saved to disk. The archive file is *not* saved to disk.
 
     #. Write a ``start_requests`` method to request the archive files
 
@@ -363,15 +324,12 @@ def start_requests(self):
     """
 
     encoding = 'utf-8'
-    skip_pluck = 'Archive files are not supported'
     compressed_file_format = None
     archive_format = 'zip'
     file_name_must_contain = ''
 
     @handle_http_error
     def parse(self, response):
-        if self.compressed_file_format:
-            yield self.build_file_from_response(response, data_type=self.archive_format, post_to_api=False)
         if self.archive_format == 'zip':
             cls = ZipFile
         else:
@@ -390,20 +348,20 @@ def parse(self, response):
                 basename += '.json'
 
             data = archive_file.open(filename)
+            # for compressed_file_format == 'release_package' we need to read the file twice: once to extract the
+            # package metadata and then to extract the releases themselves
+            if self.compressed_file_format == 'release_package':
+                package = archive_file.open(filename)
+            else:
+                package = None
 
-            kwargs = {
+            yield File({
                 'file_name': basename,
-                'url': response.request.url,
+                'data': {'data': data, 'package': package},
                 'data_type': self.data_type,
-                'encoding': self.encoding,
-            }
-            if self.compressed_file_format == 'json_lines':
-                yield from self.parse_json_lines(data, **kwargs)
-            elif self.compressed_file_format == 'release_package':
-                package = archive_file.open(filename)
-                yield from self.parse_json_array(package, data, **kwargs)
-            else:
-                yield self.build_file(data=data.read(), **kwargs)
+                'url': response.request.url,
+                'encoding': self.encoding
+            })
 
 
 class LinksSpider(SimpleSpider):

diff --git a/kingfisher_scrapy/extensions.py b/kingfisher_scrapy/extensions.py
@@ -69,14 +69,18 @@ def item_scraped(self, item, spider):
 
         Returns a dict with the metadata.
         """
-        if not isinstance(item, File):
+        if not isinstance(item, (File, FileItem)):
             return
 
         # The crawl's relative directory, in the format `<spider_name>[_sample]/<YYMMDD_HHMMSS>`.
         name = spider.name
         if spider.sample:
             name += '_sample'
-        path = os.path.join(name, spider.get_start_time('%Y%m%d_%H%M%S'), item['file_name'])
+        if isinstance(item, File):
+            file_name = item['file_name']
+        elif isinstance(item, FileItem):
+            file_name = f"{item['number']}-{item['file_name']}"
+        path = os.path.join(name, spider.get_start_time('%Y%m%d_%H%M%S'), file_name)
 
         self._write_file(path, item['data'])
 

diff --git a/kingfisher_scrapy/item_schema/item.json b/kingfisher_scrapy/item_schema/item.json
@@ -32,17 +32,8 @@
           "enum": [
             "record",
             "release",
-            "release_list",
             "record_package",
-            "release_package",
-            "record_package_list",
-            "release_package_list",
-            "record_package_list_in_results",
-            "release_package_list_in_results",
-            "release_in_Release",
-            "zip",
-            "rar",
-            "tar.gz"
+            "release_package"
           ]
         },
         "encoding": {

diff --git a/kingfisher_scrapy/items.py b/kingfisher_scrapy/items.py
@@ -27,6 +27,12 @@ class FileItem(KingfisherItem):
     data = scrapy.Field()
     data_type = scrapy.Field()
     encoding = scrapy.Field()
+    # If a file is split into file items, the file is stored to disk, but not sent to Kingfisher Process.
+    post_to_api = scrapy.Field()
+
+    # Added by the KingfisherFilesStore extension, for the KingfisherProcessAPI extension to read the file.
+    path = scrapy.Field()
+    files_store = scrapy.Field()
 
 
 class FileError(KingfisherItem):

diff --git a/kingfisher_scrapy/middlewares.py b/kingfisher_scrapy/middlewares.py
@@ -1,9 +1,14 @@
 # https://docs.scrapy.org/en/latest/topics/spider-middleware.html
-
+import json
 from datetime import datetime
 
+import ijson
 import scrapy
 
+from kingfisher_scrapy import util
+from kingfisher_scrapy.base_spider import CompressedFileSpider
+from kingfisher_scrapy.items import File
+
 
 class ParaguayAuthMiddleware:
     """
@@ -74,3 +79,102 @@ def process_request(request, spider):
         if 'token_request' in request.meta and request.meta['token_request']:
             return
         request.headers['Authorization'] = spider.access_token
+
+
+class KingfisherTransformMiddleware:
+    """
+    Middleware that corrects the packaging of OCDS data (whether the OCDS data is embedded, line-delimited JSON, etc.).
+    """
+    MAX_RELEASES_PER_PACKAGE = 100
+
+    def process_spider_output(self, response, result, spider):
+        for item in result:
+
+            if not(isinstance(item, File) and (item['data_type'] not in ('release_package', 'record_package') or
+                                               isinstance(spider, CompressedFileSpider) or spider.file_format or
+                                               spider.root_path)):
+                yield item
+                continue
+            kwargs = {
+                'file_name': item['file_name'],
+                'url': item['url'],
+                'data_type': item['data_type'],
+                'encoding': item['encoding'],
+            }
+
+            if isinstance(spider, CompressedFileSpider):
+                data = item['data']['data']
+                package = item['data']['package']
+                compressed_file = True
+            else:
+                data = item['data']
+                package = item['data']
+                compressed_file = False
+            # if it is a compressed file and the file does'nt need any transformation
+            if compressed_file and spider.compressed_file_format is None:
+                item['data'] = data.read()
+                yield item
+            # if it is a compressed file or regular file but as json_lines
+            elif spider.file_format or (compressed_file and spider.compressed_file_format == 'json_lines'):
+                yield from self._parse_json_lines(spider, data, **kwargs)
+            # otherwise is must be a release or record package or a list of them
+            else:
+                yield from self._parse_json_array(spider, package, data, **kwargs)
+
+    def _parse_json_array(self, spider, package_data, list_data, *, file_name='data.json', url=None, data_type=None,
+                          encoding='utf-8'):
+
+        if 'record' in data_type:
+            list_type = 'records'
+        else:
+            list_type = 'releases'
+
+        package = self._get_package_metadata(package_data, list_type, data_type, spider.root_path)
+        # we change the data_type into a valid one:release_package or record_package
+        if data_type in ('release', 'record'):
+            data_type = f'{data_type}_package'
+            key = spider.root_path
+        # if the array is a list of packages then we point to the releases or records items
+        else:
+            key = '.'.join(list(filter(None, [spider.root_path, list_type, 'item'])))
+
+        if spider.sample:
+            size = spider.sample
+        else:
+            size = self.MAX_RELEASES_PER_PACKAGE
+
+        # we yield a release o record package with a maximum of self.MAX_RELEASES_PER_PACKAGE releases or records
+        for number, items in enumerate(util.grouper(ijson.items(list_data, key),
+                                                    size), 1):
+            # to avoid reading the rest of a large file, as the rest of the items will be dropped
+            if spider.sample and number > spider.sample:
+                return
+            package[list_type] = filter(None, items)
+            data = json.dumps(package, default=util.default)
+            yield spider.build_file_item(number=number, file_name=file_name, url=url, data=data,
+                                         data_type=data_type, encoding=encoding)
+
+    def _parse_json_lines(self, spider, data, *, file_name='data.json', url=None, data_type=None, encoding='utf-8'):
+        for number, line in enumerate(data, 1):
+            # to avoid reading the rest of a large file, as the rest of the items will be dropped
+            if spider.sample and number > spider.sample:
+                return
+            if isinstance(line, bytes):
+                line = line.decode(encoding=encoding)
+            yield from self._parse_json_array(spider, line, line, file_name=file_name, url=url, data_type=data_type,
+                                              encoding=encoding)
+
+    def _get_package_metadata(self, data, skip_key, data_type, root_path):
+        """
+        Returns the package metadata from a file object.
+
+        :param data: a data object
+        :param str skip_key: the key to skip
+        :returns: the package metadata
+        :rtype: dict
+        """
+        package = {}
+        if 'package' in data_type:
+            for item in util.items(ijson.parse(data), root_path, skip_key=skip_key):
+                package.update(item)
+        return package
diff --git a/kingfisher_scrapy/settings.py b/kingfisher_scrapy/settings.py
@@ -57,6 +57,9 @@
 #SPIDER_MIDDLEWARES = {
 #    'kingfisher_scrapy.middlewares.MyCustomSpiderMiddleware': 543,
 #}
+SPIDER_MIDDLEWARES = {
+    'kingfisher_scrapy.middlewares.KingfisherTransformMiddleware': 543
+}
 
 # Enable or disable downloader middlewares
 # See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html

diff --git a/kingfisher_scrapy/spiders/argentina_vialidad.py b/kingfisher_scrapy/spiders/argentina_vialidad.py
@@ -11,7 +11,8 @@ class ArgentinaVialidad(SimpleSpider):
       https://datosabiertos.vialidad.gob.ar/ui/index.html#!/datos_abiertos
     """
     name = 'argentina_vialidad'
-    data_type = 'release_package_list'
+    data_type = 'release_package'
+    root_path = 'item'
 
     def start_requests(self):
         url = 'https://datosabiertos.vialidad.gob.ar/api/ocds/package/all'

diff --git a/kingfisher_scrapy/spiders/bolivia_agetic.py b/kingfisher_scrapy/spiders/bolivia_agetic.py
@@ -14,7 +14,7 @@ class BoliviaAgetic(SimpleSpider):
       https://datos.gob.bo/id/dataset/contrataciones-agetic-2019-estandar-ocp
     """
     name = 'bolivia_agetic'
-    data_type = 'release_list'
+    data_type = 'release_package'
     unflatten = True
 
     def start_requests(self):

diff --git a/kingfisher_scrapy/spiders/colombia_bulk.py b/kingfisher_scrapy/spiders/colombia_bulk.py
@@ -13,9 +13,10 @@ class ColombiaBulk(CompressedFileSpider):
     """
 
     name = 'colombia_bulk'
-    data_type = 'release_in_Release'
+    data_type = 'release'
     encoding = 'iso-8859-1'
     compressed_file_format = 'json_lines'
+    root_path = 'Release'
 
     download_timeout = 99999
     custom_settings = {

diff --git a/kingfisher_scrapy/spiders/digiwhist_base.py b/kingfisher_scrapy/spiders/digiwhist_base.py
@@ -14,8 +14,8 @@ class DigiwhistBase(BaseSpider):
     Bulk download documentation
       https://opentender.eu/download
     """
-    skip_pluck = 'JSON Lines is not supported'
     data_type = 'release_package'
+    file_format = 'json_lines'
 
     def start_requests(self):
         # See scrapy.spiders.Spider.start_requests
@@ -24,9 +24,9 @@ def start_requests(self):
 
     @handle_http_error
     def parse(self, response):
-        yield self.build_file_from_response(response, data_type='tar.gz', post_to_api=False)
 
         # Load a line at the time, pass it to API
         with tarfile.open(fileobj=BytesIO(response.body), mode="r:gz") as tar:
             with tar.extractfile(tar.getnames()[0]) as readfp:
-                yield from self.parse_json_lines(readfp, url=self.start_urls[0], data_type=self.data_type)
+                yield self.build_file_from_response(data=readfp, response=response, file_name='data.json',
+                                                    data_type=self.data_type)
diff --git a/kingfisher_scrapy/spiders/kenya_makueni.py b/kingfisher_scrapy/spiders/kenya_makueni.py
@@ -14,7 +14,8 @@ class KenyaMakueni(IndexSpider):
       https://opencontracting.makueni.go.ke/swagger-ui.html#/ocds-controller
     """
     name = 'kenya_makueni'
-    data_type = 'release_package_list'
+    data_type = 'release_package'
+    root_path = 'item'
     limit = 10
     additional_params = {'pageSize': limit}
     yield_list_results = False