Fix Roboflow format: Disable roboflow_tfrecord when tf is not install…

…ed (#1130)  ### Summary  ### How to test  ### Checklist  - [x] I have added unit tests to cover my changes. - [ ] I have added integration tests to cover my changes. - [x] I have added the description of my changes into [CHANGELOG](https://github.com/openvinotoolkit/datumaro/blob/develop/CHANGELOG.md). - [ ] I have updated the [documentation](https://github.com/openvinotoolkit/datumaro/tree/develop/docs) accordingly ### License - [ ] I submit _my code changes_ under the same [MIT License](https://github.com/openvinotoolkit/datumaro/blob/develop/LICENSE) that covers the project. Feel free to contact the maintainers if that's a concern. - [ ] I have updated the license header for each file (see an example below). ```python # Copyright (C) 2023 Intel Corporation # # SPDX-License-Identifier: MIT ```
openvinotoolkit · Aug 29, 2023 · d19ec3e · d19ec3e
1 parent 8ffe5f1
commit d19ec3e
Show file tree

Hide file tree

Showing 12 changed files with 264 additions and 72 deletions.
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -11,6 +11,8 @@ and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0
   (<https://github.com/openvinotoolkit/datumaro/pull/1089>)
 - Support video annotation import/export
   (<https://github.com/openvinotoolkit/datumaro/pull/1124>)
+- Add multiframework (PyTorch, Tensorflow) converter
+  (<https://github.com/openvinotoolkit/datumaro/pull/1125>)
 - Add SAM OVMS and Triton server Docker image builders
   (<https://github.com/openvinotoolkit/datumaro/pull/1129>)
 
@@ -29,6 +31,8 @@ and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0
 ### Bug fixes
 - Fix bugs for Tile transform
   (<https://github.com/openvinotoolkit/datumaro/pull/1123>)
+- Disable Roboflow Tfrecord format when Tensorflow is not installed
+  (<https://github.com/openvinotoolkit/datumaro/pull/1130>)
 
 ## 27/07/2023 - Release 1.4.1
 ### Bug fixes

diff --git a/src/datumaro/plugins/data_formats/roboflow/base.py b/src/datumaro/plugins/data_formats/roboflow/base.py
@@ -6,7 +6,6 @@
 import errno
 import os
 import os.path as osp
-import re
 from typing import Dict, List, Optional, Union
 
 from defusedxml import ElementTree
@@ -26,8 +25,6 @@
 from datumaro.components.media import Image, ImageFromFile
 from datumaro.plugins.data_formats.coco.base import _CocoBase
 from datumaro.plugins.data_formats.coco.format import CocoImporterType, CocoTask
-from datumaro.plugins.data_formats.tf_detection_api.base import TfDetectionApiBase
-from datumaro.plugins.data_formats.tf_detection_api.format import TfrecordImporterType
 from datumaro.plugins.data_formats.voc.base import VocBase
 from datumaro.plugins.data_formats.voc.format import VocImporterType, VocTask
 from datumaro.plugins.data_formats.yolo.base import YoloUltralyticsBase
@@ -319,27 +316,3 @@ def _load_items(self, path):
                 )
 
         return items
-
-
-class RoboflowTfrecord(TfDetectionApiBase):
-    def __init__(
-        self,
-        path: str,
-        *,
-        subset: Optional[str] = None,
-        ctx: Optional[ImportContext] = None,
-    ):
-        super().__init__(
-            path=path, subset=subset, tfrecord_importer_type=TfrecordImporterType.roboflow, ctx=ctx
-        )
-
-    @staticmethod
-    def _parse_labelmap(text):
-        entry_pattern = r'name:\s*"([^"]+)"\s*,\s*id:\s*(\d+)'
-        entry_pattern = re.compile(entry_pattern)
-
-        matches = re.findall(entry_pattern, text)
-
-        labelmap = {name: int(id) for name, id in matches}
-
-        return labelmap
diff --git a/src/datumaro/plugins/data_formats/roboflow/base_tfrecord.py b/src/datumaro/plugins/data_formats/roboflow/base_tfrecord.py
@@ -0,0 +1,80 @@
+# Copyright (C) 2023 Intel Corporation
+#
+# SPDX-License-Identifier: MIT
+
+import os
+import re
+from typing import Optional
+
+from datumaro.components.importer import ImportContext, Importer
+from datumaro.components.lazy_plugin import extra_deps
+from datumaro.plugins.data_formats.tf_detection_api.base import TfDetectionApiBase
+from datumaro.plugins.data_formats.tf_detection_api.format import TfrecordImporterType
+from datumaro.util.tf_util import has_feature
+from datumaro.util.tf_util import import_tf as _import_tf
+
+tf = _import_tf()
+
+
+@extra_deps("tensorflow")
+class RoboflowTfrecordImporter(Importer):
+    @classmethod
+    def find_sources(cls, path):
+        sources = cls._find_sources_recursive(
+            path=path,
+            ext=".tfrecord",
+            extractor_name="roboflow_tfrecord",
+        )
+        if len(sources) == 0:
+            return []
+
+        undesired_feature = {
+            "image/source_id": tf.io.FixedLenFeature([], tf.string),
+        }
+
+        subsets = {}
+        for source in sources:
+            if has_feature(path=source["url"], feature=undesired_feature):
+                continue
+            subset_name = os.path.dirname(source["url"]).split(os.sep)[-1]
+            subsets[subset_name] = source["url"]
+
+        sources = [
+            {
+                "url": url,
+                "format": "roboflow_tfrecord",
+                "options": {
+                    "subset": subset,
+                },
+            }
+            for subset, url in subsets.items()
+        ]
+
+        return sources
+
+
+class RoboflowTfrecordBase(TfDetectionApiBase):
+    def __init__(
+        self,
+        path: str,
+        *,
+        subset: Optional[str] = None,
+        ctx: Optional[ImportContext] = None,
+    ):
+        super().__init__(
+            path=path,
+            subset=subset,
+            tfrecord_importer_type=TfrecordImporterType.roboflow,
+            ctx=ctx,
+        )
+
+    @staticmethod
+    def _parse_labelmap(text):
+        entry_pattern = r'name:\s*"([^"]+)"\s*,\s*id:\s*(\d+)'
+        entry_pattern = re.compile(entry_pattern)
+
+        matches = re.findall(entry_pattern, text)
+
+        labelmap = {name: int(id) for name, id in matches}
+
+        return labelmap
diff --git a/src/datumaro/plugins/data_formats/roboflow/importer.py b/src/datumaro/plugins/data_formats/roboflow/importer.py
@@ -14,7 +14,6 @@
 from datumaro.components.errors import DatasetImportError
 from datumaro.components.format_detection import FormatDetectionConfidence, FormatDetectionContext
 from datumaro.components.importer import Importer
-from datumaro.components.lazy_plugin import extra_deps
 from datumaro.components.merge.extractor_merger import ExtractorMerger
 
 
@@ -32,7 +31,7 @@ def detect(
 
     @classmethod
     def find_sources(cls, path):
-        subset_paths = glob(osp.join(path, "*", cls.ANN_FILE_NAME), recursive=True)
+        subset_paths = glob(osp.join(path, "**", cls.ANN_FILE_NAME), recursive=True)
 
         sources = []
         for subset_path in subset_paths:
@@ -103,7 +102,7 @@ def _filter_ann_file(fpath: str):
             dirname=cls.ANN_DIR_NAME,
             file_filter=_filter_ann_file,
             filename="**/*",
-            max_depth=1,
+            max_depth=2,
             recursive=True,
         )
         if len(sources) == 0:
@@ -115,20 +114,20 @@ def _filter_ann_file(fpath: str):
     def find_sources(cls, path: str) -> List[Dict[str, Any]]:
         sources = cls._get_sources(path)
 
-        subsets = defaultdict(list)
+        subsets = {}
         for source in sources:
             subset_name = osp.dirname(source["url"]).split(os.sep)[-1]
-            subsets[subset_name].append(source["url"])
+            subsets[subset_name] = osp.dirname(source["url"])
 
         sources = [
             {
-                "url": osp.join(path, subset),
+                "url": url,
                 "format": cls.FORMAT,
                 "options": {
                     "subset": subset,
                 },
             }
-            for subset, _ in subsets.items()
+            for subset, url in subsets.items()
         ]
 
         return sources
@@ -169,7 +168,7 @@ def find_sources(cls, path: str) -> List[Dict[str, Any]]:
 
         sources = [
             {
-                "url": osp.join(path, subset),
+                "url": osp.dirname(osp.dirname(urls[0])),
                 "format": cls.FORMAT,
                 "options": {
                     "subset": subset,
@@ -211,34 +210,3 @@ class RoboflowCreateMlImporter(RoboflowCocoImporter):
 class RoboflowMulticlassImporter(RoboflowCocoImporter):
     FORMAT = "roboflow_multiclass"
     ANN_FILE_NAME = "_classes.csv"
-
-
-@extra_deps("tensorflow")
-class RoboflowTfrecord(Importer):
-    FORMAT = "roboflow_tfrecord"
-
-    @classmethod
-    def find_sources(cls, path):
-        sources = cls._find_sources_recursive(
-            path=path, ext=".tfrecord", extractor_name="roboflow_tfrecord", filename="cells"
-        )
-        if len(sources) == 0:
-            return []
-
-        subsets = defaultdict()
-        for source in sources:
-            subset_name = osp.dirname(source["url"]).split(os.sep)[-1]
-            subsets[subset_name] = source["url"]
-
-        sources = [
-            {
-                "url": url,
-                "format": cls.FORMAT,
-                "options": {
-                    "subset": subset,
-                },
-            }
-            for subset, url in subsets.items()
-        ]
-
-        return sources
diff --git a/src/datumaro/plugins/data_formats/tf_detection_api/base.py b/src/datumaro/plugins/data_formats/tf_detection_api/base.py
@@ -16,6 +16,7 @@
 from datumaro.components.lazy_plugin import extra_deps
 from datumaro.components.media import Image
 from datumaro.util.image import decode_image, lazy_image
+from datumaro.util.tf_util import has_feature
 from datumaro.util.tf_util import import_tf as _import_tf
 
 from .format import DetectionApiPath, TfrecordImporterType
@@ -201,4 +202,30 @@ def _parse_tfrecord_file(self, filepath, subset, images_dir):
 class TfDetectionApiImporter(Importer):
     @classmethod
     def find_sources(cls, path):
-        return cls._find_sources_recursive(path, ".tfrecord", "tf_detection_api")
+        sources = cls._find_sources_recursive(
+            path=path,
+            ext=".tfrecord",
+            extractor_name="tf_detection_api",
+        )
+        if len(sources) == 0:
+            return []
+
+        desired_feature = {
+            "image/source_id": tf.io.FixedLenFeature([], tf.string),
+        }
+
+        subsets = {}
+        for source in sources:
+            if has_feature(path=source["url"], feature=desired_feature):
+                subset_name = osp.basename(source["url"]).split(".")[-2]
+                subsets[subset_name] = source["url"]
+
+        sources = [
+            {
+                "url": url,
+                "format": "tf_detection_api",
+            }
+            for _, url in subsets.items()
+        ]
+
+        return sources
diff --git a/src/datumaro/plugins/specs.json b/src/datumaro/plugins/specs.json
@@ -240,7 +240,7 @@
     "extra_deps": []
   },
   {
-    "import_path": "datumaro.plugins.data_formats.roboflow.base.RoboflowTfrecord",
+    "import_path": "datumaro.plugins.data_formats.roboflow.base_tfrecord.RoboflowTfrecordBase",
     "plugin_name": "roboflow_tfrecord",
     "plugin_type": "DatasetBase",
     "extra_deps": [
@@ -748,7 +748,7 @@
     "extra_deps": []
   },
   {
-    "import_path": "datumaro.plugins.data_formats.roboflow.importer.RoboflowTfrecord",
+    "import_path": "datumaro.plugins.data_formats.roboflow.base_tfrecord.RoboflowTfrecordImporter",
     "plugin_name": "roboflow_tfrecord",
     "plugin_type": "Importer",
     "extra_deps": [

diff --git a/src/datumaro/util/tf_util.py b/src/datumaro/util/tf_util.py
@@ -1,8 +1,10 @@
-# Copyright (C) 2019-2022 Intel Corporation
+# Copyright (C) 2019-2023 Intel Corporation
 #
 # SPDX-License-Identifier: MIT
 
 
+import logging as log
+
 enable_tf_check = False
 
 
@@ -90,3 +92,19 @@ def import_tf(check=None):
         pass
 
     return tf
+
+
+def has_feature(path: str, feature) -> bool:
+    tf = import_tf()
+
+    dataset = tf.data.TFRecordDataset(path)
+
+    has_feature = False
+    for record in dataset:
+        try:
+            _ = tf.io.parse_single_example(record, feature)
+            has_feature = True
+        except Exception as e:
+            log.warning("Dataset doesn't have a feature: %s" % str(e))
+            break
+    return has_feature
diff --git a/tests/assets/roboflow_dataset/tfrecord/train/label_map.pbtxt b/tests/assets/roboflow_dataset/tfrecord/train/label_map.pbtxt
@@ -0,0 +1,10 @@
+item {
+name: 'label_0'
+id: 1
+display_name: 'label_0'
+}
+item {
+name: 'label_1'
+id: 2
+display_name: 'label_1'
+}
diff --git a/tests/assets/roboflow_dataset/tfrecord/train/train.tfrecord b/tests/assets/roboflow_dataset/tfrecord/train/train.tfrecord
diff --git a/tests/assets/roboflow_dataset/tfrecord/val/label_map.pbtxt b/tests/assets/roboflow_dataset/tfrecord/val/label_map.pbtxt
@@ -0,0 +1,10 @@
+item {
+name: 'label_0'
+id: 1
+display_name: 'label_0'
+}
+item {
+name: 'label_1'
+id: 2
+display_name: 'label_1'
+}
diff --git a/tests/assets/roboflow_dataset/tfrecord/val/val.tfrecord b/tests/assets/roboflow_dataset/tfrecord/val/val.tfrecord