predict: move face/text recognition into separate models

koush · Apr 23, 2024 · 4d98ccf · 4d98ccf
1 parent ff2d1d5
commit 4d98ccf
Show file tree

Hide file tree

Showing 6 changed files with 16 additions and 12 deletions.
diff --git a/plugins/coreml/src/coreml/__init__.py b/plugins/coreml/src/coreml/__init__.py
@@ -13,7 +13,7 @@
 from scrypted_sdk import Setting, SettingValue
 
 from common import yolo
-from coreml.recognition import CoreMLRecognition
+from coreml.face_recognition import CoreMLFaceRecognition
 
 try:
     from coreml.text_recognition import CoreMLTextRecognition
@@ -143,7 +143,7 @@ async def prepareRecognitionModels(self):
                     "interfaces": [
                         scrypted_sdk.ScryptedInterface.ObjectDetection.value,
                     ],
-                    "name": "CoreML Recognition",
+                    "name": "CoreML Face Recognition",
                 },
             ]
 
@@ -169,7 +169,7 @@ async def prepareRecognitionModels(self):
 
     async def getDevice(self, nativeId: str) -> Any:
         if nativeId == "recognition":
-            return CoreMLRecognition(nativeId)
+            return CoreMLFaceRecognition(nativeId)
         if nativeId == "textrecognition":
             return CoreMLTextRecognition(nativeId)
         raise Exception("unknown device")

diff --git a/plugins/coreml/src/coreml/recognition.py → ...ins/coreml/src/coreml/face_recognition.py b/plugins/coreml/src/coreml/recognition.py → ...ins/coreml/src/coreml/face_recognition.py
@@ -9,7 +9,7 @@
 # from Foundation import NSData, NSMakeSize
 
 # import Vision
-from predict.recognize import RecognizeDetection
+from predict.face_recognize import FaceRecognizeDetection
 
 
 def euclidean_distance(arr1, arr2):
@@ -26,7 +26,7 @@ def cosine_similarity(vector_a, vector_b):
 
 predictExecutor = concurrent.futures.ThreadPoolExecutor(8, "Vision-Predict")
 
-class CoreMLRecognition(RecognizeDetection):
+class CoreMLFaceRecognition(FaceRecognizeDetection):
     def __init__(self, nativeId: str | None = None):
         super().__init__(nativeId=nativeId)
 

diff --git a/plugins/openvino/src/ov/__init__.py b/plugins/openvino/src/ov/__init__.py
@@ -17,7 +17,7 @@
 from predict import Prediction, PredictPlugin
 from predict.rectangle import Rectangle
 
-from .recognition import OpenVINORecognition
+from .face_recognition import OpenVINOFaceRecognition
 try:
     from .text_recognition import OpenVINOTextRecognition
 except:
@@ -337,7 +337,7 @@ async def prepareRecognitionModels(self):
                     "interfaces": [
                         scrypted_sdk.ScryptedInterface.ObjectDetection.value,
                     ],
-                    "name": "OpenVINO Recognition",
+                    "name": "OpenVINO Face Recognition",
                 },
             ]
 
@@ -363,7 +363,7 @@ async def prepareRecognitionModels(self):
 
     async def getDevice(self, nativeId: str) -> Any:
         if nativeId == "recognition":
-            return OpenVINORecognition(self, nativeId)
+            return OpenVINOFaceRecognition(self, nativeId)
         elif nativeId == "textrecognition":
             return OpenVINOTextRecognition(self, nativeId)
         raise Exception("unknown device")
diff --git a/plugins/openvino/src/ov/recognition.py → plugins/openvino/src/ov/face_recognition.py b/plugins/openvino/src/ov/recognition.py → plugins/openvino/src/ov/face_recognition.py
@@ -5,7 +5,7 @@
 
 import numpy as np
 
-from predict.recognize import RecognizeDetection
+from predict.face_recognize import FaceRecognizeDetection
 
 
 def euclidean_distance(arr1, arr2):
@@ -19,7 +19,7 @@ def cosine_similarity(vector_a, vector_b):
     similarity = dot_product / (norm_a * norm_b)
     return similarity
 
-class OpenVINORecognition(RecognizeDetection):
+class OpenVINOFaceRecognition(FaceRecognizeDetection):
     def __init__(self, plugin, nativeId: str | None = None):
         self.plugin = plugin
 

diff --git a/.../tensorflow-lite/src/predict/recognize.py → ...orflow-lite/src/predict/face_recognize.py b/.../tensorflow-lite/src/predict/recognize.py → ...orflow-lite/src/predict/face_recognize.py
@@ -40,7 +40,7 @@ def cosine_similarity(vector_a, vector_b):
 
 predictExecutor = concurrent.futures.ThreadPoolExecutor(1, "Recognize")
 
-class RecognizeDetection(PredictPlugin):
+class FaceRecognizeDetection(PredictPlugin):
     def __init__(self, nativeId: str | None = None):
         super().__init__(nativeId=nativeId)
 
@@ -154,6 +154,10 @@ async def run_detection_image(
         ret = await super().run_detection_image(image, detection_session)
 
         detections = ret["detections"]
+
+        # filter any non face detections because this is using an old model that includes plates and text
+        detections = [d for d in detections if d["className"] == "face"]
+
         # non max suppression on detections
         for i in range(len(detections)):
             d1 = detections[i]

diff --git a/plugins/tensorflow-lite/src/predict/text_recognize.py b/plugins/tensorflow-lite/src/predict/text_recognize.py
@@ -63,7 +63,7 @@ async def detect_once(
         estimate_num_chars = False
         ratio_h = ratio_w = 1
         text_threshold = 0.4
-        link_threshold = 0.7
+        link_threshold = 0.9
         low_text = 0.4
         poly = False