argilla-io · frascuchon · Mar 28, 2022 · Mar 28, 2022 · Mar 28, 2022
diff --git a/src/rubrix/client/models.py b/src/rubrix/client/models.py
@@ -329,18 +329,34 @@ def __init__(
     def __tags2entities__(self, tags: List[str]) -> List[Tuple[str, int, int]]:
         idx = 0
         entities = []
+        entity_starts = False
         while idx < len(tags):
             tag = tags[idx]
+            if tag == "O":
+                entity_starts = False
             if tag != "O":
                 prefix, entity = tag.split("-")
-                if prefix == "B":
+                if prefix in ["B", "U"]:
+                    if prefix == "B":
+                        entity_starts = True
                     char_start, char_end = self.token_span(token_idx=idx)
                     entities.append(
-                        {"entity": entity, "start": char_start, "end": char_end}
+                        {"entity": entity, "start": char_start, "end": char_end + 1}
                     )
                 elif prefix in ["I", "L"]:
+                    if not entity_starts:
+                        _LOGGER.warning(
+                            "Detected non-starting tag and first entity token was not found."
+                            f"Assuming {tag} as first entity token"
+                        )
+                        entity_starts = True
+                        char_start, char_end = self.token_span(token_idx=idx)
+                        entities.append(
+                            {"entity": entity, "start": char_start, "end": char_end + 1}
+                        )
+
                     _, char_end = self.token_span(token_idx=idx)
-                    entities[-1]["end"] = char_end
+                    entities[-1]["end"] = char_end + 1
             idx += 1
         return [(value["entity"], value["start"], value["end"]) for value in entities]
 

diff --git a/tests/client/test_models.py b/tests/client/test_models.py
@@ -117,10 +117,11 @@ def test_token_classification_record(annotation, status, expected_status, expect
 @pytest.mark.parametrize(
     ("tokens", "tags", "annotation"),
     [
-        (["Una", "casa"], ["O", "B-OBJ"], [("OBJ", 4, 7)]),
-        (["Matias", "Aguado"], ["B-PER", "I-PER"], [("PER", 0, 12)]),
-        (["Todo", "Todo", "Todo"], ["B-T", "I-T", "L-T"], [("T", 0, 13)]),
-        (["Una", "casa"], ["O", "U-OBJ"], []),
+        (["Una", "casa"], ["O", "B-OBJ"], [("OBJ", 4, 8)]),
+        (["Matias", "Aguado"], ["B-PER", "I-PER"], [("PER", 0, 13)]),
+        (["Todo", "Todo", "Todo"], ["B-T", "I-T", "L-T"], [("T", 0, 14)]),
+        (["Una", "casa"], ["O", "U-OBJ"], [("OBJ", 4, 8)]),
+        (["Todo", "Todo", "Todo"], ["I-T", "I-T", "O"], [("T", 0, 9)]),
     ],
 )
 def test_token_classification_with_tokens_and_tags(tokens, tags, annotation):