PaddlePaddle · yingyibiao · Jul 29, 2022 · Jul 27, 2022 · Jul 27, 2022 · Jul 28, 2022
diff --git a/paddlenlp/transformers/tokenizer_utils.py b/paddlenlp/transformers/tokenizer_utils.py
@@ -1363,7 +1363,13 @@ def get_offset_mapping(self, text):
             if token in self.all_special_tokens:
                 token = token.lower() if hasattr(
                     self, "do_lower_case") and self.do_lower_case else token
-            start = text[offset:].index(token) + offset
+            # Deal with special greek letter with 2 forms (sigma)
+            # https://latin.stackexchange.com/questions/6168/how-and-when-did-we-get-two-forms-of-sigma
+            if "σ" in token or "ς" in token:
+                start = text[offset:].replace("ς", "σ").index(
+                    token.replace("ς", "σ")) + offset
+            else:
+                start = text[offset:].index(token) + offset
 
             end = start + len(token)