Fixed encoding for small Unicode strings

etrepum · Jan 8, 2010 · d068e64 · d068e64
1 parent f34b044
commit d068e64
Show file tree

Hide file tree

Showing 4 changed files with 12 additions and 5 deletions.
diff --git a/CHANGES b/CHANGES
@@ -1,6 +1,6 @@
 Version 0.4 (YYYY-MM-DD)
 
-
+    - Fixed encoding for small Unicode strings with characters in range 128-255
 
 Version 0.3 (2010-01-03)
 

diff --git a/TODO b/TODO
@@ -1,3 +1,5 @@
+- Optimize encoding for lists of bytes (integer in the range 0-255)
+
 - Add new datatypes (dictionaries, bit integer etc.)
 
 - Add support for term compression

diff --git a/src/erlport/erlterms.py b/src/erlport/erlterms.py
@@ -181,11 +181,12 @@ def encode_term(term):
             return "j"
         length = len(term)
         if length <= 65535:
-            for i in term:
-                if ord(i) > 255:
-                    break
+            try:
+                term = term.encode("latin1")
+            except UnicodeEncodeError:
+                pass
             else:
-                return pack(">BH", 107, length) + str(term)
+                return pack(">BH", 107, length) + term
         return encode_term([ord(i) for i in term])
     elif isinstance(term, Atom):
         return pack(">BH", 100, len(term)) + term

diff --git a/src/erlport/tests/erlterms.txt b/src/erlport/tests/erlterms.txt
@@ -43,6 +43,10 @@ Unicode strings:
     '\x83j'
     >>> encode(u"test")
     '\x83k\x00\x04test'
+    >>> encode(u"\x00\xff")
+    '\x83k\x00\x02\x00\xff'
+    >>> encode(u"\u0100")
+    '\x83l\x00\x00\x00\x01b\x00\x00\x01\x00j'
     >>> encode(unicode("тест", "utf-8"))
     '\x83l\x00\x00\x00\x04b\x00\x00\x04Bb\x00\x00\x045b\x00\x00\x04Ab\x00\x00\x04Bj'
     >>> encode(u"X" * 65536) # doctest: +ELLIPSIS