<a href="https://colab.research.google.com/github/macordob/unicode-y-utf_8/blob/main/Unicode_y_UTF_8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Unicode y UTF-8 en Python**
Por defecto la codificación de texto en Python es UTF-8, de modo que podemos incluir cualquier caracter en nuestras expresiones literales.

In [None]:
print('Python habla español.')

Python habla español.


Python 3 también permite cualquier caracter Unicode en los identificadores.

In [None]:
año=2020
print(año)

2020


Podemos codificar y decodificar texto en python usando los métodos encode y decode:


*   El primer argumento indica el método de codificación, Python incorpora más de cien codificaciones diferentes. En el código Python la codificación por defecto es utf-8 pero se puede cambiar con el modificador *coding: latin-1* por ejemplo. La lista de todas las codificaciones disponibles puede consultarse aquí: https://docs.python.org/3/library/codecs.html#standard-encodings

*   El segundo elemento indica qué hacer si encuentra un carácter que dicho método no puede codificar: "strict" lanza un mensaje de error, "replace" lo sustituye con el carácter de reemplazo del sistema de codificación (en Unicode es el U+FFFD), "blackslashreplace" lo sustituye por una contrabarra e "ignore" simplemente deja el carácter fuera del resultado.

* En los siguientes ejemplos usaremos las codificaciones UTF-8, UTF-16BE, y UTF-16LE. Las cadenas codificadas tienen typo "byte", por eso se les añade un prefijo "b".



In [None]:
#Utilizaremos la cadena "Hola, pequeño." en nuestros ejemplos.
str="Hola, pequeño."

El siguiente código codifica la cadena en UTF-8 y luego la decodifica. Sabiendo que \x significa Hexadecimal. ¿Cómo interpretas el output de la cadena codificada? ¿Qué diferencia hay entre los caracteres ASCII y los no-ASCII?


In [None]:
str_encoded= str.encode('utf_8')
print("La cadena codificada en UTF-8 es: ", str_encoded)
str_decoded=str_encoded.decode('utf_8', 'strict')
print("La cadena decodificada es: ", str_decoded)

La cadena codificada en UTF-8 es:  b'Hola, peque\xc3\xb1o.'
La cadena decodificada es:  Hola, pequeño.


La secuencia "\xc3\xb1" es la representación en hexadecimal de "ñ" en el sistema de codificación UTF-8.

"ñ" no está en el repertorio ASCII, de ahí que haya que escribir la secuencia "\xc3\xb1", pues es la codifiación hexadecimal.

La diferencia entre los caracteres ASCII y los no-ASCII es que los ASCII se representan con un solo byte en UTF-8, mientras que para los no-ASCII se necesita más de uno.
En los caracteres no-ASCII podemos encontrar caracteres especiales, como acentos, letras de otros alfabetos e incluso emojis, es por eso, que la "ñ" necesite más de un byte para poder representarse: "\xc3\xb1".

Podemos usar esto para saber si al indicar la codificación UTF-16 python usa por defecto Little Endian o Big Endian. Explica cómo lo hacemos y cuál es la endianness por defecto.

In [None]:
str_encoded= str.encode('utf_16be')
print("The encoded string is: ", str_encoded)
str_decoded=str_encoded.decode('utf_16', 'strict')
print("The decoded string is: ", str_decoded)

The encoded string is:  b'\x00H\x00o\x00l\x00a\x00,\x00 \x00p\x00e\x00q\x00u\x00e\x00\xf1\x00o\x00.'
The decoded string is:  䠀漀氀愀Ⰰ 瀀攀焀甀攀漀⸀


In [None]:
str_encoded= str.encode('utf_16le')
print("The encoded string is: ", str_encoded)
str_decoded=str_encoded.decode('utf_16', 'strict')
print("The decoded string is: ", str_decoded)

The encoded string is:  b'H\x00o\x00l\x00a\x00,\x00 \x00p\x00e\x00q\x00u\x00e\x00\xf1\x00o\x00.\x00'
The decoded string is:  Hola, pequeño.


Si no hay BOM, se utiliza por defecto Little Endian. Esto quiere decir que al descodificar la cadena codificada en UTF_16LE, no habrá ningún problema, como ocurre en el segundo ejemplo. Sin embargo, si la cadena está codificada en UTF_16BE, no se imprimen bien los caracteres, como vemos en el primer caso.

A la vista de lo anterior ¿Cómo interpretas las diferencias en la codificación siguiente con respecto a las anteriores que usaban utf_16be y utf_16le?

Esta cadena está codificada con UTF_16, lo cual podemos deducir gracias a: str.encode('utf_16'). Esto significa que incluye BOM por defecto. La decodificación es más flexible ya que el orden de los bytes se detectan de manera automática. Por otro lado, los anteriores utilizaban UTF_16BE y UTF_16LE, es decir, no tienen BOM y por lo tanto, es necesario que el decodificador conozca de antemano si la cadena está en Big Endian o Little Endian para así interpretarla correctamente.

In [None]:
str_encoded= str.encode('utf_16')
print("The encoded string is: ", str_encoded)
str_decoded=str_encoded.decode('utf_16', 'strict')
print("The decoded string is: ", str_decoded)

The encoded string is:  b'\xff\xfeH\x00o\x00l\x00a\x00,\x00 \x00p\x00e\x00q\x00u\x00e\x00\xf1\x00o\x00.\x00'
The decoded string is:  Hola, pequeño.


Por defecto descodifica en little endian, aún sin decirle nada. Para avisarnos de que ha usado Little Endian usa la BOM.

En el siguiente ejemplo vemos el comportamiento de la opción replace. ¿Por qué no ha entendido el carcácter \x80? ¿Qué explicación puedes dar?




In [None]:
b'hola'.decode("utf-8","strict")

'hola'

In [None]:
b'\x80ola'.decode("utf-8","replace")

'�ola'

El caracter x80 no lo reconoce y no lo puede descodificar porque no es válido en UTF-8.

Como hemos visto, podemos usar el valor hexadecimal de un carácter, que será convertido a bytes antes de codificar.

> Añadir blockquote



In [None]:
b'\x68ola'

b'hola'

Pero no podemos usar caracteres no ASCII dentro del tipo bytes, esto puede suponer un problema que habrá que solucionar con el correspondiente valor hexadecimal.

In [None]:
b'feliz año nuevo'.decode("utf-8","strict")

SyntaxError: bytes can only contain ASCII literal characters (<ipython-input-10-0c9498ac9dfb>, line 1)

Los caracteres no ASCII no pueden decodificarse ("ñ").

In [None]:
b'feliz a\xC3\xB1o nuevo'.decode("utf-8","strict")

'feliz año nuevo'

Si no sabemos de memoria cuál es el código UTF-8 correspondiente a un carácter, podemos usar la función inversa a bytes.decode(), str.encode(), que devuelve la representacióón como bytes de una cadena Unicode, usando la codificación indicada.

**Ejercicio:** Usar la función decode para encontrar el código correspondiente a la letra 'ñ'.

In [None]:
'ñ'.encode()

b'\xc3\xb1'

In [None]:
b'\xc3\xb1'.decode()

'ñ'

Podemos importar la base de datos de información que el estándar Unicode almacena sobre cada codepoint: La información almacenada incluye el nombre del carácter, su categoría, etc..

Ver https://en.wikipedia.org/wiki/Unicode_character_property

In [None]:
import unicodedata
print(unicodedata.name('ñ'))

LATIN SMALL LETTER N WITH TILDE


In [None]:
print(unicodedata.category('ñ'))

Ll


Como vimos en la teoría, una de las características de Unicode es que existen algunos caracteres que pueden combiarse para formar otros, como por ejemplo el acento circunflejo U+0302.

Esto provoca la ambigüedad de que podemos codificar el mismo carácter de dos formas diferentes. Por ejemplo el carácter ê se puede codificar como un único codepoint: U+00EA o como la combinacióón del caracter e U+0065 y el acento circunflejo U+0302

In [None]:
A1=b'\x65\xCC\x82'.decode("utf-8")
A1

'ê'

In [None]:
A2=b'\xC3\xAA'.decode("utf-8")
A2

'ê'

Esta ambigüedad puede provocar problemas al comparar cadenas en que un mismo carácter haya sido codificado de dos formas diferentes

In [None]:
A1==A2

False

Para solucionar esto, **unicodedata** dispone del método **normalize()** que convierte una cadena a una forma normal (existen varias: NFC, NFKC, NFD y NFKD, ver https://unicode.org/reports/tr15/). Esto puede ser de ayuda al tratar datos que contienen texto codificado en UTF-8 de procedencias diversas.

In [None]:
A1=unicodedata.normalize('NFD',A1)
A2=unicodedata.normalize('NFD',A2)
A1==A2

True

In [None]:
unicodedata.normalize('NFD',b'\x65\xCC\x82'.decode("utf-8"))==unicodedata.normalize('NFD',b'\xC3\xAA'.decode("utf-8"))

True

A la hora de escribir y leer desde Python cadenas Unicode en nuestros datos tenemos que tener en cuenta si las aplicaciones o librerías externas de donde recuperamos los datos o donde queremos escribir tienen soporte para Unicode. Por ejemplo los parsers de XML usualmente devuelven datos en Unicode, muchas bases de datos relacionales dan soporte para columnas con valores Unicode y pueden devolver datos en Unicode de una consulta SQL.

Usualmente los datos Unicode se codifican siguiendo una codificación particular antes de escribirlos en disco o transmitirlos. A la hora de leerlos nos econtramos con dos características contradictorias:


* Por un lado al poder codificar ciertos caracteres con distinto número de bytes podemos tener problemas si leemos los bytes en bloques de por ejemplo 512 ó 1024 bytes ya que podríamos cortar la lectura de un carácter.
* Una solución es cargar el fichero entero en RAM y proceder a decodificar, pero esto nos impediría trabajar con ficheros grandes.

La solución es capturar los casos de caracteres codificados con varios bytes entrando a bajo nivel en la codificación. Esta solución está implementada en Python en el método open() que devuleve un objeto similar a un fichero, que asume una codificación y que acepta parámetros para datos Unicode en métodos como read() y write().



In [None]:
with open('mitexto.txt', encoding='utf-8', mode='w') as f:
  f.write('\u4500 y más cosas')

with open('mitexto.txt', encoding='utf-8') as f:
  print(repr(f.readline()))

'䔀 y más cosas'


Finalmente, para los nombres de ficheros, la mayoría de sistemas pueden usar cualquier caracter Unicode. Lo que se hace es convertir la cadena del nombre el fichero a una codificación que depende del sistema. Python usa UTF-8 en MacOs y en Windows (desde la versión 3.6). En Linux y sistemas Unix la codificación por defecto es UTF-8 aunque puede establecerse con las variables LANG o LC_CTYPE.

Podemos saber la codificación usada en nuestro sistema usando la función sys.getfilesystemencoding().

En todo caso, siempre podemos usar caracteres Unicode en los nombres de ficheros y el sistema manejará la codificación. Sigue siendo recomendable en la medida de lo posible que el primer carácter del nombre del fichero sea un carácter ASCII.

In [None]:
import sys
sys.getfilesystemencoding()

'utf-8'

In [None]:
nombre="\u4500fichero.txt"
with open(nombre,'w') as f:
  f.write('¿Puedo escribir cualquier carácter en el fichero '+nombre+'?')

with open(nombre) as f:
  print(repr(f.readline()))


'¿Puedo escribir cualquier carácter en el fichero 䔀fichero.txt?'


En general, a la hora de escribir programas en los que tengamos que manejar cadenas Unicode, deberíamos usar solo las cadenas Unicode de forma interna a nuestros programas, decodificando los datos de entrada y codificando la información que devolvamos. Es mejor usar solamente cadenas o bytes, pero no mezclar ambas (por ejemplo mediante el operador +).

En caso de encontrarnos con necesidad de modificar un fichero del que desconocemos su codificación, si sabemos que es compatible ASCII y solo queremos cambiar la parte ASCII, podemos usar el gestor de errores `surrogateescape`, que lo que hace es decodificar los caracteres no ASCII a codepoints en el rango entre U+DC80 y U+DCFF, y luego estos code pints se devuelven a sus bytes originales cuando surrogateescape codifica los datos para devolverlos. Este es un uso de los caodepoints del rango de subrogados, diferente al utilizado en la codificación UTF-16.

In [None]:
with open(fname,'r', encoding='ascii', errors='surrogateescape') as f:
  data=f.read()

#Hacemos los cambios necesarios en los datos

with open(fname + '.new', 'w', encoding='ascii', errors='surrogateescape') as f:
  f.write(data)

NameError: name 'fname' is not defined

**NOTA FINAL:** este cuaderno es una traducción y adaptación de (partes de) https://docs.python.org/3/howto/unicode.html donde podrás encontrar más información.