# Python y codificación de caracteres

Las computadoras se diseñaron originalmente para utilizar el alfabeto inglés con la codificación ASCII, del inglés *American Standard Code for Information Interchange*. ASCII cuenta con 128 combinaciones para definir 128 caracteres, incluyendo dígitos (0-9) y las letras a-z y A-Z, entre otros.

ASCII no es capaz de representar la **ñ** ni por tanto la palabra **viña**.

A continuación, surgieron multitud de versiones extendidas de ASCII para diferentes sistemas operativos e idiomas distintos, dificultado el proceso de codificación.
El problema se intentó solucionar con la codificación **Unicode**, del inglés Universal Character Set Transformation Format, siendo su representación UTF-8 la más utilizada --también existen UTF-16 y UTF-32. Unicode corresponde a un mapeo entre números y caracteres a mostrar. 

El estándar Unicode describe cómo se representan los caracteres mediante puntos de código (code points). Un punto de código es un valor entero generalmente escrito en base 16. Por ejemplo, a es U+0061, emoji 🖐 es U+1F590, y Ω es U+03A9.

El estándar ASCII define los caracteres correspondientes a los valores entre 0 y 127 y emplea un byte para almacenar cada caracter.

Otro estándar es el Latin-1 (o ISO-8859-1) en el que cada caracter también se representa por un byte. Pero en este caso se define una relación para los 255 valores posibles. De 0 al 127 son los mismos caracteres que ASCII y el resto se utiliza para incorporar otros caracteres occidentales como la ñ o las vocales acentuadas.

Vamos a realizar algunas pruebas aprovechándonos del lenguaje de programación python.

In [1]:
## Importamos librerías
import sys

La codificación que usa python se puede desvelar llamando a *sys.stdout.encoding*, donde stdout corresponde a la salida por pantalla.

In [2]:
print(sys.stdout.encoding)

UTF-8


Comprobamos el tamaño de la palabra **viña**

In [3]:
c = 'viña'
print(len(c))
print(c)

4
viña


En Python, cuando una variable es de un tipo inmutable, como por ejemplo una cadena, es posible asignar un nuevo valor a esa variable, pero no es posible modificar su contenido.

En Python 3 las cadenas de caracteres pueden ser de tres tipos:

* El tipo Unicode permite caracteres de múltiples lenguajes y cada carácter en una cadena tendrá un valor inmutable. 
* El tipo Byte sólo permite caracteres ASCII y los caracteres son también inmutables. 
* El tipo Bytearray es igual que Byte pero los caracteres de una cadena si son mutables.


La función type() se usa para conocer en cada momento el tipo de datos que se obtiene, según las siguientes salidas:

* <class 'str'> = cadena Unicode
* <class 'bytes'> = cadena Byte
* <class 'bytearray'> = cadena Bytearray

Para declarar cadenas Unicode es necesario utilizar las dobles comillas:

In [4]:
lenguaje = "Python"
type(lenguaje) 

str

Para declarar una cadena de texto Byte es necesario emplear las comillas (simples o dobles) para  delimitarla y anteponer el carácter “b”:

In [5]:
lenguaje = b"Python"
type(lenguaje) 

bytes

Declaramos una segunda cadena Unicode con “ñ”:

In [6]:
pais = "España"
type(pais) 

str

¿Qué sucede si intentamos declarar una cadena Byte que incluya una "ñ"? No es posible porque este carácter no se encuentra en la tabla ASCII y se producirá un error.

In [7]:
pais = b"España" 

SyntaxError: bytes can only contain ASCII literal characters. (<ipython-input-7-c25dcb4837a8>, line 1)

Sin embargo, podemos convertir una cadena Unicode en Byte, utilizando la función bytes() indicando una codificación determinada. Por ejemplo, UTF-8:

In [8]:
pais = bytes("España", "utf-8")
print(pais) 
type(pais)

b'Espa\xc3\xb1a'


bytes

Otro ejemplo, con la codificación “latin1” sería:

In [9]:
pais = bytes("España", "latin1")
print(pais)
type(pais)

b'Espa\xf1a'


bytes

Otra forma de convertir una cadena Unicode a Byte, mediante la función encode()

In [10]:
pais = "España"
pais.encode("latin1")

b'Espa\xf1a'

Para hacer lo inverso, es decir, convertir una cadena Byte a Unicode podemos utilizar la función decode().

In [11]:
pais = "España"
pais2 = pais.encode("latin1")
pais2.decode("latin1") 

'España'

Si intentamos decodificar con una codificación inadecuada nos llevará a un error.

In [12]:
pais = "España"
pais2 = pais.encode("latin1")
pais2.decode("utf-8") 

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf1 in position 4: invalid continuation byte

## Lecturas adicionales

https://docs.python.org/3/howto/unicode.html
https://python-para-impacientes.blogspot.com/2014/07/tipos-de-cadenas-unicode-byte-y.html