# Python y codificaci√≥n de caracteres

Las computadoras se dise√±aron originalmente para utilizar el alfabeto ingl√©s con la codificaci√≥n ASCII, del ingl√©s *American Standard Code for Information Interchange*. ASCII cuenta con 128 combinaciones para definir 128 caracteres, incluyendo d√≠gitos (0-9) y las letras a-z y A-Z, entre otros.

ASCII no es capaz de representar la **√±** ni por tanto la palabra **vi√±a**.

A continuaci√≥n, surgieron multitud de versiones extendidas de ASCII para diferentes sistemas operativos e idiomas distintos, dificultado el proceso de codificaci√≥n.
El problema se intent√≥ solucionar con la codificaci√≥n **Unicode**, del ingl√©s Universal Character Set Transformation Format, siendo su representaci√≥n UTF-8 la m√°s utilizada --tambi√©n existen UTF-16 y UTF-32. Unicode corresponde a un mapeo entre n√∫meros y caracteres a mostrar. 

El est√°ndar Unicode describe c√≥mo se representan los caracteres mediante puntos de c√≥digo (code points). Un punto de c√≥digo es un valor entero generalmente escrito en base 16. Por ejemplo, a es U+0061, emoji üñê es U+1F590, y Œ© es U+03A9.

El est√°ndar ASCII define los caracteres correspondientes a los valores entre 0 y 127 y emplea un byte para almacenar cada caracter.

Otro est√°ndar es el Latin-1 (o ISO-8859-1) en el que cada caracter tambi√©n se representa por un byte. Pero en este caso se define una relaci√≥n para los 255 valores posibles. De 0 al 127 son los mismos caracteres que ASCII y el resto se utiliza para incorporar otros caracteres occidentales como la √± o las vocales acentuadas.

Vamos a realizar algunas pruebas aprovech√°ndonos del lenguaje de programaci√≥n python.

In [1]:
## Importamos librer√≠as
import sys

La codificaci√≥n que usa python se puede desvelar llamando a *sys.stdout.encoding*, donde stdout corresponde a la salida por pantalla.

In [2]:
print(sys.stdout.encoding)

UTF-8


Comprobamos el tama√±o de la palabra **vi√±a**

In [3]:
c = 'vi√±a'
print(len(c))
print(c)

4
vi√±a


En Python, cuando una variable es de un tipo inmutable, como por ejemplo una cadena, es posible asignar un nuevo valor a esa variable, pero no es posible modificar su contenido.

En Python 3 las cadenas de caracteres pueden ser de tres tipos:

* El tipo Unicode permite caracteres de m√∫ltiples lenguajes y cada car√°cter en una cadena tendr√° un valor inmutable. 
* El tipo Byte s√≥lo permite caracteres ASCII y los caracteres son tambi√©n inmutables. 
* El tipo Bytearray es igual que Byte pero los caracteres de una cadena si son mutables.


La funci√≥n type() se usa para conocer en cada momento el tipo de datos que se obtiene, seg√∫n las siguientes salidas:

* <class 'str'> = cadena Unicode
* <class 'bytes'> = cadena Byte
* <class 'bytearray'> = cadena Bytearray

Para declarar cadenas Unicode es necesario utilizar las dobles comillas:

In [4]:
lenguaje = "Python"
type(lenguaje) 

str

Para declarar una cadena de texto Byte es necesario emplear las comillas (simples o dobles) para  delimitarla y anteponer el car√°cter ‚Äúb‚Äù:

In [5]:
lenguaje = b"Python"
type(lenguaje) 

bytes

Declaramos una segunda cadena Unicode con ‚Äú√±‚Äù:

In [6]:
pais = "Espa√±a"
type(pais) 

str

¬øQu√© sucede si intentamos declarar una cadena Byte que incluya una "√±"? No es posible porque este car√°cter no se encuentra en la tabla ASCII y se producir√° un error.

In [7]:
pais = b"Espa√±a" 

SyntaxError: bytes can only contain ASCII literal characters. (<ipython-input-7-c25dcb4837a8>, line 1)

Sin embargo, podemos convertir una cadena Unicode en Byte, utilizando la funci√≥n bytes() indicando una codificaci√≥n determinada. Por ejemplo, UTF-8:

In [8]:
pais = bytes("Espa√±a", "utf-8")
print(pais) 
type(pais)

b'Espa\xc3\xb1a'


bytes

Otro ejemplo, con la codificaci√≥n ‚Äúlatin1‚Äù ser√≠a:

In [9]:
pais = bytes("Espa√±a", "latin1")
print(pais)
type(pais)

b'Espa\xf1a'


bytes

Otra forma de convertir una cadena Unicode a Byte, mediante la funci√≥n encode()

In [10]:
pais = "Espa√±a"
pais.encode("latin1")

b'Espa\xf1a'

Para hacer lo inverso, es decir, convertir una cadena Byte a Unicode podemos utilizar la funci√≥n decode().

In [11]:
pais = "Espa√±a"
pais2 = pais.encode("latin1")
pais2.decode("latin1") 

'Espa√±a'

Si intentamos decodificar con una codificaci√≥n inadecuada nos llevar√° a un error.

In [12]:
pais = "Espa√±a"
pais2 = pais.encode("latin1")
pais2.decode("utf-8") 

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf1 in position 4: invalid continuation byte

## Lecturas adicionales

https://docs.python.org/3/howto/unicode.html
https://python-para-impacientes.blogspot.com/2014/07/tipos-de-cadenas-unicode-byte-y.html