# La codifica dei caratteri

Diamo una dimostrazione pratica delle nozioni che abbiamo discusso a lezione. La principale fonte di ispirazione ad usare Python per illustrare il trattamento della codifica dei caratteri usando Python è stato [questo ottimo articolo](https://www.degruyter.com/document/doi/10.1515/9783110599572-009/html) di [James Tauber](https://github.com/jtauber). Lì troverete anche una miniera di informazioni utilissime e ben spiegate sull'encoding e, soprattutto, su Unicode.

Due parole su [Python](https://www.python.org/). Python è un linguaggio di programmazione interpretato, ovvero che necessita di un particolare programma (un **interprete**) affiché i comandi che noi scriviamo utilizzando la sua sintassi vengano "tradotte" riga per riga nella "lingua madre" del computer.

Questo è un [Jupyter Notebook](https://jupyter-notebook-beginner-guide.readthedocs.io/en/latest/what_is_jupyter.html), ovvero un file che contiene codice scritto in Python eseguibile dall'interprete e caselle di testo come questa. È un ottimo strumento per mischiare codice e spiegazioni!

Cominciamo!

## I punti di codice

In Python possiamo facilmente convertire i caratteri nella loro rappresentazione numerica, ovvero i code point.

Ad esempio sappiamo che in Unicode e in ASCII la lettera `a` (a minuscola) è il carattere 97. Possiamo usare la funzione `ord` per conoscere il code point di un carattere.

In [3]:
ord('a')

97

Viceversa, una funzione (`chr`) ci permette di convertire il punto di codice in stringa

In [5]:
print(chr(97))

a


E la `A` (a maiuscola)? Avrà lo stesso codice? di `a`. Chiediamolo a Python! 

In [6]:
ord('A')

65

Chiediamogli se, per lui, `a` e `A` sono la stessa cosa:

In [7]:
ord('A') == ord('a')

False

La risposa è chiara: no!

Vediamo qualche carattere che non sia nello spazio di ASCII, come ad esempio la alfa greca `α` (con qualche diacritico) o la e con accento grave `è`:

In [12]:
print(f'alfa: {ord("α")}')
print(f'e grave (è): {ord("è")}')
print(f'alfa con spirito aspro e accento acuto: {ord("ἅ")}')

alfa: 945
e grave (è): 232
alfa con spirito aspro e accento acuto: 7941


Quindi, se voglio scrivere la alfa con spirito aspro e accento acuto posso anche passare il valore numerico alla funzione `chr`:

In [13]:
chr(7941)

'ἅ'

## Unicode

Le funzioni `ord` e `chr` restituiscono le relazioni fra i caratteri e i punti di codice definiti in Unicode. La libreria `unicodedata` permette di accedere a molte più informazioni nel database dello standard

In [16]:
import unicodedata

Ad esempio possiamo verificare il nome del carattere con il codice numerico che abbiamo visto sopra (7941)

In [30]:
unicodedata.name(chr(7941))

'GREEK SMALL LETTER ALPHA WITH DASIA AND OXIA'

Possiamo sbizzarrirci. Ad esempio, qual è il carattere 10,000 nel set? Come è fatto?

In [38]:
ch = chr(10000)

print(unicodedata.name(ch))
print(ch)

UPPER RIGHT PENCIL
✐


Se cercate online informazioni sui diversi caratteri unicode (ad es. [qui](https://www.compart.com/en/unicode/U+03B1)), troverete una serie di altri dati. Vedrete che i caratteri sono convenzionalmente identificati con la stringa:

```
U+XXXX
```

Dove `XXXX` è il codepoint, espresso però **in base esadecimale!**. In Python possiamo usare una funzione `hex` per convertire i numeri in base decimale alla base esadecimale. Il carattere alfa, che come abbiamo visto ha il numero 945, in base esadecimale diventa:

In [39]:
hex(945)

'0x3b1'

il numero è: `3b1` (`0x` è il "prefisso" dei numeri esadecimale in Python). Il carattere unicode sarà:

```
U+03b1
```

Potete [verificare online](https://www.compart.com/en/unicode/U+03B1) che è proprio così. Oppure potete testare il numero esadecimale direttamente con `chr`:

In [40]:
print(chr(0x3b1))

α


## La codifica dei caratteri

* il metodo `encode` ci permette di convertire un carattere in byte, specificando la codifica desiderata
* il metodo `decode` ci permette di tornare da byte a caratteri, sempre selezionando la codifica per operare la "lettura"

Ad esempio, proviamo a coficare il carattere Unicode `è` (code point 231) in Latin-1:

In [41]:
chr(232).encode('latin1')

b'\xe8'

Ora proviamo a decodificarlo di nuovo

In [43]:
b'\xe8'.decode('latin1')

'è'

Latin-1 e UTF8 sono compatibili? Cosa succede se prendiamo una stringa ("la vita è bella"), e poi:
* la codifichiamo come UTF-8
* la decodifichiamo com Latin 1?

proviamo!

In [45]:
"la vita è bella".encode("utf8").decode('latin1')

'la vita Ã¨ bella'

ASCII e UTF-8, invece, sono compatibili! Proviamo lo stesso esperimento con un altra stringa (a proposito: perché ci serve un'altra stringa?)

In [47]:
"arma virumque cano".encode('ascii').decode('utf8')

'arma virumque cano'

E se provo a coficare "perché" in ASCII?

In [48]:
'perché'.encode('ascii')

UnicodeEncodeError: 'ascii' codec can't encode character '\xe9' in position 5: ordinal not in range(128)