# Tipizzazione

La tipizzazione, o type checking, è il processo in base al quale il compilatore o l'interprete determina il tipo di dato. Il tipo di dato è una proprietà, un attributo, che permette al compilatore o interprete di verificare il corretto utilizzo del dato stesso, nonché di conoscere informazioni come:

- Vincoli su valori ammicssibili
- Operazioni consentite

Tutti i linguaggi di alto livello possiedono un proprio sistema di tipizzazione dei dati e a volte hanno grosse differenze tra loro.

## Conseguenze della tipizzazione

La tipizzazione in un linguaggio di programmazione ha varie conseguenze riguardo:

- Sicurezza
- Ottimizzazione
- Astrazione
- Documentazione
- Modularità

Analizziamo tutti questi aspetti uno alla volta.

### Sicurezza

L'utilizzo della tipizzazione da parte di un linguaggio di programmazione porta notevoli garanzie per quanto riguarda la sicurezza. Infatti l'identificare il tipo di un dato permette al compilatore o l'interprete di determinare se certe porzioni di codici hanno un senso o ne sono prive.

Possiamo fare un semplice esempio con un'espressione in linguaggio C. Immaginiamo di avere la seguente espressione:

```c
float num = 3 / "2";
```

Il compilatore del linguaggio C analizza il codice scritto e comprende che c'è un'assegnazione di una espressione in una variabile. L'espressione presenta l'operatore divisione e quindi il compilatore deduce che i tipi di valori ammessi per svolgere correttamente questa divisione sono o interi o decimali. Però noi abbiamo scritto un valore di tipo lista di carattere come divisore. Da ciò il compilatore conclude la compilazione ritornando un errore, essendoci un valore non ammesso nel codice.

Segue quindi che la tipizzazione ha un ruolo fondamentale per ridurre i rischi di errori o risultati inattesi a tempo di esecuzione.

### Ottimizzazione

La tipizzazione dei dati, se effettuata a tempo di compilazione, può portare notevoli miglioramenti prestazionali per il codice. Questo perchè porta il compilatore a conoscere i tipi di dati e quindi può permettere di effettuare delle ottimizzazioni su determinate operazioni in fase di generazione del codice.

Un esempio molto semplice può essere la potenza quadrata di un numero intero. Infatti a livello di ottimizzazione è preferibile implementarla come left shift dei bit della base anzichè utilizzare la moltiplicazione tra i due stessi interi.

### Astrazione

Facciamo un paragone tra un programma di basso livello con un programma di alto livello. Il programma di basso livello risulterà come una sequenza di bit, o al limite di codici operativi 1:1 con il linguaggio macchina come l'assembly. Chiaramente per un programmatore leggere uno di questi programmi risulterà alquanto difficile non avendo nessun riferimento di tipologia di dati, ma solamente un grosso insieme di codici.

Un programma di alto livello invece permette di avere un'astrazione più alta di uno di basso livello. Infatti risultà immediato lo scopo del programma avendo riferimenti espliciti come appunto la tipologia dei dati. Per un umano è più facile pensare ad una stringa come un insieme di caratteri anzichè una sequenza di bit.

### Documentazione

Nei sistemi di tipizzazione più espressivi, i nomi dei tipi di dato hanno anche lo scopo di documentare il codice stesso. Con essi è possibile comprenderne il fine del codice e anche l'intento del programmatore che ha scritto questo codice.

Un esempio molto semplice è il tipo di dato timestamp. Esso è banalmente un dato di tipo intero di 32 o 64 bit. Se leggiamo un codice che presenta questa variabile

```c
timestamp time = 1234567890;
```

risulta molto più chiaro lo scopo che ha la variabile stessa piuttosto che la seguente variabile

```c
int time = 1234567890;
```

sebbene entrambe le implementazioni dei tipi dei due dati siano effettivamente le stesse.

### Modularità

Infine la tipizzazione permette di avere una modularità molto forte. Essa permette di definire interfaccie di programmazione, o API, le quali solamente grazie alla signature della funzione stessa è comprensibile cosa essa può o non può fare.

Ovviamente una signature di questo tipo

```c
boolean calcola(int a, int b, int c);
```

è molto più esplicativa della sequente.

```c
calcola(a, b, c);
```

## Esecuzione del type checking

Le operazioni di type checking che determinano il tipo di dato associato a porzioni di codice e ne verificano i valori ammissibili e operazioni consentite possono avvenire in due momenti differenti a seconda dell'architettura del linguaggio:

- A tempo di compilazione
- A tempo di esecuzione

Esistono inoltre soluzioni miste, ovvero che fanno uso della tipizzazione sia a compile time che a runtime.

### Type checking statico

Il type checking statico è caratterizzato dalla esecuzione a tempo di compilazione. Esso infatti eseguirà tutti i suoi controlli sui tipi di dato e valori ammissibili solamente durante il compile time. I principali linguaggi di programmazione che fanno uso di tipizzazione statica sono:

- C e C++
- Pascal
- Go

La tipizzazione statica porta alcuni vantaggi come la sicurezza e l'ottimizzazione, come abbiamo visto anche ad inizio notebook. Dato che il controllo dei tipi di dati viene effettuato prima di eseguire il codice, il compilatore ha la possibilità a compile time di individuare errori con largo anticipo e in più ha la possibilità di ottimizzare porzioni di codice per incrementare le prestazione a tempo di esecuzione.

### Type checking dinamico

Il type checking dinamico invece è caratterizzato dalla esecuzione a tempo di esecuzione. Essendo esso eseguito a runtime, il programma non necessita di dichiarare esplicitamente la tipologia di dato. I linguaggi principali che fanno uso di type checking dinamico sono:

- Python
- Javascript
- Ruby
- Perl

La possibilità di non dichiarare il tipo di dato nel programma implica che la stessa variabile può assumere diversi tipologie di dato a tempo di esecuzione.

Ovviamente questa facilità di prototipazzione ha dei contro. Infatti un programma con tipizzazione dinamica richiede un notevole overhead a tempo di esecuzione, dato che implica maggiori controlli a runtime. In modo analogo richiede anche un uso maggiore di memoria e della gestione di essa. In sostanza, la tipizzazione dinamica rispetto alla statica punta più sulla semplicità di scrittura che alle prestazioni.

Con il type checking dinamico possono essere eseguite operazioni che risulterebbero impensabili in un linguaggio a tipizzazione statica come il C.

Un esempio può essere lo script in Perl che possiamo trovare in ```codes/dynamic_type_checking.pl```. Questo script mostra come il type checking dinamico assegna un tipo diverso alla variabile var a seconda dell'input che passiamo ad esso.

> Per eseguire lo script basta usare il seguente comando in shell: ```./dynamic_type_checking.pl```

Di seguito possiamo vedere una tabella rappresentante ogni output dello script al variare della tipologia di input passato ad esso.

|  | Test 1 | Test 2 | Test 3 | Test 4 | Test 5 |
| --- | :---: | :---: | :---: | :---: | :---: |
| Input | 3.5 | 12 | ciao | "12" | 12ciao |
| Sum | 59.5 | 68 | 56 | 56 | 68 |
| Div | 0.58333 | 2 | 0 | 0 | 2 |

È evidente come, in questo caso nel Perl, a seconda dell'input il tipo di dato di var e quindi tutto il programma può variare notevolmente.

Si ha quindi la necessità di predisporre dei test accurati per evitare di incorrere in situazioni inspettate, dato che con il type checking dinamico aumenta l'eterogeneità delle reazioni che è necessario prevedere.

### Type checking ibrido

Infine esistono alcuni linguaggi che fanno uso sia della tipizzazione statica che di quella dinamica. Un esempio può essere il linguaggio Java.

Java adotta un approccio statico nella tipizzazione dei tipi, mentre adotta un approccio dinamico per quanto riguarda al binding dei metodi con le classi, ovvero identificia la signature valida di un metodo nella gerarchia delle classi.

In generale però il linguaggio Java viene considerato come un linguaggio a tipizzazione statica.

## Tipizzazione forte e debole

Un linguaggio viene definito fortemente o debolmente tipizzato a seconda delle regole che adotta nella tipizzazione dei dati.

Un linguaggio di programmazione adotta una tipizzazione forte se impone regole rigide e impedisce usi non corretti dei tipi di dato. Un classico esempio può essere la somma tra un intero 2 e un carattere rappresentante un numero "3". Questa operazione un linguaggio fortemente tipizzato non la accetta per le stringenti regole e operazioni adottate sui tipi di dato.

Non esiste un linguaggio completamente tipizzato in maniera forte. Questo perchè renderebbe praticamente inutilizzabile il linguaggio stesso.

La tipizzazione debole invece non impedisce operazioni incogruenti, come l'esempio precedente, piuttosto fa utilizzo di operatori di conversione, casting, per rendere i dati omogenei tra loro e quindi rendere possibile l'operazione in questione.

Il linguaggio Java viene considerato fortemente tipizzato, come anche il linguaggio Python. Invece, i linguaggi come C, Perl, sono considerati linguaggi con una tipizzazione più debole.

Il passaggio da un linguaggio di programmazione ad un altro implica una particolare attenzione a questo aspetto della tipizzazione forte o debole. Infatti, proviamo a scrivere una semplice porzione di codice agnostico:

```
var x = 5;
var y = "7";
y + x;
```

Questo codice se implementato in Java avrà un risultato differente dallo stesso codice implementato invece in C o Perl. Proviamo ad implementarli.

Java
```
int x = 5;
String y = "7";
System.out.println(y + x);
```

C
```
int x = 5;
char y = '7';
printf("%i\n", x + y);
```

Python
```
x = 5
y = "7"
print(x + y)
```

Perl
```
$x = 5;
$y = "7";
print($x + $y);
```

Avremo i seguenti risultati:

|  | Java | C | Python | Perl |
| --- | :---: | :---: | :---: | :---: |
| Sum | "57" | 60 | TypeError | 12 |

Java utilizza il casting su x per poi eseguire la concatenazione sulle stringhe.  
C ragiona sui caratteri, ovvero converte il carattere nel relativo codice decimale ASCII e poi effettua la somma.  
Perl esegue il casting su y e fa una somma di interi.  
Python infine ritorna un errore di tipo TypeError, non lo permette.

Da questo semplice paragone è facile comprendere come vari un programma da un linguaggio di programmazione all'altro solamente per il fatto della tipizzazione forte o debole.

## Tipizzazione safe e unsafe

La tipizzazione sicura o insicura, safe o unsafe, si basa sul fatto di terminare o non terminare il programma in presenza di operazioni non consentite. Questo concetto è legato con la tipizzazione forte o debole.

Una tipizzazione safe è caratterizzata dal non produrre crash, e quindi di continuare l'esecuzione del programma, in presenza di operazioni di casting non consentite. Un linguaggio type safe è perl come abbiamo già visto. Il perl non termina praticamente mai l'esecuzione del programma in presenza di operazioni non consentite.

Una tipizzazione unsafe invece permette di interropere, produrre crash, ad operazioni non consentite dal linguaggio di programmazione. Abbiamo visto l'esempio del linguaggio python che interrompe il programma con un errore anzichè operare un casting sulle variabili.

## Duck typing

Finalmente siamo arrivati a definire il già tanto citato duck typing.

Nella teoria dei linguaggi di programmazione, con il termine polimorfismo si intende la capacità di differenziare il comportamento di parti del codice a seconda dell'entità in cui essi sono applicati. Nei linguaggi ad oggetti come java, il polimorfismo è legato al meccanismo dell'ereditarietà. L'ereditarietà garantisce interfaccie per le classi, questo consente di avere sottoclassi di una certa classe con la stessa interfaccia di essa e quindi utilizzarne anche i suoi metodi. In più l'ereditarietà consente l'override dei metodi stessi, quindi una sottoclasse può ridefinire un metodo della superclasse andando così ad alterare il suo funzionamento.

Il generico procedimento che si effettua in un linguaggio ad oggetti per applicare il polimorfismo è sostanzialmente basato sul cercare la signature richiesta nei vari oggetti. Nel caso non venga trovata nell'oggetto stesso, allora si risale la catena ereditaria per verificare se effettivamente la signature risulta presente. Nei linguaggi ad oggetti la ricerca della classe contenente la signature può avvenire sia a compile time che a runtime. Il linguaggio C++ esegue questo controllo a compile time perchè richiede un tempo di esecuzione molto rapido, mentre il linguaggio Java esegue i controlli a runtime.

In linguaggi di programmazione dinamici come Python esiste un secondo modo per ottenere la proprietà del polimorfismo, ovvero il duck typing.

Il duck typing permette di realizzare il concetto di polimorfismo senza dover però necessariamente utilizzare i meccasismi dell'ereditarietà. Il concetto alla base del duck typing è il seguente:

> Se istanzio un oggetto di una classe e ne invoco un metodo o un attributo, l'unica cosa che conta è che il metodo o attributo sia definito per quell'oggetto

È un meccanismo possibile grazie alla presenza della tipizzazione dinamica. Il controllo, duck test, viene effettuato dall'interprete a tempo di esecuzione.

Facciamo un paragone tra un codice Java, senza duck typing, ed un codice Python, con duck typing.

Senza duck typing.
```java
interface Sound {
    void makeSound();
}

public class Quack implements Sound {
    public void makeSound() {
        System.out.println("Quack");
    }
}

public class Duck {
    ...
    public void quack(Sound s) {
        s.makeSound();
    }
    ...
}
```

Con duck typing
```python
class Quack:
    def makeSound():
        print("Quack")

class Bark:
    def makeSound():
        print("Bark")

class Duck:
    def quack(sound):
        sound.makeSound()
```

Il polimorfismo legato all'ereditarietà implica una restrizione alle interfaccie. Infatti in metodo quack di Duck in Java richiede esplicitamente un parametro che sia di tipo Sound per potere chiamare il metodo makeSound. Invece in Python non c'è bisogno. Infatti il duck typing slega il polimorfismo dall'ereditarietà, basta che il parametro che passiamo a quack di Duck abbia una definizione makeSound.

Possiamo anche vederlo in pratica.

In [23]:
class Quack:
    def makeSound(self):
        print("Quack")

class Bark:
    def makeSound(self):
        print("Bark")

class Duck:
    def quack(sound):
        sound.makeSound()

quack = Quack()
bark = Bark()

Duck.quack(quack)
Duck.quack(bark)

Quack
Bark


In generale il polimorfismo a livello di tipo di dato permette di differenziare il comportamento dei metodi in funzione dal tipo di dato a cui sono applicati e di evitare di dover predefinire un metodo, una classe o una struttura dati appositi per ogni possibile combinazione di tipo di dato.

Tutto questo aumenta notevolmente il riuso del codice. Inoltre, in un linguaggio tipizzato dinamicamente, ongi espressione è intrisicamente polimorfa. Un semplice esempio è il seguente.

In [24]:
def calcola(a, b, c):
    return (a + b) * c

Questa funzione richiede tre parametri generici. Con questa semplice signature è possibile fare tre cose differenti tra loro, ovvero avere tre comportamenti diversi per ogni tipo di dato passata ad essa. È altamente polimorfa.

In [26]:
print(calcola(1, 2, 3))
print(calcola([1, 2], [3, 4], 3))
print(calcola("Quack ", "and Bark ", 3))

9
[1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]
Quack and Bark Quack and Bark Quack and Bark 
