# Tipi di dati e funzioni primitive di Python

## Dati primitivi
Sino a questo punto del corso abbiamo usato essenzialmente quattro tipi di dati primitivi:

* `int`: numeri interi
* `float`: numeri "con la virgola" (più precisamente in "virgola mobile" con precisione numerica a 64 bit)
* `bool`: i valori logici True e False
* `NoneType`: è il tipo associato alla parola chiave `None` che abbiamo usato come simbolo di fine lista

Durante l'esecuzione di un programma è sempre possibile controllare il tipo di dato di un oggetto o di una variabile usando la funzione primitiva (o **builtin**) `type`.

**ESEMPIO:**

In [None]:
a = 3
print(type(a))

In [None]:
b = 3.2
print(type(b))

In [None]:
c = a == b
print(c, type(c))

In [None]:
print(type(None))

Tuttavia, in Python i tipi delle variabili sono definiti durante l'esecuzione di un programma (si dice a "runtime"), e i risultati di operazioni tra tipi diversi sono possibili attraverso delle conversioni di tipi implicite.

**ESEMPIO:**

In [None]:
print(type(a), type(b), type(a/b))

In [None]:
print(type(c), type(c+1))

Quando un tipo di dati viene convertito ad un altro tipo di dati si effettua un **cast**.

## Le stringhe
Per rappresentare una sequenza di caratteri possiamo usare un oggetto di tipo **stringa**, ovvero un dato composto di tipo `str`.

I **costruttori** per le stringhe sono:

```
s1 = ''
s2 = ""
s3 = str()
s4 = 'ciao'
```

Per esempio, possiamo scrivere:

In [None]:
a = "Vorrei, ma non posto!"

In [None]:
print(a)

In [None]:
print(type(a))

Attenzione che una stringa è una semplice sequenza di caratteri:

In [None]:
a = '123'
b = '321'
c = a + b
d = 3 * a

In [None]:
type(c)

Quanto vale la variabile `c`?

In [None]:
print('Valore:', c, '- Tipo:', type(c))

In [None]:
print('Valore:', d, '- Tipo:', type(d))

Gli operatori aritmetici sono stati ridefiniti per i dati di tipo stringa in modo tale che:

1. l'operatore di somma effettua la CONCATENAZIONE di due stringhe
2. l'operatore di moltiplicazione, se richiamato con un intero $n$ e una stringa, RIPETE (o concatena) la stringa $n$ volte.

In questi due casi, in termini tecnici si dice che l'operatore è **overloaded**: funziona in modo diverso in base al tipo di dati che gli viene passato.

NOTA: Se si utilizza l'operatore di moltiplicazione tra due stringhe, o si utilizza un qualsiasi operatore aritmetico che non è stato ridefinito, si ottiene un `TypeError`:

In [None]:
a*b

In [None]:
a-b

Il controllo dei tipi degli oggetti viene chiamato **Type Checking** e dipende dal [Type System](https://en.wikipedia.org/wiki/Type_system) definito dal linguaggio di programmazione in uso. Il type system di Python viene chiamato *dinamico* in quanto controllo i tipi degli oggetti durante l'esecuzione dei programmi, e non è necessario specificare il tipo di dati direttamente nel codice.

Le stringhe sono uno dei diversi tipi di dati di Python che rappresentano delle **SEQUENZE** (in questo caso sequenze di caratteri). Alcune operazioni sono comuni per tutti i tipi di sequenze:

* Si può usare la funzione `len(X)` che prende in input una sequenza e restituisce la lunghezza della sequenza. Esempio: `len('abc')` è pari a 3.
* Gli elementi della sequenza possono essere **indicizzati** (in modo simile all'uso della funzione `Nth` vista nell'esercitazione 3). Il primo elemento della sequenza ha indice 0. Se si usa un numero negativo, si inizia a contare dalla fine della sequenza.

In [None]:
'abc'[0]

In [None]:
'abc'[-1]

* È possibile estrarre delle sotto sequenze con un'operazione di *slicing*. Se `s` è una stringa, l'espressione `s[start:end]` restituisce la sotto stringa di `s` che inizia all'indice `start` e termina all'indice `end-1`.

In [None]:
a = "Vorrei, ma non posto!"
print(a[8:14])

Il secondo indice `end` non è compreso in modo tale che l'espressione `s[0:len(s)]` abbia il valore che uno si aspetta. Quest'ultima espressione è equivalente a `s[:]`. 

Se il primo indice viene omesso, di default assume il valore 0.

In [None]:
a[:6]

Se il secondo indice viene omesso, prende il valore di default `len(s)`.

In [None]:
a[1:]

* Per le sequenze è possibile controllare se un elemento appartiene ad una sequenza usando la sintassi: `<elemento> in <sequenza>` che è un predicato che restituisce True o False:

In [None]:
'z' in a

In [None]:
# Distingue le maiuscole (case sensitive)
'v' in a

In [None]:
'V' in a

### Leggere stringhe in input
È possibile prendere in input una stringa da tastiera usando il comando `input`:

In [None]:
n = input("Quanti anni hai? ")

In [None]:
print(n)

In [None]:
type(n)

È possibile anche leggere un file di testo e memorizzare tutto il suo contenuto in un'unica stringa usando i due comandi:

* `filehandle = open(filename, mod, encoding)`: la funzione apre il file con nome "filename"  in modalità "mod" e restituisce un riferimento al file "filehandle". Le modalità di apertura di un file sono: 'r'=lettura, 'w'=scrittura, 'a'=aggiunta. Il tipo di encoding serve per specificare il formato del file di testo; per file che contengono caratteri speciali (i.e., le lettere accentate italiane) si consiglia di usare encoding "utf-8". Si consiglia di leggere la [documentazione completa di open](https://docs.python.org/3/library/functions.html#open).

* `s = filehandle.read()`: legge tutto il file a cui fa riferimento `filehandle` e ne memorizza il contenuto nella stringa `s`.

**ESEMPIO:** Si controlli di avere il file "canzone.txt" nella directory corrente (usare il comando `ls`), e si eseguano i comandi seguenti:

In [None]:
fh = open('./canzone.txt', 'r', encoding="utf-8")
s = fh.read()
print(s)

In [None]:
print(len(s.split(' ')))

In [None]:
print(s.replace('\n','').split(' '))

In [None]:
print(s.lower().replace('\n','').split(' '))

In Python è anche molto semplice leggere delle pagine web e memorizzarle in una stringa. Per fare questo si deve usare la libreria `urllib.request` nel modo seguente:

In [None]:
import urllib.request
with urllib.request.urlopen('http://matematica.unipv.it/gualandi/programming/') as response:
   pagina_corso = str(response.read())

print(pagina_corso.split(' '))

Per maggiori dettagli per la lettura di pagine web, si consiglia leggere la documentazione della libraria [urllib](https://docs.python.org/3/howto/urllib2.html).

### Definizione di procedure su stringhe

**ESERCIZIO:** Scrivere una funzione che prende in input una stringa e stampi a video un carattere alla volta.

In [None]:
def SinglePrint(s):
    if len(s) > 0:
        head, tail = s[0], s[1:]
        print(head, end=' # ')
        SinglePrint(tail)

SinglePrint('abcde')

In [None]:
def SinglePrint2(s):
    def Helper(i, n):
        if i < n:
            print(s[i], end=' # ')
            Helper(i+1, n)
    Helper(0, len(s))
SinglePrint2(a)

Per semplificare la scrittura di procedure che devono essere applicate a ciascun elemento di una sequenza si introduce la **SINTASSI** seguente:

```
for <elemento> in <sequenza>:
    <body>  # in cui si usa l'elemento
```

e quindi possiamo scrivere:

In [None]:
for c in 'abcde':
    print(c, end=' # ')

**NOTA:** Il comando `print` ha due parametri opzionali:

1. `end`: specifica il carattere da usare per terminare la stampa della stringa. Di default è uguale al carattere di ritorno a capo `\n`.
2. `sep`: specifica il carattere da usare per separare più stringhe. Di default è uguale ad uno spazio.

In [None]:
print('uno','due','tre', sep='-->', end='!!!')

### Funzioni builtin per le stringhe
I seguenti metodi sono tutti molto utili e restituiscono delle nuove stringhe lasciando la stringa iniziale immutata:

* `s.count(s1)`: conta qualche volte la stringa `s1` è contenuta in `s`
* `s.find(s1)`: restituisce l'indice della stringa `s` in cui ha trovato per la prima volta la stringa `s1`; altrimenti restituisce -1
* `s.rfind(s1)`: come sopra, ma inizia dalla fine di `s` (la `r` sta per `reversed`)
* `s.lower()`: converte tutte le lettere in minuscolo
* `s.upper()`: converte tutte le lettere in maiuscolo
* `s.replace(old,new)`: sostituisce tutte le sotto stringhe uguali a `old` in `s` con la stringa `new`
* `s.strip()`: rimuove tutti i caratteri blanks iniziali e finali dalla stringa `s`
* `s.strip()`: rimuove tutti i caratteri blanks finali dalla stringa `s`
* `s.split(d)`: suddivide la stringa in sotto stringhe usando il carattere `d` come separatore

In [None]:
'ciao'.upper()

In [None]:
'  ciao - - '.rstrip()

In [None]:
'  ciao - - '.strip()

In [None]:
int('c')

### Conversione di caratteri in interi e di interi in caratteri
In Python non esiste un tipo di dati specifico per identificare un singolo carattere. Tuttavia è possibile convertire un carattere nel suo corrispondente [codice ASCII](https://en.wikipedia.org/wiki/ASCII) usando la funzione `ord(s)` in cui `s` è una stringa di lunghezza 1.

**ESEMPIO:** Stampa a video dei codici ASCII per le lettere minuscole dell'alfabeto:

In [None]:
for c in 'abcdefghijklmnopqrstuvwxyz'.upper():
    print((c, ord(c)), end=', ')

**ESERCIZIO:** Una [palindrome](https://it.wikipedia.org/wiki/Palindromo) è una sequenza di caratteri che si legge allo stesso modo in entrambi i sensi. Scrivere un predicato che prende in input una stringa e restituisce `True` se la stringa è una palindrome, e `False` altrimenti. Testare il predicato scritto con le stringhe seguenti.

In [None]:
s1 = "aibofobia"
s2 = "satorarepotenetoperarotas"
s3 = "aiboifobia"

## Le tuple
Le tuple, come le stringhe, sono delle sequenze *non modificabili* di elementi. A differenza delle stringhe non abbiamo nessun vincolo particolare sul **tipo** degli elementi che appaiono nella sequenza, e possono anche essere tutti diversi tra loro.

I metodi **costruttori** per le tuple sono:

```
t1 = ()
t2 = tuple()
t3 = (1, 2.3, 'cool!', False)
```

I **selettori** principali sono l'operatore di indicizzazione e quelle di slicing.

In [None]:
t = (1, 2.3, 'cool!', False)
print(t)

La "coppia" che abbiamo usato per costruire la nostra libreria `pairslist` è un caso particolare di tupla con lunghezza pari a due.

Sulle tuple, essendo delle SEQUENZE, possiamo applicare gli stessi operatori di base che abbiamo visto per le stringhe:

In [None]:
# Uso della funzione `len`
print(len(t))

In [None]:
# Accesso diretto ad un elemento
print(t[2])

In [None]:
# Gli operatori di slicing
print(t[1:2])

In [None]:
# Test di appartenenza
print('c' in t)
print('2.3' in t)

In [None]:
# Supporto del costrutto <for>
for e in t:
    print(e)

In [None]:
# Concatenazione
t2 = ('prova', 'prova')
print('concatenazione:', t+t2)

In [None]:
# Repetition
print('repetition:',t2*3)

**NOTA:** Per definire una tuple di lunghezza pari a uno, ovvero di un singolo elemento, bisogna usare la strana sintassi `(1,)`: si noti la virgola dopo l'uno.

In [None]:
a=(1)
b=(1,)
print(type(a), type(b))

**ESERCIZIO 2:** Scrivere una funzione che prende in input due tuple e restituisce una tupla che contiene gli elementi che sono sia nella prima che nella seconda tupla. Scrivere anche una funzione di test che comprenda qualche caso significativo.

In [None]:
def Intersect(As, Bs):
    Rs = tuple()
    # DA COMPLETARE COSTRUENDO Rs
    return Rs

def TestZero():
    if Intersect((2,3,4,2,1,2,7), (2,3,2,3,4)) == (2, 3, 4):
        return 'ok'
    return 'failed'

print('Test zero: '+TestZero())
# Intersect((2,3,4,2,1,2,7), (2,3,2,3,4): (2, 3, 4)

In [None]:
t[1]

In [None]:
t[1] = 3

In [None]:
'abcba'[2] = 'd'

**NOTA:** Le stringhe e le tuple sono dei tipi i oggetto non modificabili, ovvero sono dei dati *read only*.

## Le liste
Le **liste** di Python sono delle sequenze di elementi come le tuple, ma a differenza di quest'ultime, possono essere modificate. La sintassi per gestire le liste è simile a quelle delle tuple: la differenza principale consiste nell'usare le parentesi tonde invece delle quadre.

I metodi **costruttori** per le liste sono:

```
L1 = []
L2 = list()
L3 = [1, 2.3, 'cool!', False]
```

Il **selettore** di una lista è l'operatore di indicizzazione che restituisce l'$i$-esimo elemento della lista. Si vedano gli esempi sotto.

In [None]:
Ls = [1, 2.3, 'cool!', False]
print(type(Ls))

In [None]:
Ls[1] = 33.3

In [None]:
print(Ls)

In [None]:
# Lista vuota
print(len([]), type([]))

Anche per le liste possiamo usare tutte le funzioni che vengono solitamente usate in Python per le sequenze di elementi:

In [None]:
# Uso della funzione `len`
print(len(Ls))
# Accesso diretto ad un elemento
print(Ls[2])
# Gli operatori di slicing
print(Ls[1:2])
# Test di appartenenza
print('c' in Ls)
print('2.3' in Ls)
# Supporto del costrutto <for>
for e in Ls:
    print(e)
# Concatenazione
L2 = ['prova', 'prova']
print('concatenazione:', Ls+L2)
# Repetition
print('repetition:',L2*3)

### Il problema di *aliasing*
Si consideri l'esempio seguente, ripreso dal Capitolo 5 del libro di riferimento.

In [None]:
Techs = ['MIT', 'Caltech']
Ivys = ['Harvard','Yale','Penn']
U1 = [Techs, Ivys]
U2 = [['MIT', 'Caltech'], ['Harvard','Yale','Penn']]
print(U1 == U2)
print(id(U1) == id(U2)) # la funzione id() restituisce l'identificativo unico di un oggetto Python

In [None]:
Techs.append('Standford')
print(U1 == U2)

In [None]:
U1[0].remove('Standford')
print(Techs)

**NOTA:** abbiamo due percorsi diversi che portano allo stesso oggetto di tipo lista: il primo attraverso il nome della lista `Techs`, il secondo attraverso il primo elemento della lista `U1`.  Basta modificare uno dei due, che il cambiamento si riflette sull'altro: si parla in questo caso di **side effect**, in quanto si potrebbero introdurre degli effetti non desiderati, difficili da individuare. Notare che problemi di questo tipo non si hanno con strutture dati di tipo *read only*.

**ESERCIZIO 3:** (*obiettivo: intuire il vantaggio di poter avere anche oggi non mutabili*)

Si scriva una funzione che prenda in input due **liste** e che rimuove dalla prima lista ogni elemento che compare nella seconda lista. La funzione non ritorna nulla, ma **modifica** la prima lista data in input. Si può usare il metodo `L.remove(e)` che rimuove dalla lista `L` il primo elemento uguale a `e`.

In [None]:
Ls = [2,3,4,1,5,1]
Ls.remove(1)
print(Ls)

Completare la funzione seguente:

In [None]:
def RimuoviDuplicati(As, Bs):
    # DA COMPLETARE
    pass

L1 = [2, 4, 2, 5, 6, 6, 3, 2, 9, 4]
L2 = [2, 4, 7]
RimuoviDuplicati(L1, L2)
print('L1 =', L1)

### List comprehensions
Quando abbiamo definito i plot di alcune semplici funzioni, abbiamo usato direttamente una sintassi di Python che permette di creare in modo molto semplice delle list: le **list comprehensions**. Esempi:

In [None]:
S = [x**2 for x in range(10)]
V = [2**i for i in range(13)]
M = [x for x in S if x % 2 == 0]

In [None]:
print(S)
print(V)
print(M)

La stessa sintassi si può usare per le stringhe:

In [None]:
Ls = "Vorrei, ma non posto!"
Ls = Ls.split(' ')
print(Ls)

In [None]:
As = [(len(s), s.upper(), s.lower()) for s in Ls]
print(As)

## Dizionari
I dizionari sono una struttura dati molto utilizzati in Python. Sono delle strutture dati che corrispondono a delle liste di coppie **(key, value)**. I dizionari sono degli oggetti **mutabili** come le liste, ma non sono una sequenza ordinata, e quindi non possono essere indicizzati con dei numeri interi, ma sono indicizzati utilizzando le loro chiavi.

Per **costruire** un dizionario vuoto abbiamo due possibilità equivalenti (che corrispondono alla chiamata allo stesso **costruttore**):

```
D1 = {}
D2 = dict()
```
Possiamo anche **costruire** un dizionario con dei valore iniziali:

```
Dict = {'a': 0, 'b': 1, 'c': 2}
```

La **key** viene utilizzata come chiave per indicizzare un **value**. Per esempio:

`Dict["hello"] = "ciao"`

Abbiamo la chiave `hello` utilizzata per indicizzare l'elemento `ciao` nel dizionario `Dict`. Per semplicità, potete pensare ai dizionari a come dei vettori di elementi indicizzati da altri oggetti **immutabili**, come ad esempio delle stringhe o delle tuple.

**ESEMPIO:**

In [None]:
# Creo un dizionario vuoto
Vocabolario = dict()
print(type(Vocabolario))

In [None]:
Vocabolario["keep"] = "stai"
Vocabolario["calm"] = "sereno"
print("Enrico,", Vocabolario["keep"], Vocabolario["calm"])

In [None]:
# E` possibile enumerare i dizionari con un ciclo for
Vocabolario["hello"] = "ciao"
for key in Vocabolario:
    print("chiave:", key, "- valore:", Vocabolario[key])

### Metodi utili sui dizionari
I seguenti metodi sono molto utili per usare i dizionari:

* `len(d)`: restituisce il numero di elementi nel dizionario `d`
* `d.keys()`: restituisce una lista (vista) delle chiavi del dizionario `d`
* `d.values()`: restituisce una lista (vista) dei valori del dizionario `d`
* `key in d`: restituisce `True` se la chiave `key` è nel dizionario `d`
* `d.get(key, value)`: restituisce `d[key]` se `key` è in `d`, altrimenti restituisce il valore `value`
* `d[key] = value`: associa il valore `value` alla chiave `key` nel dizionario `d`
* `del d[key]`: rimuove la chiave `k` dal dizionario `d`
* `for key in d`: itera sulle chiavi del dizionario `d`

**ESERCIZIO 4:** Per ogni carattere (stringa di lunghezza 1) della canzone contenuta nel file "canzone.txt", scrivere:

1. Una funzione `PulisciTesto(s, blanks)` che restituisce una stringa in cui da `s` sono stati rimossi tutti gli elementi in `blanks`.

2. una funzione `ContaCaratteri(c)` che conti il numero di volte che ciascun carattere appare nel testo e restituisce un dizionario dove si ha una "chiave" per ogni carattere e un "valore" pari al numero di volte che il carattere appare nella stringa. Rimuovere la punteggiatura, gli spazi vuoti, e i caratteri speciali. 

3. una funzione `CalcolaFrequenza(d)` che prende in input un dizionario con i conteggi dei caratteri, calcola la frequenza di ciascun carattere, e restituisce un dizionario dove si ha una "chiave" per ogni carattere e un "valore" pari alla frequenza con cui il carattere appare nel testo.

In [None]:
def PulisciTesto(s, blanks):
    r = s[:]
    for c in blanks:
        r = r.replace(c,'')
    return r

def ContaCaratteri(s):    
    D = {}          # Costruttore di un dizionario vuoto
    for c in s:     # Ciclo su tutti caratteri della stringa
        if c in D:
            D[c] += 1
        else:
            D[c] = 1
    return D

def CalcolaFrequenza(D):
    F = {}
    # TODO: completare il dizionario F con le frequenze
    return F

fh = open('./canzone.txt', 'r', encoding="utf-8")
s = fh.read()
# Pulisce la stringa letta
s = PulisciTesto(s, ',?\n”“ ’')
print(ContaCaratteri(s.replace(',','').replace('?','').lower()))