(intro-python-notebook)=
# Introduzione a Python

In questo capitolo saranno forniti alcuni concetti utili per l'analisi dei dati utilizzando Python come linguaggio di programmazione e Jupyter come ambiente di sviluppo. Tuttavia, verranno forniti solo brevi accenni sull'argomento poiché esistono numerose risorse online che approfondiscono questo tema. Per coloro che preferiscono una trattazione più completa, si consiglia il libro [A Beginners Guide to Python 3 Programming](https://link.springer.com/book/10.1007/978-3-030-20290-3) di John Hunt (disponibile gratuitamente alla comunità UniFi). Il tutorial ufficiale della documentazione Python, in italiano, è fornito [qui](https://pytutorial-it.readthedocs.io/it/python3.11/index.html).

```{image} images/xkcv_python.png
:height: 460px
:align: center
```

## Cosa significa "programmare"?

Python è un linguaggio di programmazione adatto a molteplici scopi, definito "general purpose". Grazie alla sua versatilità, può essere utilizzato per la creazione di videogiochi, lo sviluppo di siti web, l'analisi dei dati e la creazione di software. Inoltre, Python è stato applicato con successo anche in ambito spaziale: è stato utilizzato per il controllo del "Mars Helicopter", un piccolo elicottero impiegato in una missione di esplorazione su Marte. Conoscere Python è molto [utile](https://www.apa.org/science/about/psa/2019/07/python-research), come evidenziato anche da diversi studi scientifici, poiché una volta acquisite le sue basi, diventa più facile apprendere altri linguaggi di programmazione, come R o JavaScript. I concetti di base della programmazione che saranno trattati in questo corso sono utilizzati in tutti i linguaggi di programmazione.

Python è un linguaggio di programmazione noto per essere facile da capire e divertente da utilizzare, con un nome che rende omaggio ai comici inglesi [Monty Python](https://www.youtube.com/results?search_query=monty+Python). Tuttavia, come tutti i linguaggi di programmazione, richiede tempo ed esercizio per essere appreso. È importante sottolineare fin dall'inizio che nessuno memorizza tutte le istruzioni e le regole sintattiche, ma la maggior parte del tempo viene trascorsa cercando online soluzioni a problemi specifici, effettuando il "debugging" del codice per trovare gli errori e testando il codice stesso. Questo è il normale processo di lavoro di ogni programmatore, indipendentemente dal loro livello di esperienza. Il nostro obiettivo con questa guida è presentare i concetti fondamentali della programmazione, piuttosto che approfondire la sintassi precisa. Quest'ultima può essere facilmente trovata online una volta compresi i concetti di base. Pertanto, saper utilizzare gli strumenti di ricerca, come Google, è una delle competenze più importanti per ogni programmatore. Ricorda sempre che *Google is your friend* (anche se ovviamente si tratta di un'affermazione ironica).

## Espressioni e operatori

I programmi sono composti da espressioni che indicano al computer come combinare i dati. Ad esempio, l'espressione di moltiplicazione è costituita dal simbolo * posizionato tra due numeri. Tali espressioni, come ad esempio 3 * 4, vengono valutate dal computer e il risultato della valutazione (ovvero il valore) dell'ultima espressione presente in una cella del notebook Jupyter viene mostrato nella cella successiva.

Le regole sintattiche di un linguaggio di programmazione sono rigorose. In Python, il simbolo * non può essere inserito due volte consecutivamente. Se un'espressione ha una struttura diversa da quella prescritta, il computer non tenta di interpretarla e segnala un errore di sintassi (SyntaxError). La sintassi di un linguaggio rappresenta l'insieme di tutte le sue regole grammaticali e un SyntaxError indica che la struttura di un'espressione non rispetta nessuna delle regole del linguaggio. Per esempio:

```python
3 * * 4
```

ritorna

```bash
 Cell In[3], line 1
    3 * * 4
        ^
SyntaxError: invalid syntax
```

Anche piccole modifiche apportate ad un'espressione possono alterarne completamente il significato. Nell'esempio seguente, lo spazio tra i due asterischi * è stato rimosso. Tuttavia, poiché i due asterischi compaiono tra due espressioni numeriche, l'espressione risulta ben formata e indica l'elevamento a potenza del primo numero alla potenza del secondo: 3 elevato alla quarta potenza (3 x 3 x 3 x 3). In programmazione, i simboli come `*` e `**` sono chiamati "operatori" e i valori che combinano sono chiamati "operandi".

In [4]:
3 ** 4

81

La tabella seguente riassume i principali operatori binari utilizzati in Python.

| Operazione         | Operatore |
|--------------------|-----------|
|addizione           | `+`       |
|sottrazione         | `-`       |
|moltiplicazione     | `*`       |
|divisione (reale)   | `/`       |
|divisione (intera; rimuove il resto)  | `//` |
|resto (modulo)      | `%`       |
|elevamento a potenza| `**`      |

Le due operazioni che potrebbero essere meno familiari sono `%` (trova il resto di una divisione) e `//` (esegui una divisione scartando il resto). Per esempio, il resto di 3/2 è 1.  La divisione intera (scartando il resto) di 3/2 produce 1.

Usando gli operatori precedenti possiamo dunque usare Python come un calcolatore:

In [None]:
a = 4
b = 2

print("a + b is", a + b)
print("a - b is", a - b)
print("a * b is", a * b)
print("a / b is", a / b)
print("a ** b is", a**b)
print("9 % 4 is", 9 % 4)
print("9 // 4 is", 9 // 4)


L'applicazione degli operatori aritmetici in Python dipende dalle seguenti regole di precedenza degli operatori, che sono analoghe a quelle usate in algebra.

1. Le espressioni tra parentesi vengono valutate per prime. 
2. Successivamente si valutano gli elevamenti a potenza. 
3. In seguito, si valutano moltiplicazioni, divisioni e moduli. 
4. Per ultime vengono valutate somme e sottrazioni. 

In [1]:
1 + 2 * 3 * 4 * 5 / 6 ** 3 + 7 + 8 - 9 + 10

17.555555555555557

In [2]:
1 + 2 * (3 * 4 * 5 / 6) ** 3 + 7 + 8 - 9 + 10

2017.0

## Assegnazione

In una dichiarazione di assegnazione, si specifica un nome seguito dal simbolo uguale (=) e dall'espressione che si vuole assegnare a tale nome. L'operazione di assegnazione consiste nell'associare il valore dell'espressione a destra dell'uguale al nome a sinistra dell'uguale. Da quel momento in poi, ogni volta che quel nome verrà utilizzato in un'espressione, al suo posto verrà utilizzato il valore associato durante l'assegnazione.

In [9]:
a = 10
b = 20
a + b

30

In [10]:
a = 1/4
b = 2 * a
b

0.5

I nomi devono iniziare con una lettera, ma possono contenere sia lettere che numeri. Un nome non può contenere uno spazio; invece, è comune utilizzare il carattere `_` per sostituire ogni spazio. Sta al programmatore scegliere nomi facili da interpretare.

Elenco qui sotto alcuni esempi di nomi di variabili non consentiti:

- first-name
- first@name
- first$name
- num-1
- 1num
- variable name

## I tipi dei dati
Ogni valore ha un tipo e la funzione `type()` restituisce il tipo del risultato di qualsiasi espressione.

In [11]:
type(b)

float

### Numeri

I computer sono principalmente utilizzati per eseguire calcoli numerici, ma ci sono alcune importanti considerazioni da tenere a mente quando si utilizzano numeri in programmazione. In Python (come nella maggior parte degli altri linguaggi di programmazione) esistono due tipi di numeri distinti: `int` e `float`.

- Gli interi, chiamati `int`, possono rappresentare solo numeri interi (positivi, negativi o zero) che non hanno una parte frazionaria.
- I numeri reali, chiamati `float` (o numeri in virgola mobile), possono rappresentare sia numeri interi che frazionari, ma hanno alcune limitazioni. Un `float` può rappresentare la mantissa di un numero decimale solo con una precisione di 15 o 16 cifre, e la precisione oltre questo limite è persa. Tuttavia, questa limitazione è sufficiente per la maggior parte delle applicazioni.
  
In caso si debbano utilizzare numeri molto grandi o molto piccoli, è comune utilizzare la notazione scientifica, ovvero $m \cdot 10^n$. Di solito, il 10 viene omesso e la lettera `E` viene utilizzata per indicare l'esponente. Quindi, `1E9` rappresenta un miliardo e `1E-9` rappresenta un miliardesimo.

Il tipo di un numero può essere facilmente riconosciuto dal modo in cui viene visualizzato: i valori `int` non hanno un punto decimale, mentre i valori `float` hanno sempre un punto decimale.

In [12]:
3

3

In [13]:
3.0

3.0

### Stringhe
Una parte di un testo rappresentato in un computer è chiamata stringa. Una stringa può rappresentare una parola, una frase o persino il contenuto di un libro o di una biblioteca. 

Il significato di un'espressione dipende sia dalla sua struttura che dai tipi di valori che vengono combinati. Quindi, ad esempio, la somma di due stringhe produce un'altra stringa. Questa espressione è ancora un'espressione di addizione, ma combina un diverso tipo di valore. Per esempio:

In [14]:
"data" + "science"

'datascience'

In [15]:
"data" + " " + "science"

'data science'

Le virgolette singole e doppie possono essere utilizzate entrambe per creare delle stringhe: "ciao" e 'ciao' sono espressioni identiche. Le virgolette doppie sono spesso preferite perché consentono di includere virgolette singole all'interno delle stringhe.

In [17]:
"Che cos'è una parola?"

"Che cos'è una parola?"

L'espressione precedente avrebbe prodotto un `SyntaxError` se fosse stata racchiusa da virgolette singole.

#### Metodi

Da una stringa esistente, è possibile costruire altre stringhe utilizzando i *metodi* applicabili alle stringhe, che sono funzioni che operano sulle stringhe. Questi metodi vengono chiamati inserendo un punto dopo la stringa, quindi chiamando la funzione. Ad esempio, il metodo seguente genera una versione maiuscola di una stringa.

In [16]:
"loud".upper()

'LOUD'

### Valori booleani e confronti

Il tipo booleano è un tipo di dati i cui unici valori possibili sono `True` e `False`. Un valore booleano viene ritornato quando si valuta un confronto. Per esempio:

In [1]:
3 > 1 + 1

True

Il valore True indica che il confronto è valido; Python ha confermato questo semplice fatto sulla relazione tra 3 e 1+1. 

Si noti la regola di precedenza: gli operatori >, <, >=, <=, ==, != hanno la precedenza più bassa (vengono valutati per ultimi), il che significa che nell'espressione precedente viene prima valutato (1 + 1) e poi (3 > 2).

#### Operatori di confronto 
Un operatore di confronto è un operatore che esegue un qualche tipo di confronto e restituisce un valore booleano (True oppure False). Per esempio, l'operatore `==` confronta le espressioni su entrambi i lati e restituisce `True` se hanno gli stessi valori e `False` altrimenti. L'opposto di `==` è `!=`, che si può leggere come 'non uguale al valore di'. Gli operatori di confronto sono elencati qui sotto:

| Confronto           | Operatore | 
|---------------------|-----------|
| Minore              | <         |
| Maggiore            | >         |
| Minore o uguale     | <=        |
| Maggiore o uguale   | >=        |
| Uguale              | ==        |
| Non uguale          | !=        |

Ad esempio:

In [18]:
a = 4
b = 2

print("a > b", "is", a > b)
print("a < b", "is", a < b)
print("a == b", "is", a == b)
print("a >= b", "is", a >= b)
print("a <= b", "is", a <= b)

a > b is True
a < b is False
a == b is False
a >= b is True
a <= b is False


Nella cella seguente si presti attenzione all'uso di `=` e di `==`:

In [None]:
boolean_condition = 10 == 20
print(boolean_condition)

L'operatore `=` è un'istruzione di *assegnazione*. Ovvero, crea un nuovo oggetto. L'operatore `==` valuta invece una condizione logica e ritorna un valore booleano. 

Un'espressione può contenere più confronti e tutti devono essere veri affinché l'intera espressione sia vera. Ad esempio:

In [2]:
1 < 1 + 1 < 3

True

#### Operatori Booleani 

Gli operatori booleani confrontano espressioni (non valori) e ritornano un valore booleano. Ad esempio:

In [20]:
a = 2
b = 3

(a + b > a) and (a + b > b)

True

Nella cella sopra le parentesi tonde sono opzionali ma facilitano la lettura.

- `and`  – Ritorna True solo se entrambi le espressioni sono vere, altrimenti ritorna False
- `or`  – Ritorna True se almeno una delle due espressioni è vera, altrimenti ritorna False.
- `not`  – Ritorna True se l'espressione è falsa, altrimenti ritorna False.

Questi operatori si comportano come ci possiamo aspettare. 

In [1]:
True and False

False

In [2]:
True or False

True

In [3]:
not True

False

È possibile eseguire le operazioni aritmetiche sui valori booleani: True equivale a 1 e False a 0. Per esempio:

In [5]:
True + True + False

2

Altri esempi sono i seguenti (si noti l'uso della funzione `len()`):

In [2]:
print(3 > 2)     # True, because 3 is greater than 2
print(3 >= 2)    # True, because 3 is greater than 2
print(3 < 2)     # False,  because 3 is greater than 2
print(2 < 3)     # True, because 2 is less than 3
print(2 <= 3)    # True, because 2 is less than 3
print(3 == 2)    # False, because 3 is not equal to 2
print(3 != 2)    # True, because 3 is not equal to 2
print(len('mango') == len('avocado'))  # False
print(len('mango') != len('avocado'))  # True
print(len('mango') < len('avocado'))   # True
print(len('milk') != len('meat'))      # False
print(len('milk') == len('meat'))      # True
print(len('tomato') == len('potato'))  # True
print(len('python') > len('dragon'))   # False

True
True
False
True
True
False
True
False
True
True
False
True
True
False


In Python, gli operatori logici `and`, `or` e `not` sono utilizzati per combinare o invertire le condizioni booleane.

L'operatore and restituisce True solo se entrambe le condizioni booleane sono vere. Ad esempio, `True and False` restituirà False perché una delle condizioni è falsa.

L'operatore `or` restituisce True se almeno una delle due condizioni booleane è vera. Ad esempio, `True or False` restituirà True perché almeno una delle condizioni è vera.

L'operatore `not` viene utilizzato per invertire il valore di verità di una condizione booleana. Ad esempio, `not True` restituirà False e `not False` restituirà True.

Ecco alcuni esempi di come questi operatori possono essere utilizzati:

In [5]:
print(3 > 2 and 4 > 3) # True - because both statements are true
print(3 > 2 and 4 < 3) # False - because the second statement is false
print(3 < 2 and 4 < 3) # False - because both statements are false
print('True and True: ', True and True)
print(3 > 2 or 4 > 3)  # True - because both statements are true
print(3 > 2 or 4 < 3)  # True - because one of the statements is true
print(3 < 2 or 4 < 3)  # False - because both statements are false
print('True or False:', True or False)
print(not 3 > 2)     # False - because 3 > 2 is true, then not True gives False
print(not True)      # False - Negation, the not operator turns true to false
print(not False)     # True
print(not not True)  # True
print(not not False) # False

True
False
False
True and True:  True
True
True
False
True or False: True
False
False
True
True
False


## Sequenze

Oltre ai numeri e ai valori booleani, Python supporta anche un insieme di "contenitori", ovvero i seguenti tipi strutturati: le liste, le tuple, gli insiemi e i dizionari. 

### Le liste
Una lista è una struttura dati *eterogenea* contentente una sequenza di elementi che possono essere di tipo diverso. Una lista si indica separando i suoi elementi tramite virgola e racchiudendo il tutto tra parentesi quadre. 

In [26]:
my_list = ['Pippo', 3, -2.953, [1, 2, 3]]
my_list


['Pippo', 3, -2.953, [1, 2, 3]]

In [27]:
type(my_list)

list

La lista `my_list` contiene una stringa ('Pippo'), un numero intero (3), un numero decimale (-2.953) e un'altra lista ([1, 2, 3]). Si noti che l'elemento 'Pippo' (una stringa) è racchiuso tra singoli apici (ma potrebbero anche essere doppi apici). 

Gli elementi della lista sono ordinati per indice (index), un numero che si riferisce alla loro posizione nella lista. Gli indici delle liste partono da 0 e aumentano di uno. Per accedere ad un elemento della lista per indice si usa la notazione con la parentesi quadra: `list_name[index]`. Per esempio:

In [9]:
my_list[1]

3

In [10]:
my_list[0]

'Pippo'

Python prevede alcune funzioni che elaborano liste, come per esempio `len` che restituisce il numero di elementi contenuti in una lista:

In [11]:
len(my_list)

4

Benché questa lista contenga come elemento un'altra lista, tale lista nidificata conta comunque come un singolo elemento. La lunghezza di di `my_list` è quattro.

Una lista vuota si crea nel modo seguente:

In [6]:
empty_list = []
len(empty_list)

0

Ecco alcuni esempi.

In [14]:
fruits = ["banana", "orange", "mango", "lemon"]  # list of fruits
vegetables = ["Tomato", "Potato", "Cabbage", "Onion", "Carrot"]  # list of vegetables

print("Fruits:", fruits)
print("Number of fruits:", len(fruits))
print("Vegetables:", vegetables)
print("Number of vegetables:", len(vegetables))


Fruits: ['banana', 'orange', 'mango', 'lemon']
Number of fruits: 4
Vegetables: ['Tomato', 'Potato', 'Cabbage', 'Onion', 'Carrot']
Number of vegetables: 5


Accediamo ad ogni elemento di una lista utilizzando il loro indice. L'indice di una lista parte da 0 e viene specificato usando le parentesi quadre.

In [15]:
fruits[0]

'banana'

In [16]:
fruits[1]

'orange'

Python è un linguaggio di programmazione orientato agli oggetti e le liste sono degli oggetti su cui è possibile invocare *metodi*. Supponiamo di voler mettere in ordine alfabetico i nomi che costituiscono gli elementi di una lista: la corrispondente operazione di ordinamento richiede di invocare sulla lista il metodo `sort` usando la _dot notation_:

In [17]:
names = ['Carlo', 'Giovanni', 'Giacomo']
names.sort()


Tale metodo però non restituisce alcun valore, in quanto l'ordinamento è eseguito _in place_: dopo l'invocazione, gli elementi della lista saranno stati riposizionati nell'ordine richiesto.  Visualizziamo la listra trasformata:

In [18]:
names

['Carlo', 'Giacomo', 'Giovanni']

L'invocazione di metodi (e di funzioni) prevede anche la possibilità di specificare degli argomenti _opzionali_. Per esempio:

In [19]:
names.sort(reverse=True)
names

['Giovanni', 'Giacomo', 'Carlo']

Il metodo `remove()` può essere usato per rimuovere elementi da una lista.

In [20]:
print(fruits)
fruits.remove("banana")
print(fruits)


['banana', 'orange', 'mango', 'lemon']
['orange', 'mango', 'lemon']


Il metodo `insert()` può essere usato per aggiungere elementi ad una lista.

In [21]:
print(fruits)
fruits.insert(2, "watermelon")
print(fruits)

['orange', 'mango', 'lemon']
['orange', 'mango', 'watermelon', 'lemon']


È possibile copiare una lista in una nuova variabile:

In [23]:
print(fruits)
new_fruits = fruits.copy()

['orange', 'mango', 'watermelon', 'lemon']


In [24]:
print(new_fruits)

['orange', 'mango', 'watermelon', 'lemon']


### Operazioni su liste

L'operatore `+` concatena liste:

In [None]:
a = [1, 2, 3]
b = [4, 5, 6]
c = a + b
print(c)

In maniera simile, l'operatore `*` ripete una lista un certo numero di volte:

In [None]:
[0] * 4
[1, 2, 3] * 3

Il punto importante è che, essendo una sequenza di elementi *etorogenei* è difficile fare delle operazioni algebriche sulle liste in puro Python. Ad esempio, supponiamo di avere la seguente lista:

In [2]:
x = [1, 2, 3]
x

[1, 2, 3]

Vogliamo calcolare una cosa semplice, per esempio, la media di `x`. Per farlo dobbiamo seguire una procedura piuttosto articolata. Per esempio:

In [4]:
total = 0
counter  = 0

for num in x:
    counter += 1
    total += num

avg = total / counter

print(avg)

2.0


Chiaramente, sarebbe preferibile ottenere questo risultato con un approccio più semplice. Successivamente, vedremo che se utilizziamo una sequenza di elementi *omogenei*, il problema può essere risolto in modo molto più facile.


In [6]:
import numpy as np

x = np.array([1, 2, 3])
np.mean(x)

2.0

Possiamo contare il numero degli elementi specificati che sono contenuti in una lista usando `count()`.

In [25]:
ages = [22, 19, 24, 25, 26, 24, 25, 24]
print(ages.count(24))         

3


Possiamo trovare l'indice di un elemento in una lista con `index()`.

In [26]:
ages.index(24)  # index of the first occurrence

2

### Operatore slice

L'operatore slice può essere applicato alle liste.

In [None]:
t = ["a", "b", "c", "d", "e", "f"]
t[1:3]

In [None]:
t[:4]


In [None]:
t[3:]

Se si omette il primo indice, la sezione parte dall'inizio. Se si omette il secondo, la sezione arriva alla fine della lista. Quindi, se si omettono entrambi gli indici, la sezione è una copia dell'intera lista:

In [None]:
t[:]

### Metodi applicati alle liste

Python fornisce diversi metodi per operare sulle liste. Ad esempio, il metodo `append` aggiunge un nuovo elemento alla fine della lista.

In [None]:
print(t)

In [None]:
t.append("g")
print(t)

Il metodo `sort` ritorna gli elementi della lista in ordine crescente:

In [None]:
t = ["d", "c", "e", "b", "a"]
t.sort()
print(t)

### Le tuple

Una tupla è una collezione di diversi tipi di dati che è ordinata e immutabile (non modificabile). Le tuple sono scritte tra parentesi tonde, (). Una volta creata una tupla, non è possibile modificarne i contenuti.

In [29]:
colors = ('Rosso', 'Nero', 'Bianco')
colors

('Rosso', 'Nero', 'Bianco')

In [30]:
type(colors)

tuple

Le stringhe sono tuple di caratteri. Pertanto non sono modificabili.

### Gli insiemi
Gli insiemi sono una collezione finita di elementi tra loro distinguibili e non memorizzati in un ordine particolare. Non è possibile che un insieme contenga più di un'istanza di un medesimo elemento.

Per creare un insieme si utilizzano le parentesi graffe. Ad esempio:

In [27]:
my_set = {"A", "B", "C", "D", "E", "F"}
my_set

{'A', 'B', 'C', 'D', 'E', 'F'}

In [28]:
type(my_set)

set

Per verificare se un elemento esiste in un insieme usiamo l'operatore `in`.

In [29]:
print("Does set my_set contain D? ", "D" in my_set)


Does set my_set contain D?  True


Possiamo aggiungere un elemento ad un insieme con il metodo `add()`.

In [30]:
my_set.add("G")
print(my_set)

{'E', 'C', 'A', 'D', 'F', 'B', 'G'}


Il metodo `update()` consente di aggiungere elementi multipli ad un insieme. Il metodo `update()` prende come argomento una lista.

Possiamo rimuovere un elemento ad un insieme con il metodo `remove()`.

In [31]:
print(my_set)
my_set.remove("B")
print(my_set)

{'E', 'C', 'A', 'D', 'F', 'B', 'G'}
{'E', 'C', 'A', 'D', 'F', 'G'}


L'unione di due insieme si ottiene con `union()`.

In [32]:
fruits = {"banana", "orange", "mango", "lemon"}
vegetables = {"tomato", "potato", "cabbage", "onion", "carrot"}
print(fruits.union(vegetables))


{'tomato', 'orange', 'lemon', 'cabbage', 'potato', 'carrot', 'banana', 'mango', 'onion'}


L'unione di due insieme si trova con `intersection()`.

In [34]:
python = {"p", "y", "t", "h", "o", "n"}
dragon = {"d", "r", "a", "g", "o", "n"}
python.intersection(dragon)


{'n', 'o'}

Un insieme può essere un sottoinsieme o un sovrainsieme di altri insiemi.

Sottoinsieme: `issubset()`
Sovrainsieme: `issuperset()`

In [36]:
st1 = {"item1", "item2", "item3", "item4"}
st2 = {"item2", "item3"}
st2.issubset(st1)


True

In [37]:
st1.issuperset(st2) 

True

La differenza tra due insiemi si ottiene con `difference()`.

In [38]:
whole_numbers = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
even_numbers = {0, 2, 4, 6, 8, 10}
whole_numbers.difference(even_numbers)


{1, 3, 5, 7, 9}

Possiamo verificase se due insiemi sono disgiunti (non hanno elementi in comune) con `isdisjoint()`.

In [39]:
st1 = {"item1", "item2", "item3", "item4"}
st2 = {"item2", "item3"}
st2.isdisjoint(st1)


False

###  I dizionari
I dizionari servono a memorizzare delle associazioni tra oggetti. Sono costituiti da insiemi di coppie (chiave, valore), dove una data chiave non occorre più di una volta. Un dizionario viene creato indicando ogni coppia come `chiave : valore`, separando le varie coppie con delle virgole e racchiudendo il tutto tra parentesi graffe. Ad esempio:

In [43]:
music = {
    "blues": "Betty Smith",
    "classical": "Gustav Mahler",
    "pop": "David Bowie",
    "jazz": "John Coltrane",
}

L'accesso agli elementi di un dizionario viene fatto specificando all'interno di parentesi quadre la chiave per ottenere o modificare il valore corrispondente:

In [44]:
music["pop"]

'David Bowie'

Per trovare il numero di coppie `key: value` nel dizionario usiamo `len()`.

In [45]:
print(len(music))

4


In [46]:
music['new music'] = 'Missy Mazzoli'
print(music)

{'blues': 'Betty Smith', 'classical': 'Gustav Mahler', 'pop': 'David Bowie', 'jazz': 'John Coltrane', 'new music': 'Missy Mazzoli'}


### Contenitori vuoti

A volte è utile creare dei contenitori vuoti. I comandi per creare liste vuote, tuple vuote, dizionari vuoti e insiemi vuoti sono rispettivamente `lst = []`, `tup=()`, `dic={}` e `st = set()`.

## Funzioni

Diciamo che, con la programmazione, l'unico limite è la nostra immaginazione. Ma all'aumentare della complessità del problema che vogliamo risolvere aumenta anche la complessità (e la lunghezza) del codice. Più è lungo e complesso è il codice, maggiori sono le possibilità che qualcosa possa andare storto e la correzione degli errori risulta più difficile. È sempre possibile, infatti, che il codice contenga degli errori; dunque, il debugging (ovvero, la correzione degli errori) è una delle attività più importanti che deve svolgere chi scrive il codice. Ma se il codice è molto lungo e complesso, il debugging diventa quasi impossibile: gli errori si propagano e non è semplice scoprirne la causa. I linguaggi di programmazione, perciò, ci forniscono degli strumenti che facilitano il debugging. Il più importante di questi strumenti sono le funzioni.

Nella programmazione, una funzione ha un input, esegue delle operazioni e restituisce un eventuale output. Python ha un gran numero di funzioni integrate. È possibile importare altre funzioni da pacchetti aggiuntivi o definire nuove funzioni. Consideriamo la definizione di una nuova funzione. La definizione di una funzione in Python viene fatta utilizzando la parola chiave `def` seguita dal nome della funzione e dai nomi simbolici per i suoi argomenti, separati da virgole e racchiusi tra parentesi. La definizione procede con un carattere di due punti e dal corpo della funzione le cui istruzioni devono essere indentate di un livello. Ciò che viene ritornato dalla funzione è contenuto nell'ultima riga del corpo della funzione ed è indicato dopo la parola chiave `return`.

In [1]:
def add_numbers(a, b):
    """
    Add two numbers together

    Returns
    -------
    the_sum : type of arguments
    """
    return a + b


Una volta definita una funzione, è possibile eseguirla (operazione cui ci si riferisce spesso con la locuzione "chiamata di funzione"), passando argomenti diversi a seconda della situazione. La funzione `add_numbers` può essere usata per sommare due numeri, per esempio, 20 e 10:

In [2]:
add_numbers(20, 10)

30

Consideriamo la funzione `roll_die()`:

In [3]:
import random


def roll_die():
    """returns a random int between 1 and 6"""
    return random.choice([1, 2, 3, 4, 5, 6])


Il corpo della funzione è costituito da un'unica riga di codice nella quale viene utilizzata la funzione `choice()`, della libreria `random` a cui è stata passata una lista. Questo significa che una funzione può utilizzare altre funzioni che sono già state definite. In questo caso, tutto quello che fa questa funzione è specificare l'argomento che viene passato a `choice()`. La funzione `choice()` ritornerà un numero a caso tra quelli specificati in input. Dunque, la funzione `roll_die()` simula il lancio di un dado:

In [4]:
roll_die()

4

In [5]:
roll_die()

1

Si noti inoltre la `docstring`, cioè una stringa (in genere racchiusa tra """...""") che si trova come prima istruzione all'interno di una funzione. La `docstring` contiene informazioni sullo scopo e sulle modalità d'uso della funzione. 

### Introspection

Usando un punto interrogativo (?) prima o dopo una variabile è possibile visualizzare alcune informazioni generale su quell'oggetto. Nel caso di una funzione viene stampata la `doc string`.

In [6]:
roll_die?

[0;31mSignature:[0m [0mroll_die[0m[0;34m([0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m returns a random int between 1 and 6
[0;31mFile:[0m      /var/folders/cy/4xdvhqx966nggmk95hsnyzc40000gn/T/ipykernel_9379/2724116746.py
[0;31mType:[0m      function


### Metodi

Le funzioni che sono immagazzinate all'interno di una classe sono chiamate *metodi* (*methods*). Per esempio, nel capitolo {ref}`intro-pandas-notebook` vedremo che i dati possono essere immagazzinati in un oggetto chiamato DataFrame. Un tale oggetto appartiene alla classe `pandas.DataFrame`. Ad un DataFrame, possono essere applicate varie funzioni specifiche per quella classe di oggetti. Ad esempio, se il DataFrame si chiama `df`, il metodo `hist()` con la seguente sintassi `df.hist(column="column_name")` produrrà un istogramma dei valori contenuti nella colonna `column_name`.

I metodi sono dunque delle funzioni e vanno distinti dagli *attributi* (*attributes*). Gli attributi vengono invocati con la sintassi `object.name_of_the_attribute`, e restituiscono un valore. Ad esempio, l'attributo `.shape` applicato al DataFrame `df`, `df.shape`, ritorna il numero di righe e di colonne di `df`.

### La funzione `lambda`

Python offre una sintassi alternativa, che ci permette di dichiarare semplici funzioni *inline*, ovvero in una singola linea di codice. Le funzioni che vengono create in questo modo sono chiamate anonime (non hanno bisogno di essere definite in quanto vengono utilizzate solo al momento) e richiedono la parola chiave `lambda` seguita da un elenco di argomenti, un carattere di due punti, e l'espressione per valutare gli argomenti ed infine il valore in entrata. Nell'esempio seguente sommiamo 1 al valore passato in input:

In [30]:
(lambda x : x + 1)(2)

3

In questo esempio sommiamo i due numeri in entrata:

In [31]:
(lambda x, y: x + y)(2, 3)


5

È anche possibile assegnare un nome alla funzione lambda:

In [32]:
myadd = lambda x, y: x + y


In [37]:
myadd(20, 10)

30

La sintassi seguente è valida in quanto, per l'interprete, il carattere `_` corrisponde all'ultima funzione che è stata valutata:

In [56]:
lambda x, y: x + y

<function __main__.<lambda>(x, y)>

In [57]:
_(20, 10)

30

Si noti abbiamo valutato la funzione `lambda x, y: x + y` in una cella precedente a quella che contiene `_(20, 10)`; inserendo le due espressioni in una singola cella si ottiene un `SyntaxError`.

### Le funzioni `map()` e `filter()`

Per gli esercizi che svolgeremo in seguito, risultano utili le funzioni `map()` e `filter()`.

La funzione `map()` prende come input una funzione e una lista, e restituisce il risultato dell'applicazione della funzione a ciascun elemento della lista (è anche possibile usare qualsiasi oggetto iterabile al posto della lista). La lista stessa rimane invariata. Ad esempio, la seguente linea di codice eleva al quadrato ciascuno degli elementi della lista `a` e salva il risultato nella lista `b`:

In [61]:
a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
b = list(map(lambda x: x * x, a))
b

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

Un'altra funzione molto utile per manipolare gli oggetti iterabili è la funzione `filter()`. Questa funzione filtra un oggetto iterabile selezionando solo gli elementi che rispondono ad un determinato predicato. (Il predicato è una funzione che restituisce un booleano). Per esempio

In [63]:
c = list(filter(lambda x: x > 50, b))
c

[64, 81, 100]

Sia `map()` che `filter()` restituiscono risultati che non sono ancora stati calcolati. 

In [64]:
filter(lambda x: x > 50, b)

<filter at 0x7ff56cea6c50>

Possiamo visualizzare il risultato convertendolo in una lista:

In [65]:
list(filter(lambda x: x > 50, b))

[64, 81, 100]

### La funzione `zip()`

La funzione `zip()` crea una lista di tuple dagli elementi di due contenitori. Come nel caso delle operazioni precedenti, gli elementi vengono calcolati solo quando viene richiesto. Per esempio:

In [69]:
a = list(range(4))
a

[0, 1, 2, 3]

In [75]:
b = list(range(4, 8))
b

[4, 5, 6, 7]

In [76]:
b = zip(a, b)
b

<zip at 0x7ff56dedac80>

In [77]:
list(b)

[(0, 4), (1, 5), (2, 6), (3, 7)]

## Il flusso di esecuzione

In Python il codice viene eseguito sequenzialmente, partendo dalla prima riga fino a quando non c'è più nulla da eseguire. L'ordine di esecuzione delle varie istruzioni è detto *flusso di esecuzione*. 

Per esempio la cella seguente prima memorizza la lista `names`, poi la lista `born` e infine la lista `dead`.  

In [None]:
names = ["Sigmund Freud", "Jean Piaget", "Burrhus Frederic Skinner", "Albert Bandura"]
born = [1856, 1896, 1904, 1925]
dead = [1939, 1980, 1990, None]

Ho usato il valore speciale `None` in quanto non risulta disponibile l'anno. In queste situazioni si parla di *valori mancanti* (*missing values*) che, di norma, vengono indicati con la sigla NA (*not available*). 

La cella seguente include le istruzioni condizionali che specificano se e quando devono essere eseguiti determinati blocchi di codice. La più semplice istruzione di controllo è l'istruzione `if`. Per esempio:

In [78]:
name = "Maria"
grade = 29

if name == "Maria" and grade > 28:
    print("Maria, hai ottenuto un ottimo voto all'esame!")

if name == "Giovanna" or grade > 28:
    print(
        "Tu potresti essere Giovanna oppure potresti avere ottenuto un ottimo voto all'esame."
    )

if name != "Giovanna" and grade > 28:
    print("Tu non sei Giovanna ma hai ottenuto un ottimo voto all'esame.")


Maria, hai ottenuto un ottimo voto all'esame!
Tu potresti essere Giovanna o potresti avere ottenuto un ottimo voto all'esame.
Tu non sei Giovanna ma hai ottenuto un ottimo voto all'esame.


Tutte e tre le condizioni precedenti ritornano `True`, quindi vengono stampati tutti e tre i messaggi. 

Si noti che `==` e `!=` confrontano *valori*, mentre `is` e `not` confrontano *oggetti*. Per esempio,

In [79]:
name_list = ["Maria", "Giovanna"]
name_list_two = ["Marco", "Francesco"]

# Compare values
print(name_list == name_list_two)

# Compare objects
print(name_list is name_list_two)


False
False


Una delle parole chiave condizionali più utili è `in`. Un esempio è il seguente:

In [11]:
name_list = ["Maria", "Giovanna", "Marco", "Francesco"]

print("Giovanna" in name_list)
print("Luca" in name_list)

True
False


La condizione opposta è `not in`.

In [None]:
print("Luca" not in name_list)

Facciamo un altro esempio.

In [None]:
age = 26
if age >= 18:
    print("Sei maggiorenne")

Una struttura di selezione leggermente più complessa è "if-else". La sintassi di questa struttura è la seguente:

```
if <condizione>:
    <istruzione_se_condizione_vera>
else:
    <istruzione_se_condizione_falsa>
```

La semantica di "if-else" è quella che ci si aspetta: la condizione tra la parola chiave `if` e il carattere di due punti viene valutata: se risulta vera viene eseguita l'istruzione alla linea seguente, altrimenti viene eseguita l'istruzione dopo la parola chiave `else`. Anche in questo caso l'indentazione permette di identificare quali istruzioni devono essere eseguite nei due rami della selezione. Per esempio:

In [20]:
age = 16
if age >= 18:
    print("Sei maggiorenne")
else:
    print("Sei minorenne")

Sei minorenne


In presenza di più di due possibilità mutuamente esclusive ed esaustive possiamo usare l'istruzione `elif`. Per esempio:

In [21]:
cfu = 36
thesis_defense = False

if cfu >= 180 and thesis_defense == True:
    print("Puoi andare a festeggiare!")
elif cfu >= 180 and thesis_defense == False:
    print("Devi ancora superare la prova finale!")
else:
    print("Ripassa tra qualche anno!")


Ripassa tra qualche anno!


### Commenti
In Python è possibile usare il carattere # per aggiungere commenti al codice. Ogni riga di commento deve essere preceduta da un #. I commenti non devono spiegare il metodo (cosa fa il codice: quello si vede), ma bensì lo scopo: *quello che noi intendiamo ottenere*. I primi destinatari dei commenti siamo noi stessi tra un po' di tempo, ovvero quando ci saremo dimenticati cosa avevamo in mente quando abbiamo scritto il codice.

In [18]:
# This is a comment and will not be executed.

## Cicli

### Il ciclo `while`
il ciclo `while` permette l'esecuzione di un blocco di codice finché una determinata condizione è True. Per esempio:

In [31]:
counter = 0

while counter <= 10:
    print(counter)
    counter += 1

0
1
2
3
4
5
6
7
8
9
10


Il codice `counter += 1` è equivalente a `counter = counter + 1` e, ogni qualvolta viene eseguito il ciclo, riassegna alla variabile `counter` il valore che aveva in precedenza + 1.

L'istruzione `while` controlla se alla variabile `counter` è associato un valore minore o uguale a 10. Nel primo passo del ciclo la condizione è soddisfatta, avendo noi definito `counter = 0`, pertanto il programma entra nel loop, stampa il valore della variabile `counter` e incrementa `counter` di un'unità. 

Questo comportamento si ripete finché la condizione `counter <= 10` risulta `True`. Quando il contatore `counter` assume il valore 11 il ciclo `while` si interrompe e il blocco di codice del ciclo non viene più eseguito.

### Il ciclo `for`

Il ciclo `for` è un costrutto di controllo di flusso che viene utilizzato per iterare su una sequenza di valori, come ad esempio una lista, una tupla, una stringa o un dizionario.

La sintassi generale di un ciclo for in Python è la seguente:

```
for element in sequence:
    # codice da eseguire
```

Dove `element` è una variabile temporanea che assume il valore di ciascun elemento della sequenza ad ogni iterazione del ciclo, e `sequence` è la sequenza di valori su cui iterare.

Durante l'esecuzione del ciclo, il blocco di codice indentato sotto la linea for viene eseguito una volta per ogni elemento della sequenza. Ad ogni iterazione, la variabile elemento assume il valore dell'elemento corrente della sequenza e il codice all'interno del blocco viene eseguito con questo valore.

Il ciclo `for` è spesso utilizzato per eseguire operazioni su ciascun elemento di una sequenza, come ad esempio la somma degli elementi di una lista o la stampa di ciascun carattere di una stringa. Per esempio

In [1]:
for number in range(11):
    print(number)

0
1
2
3
4
5
6
7
8
9
10


Sono possibili i cicli `for` annidati, vale a dire un ciclo posto all'interno del corpo di un altro (chiamato ciclo esterno). Al suo primo passo, il ciclo esterno mette in esecuzione quello interno che esegue il proprio blocco di codice fino alla conclusione. Quindi, al secondo passo, il ciclo esterno rimette in esecuzione quello interno. Questo si ripete finché il ciclo esterno non termina. Per esempio:

In [4]:
for i in range(4):
    for j in range(4):
        print((i, j))


(0, 0)
(0, 1)
(0, 2)
(0, 3)
(1, 0)
(1, 1)
(1, 2)
(1, 3)
(2, 0)
(2, 1)
(2, 2)
(2, 3)
(3, 0)
(3, 1)
(3, 2)
(3, 3)


La funzione `range()` permette di impostare un intervallo di esecuzione tanto ampio quanto il numero che le passiamo come parametro meno uno. L'indicizzazione Python parte da 0; quindi l'intervallo definito sopra può essere inteso come una lista di 11 elementi, da 0 a 10 inclusi. L'intervallo di `range()` corrisponde al numero di iterazioni che verranno eseguite, ovvero al numero di volte che il ciclo for verrà processato.

La funzione `range()` prende tre parametri: start (default 0), stop e step (default 1), ovvero un punto di inizio dell'intervallo, un punto di fine e un passo di avanzamento. Ad esempio, impostiamo un punto di inizio a 3, il punto di fine a 11 e un passo di 2:

In [9]:
for number in range(3, 11, 2):
    print(number)

3
5
7
9


Consideriamo ora la funzione `enumerate()`. Tale funzione crea una lista:

In [12]:
enum_lst = enumerate(name_list)

Visualizziamo la lista creata da `enumerate()`:

In [13]:
list(enum_lst)

[(0, 'Maria'), (1, 'Giovanna'), (2, 'Marco'), (3, 'Francesco')]

Iterando sui membri di una lista passata come argomento, `enumerate()` ritorna un'altra lista nella quale ciascun elemento è una lista di due elementi: il primo elemento è un indice sequenziale mentre il secondo elemento corrisponde a ciò che conteneva la lista originaria. Nel seguente ciclo `for`, la funzione `enumerate` crea un indice (`i`) che corrisponde alla posizione degli elementi nella lista:

In [53]:
name_list = ["Maria", "Marco", "Francesco", "Giovanna"]

for i, name in enumerate(name_list):
    print(f"Nella lista l'indice {i} è associato al nome {name}")

Nella lista l'indice 0 è associato al nome Maria
Nella lista l'indice 1 è associato al nome Marco
Nella lista l'indice 2 è associato al nome Francesco
Nella lista l'indice 3 è associato al nome Giovanna


Si noti la formattazione f-string. Le stringhe formattate, chiamate anche f-string, consentono di inserire delle espressioni Python in una stringa di testo, racchiudendole entro parentesi graffe. Nell'esempio precedente il testo all'interno delle virgolette viene visualizzato esattamente come digitato. Le parentesi graffe sono un segnaposto che contiene variabili Python. Una volta eseguito il codice la funzione `print()` visualizza la parte letterale (il testo) insieme ai valori delle variabili a cui abbiamo fatto riferimento. Si noti anche che il ciclo fa simulteneamente riferimento a due iterabili: `i` e `name`.

Un altro utile tipo di ciclo `for` fa uso della funzione `zip`. Possiamo pensare alla funzione `zip` come a una cerniera lampo, che riunisce gli elementi di due diversi iteratori. Ecco un esempio:

In [16]:
first_names = ["Maria", "Marco", "Francesco", "Giovanna"]
last_names = ["Blu", "Giallo", "Bianco", "Nero"]

for forename, surname in zip(first_names, last_names):
    print(f"{forename} {surname}")

Maria Blu
Marco Giallo
Francesco Bianco
Giovanna Nero


Il ciclo `for` è il modo più comune per scorrere gli elementi di una lista, come abbiamo fatto in precedenza.

In [17]:
for name in first_names:
    print(name)

Maria
Marco
Francesco
Giovanna


Questo approccio funziona se abbiamo solo bisogno di leggere gli elementi della lista. 

In [8]:
numbers = [2, -4, 1, 6, 3]

total = 0
for num in numbers:
    total += num

print(total)

8


Ma se vogliamo scrivere o aggiornare gli elementi, dobbiamo usare gli indici. Un modo comune per farlo è combinare le funzioni `range` e `len`:

In [1]:
numbers = [2, -4, 1, 6, 3]

for i in range(len(numbers)):
    numbers[i] = numbers[i] * 2

print(numbers)

[4, -8, 2, 12, 6]


Questo ciclo scorre gli elementi della lista e aggiorna ciascun elemento. La funzione `len()` restituisce il numero di elementi nella lista. la funzione `range()` restituisce una lista di indici da 0 a `n−1`, dove `n` è la lunghezza della lista. La prima volta che il ciclo viene eseguito, `i` vale 0 e `numbers[i]` fa riferimento al primo elemento della lista; la seconda volta che il ciclo viene eseguito, `i` vale 1 e `numbers[i]` fa riferimento al secondo elemento della lista; e così via. L'istruzione di assegnazione nel corpo del ciclo usa `i` per leggere il vecchio valore dell'elemento e per assegnare il nuovo valore.

Un ciclo `for` su una lista vuota non esegue mai il corpo del ciclo:

In [None]:
for x in []:
    print("This never happens.")

### List comprehension

Una *list comprehension* è un modo conciso di creare una lista. Accade speso di dover creare una lista dove ciascun elemento è il risultato di un'operazione condotta sugli elementi di un'altra lista o iterabile; oppure, di dover estrarre gli elementi che soddisfano una certa condizione.

Per esempio, vogliamo sommare una costante ad una lista di numeri:

In [7]:
new_list = []
k = 10
for x in range(10):
    new_list.append(x + k)

new_list

[10, 11, 12, 13, 14, 15, 16, 17, 18, 19]

Lo stesso risultato si può ottenere usando la funzione `lambda`:

In [None]:
new_list = list(map(lambda x: x + k, range(10)))
new_list

Oppure, in maniera più semplice, possiamo usare una *list comprehension*:

In [None]:
new_list = [x + k for x in range(10)]
new_list

Una *list comprehension* è racchiusa tra parentesi quadre; contiene un'espressione, seguita da una clausola `for`, seguita da zero o più clausole `for` o `if`. La sintassi è la seguente:

```
[ <expression> for item in iterable <if optional_condition> ]
```

Il risultato è una nuova lista costruita valutando l'espressione nel contesto delle clausole `for` e `if` che la seguono. Una *list comprehension* combina dunque un ciclo `for` e (se necessario) una o più condizioni logiche in una singola riga di codice. 

Esaminiamo una variante dell'esempio precedente.

In [1]:
list1 = [1, 2, 3, 4, 5, 6]
print("list1:", list1)

list2 = [item + 1 for item in list1]
print("list2:", list2)

list1: [1, 2, 3, 4, 5, 6]
list2: [2, 3, 4, 5, 6, 7]


Si noti che la parola `item` avrebbe potuto essere quasi qualsiasi stringa (in precedenza abbiamo usato `x`). La possiamo immaginare con la seguente definizione: `...per ogni elemento in ...`. Nel seguente esempio, sommiamo 1 agli elementi di `list1` solo se sono pari:

In [2]:
list3 = [item + 1 for item in list1 if item % 2 == 0] 
print('list3:', list3)

list3: [3, 5, 7]


Facciamo un altro esempio usando `range()`:

In [55]:
num_list = range(50, 60)
[1 + num for num in num_list]

[51, 52, 53, 54, 55, 56, 57, 58, 59, 60]

In questo esempio vengono selezionati solo i nomi inclusi nella lista `female_names`:

In [41]:
female_names = ["Maria", "Giovanna"]
female_list = [name for name in first_names if name in female_names]
print(female_list)

['Maria', 'Giovanna']


Nel seguente esempio viene estratta l'iniziale di ciascuno dei nomi che compongono una lista:

In [43]:
letters = [name[0] for name in first_names] 
letters

['M', 'M', 'F', 'G']

Possiamo anche eseguire più iterazioni simultaneamente:

In [44]:
[(i, j) for i in range(3) for j in range(4)]

[(0, 0),
 (0, 1),
 (0, 2),
 (0, 3),
 (1, 0),
 (1, 1),
 (1, 2),
 (1, 3),
 (2, 0),
 (2, 1),
 (2, 2),
 (2, 3)]

Qui selezioniamo solo i numeri pari (oltre allo zero):

In [45]:
[i for i in range(11) if i % 2 == 0]

[0, 2, 4, 6, 8, 10]

Specificando una condizione, possiamo cambiare il segno solo dei numeri dispari nella lista:

In [46]:
[-i if i % 2 else i for i in range(11)]

[0, -1, 2, -3, 4, -5, 6, -7, 8, -9, 10]

## Librerie e moduli

### Importare moduli

I moduli (anche conosciuti come librerie in altri linguaggi) sono dei file usati per raggruppare funzioni e altri oggetti. Python include già una lista estensiva di moduli standard (anche conosciuti come Standard Library), ma è anche possibile scaricarne o definirne di nuovi. Prima di potere utilizzare le funzioni non presenti nella Standard Library all'interno dei nostri programmi dobbiamo importare dei moduli aggiuntivi, e per fare ciò usiamo il comando `import`. 

L'importazione può riguardare un intero modulo oppure solo uno (o più) dei suoi elementi. Consideriamo per esempio la funzione `mean` che abbiamo appena usato. Essa è disponibile nel modulo `numpy`. L'istruzione `import numpy` importa tutto il modulo [numpy](http://www.numpy.org). Dopo che un modulo è stato importato, è possibile accedere a un suo generico elemento usando il nome del modulo, seguito da un punto e dal nome dell'elemento in questione.

Indicare il nome di un modulo per poter accedere ai suoi elementi ha spesso l'effetto di allungare il codice, diminuendone al contempo la leggibilità. È per questo motivo che è possibile importare un modulo specificando un nome alternativo, più corto. È quello che succede quando scriviamo l'istruzione `import numpy as np`.

I moduli più complessi sono organizzati in strutture gerarchiche chiamate _package_. La seguente cella importa il modulo `pyplot` che è contenuto nel package `matplotlib` ([matplotlib](http://matplotlib.org) è la libreria di riferimento in Python per la creazione di grafici). 

In [None]:
import matplotlib.pyplot as plt

Qui di seguito sono descritte tutte le possibilità:

In [8]:
# import everything from library
import random
# call function by
random.random()

#import everything, but change name
import random as rnd
# call function by
rnd.random()

# select what to import from library
from random import random
#call function by
random()

# import everything from library
from random import *
# call function by
random()

0.9405997945352496

Nella cella seguente importo `seaborn` con il nome `sns` e uso le sue funzionalità per  impostare uno stile e una palette di colori per la visualizzazione dei grafici.

In [None]:
import seaborn as sns
sns.set_theme()
sns.set_palette("colorblind")

Nell'esempio seguente calcolo la somma degli elementi della lista numerica `primes` usando funzione `sum()` contenuta nella libreria NumPy che ho importato con il nome di `np`:

In [9]:
import numpy as np

primes = [1, 2, 3, 5, 7, 11, 13]
np.sum(primes)

42

Calcolo la media:

In [10]:
np.mean(primes)

6.0

Scrivo una nuova funzione per la media, $\bar{x} = n^{-1}\sum_{i=1}^n x_i$:

In [None]:
def my_mean(x):
    res = np.sum(x) / len(x)
    return res

In [None]:
my_mean(primes)

Si notino due cose. (1) È possibile, nel corpo di una funzione, usare altre funzioni. (2) Indentare il codice è una pratica comune in tutti i linguaggi, perché semplifica la lettura del codice e la compresione della sua struttura. In Python, tuttavia, l'indentazione è obbligatoria, nel senso che, nell'esempio precedente, delimita il blocco di codice che costituisce il corpo della funzione. Dunque, indentare in modo incorretto comporta la comparsa di errori.

È sempre possibile usare la funzione di `help` su una funzione:

In [14]:
help(sum)

Help on built-in function sum in module builtins:

sum(iterable, /, start=0)
    Return the sum of a 'start' value (default: 0) plus an iterable of numbers
    
    When the iterable is empty, return the start value.
    This function is intended specifically for use with numeric values and may
    reject non-numeric types.



In Visual Studio Code è sufficiente posizionare il cursore sul nome della funzione.

## Leggere dati da file 
Di solito la quantità di dati da analizzare è tale che non è pensabile di poterli immettere manualmente in una o più liste come abbiamo fatto sopra. Normalmente i dati sono memorizzati su un file ed è necessario leggerli. La lettura (importazione) dei file è il primo fondamentale passo nel processo più generale di analisi dei dati. 


Per fare un esempio, consideriamo file `penguins.csv` contenuto nella directory `data`. La cella seguente legge i contenuti del file `penguins.csv` e li inserisce nell'oggetto `df` udando la funzione `read_csv()` del modulo pandas.

In [33]:
import pandas as pd

df = pd.read_csv('data/penguins.csv')

Nella cella precedente, la funzione `read_csv()` che apre il file accetta come primo argomento il pathname corrispondente. Possiamo visualizzare le prime cinque righe dell'oggetto `df` usando il metodo `.head()`:

In [36]:
df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
3,Adelie,Torgersen,,,,,,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007


Il modulo pandas verrà discusso nel capitolo {ref}`intro-pandas-notebook`.


## Formattazione del codice

<br>

```{image} images/code_quality_2x.png
:align: center
```

<br>

## Watermark

In [None]:
%load_ext watermark
%watermark -n -u -v -iv -w -p pytensor