# Strutture Dati

Una **struttura dati** è un formato specializzato per organizzare, processare, recuperare e memorizzare i dati. Esistono molteplici strutture dati, sia semplici che complesse, progettate per organizzare i dati in modo tale da soddisfare particolari requisiti. Le strutture dati sono utili per accedere e lavorare con i dati di cui si ha bisogno nella maniera più appropriata.

## Liste

Le **liste** sono utilizzate per memorizzare contemporanemanete molteplici elementi in una singola variabile; vengono definite utilizzando le parentesi quadre, `[...]`. Per creare una lista vuota basta usare `[]`.

In [1]:
vuota = []
vuota

[]

In [2]:
a = 'arancia'
b = 'banana'
c = 'ciliegia'

In [3]:
frutta = ['arancia', 'banana', 'ciliegia']

In [4]:
frutta

['arancia', 'banana', 'ciliegia']

In [5]:
type(frutta)

list

Una lista può anche contenere differenti tipi di dato.

In [6]:
mix = ['ciao', 200, [True, 0.2]]

In [7]:
mix

['ciao', 200, [True, 0.2]]

Come gli altri tipi sequenziali, ad esempio le stringhe, anche le liste possono essere soggette ad operazioni di indexing e slicing.

In [8]:
frutta[0]

'arancia'

In [9]:
frutta[1:]

['banana', 'ciliegia']

A differenza delle stringhe, che sono *immutabili*, le liste sono un tipo *mutabili*, dunque è possibile modificarne il contenuto.

In [10]:
frutta[0] = 'ananas'
frutta

['ananas', 'banana', 'ciliegia']

In [11]:
'ananas'[0] = 'c'

TypeError: 'str' object does not support item assignment

In [12]:
'ananas'.replace('s', 'c')

'ananac'

È possibile utilizzare anche la direttiva `list()` per definire una lista.

In [13]:
list([0, 1, 2, 3])

[0, 1, 2, 3]

Quando usata su una stringa produce la lista dei caratteri della stringa:

In [14]:
list('ananas')

['a', 'n', 'a', 'n', 'a', 's']

### `len(object)`

Il metodo `len()` resituisce la lunghezza (il numero di elementi) di un oggetto. L'argomento può essere una sequenza (ad esempio una stringa o una lista) oppure una collezione (ad esempio un dizionario o un insieme).

In [15]:
len(frutta)

3

In [16]:
len('ananas')

6

In [17]:
len(4)

TypeError: object of type 'int' has no len()

### Metodi di `list`

Le liste sono ordinate, ovvero gli elementi hanno un ordine definito, e tale ordine non viene cambiato. Nel caso in cui vengano aggiunti nuovi elementi ad una lista, questi verranno piazzati alla fine della lista stessa.

`list.append(x)` aggiunge un elemento alla fine della lista.

In [21]:
frutta

['ananas', 'banana', 'ciliegia', 'pesca']

In [19]:
frutta.append('pesca')

In [20]:
frutta

['ananas', 'banana', 'ciliegia', 'pesca']

`list.pop(i)` rimuove l'elemento della lista nella posizione indicata e lo restituisce. Se nessun indice viene indicato, rimuove e restituisce l'ultimo elemento nella lista.

In [24]:
#frutta.pop()
frutta.pop(1)

'banana'

In [25]:
frutta

['ananas', 'ciliegia']

Mentre `list.append(x)` aggiunge l'elemento ala fine della lista, `list.insert(i, x)` lo aggiunge in posizione i.

In [28]:
frutta.insert(1, 'banana')

In [29]:
frutta

['ananas', 'banana', 'banana', 'ciliegia']

## Tuple

Le **tuple** sono utilizzate per memorizzare più elementi in una singola variabile. Sono definite da parentesi tonde, `(...)`, e i loro elementi sono ordinati, immutabili e consentono duplicati.

In [30]:
medaglie = ('oro', 'argento', 'bronzo')

In [31]:
medaglie

('oro', 'argento', 'bronzo')

In [32]:
type(medaglie)

tuple

In [34]:
mix = (2, 'ciao', (True, 0.3))

In [35]:
mix

(2, 'ciao', (True, 0.3))

È possibile anche utilizzare la funzione `tuple()` per definire una tupla.

In [36]:
tuple(('oro', 'argento', 'bronzo'))

('oro', 'argento', 'bronzo')

Anche se le tuple sembrano simili alle liste, in realtà sono utilizzate in modi e per scopi differenti. Le tuple sono immutabili e di solito contengono sequenze eterogenee di elementi a cui si accede tramite operazioni di *unpacking* e *indexing*. Le liste sono mutabili, i loro elementi sono di solito omogenei e vi si accede in maniera iterativa.

In [37]:
medaglie[0]

'oro'

In [38]:
medaglie[1:]

('argento', 'bronzo')

In [39]:
medaglie[0] = "legno"

TypeError: 'tuple' object does not support item assignment

Di default se si assegnano pià valori ad una variabile ad essa viene asseganta la tupla contenente i valori specificati.

In [40]:
brand = 'Apple', 'Samsung', 'LG'

In [41]:
brand

('Apple', 'Samsung', 'LG')

Al contrario assegnado una tupla a più variabili di possono *spacchettare* i valori che essa contiene.

In [42]:
apple, samsung, lg = brand

In [43]:
apple

'Apple'

### `zip(lista_1, ..., lista_n)`

La funzione integrata `zip()` itera parallelamente su più liste (che sono oggetti *iterabili*), producendo tuple aventi un elemento preso da ognuna delle liste.

In [44]:
medaglie = ['oro', 'argento', 'bronzo']
piazzamenti = [1, 2, 3]

`zip` non restituisce direttamente una lista ma un oggetto di tipo zip. Per rendere il risultato una lista si può usare la direttiva `list()`.

In [45]:
zip(medaglie, piazzamenti)

<zip at 0x7856d2df5640>

In [46]:
type(zip(medaglie, piazzamenti))

zip

In [47]:
list(zip(medaglie, piazzamenti))

[('oro', 1), ('argento', 2), ('bronzo', 3)]

In [48]:
piazzamenti = [1, 2, 3, 4]
premio = [1000, 500, 200]
list(zip(medaglie, piazzamenti, premio))

[('oro', 1, 1000), ('argento', 2, 500), ('bronzo', 3, 200)]

## Insiemi

Un **insieme** (*set*) è una struttura dati non-ordinata, non-indicizzata e immutabile che non accetta duplicati. Gli utilizzi più comuni riguardano il cosiddetto test di appartenenza e l'eliminazione di elementi duplicati. Gli insiemi supportano operazioni matematiche, come l'unione, l'intersezione, la differenza e la differenza simmetrica. Gli insiemi si definiscono con le parentesi graffe, `{...}`.

In [49]:
frutta = {'arancia', 'banana', 'ciliegia', 'arancia'}

In [50]:
frutta

{'arancia', 'banana', 'ciliegia'}

In [51]:
frutta[0]

TypeError: 'set' object is not subscriptable

È possibile definire un insieme utilizzando la funzione `set()`.

In [52]:
set(('arancia', 'banana', 'ciliegia', 'arancia'))

{'arancia', 'banana', 'ciliegia'}

In [53]:
['arancia', 'banana', 'ciliegia', 'arancia']

['arancia', 'banana', 'ciliegia', 'arancia']

In [54]:
('arancia', 'banana', 'ciliegia', 'arancia')

('arancia', 'banana', 'ciliegia', 'arancia')

### Test di Appartenenza

Un **test di appartenenza** controlla se uno specifico elemento sia contenuto all'interno di una sequenza, come stringhe, liste, tuple o insiemi. Uno dei principali vantaggi nell'utilizzare gli insiemi in Python è che essi sono ottimizzati per questa tipologia di test.

L'operatore `in` funziona con tipi sequenziali: è utilizzato per controllare se un elemento è presente in un oggetto. L'operatore restituisce un valore booleano: `True` se l'elemento viene trovato, `False` in caso contrario.

In [55]:
'arancia' in frutta

True

In [56]:
'pesca' in frutta

False

In [57]:
'arancia' in ['arancia', 'banana', 'ciliegia', 'arancia']

True

In [58]:
'pesca' in ('arancia', 'banana', 'ciliegia', 'arancia')

False

In [59]:
'b' in 'ciao'

False

### Operazioni sugli Insiemi

L'*unione* viene eseguita utilizzando l'operatore `|` oppure il metodo `set.union()`.

In [60]:
numeri_primi = {1, 2, 3, 5, 7}
numeri_dispari = {1, 3, 5, 7, 9}

In [61]:
# Unione
numeri_primi | numeri_dispari

{1, 2, 3, 5, 7, 9}

L'unione è un'operazione simmetrica.

In [62]:
numeri_dispari | numeri_primi

{1, 2, 3, 5, 7, 9}

In [63]:
numeri_primi.union(numeri_dispari)

{1, 2, 3, 5, 7, 9}

L'*intersezione* viene eseguita utilizzando l'operatore `&` oppure il metodo `set.intersection()`.

In [64]:
# Intersezione
numeri_primi & numeri_dispari

{1, 3, 5, 7}

In [65]:
numeri_primi.intersection(numeri_dispari)

{1, 3, 5, 7}

La *differenza insiemistica* viene eseguita utilizzando l'operatore `-` oppure il metodo `set.difference()`.

In [66]:
# Differenza insiemistica
numeri_primi - numeri_dispari

{2}

In [67]:
numeri_primi.difference(numeri_dispari)

{2}

La differenza insiemistica **non** è simmetrica:

In [68]:
numeri_dispari - numeri_primi

{9}

La *differenza simmetrica* che corrisponde a *unione* - *intersezione* viene eseguita utilizzando l'operatore `^` oppure il metodo `set.symmetric_difference()`.

In [69]:
# Differenza Simmetrica
numeri_primi ^ numeri_dispari

{2, 9}

In [70]:
numeri_dispari ^ numeri_primi

{2, 9}

In [71]:
numeri_primi.symmetric_difference(numeri_dispari)

{2, 9}

## Dizionari

Un **dizionario** è utilizzato per memorizzare valori in un formato *chiave: valore* ed è definito da parentesi graffe, `{chiave: valore}`. A differenza dalle sequenze come le liste, che sono indicizzate da una serie di numeri, i dizionari sono indicizzati dalle chiavi, che possono essere di qualsiasi tipo immutabile (stringhe, interi o anche tuple) e con il vincolo di dover essere uniche.

In [72]:
capitali = {'Italia': 'Roma'}

In [73]:
capitali[0]

KeyError: 0

In [74]:
capitali['Italia']

'Roma'

In [75]:
capitali = {'Italia': 'Roma', 'Francia': 'Parigi', 'Spagna': 'Madrid'}

In [76]:
capitali['Spagna']

'Madrid'

È possibile definire un dizionario anche con la funzione `dict()`.

In [77]:
auto = dict([('brand', 'Fiat'), ('modello', 'Panda'), ('anno', 2000)])

In [78]:
auto

{'brand': 'Fiat', 'modello': 'Panda', 'anno': 2000}

In [79]:
{'Italia': 'Roma', 'Francia': 'Parigi', 'Italia': 'Torino'}

{'Italia': 'Torino', 'Francia': 'Parigi'}

È possibile accedere agli elementi di un dizionario utilizzando le chiavi tra parentesi quadre.

In [82]:
auto[ (2, 3) ] = 4
auto

{'brand': 'Fiat', 'modello': 'Panda', 'anno': 2000, (2, 3): 4}

### Metodi dei dizionari

`dict.keys()` restituisce un oggetto contenente le chiavi del dizionario.

In [83]:
capitali.keys()

dict_keys(['Italia', 'Francia', 'Spagna'])

`dict.values()` restituisce un oggetto contenente i valori del dizionario.

In [84]:
capitali.values()

dict_values(['Roma', 'Parigi', 'Madrid'])

`dict.items()` restituisce un oggetto contenente le tuple chiave-valore.

In [86]:
list(capitali.items())

[('Italia', 'Roma'), ('Francia', 'Parigi'), ('Spagna', 'Madrid')]

Un metodo rapido per creare un dizionario partendo da due liste della stessa lunghezza è utilizzare `zip`.

In [87]:
paesi = ['Italia', 'Francia', 'Spagna']
città = ['Roma', 'Parigi', 'Madrid']
dict(zip(paesi, città))

{'Italia': 'Roma', 'Francia': 'Parigi', 'Spagna': 'Madrid'}

## Moduli

Un **modulo** Python contiene un insieme di funzioni raggruppate per utilizzo e significato che possono essere incluse nel nostro programma. Per avere accesso alle funzioni contenute all'interno di un modulo utilizziamo il comando `import module`. Una volta importato le funzioni del modulo possono essere chaimate 
tramite `module.func()`.

## Modulo `os`

Il modulo `os` fornisce la possibilità di intereagire con le funzionalità del sistema operativo su cui viene eseguito Python.

In [1]:
import os

`os.getcwd()` restituisce una stringa rappresentante la cartella di lavoro corrente.

In [89]:
os.getcwd()

'/home/giovanni/Documenti/Dottorato/Didattica/2024 - Statistica per Big Data Economico-Aziendali/stat4bigdata/Lezione 2'

`os.listdir(path='.')` restituisce una lista contenente i nomi delle voci presenti nel percorso indicato. Dove '.' indica la cartella corrente.

In [90]:
os.listdir('.')

['02-strutture-dati.ipynb', 'data', '.ipynb_checkpoints']

In [91]:
os.listdir(os.getcwd())

['02-strutture-dati.ipynb', 'data', '.ipynb_checkpoints']

In [92]:
os.listdir('data')

['levitating.txt', 'billboard.json']

In [3]:
os.listdir('../Lezione 1/')

['01-introduzione-a-python.ipynb', '.ipynb_checkpoints']

Occorre sempre fornire o il percorso assoluto (dalla directory root) oppure il percorso relativo a partiredalla directory in cui ci si trova. 

In [4]:
os.listdir('Lezione 1/')

FileNotFoundError: [Errno 2] No such file or directory: 'Lezione 1/'

## `open(path, mode)`

È spesso richiesto di interagire con i file presenti sul proprio computer. Per far ciò in Python possiamo usare la funzione integrata `open()` che apre un file e restituisce il corrispondente oggetto file.

In [96]:
file = open('data/levitating.txt')

Il metodo `read()` legge e restituisce tutto il file. 

Il metodo `readline()` legge e restituisce una linea del file di testo.

In [97]:
file.readline()

'If you wanna run away with me, I know a galaxy\n'

In [98]:
file.readline()

'And I can take you for a ride\n'

In [99]:
file.read()

"I had a premonition that we fell into a rhythm\nWhere the music don't stop for life\nGlitter in the sky, glitter in my eyes\nShining just the way I like\nIf you're feeling like you need a little bit of company\nYou met me at the perfect time\nYou want me, I want you, baby\nMy sugarboo, I'm levitating\nThe Milky Way, we're renegading\nYeah, yeah, yeah, yeah, yeah\nI got you, moonlight, you're my starlight\nI need you all night, come on, dance with me\nI'm levitating\nYou, moonlight, you're my starlight (you're the moonlight)\nI need you all night, come on, dance with me\nI'm levitating\nI believe that you're for me, I feel it in our energy\nI see us written in the stars\nWe can go wherever, so let's do it now or never, baby\nNothing's ever, ever too far\nGlitter in the sky, glitter in our eyes\nShining just the way we are\nI feel like we're forever, every time we get together\nBut whatever, let's get lost on Mars\nYou want me, I want you, baby\nMy sugarboo, I'm levitating\nThe Milky Wa

La funzione `read` esaurisce il file, chiamandola una seconda volta si ottiene una stringa vuota.

In [100]:
file.read()

''

Il metodo `close()` chiude il file.

In [101]:
file.close()

In [102]:
file.read()

ValueError: I/O operation on closed file.

È importante ricordarsi di chiudere i file una volta finito di usarli. Per ovviare a questo fatto si può usare il comando `with`.

Il comando `with` è utilizzato per racchiudere l'esecuzione di un blocco di codice e si assicura che non vengano lasciate inavvertitamente risorse aperte.

In [103]:
with open('data/levitating.txt', 'r') as file:
    text = file.readline()
    print(text)
    print('ciao, sono dentro al with')

print('fuori dal blocco with')
file.readline()

If you wanna run away with me, I know a galaxy

ciao, sono dentro al with
fuori dal blocco with


ValueError: I/O operation on closed file.

Tuttavia avendo assegnato il valore di una linea alla variabile `text` questa è disponibile anche una volta che il file è stato chiuso.

In [104]:
text

'If you wanna run away with me, I know a galaxy\n'

In [105]:
file.read()

ValueError: I/O operation on closed file.

Il metodo `write()` si occupa di scrivere gli oggetti forniti come parametri sul file di riferimento. Il metodo `writelines()` scrive, invece, una lista di linee sul file; i separatori di linea (`\n`) non sono aggiunti automaticamente, dunque è consigliato inserirne uno alla fine di ogni linea.

In [106]:
# w sta per write, se il file non esiste viene creato
print(os.listdir('data'))
with open('data/esempio.txt', 'w') as file:
    file.write("Prima riga\n")
    file.writelines(["Seconda linea\n", "Terza linea\n"])
print(os.listdir('data'))

['levitating.txt', 'billboard.json']
['esempio.txt', 'levitating.txt', 'billboard.json']


In [107]:
# r sta per read, il file deve già esistere
print(os.listdir('data'))
print()
with open('data/esempio.txt', 'r') as file:
    print(file.read())

['esempio.txt', 'levitating.txt', '.ipynb_checkpoints', 'billboard.json']

Prima riga
Seconda linea
Terza linea



# Esercizi

Scrivi un programma che esegua le seguenti istruzioni:
- Crea una `lista` che contenga i primi dieci numeri interi a partire da `1`.
- Copia `lista` in `nuova_lista` ed agggiungi `11` alla fine .
- Assegna `-1` al secondo elemento di `nuova_lista`.
- Assegna a `selezione` gli elementi di `nuova_lista` dal terzo al settimo.
- Aggiunge a `selezione` il numero `13` alla fine.
- Stampa `lista`, `nuova_lista` e `selezione` e i loro `id`.

In [109]:
lista = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
lista

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [110]:
nuova_lista = lista
nuova_lista.append(11)
nuova_lista

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]

In [111]:
nuova_lista[1] = -1
nuova_lista

[1, -1, 3, 4, 5, 6, 7, 8, 9, 10, 11]

In [114]:
selezione = nuova_lista[2:7]
selezione

[3, 4, 5, 6, 7]

In [115]:
selezione.append(13)
selezione

[3, 4, 5, 6, 7, 13]

In [116]:
print(lista, id(lista))
print(nuova_lista, id(nuova_lista))
print(selezione, id(selezione))

[1, -1, 3, 4, 5, 6, 7, 8, 9, 10, 11] 132314298482432
[1, -1, 3, 4, 5, 6, 7, 8, 9, 10, 11] 132314298482432
[3, 4, 5, 6, 7, 13] 132314299150912


Generare una lista contenente soltanto i nomi delle capitali dal seguente dizionario: `{'Italia': 'Roma', 'Francia': 'Parigi', 'Spagna': 'Madrid'}`

Definire due variabili che contengano gli insiemi dati da:
- I capoluoghi di Provincia che iniziano per B: (Bari, Belluno, Benevento, Bergamo, Biella, Bologna, Bolzano, Brescia, Brindisi).
- I capoluoghi di Regione.

Trovare e stampare:
- L'intersezione dei due insiemi (Capoluoghi di Regione che iniziano per B)
- La differenza del primo meno il secondo (Capoluoghi di Provincia che iniziano per B e non sono Capoluoghi di Regione)
- La differenza del secondo meno il primo (Capoluoghi di Regione che non iniziano per B)

Generare:

- una lista di tuple ognuna del tipo: `(nome_film, numero_film, numero_libro_tratto)`.
- un dizionario con chiavi `numero_film` e valori `nome_film`.

Per i film della saga degli Hunger Games.

Scrivere un programma che 
- crea un file dal nome `incipit.txt`.
- scrive sul file le prima terzina dell'Inferno (un verso per riga).
- legge le righe del file appena scritto una alla volta e le aggiunge a una lista vuota. 