# Strutture Dati

Una **struttura dati** è un formato specializzato per organizzare, processare, recuperare e memorizzare i dati. Esistono molteplici strutture dati, sia semplici che complesse, progettate per organizzare i dati in modo tale da soddisfare particolari requisiti. Le strutture dati sono utili agli utenti per accedere e lavorare con i dati di cui hanno bisogno nella maniera più appropriata.

## Liste

Le **liste** sono utilizzate per memorizzare molteplici elementi in una singolare variabile; vengono definite utilizzato le parentesi quadre, `[...]`.

In [None]:
a = 'arancia'
b = 'banana'
c = 'ciliegia'

In [1]:
frutta = ['arancia', 'banana', 'ciliegia']

In [2]:
frutta

['arancia', 'banana', 'ciliegia']

In [26]:
type(frutta)

list

Una lista può contenere differenti tipi di dato.

In [3]:
mix = ['ciao', 200, [True, 0.2]]

In [4]:
mix

['ciao', 200, [True, 0.2]]

Come gli altri tipi sequenziali, ad esempio le stringhe, anche le liste possono essere soggette ad operazioni di indexing e slicing.

In [5]:
frutta[0]

'arancia'

In [6]:
frutta[1:]

['banana', 'ciliegia']

A differenza delle stringhe, che sono *immutabili*, le liste sono un tipo *mutabile*, dunque è possibile cambiarne il contenuto.

In [7]:
frutta[0] = 'ananas'
frutta

['ananas', 'banana', 'ciliegia']

In [9]:
'ananas'[0] = 'c'

TypeError: 'str' object does not support item assignment

In [10]:
'ananas'.replace('s', 'c')

'ananac'

È possibile utilizzare anche la funzione `list()` per definire una lista.

In [11]:
list([0, 1, 2, 3])

[0, 1, 2, 3]

In [12]:
float('0.4')

0.4

In [13]:
list('ananas')

['a', 'n', 'a', 'n', 'a', 's']

### `len(object)`

La funzione `len()` resituisce la lunghezza (il numero di elementi) di un oggetto. L'argomento può essere una sequenza (ad esempio una stringa o una lista) oppure una collezione (ad esempio un dizionario o un insieme).

In [14]:
len(frutta)

3

In [15]:
len('ananas')

6

In [16]:
len(4)

TypeError: object of type 'int' has no len()

### Metodi di `list`

Le liste sono ordinate, ovvero gli elementi hanno un ordine definito, e tale ordine non viene cambiato. Nel caso in cui vengano aggiunti nuovi elementi ad una lista, questi verranno piazzati alla fine della lista stessa.

`list.append(x)` aggiunge un elemento alla fine della lista.

In [17]:
frutta.append('pesca')

In [18]:
frutta

['ananas', 'banana', 'ciliegia', 'pesca']

`list.pop([i])` rimuove l'elemento della lista nella posizione indicata e lo restituisce. Se nessun indice viene indicato, rimuove e restituisce l'ultimo elemento nella lista.

In [19]:
frutta.pop(1)

'banana'

In [20]:
frutta

['ananas', 'ciliegia', 'pesca']

In [21]:
frutta.insert(1, 'banana')

In [22]:
frutta

['ananas', 'banana', 'ciliegia', 'pesca']

## Tuple

Le **tuple** sono utilizzate per memorizzare più elementi in una singola variabile. Sono definite da parentesi tonde, `(...)`, e i loro elementi sono ordinati, immutabili e consentono duplicati.

In [23]:
medaglie = ('oro', 'argento', 'bronzo')

In [24]:
medaglie

('oro', 'argento', 'bronzo')

In [25]:
type(medaglie)

tuple

In [27]:
mix = (2, 'ciao', (True, 0.3))

In [28]:
mix

(2, 'ciao', (True, 0.3))

È possibile anche utilizzare la funzione `tuple()` per definire una tupla.

In [29]:
tuple(('oro', 'argento', 'bronzo'))

('oro', 'argento', 'bronzo')

Anche se le tuple sembrano simili alle liste, in realtà sono utilizzate in modi e per scopi differenti. Le tuple sono immutabili e di solito contengono sequenze eterogenee di elementi a cui si accede tramite operazioni di *unpacking* e *indexing*. Le liste sono mutabili, i loro elementi sono di solito omogenei e vi si accede in maniera iterativa.

In [30]:
medaglie[0]

'oro'

In [31]:
medaglie[1:]

('argento', 'bronzo')

In [32]:
brand = 'Apple', 'Samsung', 'LG'

In [33]:
brand

('Apple', 'Samsung', 'LG')

In [34]:
apple, samsung, lg = brand

In [35]:
apple

'Apple'

### `zip(*iterable)`

La funzione integrata `zip()` itera su molteplici oggetti *iterabili* in parallelo, producendo tuple aventi un elemento da ciascuno degli iterabili.

In [38]:
medaglie = ['oro', 'argento', 'bronzo']
piazzamenti = [1, 2, 3]

In [40]:
list(zip(medaglie, piazzamenti))

[('oro', 1), ('argento', 2), ('bronzo', 3)]

In [42]:
piazzamenti = [1, 2, 3, 4]
premio = [1000, 500, 200]
list(zip(medaglie, piazzamenti, premio))

[('oro', 1, 1000), ('argento', 2, 500), ('bronzo', 3, 200)]

## Insiemi

Un **insieme** (*set*) è una struttura dati non-ordinata, non-indicizzata e immutabile che non accetta duplicati. Gli utilizzi più comuni riguardano il cosiddetto test di appartenenza e l'eliminazione di elementi duplicati. Gli insiemi supportano operazioni matematiche, come l'unione, l'intersezione, la differenza e la differenza simmetrica. Gli insiemi si definiscono con le parentesi graffe, `{...}`.

In [43]:
frutta = {'arancia', 'banana', 'ciliegia', 'arancia'}

In [44]:
frutta

{'arancia', 'banana', 'ciliegia'}

In [65]:
frutta[0]

TypeError: 'set' object is not subscriptable

È possibile definire un insieme utilizzando la funzione `set()`.

In [45]:
set(('arancia', 'banana', 'ciliegia', 'arancia'))

{'arancia', 'banana', 'ciliegia'}

In [46]:
['arancia', 'banana', 'ciliegia', 'arancia']

['arancia', 'banana', 'ciliegia', 'arancia']

In [47]:
('arancia', 'banana', 'ciliegia', 'arancia')

('arancia', 'banana', 'ciliegia', 'arancia')

### Test di Appartenenza

Un **test di appartenenza** controlla se uno specifico elemento sia contenuto all'interno di una sequenza, come stringhe, liste, tuple o insiemi. Uno dei principali vantaggi nell'utilizzare gli insiemi in Python è che essi sono ottimizzati per questa tipologia di test.

L'operatore `in` funziona con tipi sequenziali: è utilizzato per controllare se un elemento è presente in un oggetto. L'operatore restituisce `True` se l'elemento viene trovato, `False` in caso contrario.

In [48]:
'arancia' in frutta

True

In [49]:
'pesca' in frutta

False

In [50]:
'arancia' in ['arancia', 'banana', 'ciliegia', 'arancia']

True

In [51]:
'pesca' in ('arancia', 'banana', 'ciliegia', 'arancia')

False

In [52]:
'b' in 'ciao'

False

In [53]:
numeri_primi = {1, 2, 3, 5, 7}
numeri_dispari = {1, 3, 5, 7, 9}

### Operazioni sugli Insiemi

L'*unione* viene eseguita utilizzando l'operatore `|` oppure il metodo `set.union()`.

In [54]:
# Unione
numeri_primi | numeri_dispari

{1, 2, 3, 5, 7, 9}

In [60]:
numeri_dispari | numeri_primi

{1, 2, 3, 5, 7, 9}

In [55]:
numeri_primi.union(numeri_dispari)

{1, 2, 3, 5, 7, 9}

L'*intersezione* viene eseguita utilizzando l'operatore `&` oppure il metodo `set.intersection()`.

In [56]:
# Intersezione
numeri_primi & numeri_dispari

{1, 3, 5, 7}

In [57]:
numeri_primi.intersection(numeri_dispari)

{1, 3, 5, 7}

La *differenza* viene eseguita utilizzando l'operatore `-` oppure il metodo `set.difference()`.

In [58]:
# Differenza
numeri_primi - numeri_dispari

{2}

In [59]:
numeri_primi.difference(numeri_dispari)

{2}

In [61]:
numeri_dispari - numeri_primi

{9}

La *differenza simmetrica* viene eseguita utilizzando l'operatore `^` oppure il metodo `set.symmetric_difference()`.

In [62]:
# Differenza Simmetrica
numeri_primi ^ numeri_dispari

{2, 9}

In [63]:
numeri_dispari ^ numeri_primi

{2, 9}

In [64]:
numeri_primi.symmetric_difference(numeri_dispari)

{2, 9}

## Dizionari

Un **dizionario** è utilizzato per memorizzare valori in un formato *chiave: valore* ed è definito da parentesi graffe, `{chiave: valore}`. Differentemente dalle sequenze, le quali sono indicizzate da una serie di numeri, i dizionari sono indicizzati dalle chiavi, le quali possono essere di qualsiasi tipo immutabile e con il vincolo di dover essere uniche.

In [66]:
capitali = {'Italia': 'Roma'}

In [67]:
capitali[0]

KeyError: 0

In [68]:
capitali['Italia']

'Roma'

In [69]:
capitali = {'Italia': 'Roma', 'Francia': 'Parigi', 'Spagna': 'Madrid'}

In [70]:
capitali['Spagna']

'Madrid'

È possibile definire un dizionario anche con la funzione `dict()`.

In [71]:
auto = dict([('brand', 'Fiat'), ('modello', 'Panda'), ('anno', 2000)])

In [72]:
auto

{'brand': 'Fiat', 'modello': 'Panda', 'anno': 2000}

In [74]:
{'Italia': 'Roma', 'Francia': 'Parigi', 'Italia': 'Torino'}

{'Italia': 'Torino', 'Francia': 'Parigi'}

È possibile accedere agli elementi di un dizionario utilizzando le chiavi tra parentesi quadre.

### Metodi dei dizionari

`dict.keys()` restituisce una lista contenente le chiavi del dizionario.

In [75]:
capitali.keys()

dict_keys(['Italia', 'Francia', 'Spagna'])

`dict.values()` restituisce una lista contenente i valori del dizionario.

In [76]:
capitali.values()

dict_values(['Roma', 'Parigi', 'Madrid'])

`dict.items()` restituisce una lista contenente una tupla per ogni coppia chiave-valore.

In [77]:
capitali.items()

dict_items([('Italia', 'Roma'), ('Francia', 'Parigi'), ('Spagna', 'Madrid')])

In [79]:
paesi = ['Italia', 'Francia', 'Spagna']
città  = ['Roma', 'Parigi', 'Madrid']
dict(zip(paesi, città))

{'Italia': 'Roma', 'Francia': 'Parigi', 'Spagna': 'Madrid'}

# Leggere e Scrivere File

Un **modulo** è un file contenente un insieme di funzioni che vogliamo includere nella nostra applicazione. Per avere accesso al codice all'interno di un modulo utilizziamo il comando `import`.

## Modulo `os`

Il modulo `os` fornisce la possibilità di utilizzare le funzionalità del sistema operativo utilizzato.

In [80]:
import os

`os.getcwd()` restituisce una stringa rappresentante la cartella di lavoro corrente.

In [81]:
os.getcwd()

'/Users/sergiopicascia/Documents/GitHub/stat4bigdata/lezione-02'

`os.listdir(path='.')` restituisce una lista contenente i nomi delle voci presenti nel percorso indicato.

In [82]:
os.listdir('.')

['.DS_Store', '02-strutture-dati.ipynb', '.ipynb_checkpoints', 'data']

In [83]:
os.listdir(os.getcwd())

['.DS_Store', '02-strutture-dati.ipynb', '.ipynb_checkpoints', 'data']

In [85]:
os.listdir('data')

['levitating.txt', 'top10.json']

In [86]:
os.listdir('../lezione-01/')

['01-introduzione-a-python.ipynb', '.ipynb_checkpoints']

In [87]:
os.listdir('lezione-01/')

FileNotFoundError: [Errno 2] No such file or directory: 'lezione-01/'

## `open(file, mode)`

La funzione integrata `open()` apre un file e restituisce il corrispondente oggetto file.

In [88]:
file = open('data/levitating.txt')

Il metodo `read()` legge le informazioni dall'oggetto e le restituisce. Il metodo `readline()` legge e restituisce una linea dallo stream.

In [89]:
file.readline()

'If you wanna run away with me, I know a galaxy\n'

In [90]:
file.readline()

'And I can take you for a ride\n'

In [91]:
file.read()

"I had a premonition that we fell into a rhythm\nWhere the music don't stop for life\nGlitter in the sky, glitter in my eyes\nShining just the way I like\nIf you're feeling like you need a little bit of company\nYou met me at the perfect time\nYou want me, I want you, baby\nMy sugarboo, I'm levitating\nThe Milky Way, we're renegading\nYeah, yeah, yeah, yeah, yeah\nI got you, moonlight, you're my starlight\nI need you all night, come on, dance with me\nI'm levitating\nYou, moonlight, you're my starlight (you're the moonlight)\nI need you all night, come on, dance with me\nI'm levitating\nI believe that you're for me, I feel it in our energy\nI see us written in the stars\nWe can go wherever, so let's do it now or never, baby\nNothing's ever, ever too far\nGlitter in the sky, glitter in our eyes\nShining just the way we are\nI feel like we're forever, every time we get together\nBut whatever, let's get lost on Mars\nYou want me, I want you, baby\nMy sugarboo, I'm levitating\nThe Milky Wa

In [92]:
file.read()

''

Il metodo `close()` chiude lo stream.

In [93]:
file.close()

In [95]:
file.read()

ValueError: I/O operation on closed file.

Il comando `with` è utilizzato per racchiudere l'esecuzione di un blocco di codice con metodi definiti da un context manager. Questo si assicura che non vengano lasciate inavvertitamente risorse aperte.

In [105]:
with open('data/levitating.txt', 'r') as file_2:
    text = file_2.readline()
    print('ciao')

print('fuori dal blocco with')
file_2.readline()

ciao
fuori dal blocco with


ValueError: I/O operation on closed file.

In [101]:
text

'If you wanna run away with me, I know a galaxy\n'

In [103]:
file_2.read()

ValueError: I/O operation on closed file.

Il metodo `write()` scrive gli oggetti forniti come parametri sullo stream di riferimento. Il metodo `writelines()` scrive una lista di linee sullo stream; i separatori di linea non sono aggiunti automaticamente, dunque è consigliato inserirne uno alla fine di ogni linea.

## Modulo `json`

**JSON** (JavaScript Object Notation) è un formato di dati semplice da leggere e scrivere per gli essere umani, ma anche facile da generare e processare per le macchine. Un JSON è costituito da due strutture: una collezione di coppie nomi/valori e una lista ordinata di valori.

In Python, il modulo `json` rende semplice analizzare un file JSON. Per caricare un file con estensione .json, utilizziamo il comando `json.load()`.

In [106]:
import json

In [107]:
with open('data/top10.json', 'r') as file:
    top10 = json.load(file)

In [108]:
top10

[{'artist': 'Olivia Rodrigo', 'title': 'drivers license', 'duration': 4.02},
 {'artist': 'Lil Nas X',
  'title': 'MONTERO (Call Me By Your Name)',
  'duration': 2.17},
 {'artist': 'The Kid LAROI', 'title': 'STAY', 'duration': 2.21},
 {'artist': 'Olivia Rodrigo', 'title': 'good 4 u', 'duration': 2.58},
 {'artist': 'Dua Lipa', 'title': 'Levitating', 'duration': 3.23},
 {'artist': 'Justin Bieber', 'title': 'Peaches', 'duration': 3.18},
 {'artist': 'Doja Cat', 'title': 'Kiss Me More', 'duration': 3.28},
 {'artist': 'The Weeknd', 'title': 'Blinding Lights', 'duration': 3.2},
 {'artist': 'Glass Animals', 'title': 'Heat Waves', 'duration': 3.58},
 {'artist': 'Maneskin', 'title': "Beggin'", 'duration': 3.31}]

# Esercizi

1. Genera una lista contenente soltanto i nomi delle capitali dal seguente dizionario: `{'Italia': 'Roma', 'Francia': 'Parigi', 'Spagna': 'Madrid'}`

In [2]:
capitali = {'Italia': 'Roma', 'Francia': 'Parigi', 'Spagna': 'Madrid'}

In [None]:
capitali = {
    'Italia': 'Roma', 
    'Francia': 'Parigi', 
    'Spagna': 'Madrid'
}

In [3]:
capitali.values()

dict_values(['Roma', 'Parigi', 'Madrid'])

In [4]:
capitali.keys()

dict_keys(['Italia', 'Francia', 'Spagna'])

In [5]:
capitali.items()

dict_items([('Italia', 'Roma'), ('Francia', 'Parigi'), ('Spagna', 'Madrid')])

In [6]:
type(capitali.values())

dict_values

In [7]:
list(capitali.values())

['Roma', 'Parigi', 'Madrid']

In [8]:
type(list(capitali.values()))

list

In [9]:
list(capitali.values())[0]

'Roma'

In [10]:
capitali.items()[0]

TypeError: 'dict_items' object is not subscriptable

2. Crea un file .json contenente i dati riguardanti tre titoli azionari a tua scelta: per ognuno di questi indica nome, simbolo, industria ed ultimo prezzo di chiusura.

In [11]:
stock = [
    {
        'nome': 'Alphabet Inc.',
        'simbolo': 'GOOGL',
        'industria': 'Internet Content & Information',
        'prezzo': 111.75,
        'ultime_chiusure': [
            107.77, 107.35, 111.75
        ]
    },
    {
        'nome': 'Apple Inc.',
        'simbolo': 'AAPL',
        'industria': 'Consumer Electronics',
        'prezzo': 173.55,
        'ultime_chiusure': [
            171.77, 173.56
        ]
    }
]

In [12]:
stock

[{'nome': 'Alphabet Inc.',
  'simbolo': 'GOOGL',
  'industria': 'Internet Content & Information',
  'prezzo': 111.75,
  'ultime_chiusure': [107.77, 107.35, 111.75]},
 {'nome': 'Apple Inc.',
  'simbolo': 'AAPL',
  'industria': 'Consumer Electronics',
  'prezzo': 173.55,
  'ultime_chiusure': [171.77, 173.56]}]

In [13]:
type(stock)

list

In [14]:
type(stock[0])

dict

In [18]:
stock[0]

{'nome': 'Alphabet Inc.',
 'simbolo': 'GOOGL',
 'industria': 'Internet Content & Information',
 'prezzo': 111.75,
 'ultime_chiusure': [107.77, 107.35, 111.75]}

In [17]:
stock[0]['nome']

'Alphabet Inc.'

In [20]:
stock[1]

{'nome': 'Apple Inc.',
 'simbolo': 'AAPL',
 'industria': 'Consumer Electronics',
 'prezzo': 173.55,
 'ultime_chiusure': [171.77, 173.56]}

In [21]:
stock[1]['ultime_chiusure']

[171.77, 173.56]

In [19]:
stock[1]['ultime_chiusure'][0]

171.77

In [22]:
import json

In [23]:
import os

os.getcwd()

'/Users/sergiopicascia/Documents/GitHub/stat4bigdata/lezione-02'

In [26]:
with open('./data/stock.json', 'w') as file:
    json.dump(stock, file, indent=4)

In [27]:
with open('./data/esempio.txt', 'w') as file:
    file.write('questo è un file di esempio')