# Dictionaries, Set, Espressioni Regolari, Gestione delle eccezioni, File e Utilità di sistema

Un _dictionary_ è una struttura hash di coppie chiave-valore. Si ottiene attraverso la funzione built-in `dict()` e il letterale è racchiuso tra parentesi graffe `{ }`. Le chiavi hanno forma di stringhe e si utilizza la notazione array `<dictionary>['<chiave>']` per ottenere il valore associato alla singola chiave. Un `dict` è un _iterable_.

E' possibile ottenere un `dict` da un qualunque oggetto iterabile, oppure con la notazione `for ... in` ovvero specificando le chiavi ed i valori come _kwargs_ nella funzione `dict`


In [2]:
phoneNumbers = dict([('anne', 4139), ('guido', 4127), ('jack', 4098)]) # ottiene un dictionary da una lista di tuple
print(phoneNumbers)
initials = {x : x.capitalize()[0] for x in ('mary','jack','dan')} # mappa gli elementi della tupla come chiavi ed i valori sono ottenuti dall'espressione dopo i ':'
print(initials)

ticTacToe = dict (tic=1,tac=2,toe=3)
print(ticTacToe)

topolino = {}

topolino['nome']='Topolino'
topolino['eta']=75
topolino['vive']='Topolinia'
topolino['famoso']=True
topolino['amici']={'Pippo','Pluto','Basettoni'} # questo è un set

print(topolino)




{'anne': 4139, 'guido': 4127, 'jack': 4098}
{'mary': 'M', 'jack': 'J', 'dan': 'D'}
{'tic': 1, 'tac': 2, 'toe': 3}
{'nome': 'Topolino', 'eta': 75, 'vive': 'Topolinia', 'famoso': True, 'amici': {'Pluto', 'Pippo', 'Basettoni'}}


In [3]:
for k in topolino.keys(): # lista delle chiavi
    print(k,end=', ')
print()

for v in topolino.values(): # lista dei valori
    print(v,end=', ')
print()

for key, val in topolino.items(): # lista delle coppie chiave/valore come tuple
    print(key, val,sep=': ',end=', ')
print()



nome, eta, vive, famoso, amici, 
Topolino, 75, Topolinia, True, {'Pluto', 'Pippo', 'Basettoni'}, 
nome: Topolino, eta: 75, vive: Topolinia, famoso: True, amici: {'Pluto', 'Pippo', 'Basettoni'}, 


In [5]:
pluto=dict.fromkeys(topolino) # fromkeys crea un dict nuovo con le chiavi impostate a None
pluto['nome']='Pluto'
pluto['eta']=70
pluto['vive']=topolino.get('vive') # restituisce il valore corrispondente alla chiave passata come argomento
pluto['famoso']=True

if pluto['nome'] not in topolino['amici']: # in e not in sono operatori che danno un risultato booleano
    pluto['amici']={'nessuno'} # creo un set con un solo elemento
else:
    pluto['amici']={topolino['nome']} # creo un set con un elemento valutando una espressione

print(pluto)



{'nome': 'Pluto', 'eta': 70, 'vive': 'Topolinia', 'famoso': True, 'amici': {'Topolino'}}


In [6]:
friends=pluto.pop('amici') # elimina l'item e restituisce il valore

pluto.popitem()  # rimuove l'ultimo item dal dict

del pluto['eta'] # del cancella l'elemento su cui opera

print(friends,pluto)

pluto.clear() # cancella tutti gli item

print(pluto)

del pluto # cancella il nome pluto: da adesso in poi valutare pluto comporta un errore

pluto

{'Topolino'} {'nome': 'Pluto', 'vive': 'Topolinia'}
{}


NameError: name 'pluto' is not defined

## Set

Un set è un insieme di valori _non ripetuti_ racchiusi tra parentesi graffe `{ }` ***senza*** specifica di chiave. E' indicato per creare raggruppamenti di valori per cui sia rilevante giudicare l'appartenenza di un elemento all'insieme utilizzando `in` e `not in`.

In [None]:
a = set('abracadabra')                      # uso della funzione built-in
b = {'a','l','a','c','a','z','a','m'}       # letterale di tipo set

print(a,b)                                  # stampa solo i valori unici

print(a - b)                              # complemento di a rispetto a b

print(a | b)                              # unione

print(a & b)                              # intersezione

print(a ^ b)                              # or esclusivo: a ∪ b - a ∩ b


{'b', 'r', 'd', 'c', 'a'} {'z', 'c', 'm', 'a', 'l'}
{'d', 'r', 'b'}
{'b', 'r', 'z', 'd', 'c', 'm', 'a', 'l'}
{'c', 'a'}
{'d', 'm', 'b', 'l', 'r', 'z'}


## Gestione delle eccezioni Python

Le eccezioni si gestiscono con il costrutto:

```python
try:
    # codice da eseguire
except <espressione>: # blocco opzionale che intercetta l'eccezione calcolata con <espressione> e la gestisce
    # gestione della particolare eccezione intercettata
#
# Può esserci più di un blocco except
#

else: # blocco opzionale
    # codice eseguito se non è stata sollevata alcuna eccezione

finally: # blocco opzionale
    # codice eseguito in coda a tutti i gestori di eccezioni
    # a prescindere che siano state sollevate o meno
```

Lista delle eccezioni più comuni:

<table border="1">
	<caption>Python Built-in Exceptions</caption>
	<tbody>
		<tr>
			<th scope="col">Exception</th>
			<th scope="col">Cause of Error</th>
		</tr>
		<tr>
			<td>AssertionError</td>
			<td>Raised when <code>assert</code> statement fails.</td>
		</tr>
		<tr>
			<td>AttributeError</td>
			<td>Raised when attribute assignment or reference fails.</td>
		</tr>
		<tr>
			<td>EOFError</td>
			<td>Raised when the <code>input()</code> functions hits end-of-file condition.</td>
		</tr>
		<tr>
			<td>FloatingPointError</td>
			<td>Raised when a floating point operation fails.</td>
		</tr>
		<tr>
			<td>GeneratorExit</td>
			<td>Raise when a generator&#39;s <code>close()</code> method is called.</td>
		</tr>
		<tr>
			<td>ImportError</td>
			<td>Raised when the imported module is not found.</td>
		</tr>
		<tr>
			<td>IndexError</td>
			<td>Raised when index of a sequence is out of range.</td>
		</tr>
		<tr>
			<td>KeyError</td>
			<td>Raised when a key is not found in a dictionary.</td>
		</tr>
		<tr>
			<td>KeyboardInterrupt</td>
			<td>Raised when the user hits interrupt key (Ctrl+c or delete).</td>
		</tr>
		<tr>
			<td>MemoryError</td>
			<td>Raised when an operation runs out of memory.</td>
		</tr>
		<tr>
			<td>NameError</td>
			<td>Raised when a variable is not found in local or global scope.</td>
		</tr>
		<tr>
			<td>NotImplementedError</td>
			<td>Raised by abstract methods.</td>
		</tr>
		<tr>
			<td>OSError</td>
			<td>Raised when system operation causes system related error.</td>
		</tr>
		<tr>
			<td>OverflowError</td>
			<td>Raised when result of an arithmetic operation is too large to be represented.</td>
		</tr>
		<tr>
			<td>ReferenceError</td>
			<td>Raised when a weak reference proxy is used to access a garbage collected referent.</td>
		</tr>
		<tr>
			<td>RuntimeError</td>
			<td>Raised when an error does not fall under any other category.</td>
		</tr>
		<tr>
			<td>StopIteration</td>
			<td>Raised by <code>next()</code> function to indicate that there is no further item to be returned by iterator.</td>
		</tr>
		<tr>
			<td>SyntaxError</td>
			<td>Raised by parser when syntax error is encountered.</td>
		</tr>
		<tr>
			<td>IndentationError</td>
			<td>Raised when there is incorrect indentation.</td>
		</tr>
		<tr>
			<td>TabError</td>
			<td>Raised when indentation consists of inconsistent tabs and spaces.</td>
		</tr>
		<tr>
			<td>SystemError</td>
			<td>Raised when interpreter detects internal error.</td>
		</tr>
		<tr>
			<td>SystemExit</td>
			<td>Raised by <code>sys.exit()</code> function.</td>
		</tr>
		<tr>
			<td>TypeError</td>
			<td>Raised when a function or operation is applied to an object of incorrect type.</td>
		</tr>
		<tr>
			<td>UnboundLocalError</td>
			<td>Raised when a reference is made to a local variable in a function or method, but no value has been bound to that variable.</td>
		</tr>
		<tr>
			<td>UnicodeError</td>
			<td>Raised when a Unicode-related encoding or decoding error occurs.</td>
		</tr>
		<tr>
			<td>UnicodeEncodeError</td>
			<td>Raised when a Unicode-related error occurs during encoding.</td>
		</tr>
		<tr>
			<td>UnicodeDecodeError</td>
			<td>Raised when a Unicode-related error occurs during decoding.</td>
		</tr>
		<tr>
			<td>UnicodeTranslateError</td>
			<td>Raised when a Unicode-related error occurs during translating.</td>
		</tr>
		<tr>
			<td>ValueError</td>
			<td>Raised when a function gets argument of correct type but improper value.</td>
		</tr>
		<tr>
			<td>ZeroDivisionError</td>
			<td>Raised when second operand of division or modulo operation is zero.</td>
		</tr>
	</tbody>
</table>

## Iteratori

Gli iteratori sono oggetti sui quali si può scorrere utilizzando la funzione `next()` che genera l'eccezione `StopIteration`. La funzione `iter()` genera un iteratore dal suo argomento.

In [6]:
a = iter({'pippo':1,'pluto':2,'paperino':True}.values())

while True:
    try:
        print(next(a))
    except StopIteration:
        print('Non ci sono più elementi!!')
        break


1
2
True
Non ci sono più elementi!!


In [None]:
def dividi(num,den):
    quoziente = 0
    try:
        quoziente = num/den
    except ZeroDivisionError:
        print('Divisione per 0!!')
        return None
    except TypeError as te: # as consente di utilizzare l'oggetto eccezione nel blocco except
        if isinstance(num,type(0)) or isinstance(num,type(0.0)):
            print('Il denominatore non è un numero')
        elif isinstance(den,type(0)) or isinstance(den,type(0.0)):
            print('Il numeratore non è un numero')
        else:
            print('argomenti non numerici')
        print(f'\n\nEccezione: {type(te).__name__}\nMessaggio: {te.args[0]}')
        return None
    else:
        print(f'Il risultato è {quoziente}')
        return quoziente
    finally:
        # A solo titolo indicativo: qui potrebbero essere eseguite azioni esplicite di garbage collection per dati di grandi dimensioni
        del quoziente

dividi(3,4)

Il numeratore non è un numero


Eccezione: TypeError
Messaggio: unsupported operand type(s) for /: 'str' and 'int'


## Espressioni Regolari

Il modulo `re` gestisce le espressioni regolari che sono stringhe campione per la ricerca di particolari ocorrenze di caratteri in un testo. In Python le espressioni regolari hanno un letterale del tipo:

```python
r'[\w.-]+@[\w.-]+'
```

Al sito di [W3 Schools](https://www.w3schools.com/python/python_regex.asp) si trova un buon tutorial, mentre al sito [regexr.com](https://regexr.com/) si trova un buon tester on line di espressioni regolari

In [2]:
import re

str1 = 'purple alice-b@google.com monkey dishwasher'
str2 = 'purple alice@google.com, blah monkey bob@abc.com blah dishwasher'

match = re.search(r'[\w\.-]+@[\w\.-]+', str1) # cerca l'espressione regolare

if match:
    print(match.group())       # stampa il gruppo di caratteri che fa parte del **primo** match
else:
    print('Nessuna corrispondenza')
    
match = re.search(r'([\w\.-]+)@([\w\.-]+)', str2) # cerca l'espressione regolare che è suddivisa in gruppi attraverso le parentesi tonde ( )

if match:
    print(match.group())       # stampa il gruppo di caratteri che corrisponde a tutto il primo match
    print(match.group(1))       # stampa il gruppo di caratteri che corrisponde al primo gruppo del match
    print(match.group(2))       # stampa il gruppo di caratteri che corrisponde al secondo gruppo match
else:
    print('Nessuna corrispondenza')


alice-b@google.com
alice@google.com
alice
google.com


In [3]:
tuples = re.findall(r'([\w\.-]+)@([\w\.-]+)', str2) # cerca tutte le occorrenze dell'espressione regolare

if tuples:

  print(tuples)  ## [('alice', 'google.com'), ('bob', 'abc.com')]
  for tuple in tuples:
    print(tuple[0],tuple[1],sep=': ')  ## username: host
else:
    print('Nessuna corrispondenza')

[('alice', 'google.com'), ('bob', 'abc.com')]
alice: google.com
bob: abc.com


## Costrutto `with`

`with` genera un _runtime context manager_ a partire dalla valutazione di una espressione che fornisce il contesto di esecuzione e a cui si può fare riferimento all'interno del blocco tramite l'identificatore dichiarato con l'operatore `as`. I contesti with possono essere multipli. `with` esegue automaticamente i metodi `__enter__()` e `__exit__()` del contesto che quindi dev'essere un oggetto che implementa questi due metodi. Questo è ad esempio il caso dell'esecuzione di `open()`.

```python
with <contesto> as <target> [,<contesto> as <target> ...]:
    # operazioni da eseguire usando <target> come riferimento
```


## File

I file sono oggetti che implementano un'interfaccia verso tre tipologie di flussi: testo, binari e bufferizzati. L'oggetto file si ottiene tramite la funzione `open()`:

```python
open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
```

- `file`: è un _path-like_ object e corrisponde al percorso del file nel file system; la gestione del file system si ottiene dai moduli `os` e `os.path

- `mode`: la modalià di apertura del file
    - `'r'` lettura (default)
    - `'w'` scrittura: crea un nuovo file se non esiste e lo tronca se esiste già
    - `'x'` solo creazione: se il file già esiste si genera un errore
    - `'a'` append: scrive in coda senza troncare e crea un nuovo file se non esiste
    - `'t'` text mode (default)
    - `'b'` binary mode
    - `'+'` aggiornamento: lettura/scrittura

Gli argomenti seguenti sono opzionali:
- `buffering`: gestione del buffering
- `encoding`: codifica; `encoding='utf-8'` per file Unicode; l'encoding di default è dipendente dalla piattaforma; Windows usa `'cp1252'` e Linux/UNIX `'utf-8'`
- `errors`: specifica la codifica/decodifica defli errori
- `newline`​: gestione del carattere di newline (valori disponibili: None, `' '`, `'\n'`, `'\r'`, and `'\r\n'`
- `closefd`: dev'essere `True` altrimenti si genera un errore
- `opener`: indica un gestore dell'apertura del file definito dall'utente che _deve_ restituire un descrittore di file aperto.

`open()` restituisce un file object e l'eccezione `FileNotFoundError` in caso di file non trovato.

```python
#
# Alcuni esempi di apertura di un file
#

f = open("test.txt")      # equivalente a 'r' o 'rt'
f = open("test.txt",'w')  # scrive il file in text mode
f = open("img.bmp",'r+b') # legge e scrive il file in binary mode

#
# Operazioni sui file
#

f = open("test.txt",encoding = 'utf-8')

# esecuzione delle operazioni sul file

f.close() # chiusura

#
# Gestione più sicura del file con garanzia di chiusura
#

# Uso di try ... finally
try:
    f = open("test.txt",encoding = 'utf-8')

    # esegue le operazioni e intercetta le eccezioni

finally:
    f.close() # chiude il file sempre a prescindere dal fatto che ci siano state eccezioni

# Uso di with e chiusura implicita del file

with open("test.txt",encoding = 'utf-8') as f:
     # esegue le operazioni e chiude automaticamente alla fine del blocco with
```

In [1]:
with open('./Python programming/hello.py',encoding='utf-8') as f:
    print(f.read(5))    # legge cinque elementi
    print(f.read(8))    # legge 8 elementi
    print(f.tell())     # riporta la posizione del cursore nel file
    f.seek(0)           # si riposiziona a 0
    
    # loop di lettura di tutte le linee            
    line = f.readline()
    while line != '':
        print(line)
        line = f.readline()
    
    f.seek(0) 
    
    # legge tutte le linee in una lista
    print(f.readlines())


#!/us
r/bin/en
13
#!/usr/bin/env python



"""Il primo semplice programma Python che può essere eseguito in due modi:

  python hello.py

  python hello.py Alice



Nel primo caso stampa:

  Hello World

mentre nel secondo caso stampa:

  Hello Alice

"""



import sys



def main():

  """

  La funzione main **convenzionalmente** contiene il programma principale

  che può a sua volta richiamare altre funzioni ove necessario.

  """

  

  # controlla la lista degli argomenti passati da terminale al nostro programma

  if len(sys.argv) >= 2:

    name = sys.argv[1]

  else:

    name = 'World'

  print ('Hello', name)



# Valuta se il nome del **modulo corrente** sia la stringa '__main__' 

# ed eventualmente la esegue

if __name__ == '__main__':

  main()

['#!/usr/bin/env python\n', '\n', '"""Il primo semplice programma Python che può essere eseguito in due modi:\n', '  python hello.py\n', '  python hello.py Alice\n', '\n', 'Nel primo caso stampa:\n', '  Hello World\n', 'mentre ne

In [2]:
# Creiamo un piccolo file csv (Comma Separated Values) da una lista di dict
persone = [{'matricola': 1234,'nome': 'Jhon Doe', 'reparto': 'A'},
           {'matricola': 8976,'nome': 'Jack Russell', 'reparto': 'B'},
           {'matricola': 7732,'nome': 'Brian May', 'reparto': 'A'}]

with open('./Data/persone.csv','w',encoding='utf-8') as dataFile:
    
    # Dapprima scriviamo nel file la linea di intestazione
    # che è costituita dalle chiavi di uno qualunque dei dict
    for i,k in enumerate(persone[0].keys()):
        if i == len(persone[0].keys()) - 1:
            dataFile.write(k+'\n')      # andiamo a capo dopo l'ultimo campo
        else:
            dataFile.write(k+', ')      # altrimenti mettiamo la virgola
    
    # Stampiamo per ogni riga, terminata dal carattere newline, gli elementi di ogni dict
    for i in range(len(persone)):
        dataFile.write(f'{persone[i]["matricola"]}, {persone[i]["nome"]}, {persone[i]["reparto"]}\n')


### Gestione dei file CSV

Python fornisce un esplicito modulo `csv` per gestire la lettura e la scrittura di file csv che sono uno dei formati più diffusi per esportare dei dati da un database. Di seguito alcuni esempi di lettura.

In [None]:
import csv

##
#
# csv.reader() legge un file csv come una lista di righe
# ciascuna delle quali è una lista di valori
#
with open('./Data/persone.csv', 'r') as csvFile:
    reader = csv.reader(csvFile)
    for row in reader:
        print(row)


['matricola', ' nome', ' reparto']
['1234', ' Jhon Doe', ' A']
['8976', ' Jack Russell', ' B']
['7732', ' Brian May', ' A']


In [None]:
import csv

##
#
# In caso di file csv con una sintassi particolare come linee vuote iniziali
# alcuni campi con le virgolette ovvero delimitatori diversi dalla virgola
# è possibile usare un 'dialetto' csv e registrarlo per leggere correttamente i dati
#
csv.register_dialect('myDialect',
                     delimiter = ';',       # nuovo delimitatore
                     quoting=csv.QUOTE_ALL, # tutti i campi vengono racchiusi da virgolette per omogeneità
                     skipinitialspace=True) # ci sono spazi dopo il delimitatore

with open('./Data/persone1.csv', 'r') as csvFile:
    reader = csv.reader(csvFile, dialect='myDialect')
    
    for row in reader:
        print(row)


['matricola', 'nome', 'reparto']
['1234', 'Jhon Doe', 'A']
['8976', 'Jack Russel', 'B']
['7732', 'Brian May', 'A']


In [3]:
import csv

##
#
# In caso di file csv con una sintassi particolare come linee vuote iniziali
# alcuni campi con le virgolette ovvero delimitatori diversi dalla virgola
# è possibile usare un 'dialetto' csv e registrarlo per leggere correttamente i dati
#
csv.register_dialect('myDialect',
                     delimiter = ';',
                     quoting=csv.QUOTE_ALL,
                     skipinitialspace=True)

with open('./Data/persone1.csv', 'r') as csvFile:
    reader = csv.DictReader(csvFile, dialect='myDialect')
    
    for row in reader:
        print(dict(row))
        

{'matricola': '1234', 'nome': 'Jhon Doe', 'reparto': 'A'}
{'matricola': '8976', 'nome': 'Jack Russel', 'reparto': 'B'}
{'matricola': '7732', 'nome': 'Brian May', 'reparto': 'A'}


Vediamo degli esempi di scrittura e/o inserimento dati.

In [4]:
##
#
# aggiungiamo una riga da una lista di dati a persone.csv
#

import csv

row = [3344, 'ZZ Top', 'D']

with open('./Data/persone.csv', 'a') as csvFile:
    writer = csv.writer(csvFile)
    writer.writerow(row)


In [7]:
##
#
# Scriviamo un nuovo file a partire da una lista di liste, ognuna delle quali sarà una riga
# La prima lista conterrà i nomi dei campi
#

import csv

csvData = [['Quantità', 'Artista', 'Reparto'], ['21', 'Boy George', 'Pop'], ['56', 'Genesis', 'Rock'],['32', 'W.A. Mozart', 'Classica']]

csv.register_dialect('myDialect',
delimiter = ';',
quotechar = '"',                    # il dialetto utilizza anche un proprio carattere per quotare gli elementi
quoting=csv.QUOTE_ALL,
skipinitialspace=True)

with open('./Data/dischi.csv', 'w', encoding='utf-8') as csvFile:
    writer = csv.writer(csvFile, dialect='myDialect')
    writer.writerows(csvData)

print("writing completed")


writing completed


In [None]:
##
#
# Analogo a prima, ma usiamo un DictWriter per scrivere i dati da dict
#
import csv

csvData = [{'Cognome e Nome': 'Mario Rossi', 'Data di nascita': '03/08/1933', 'Luogo di nascita': 'Palermo', 'Provincia': 'PA', 'CF': 'XXXTTT33R44R675E'},
           {'Cognome e Nome': 'Giuseppe Verdi', 'Data di nascita': '12/05/1971', 'Luogo di nascita': 'Monza', 'Provincia': 'MI', 'CF': 'GGGVVV44U66M456P'},
           {'Cognome e Nome': 'Carlo Bianchi', 'Data di nascita': '30/09/2000', 'Luogo di nascita': 'Macerata', 'Provincia': 'MC', 'CF': 'CCCBBB89R12O984F'}]


csv.register_dialect('myDialect',
delimiter = ';',
quotechar = '"',                    # il dialetto utilizza anche un proprio carattere per quotare gli elementi
quoting=csv.QUOTE_ALL,
skipinitialspace=True)

with open('./Data/anagrafica.csv', 'w') as csvfile:
    fieldnames = ['Cognome e Nome', 'Data di nascita', 'Luogo di nascita', 'Provincia', 'CF']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames, dialect="myDialect")
    writer.writeheader()
    writer.writerows(csvData)

print("writing completed")


writing completed


## Gestione dei file `json`

Il modulo `json` consente di leggere/scrivere informazioni da/a apposite strutture dati Python secondo la eguente tabella di conversione:

<table>
	<thead>
		<tr>
			<th>Python</th>
			<th>JSON Equivalent</th>
		</tr>
	</thead>
	<tbody>
		<tr>
			<td><code>dict</code></td>
			<td>object</td>
		</tr>
		<tr>
			<td><code>list</code>, <code>tuple</code></td>
			<td>array</td>
		</tr>
		<tr>
			<td><code>str</code></td>
			<td>string</td>
		</tr>
		<tr>
			<td><code>int</code>, <code>float</code>, <code>int</code></td>
			<td>number</td>
		</tr>
		<tr>
			<td><code>True</code></td>
			<td>true</td>
		</tr>
		<tr>
			<td><code>False</code></td>
			<td>false</td>
		</tr>
		<tr>
			<td><code>None</code></td>
			<td>null</td>
		</tr>
	</tbody>
</table>


In [5]:
##
#
# Lettura di un file json e stampa normale e formattata
#

import json

with open('./Data/dischi.json',encoding='utf-8') as f:
    data = json.load(f)
    # Output: {'name': 'Bob', 'languages': ['English', 'Fench']}

print(data)

print(json.dumps(data, indent = 4, sort_keys=True))

{'dischi': [{'Artista': 'John Bon Jovi', 'Generi': ['Rock', 'Pop'], 'Quantità': 34}, {'Artista': 'Elton John', 'Generi': ['Pop', 'Funky'], 'Quantità': 12}, {'Artista': 'George Benson', 'Generi': ['Blues', 'Jazz', 'Pop'], 'Quantità': 22}]}
{
    "dischi": [
        {
            "Artista": "John Bon Jovi",
            "Generi": [
                "Rock",
                "Pop"
            ],
            "Quantit\u00e0": 34
        },
        {
            "Artista": "Elton John",
            "Generi": [
                "Pop",
                "Funky"
            ],
            "Quantit\u00e0": 12
        },
        {
            "Artista": "George Benson",
            "Generi": [
                "Blues",
                "Jazz",
                "Pop"
            ],
            "Quantit\u00e0": 22
        }
    ]
}


In [None]:
##
# scrittura di dati organizzati in un dict su file json
#

import json

person_dict = [{'Cognome e Nome': 'Mario Rossi', 'Data di nascita': '03/08/1933', 'Luogo di nascita': 'Palermo', 'Provincia': 'PA', 'CF': 'XXXTTT33R44R675E'},
           {'Cognome e Nome': 'Giuseppe Verdi', 'Data di nascita': '12/05/1971', 'Luogo di nascita': 'Monza', 'Provincia': 'MI', 'CF': 'GGGVVV44U66M456P'},
           {'Cognome e Nome': 'Carlo Bianchi', 'Data di nascita': '30/09/2000', 'Luogo di nascita': 'Macerata', 'Provincia': 'MC', 'CF': 'CCCBBB89R12O984F'}]

with open('./Data/persone.json', 'w', encoding='utf-8') as json_file:
  json.dump(person_dict, json_file)

print("writing completed")

writing completed


In [None]:
##
# 
# File ed espressioni regolari
#

import re
import csv

searchFor = r"[1-9]+"

with open('./Data/persone.csv', 'r', encoding='utf-8') as f:
    strings=re.findall(searchFor,f.read())

strings


['1234', '8976', '7732', '3344']

# Utilità di sistema

## File System -- `os, os.path, shutil`

   - `filenames = os.listdir(dir)`: lista dei soli nomi dei file in `dir` esclusi `.` e `..`
   - `os.path.join(dir, filename)`: crea un percorso da un nome di file e da un nome di cartella
   - `os.path.abspath(path)`: restituisce la forma assoluta di un percorso
   - `os.path.dirname(path), os.path.basename(path)` restituiscono rispettivamente il nome della cartella ed il nome del file da un percorso, ad esempio `dir/foo/bar.htm` restituisce rispettivamente `dir/foo` e `bar.html`
   - `os.path.exists(path)`: verifica se il percorso esiste
   - `os.mkdir(dir_path)`: crea una cartella alla fine del percorso
   - `os.makedirs(dir_path)`: crea tutte le cartelle nel percorso
   - `os.system(cmd)`: esegue il comando e stampa l'output nello standard output dello script chiamante ovvero della console, ritornando il codice di uscita; l'uscita ***non*** viene intercettata da alcuna struttura dati Python
   - `shutil.copy(source-path, dest-path)`: copia dal percorso sorgente a quello destinazione
   - `shutil.move(source-path, dest-path)`: sposta dal percorso sorgente a quello destinazione
   - `shutil.rmtree(path)`: cancella ricorsivamente tutte le cartelle del percorso
   - `shutil.make_archive(base_name, format, root_dir=None, base_dir=None)`: crea un archivio `base_name` nel formato specificato da `format` (`'zip'`, `'tar'`, ....) che verrà salvato in `root_dir`, mentre l'archiviazione parte da `base_dir`, entrambe di default la cartella corrente
   - `shutil.unpack_archive(filename, extractdir=None, format=None)`: estrae un archivio `filename` nel specificato da formato `format` (`'zip'`, `'tar'`, ....) che verrà estratto in `extractdir`, di default la cartella corrente
  
    
## Esecuzione dei comandi esterni -- `subprocess`

`subprocess.run(args, *, stdin=None, input=None, stdout=None, stderr=None, capture_output=False, shell=False, cwd=None, timeout=None, check=False, encoding=None, errors=None, text=None, env=None, universal_newlines=None)`: esegue il comando specificato nella lista `args` che contiene tutti i suoi argomenti, ad es. `ls -l .` corrisponde a `['ls', '-l', '.']`. Restituisce un oggetto `subprocess.CompletedProcess` i cui campi sono:

- `args`: la lista degli argomenti del comando
- `returncode`: il codice di ritorno
- `stdout`: lista contenenete lo standard output (se `capture_output=True` ovvero `stdout=subprocess.PIPE` nella chiamata)
- `stderr`: lista contenenete lo standard error (se `capture_output=True` ovvero `stderr=subprocess.PIPE` nella chiamata)

Alcuni parametri rilevanti:

- `input`: specifica una stringa di input che viene passata al comando; dev'essere una _byte string_ il cui letterale è della forma `b' .... '`, analogamente al formato di `stdout` e `stderr`
- `cwd`: specifica la cartella in cui ci si deve portare per eseguire il comando
- `timeout`: intervallo di tempo in secondi, trascorso il quale viene sollevata un'eccezione `TimeoutExpired` ed il processo termina
- `shell=True`: esecuzione attraverso la shell
- `check=True`: se il processo esce con un errore e viene sollevata un'eccezione `CalledProcessError` che nei suoi argomenti conserva codice, standard output e standard error
- `universal_newlines=True`: gestisce i caratteri di new line e di spaziatura e genera una stringa normale e non una stringa di byte

Qualche esempio da eseguire nella console Python:

```python
##
#
# Cattura standard output e standard error (è come inserire capture_output=True)
#
subprocess.run(['ls', '-l', '.'],stdout=subprocess.PIPE,stderr=subprocess.PIPE)

# CompletedProcess(args=['ls', '-l', '.'], returncode=0, stdout=b"total 352\n-rw-r--r--  1 pirrone  staff  14188 26 Set 15:19 Configurazione dell'ambiente Python.ipynb\ndrwxr-xr-x  9 pirrone  staff    288  3 Ott 11:35 Data\n-rw-r--r--  1 pirrone  staff   1068 17 Ago 13:33 LICENSE\ndrwxr-xr-x  5 pirrone  staff    160 21 Set 11:58 Libri di testo\n-rw-r--r--  1 pirrone  staff  27730 23 Set 13:46 Plot example.ipynb\ndrwxr-xr-x  6 pirrone  staff    192  3 Ott 10:30 Python programming\n-rw-r--r--  1 pirrone  staff  35855 26 Set 17:02 Python programming 1.ipynb\n-rw-r--r--  1 pirrone  staff  20338  2 Ott 17:56 Python programming 2.ipynb\n-rw-r--r--  1 pirrone  staff  44764  3 Ott 15:48 Python programming 3.ipynb\n-rw-r--r--  1 pirrone  staff    290  3 Set 14:15 README.md\n-rw-r--r--  1 pirrone  staff  22632 23 Set 13:47 Widget example.ipynb\n", stderr=b'')

##
#
# Esecuzione attraverso la shell: l'output si modifica per effetto di questo
#
subprocess.run(['ls', '-l', '.'],stdout=subprocess.PIPE,stderr=subprocess.PIPE,shell=True)

# CompletedProcess(args=['ls', '-l', '.'], returncode=0, stdout=b"Configurazione dell'ambiente Python.ipynb\nData\nLICENSE\nLibri di testo\nPlot example.ipynb\nPython programming\nPython programming 1.ipynb\nPython programming 2.ipynb\nPython programming 3.ipynb\nREADME.md\nWidget example.ipynb\n", stderr=b'')

##
#
# Uso diretto dell'interfaccia Popen che gestrisce esplicitamente i processi e crea le pipeline
# per ridirigere l'output su un file
#

import subprocess
from subprocess import Popen


path_to_output_file = './Data/myoutput.txt'

myoutput = open(path_to_output_file,'w+')

# Popen apre una pipeline ed usa gli stessi argomenti di subprocess.run()
p = Popen(["ls","-lha"], stdout=myoutput, stderr=subprocess.PIPE, universal_newlines=True)

output, errors = p.communicate() # restituisce una coppia di stringhe che contengono standard output ed error rispettivamente

output

# '' abbiamo rediretto lo standard output

errors

# '' non ci sono errori

# Leggiamo il file su cui abbiamo rediretto lo standard output

with open(path_to_output_file,"r") as f:
    print(f.read())

#total 392
#drwxr-xr-x  17 pirrone  staff   544B  3 Ott 17:06 .
#drwxr-xr-x   5 pirrone  staff   160B 21 Set 11:27 ..
#-rw-r--r--@  1 pirrone  staff    12K  2 Ott 20:09 .DS_Store
#drwxr-xr-x  15 pirrone  staff   480B  3 Ott 15:00 .git
#drwxr-xr-x  10 pirrone  staff   320B  3 Ott 13:37 .idea
#drwxr-xr-x   9 pirrone  staff   288B  3 Ott 10:39 .ipynb_checkpoints
#-rw-r--r--   1 pirrone  staff    14K 26 Set 15:19 Configurazione dell'ambiente Python.ipynb
#drwxr-xr-x  10 pirrone  staff   320B  3 Ott 17:20 Data
#-rw-r--r--   1 pirrone  staff   1,0K 17 Ago 13:33 LICENSE
#drwxr-xr-x   5 pirrone  staff   160B 21 Set 11:58 Libri di testo
#-rw-r--r--   1 pirrone  staff    27K 23 Set 13:46 Plot example.ipynb
#drwxr-xr-x   6 pirrone  staff   192B  3 Ott 10:30 Python programming
#-rw-r--r--   1 pirrone  staff    35K 26 Set 17:02 Python programming 1.ipynb
#-rw-r--r--   1 pirrone  staff    20K  2 Ott 17:56 Python programming 2.ipynb
#-rw-r--r--   1 pirrone  staff    46K  3 Ott 17:06 Python programming 3.ipynb
#-rw-r--r--   1 pirrone  staff   290B  3 Set 14:15 README.md
#-rw-r--r--   1 pirrone  staff    22K 23 Set 13:47 Widget example.ipynb


##
# redirezione di comandi in pipe tra loro con Popen
#
#

from subprocess import Popen,PIPE

# Ciò che segue è equivalente a ls -lha | grep "rw-r--r--"

# prima pipe che esegue 'ls -lha'
p1 = Popen(["ls","-lha"], stdout=PIPE,universal_newlines=True)

# secoinda pipe che esegue 'grep "rw-r--r--"' e ha come standar input lo standard output della precedente
p2 = Popen(["grep", "rw-r--r--"], stdin=p1.stdout, stdout=PIPE,universal_newlines=True)

p1.stdout.close() # chiudiamo il flusso di output della prima pipe

# raccogliamo l'output della seconda pipe e stampiamo
output = p2.communicate()[0]
print(output)

#-rw-r--r--@  1 pirrone  staff    12K  2 Ott 20:09 .DS_Store
#-rw-r--r--   1 pirrone  staff    14K 26 Set 15:19 Configurazione dell'ambiente Python.ipynb
#-rw-r--r--   1 pirrone  staff   1,0K 17 Ago 13:33 LICENSE
#-rw-r--r--   1 pirrone  staff    27K 23 Set 13:46 Plot example.ipynb
#-rw-r--r--   1 pirrone  staff    35K 26 Set 17:02 Python programming 1.ipynb
#-rw-r--r--   1 pirrone  staff    20K  2 Ott 17:56 Python programming 2.ipynb
#-rw-r--r--   1 pirrone  staff    49K  3 Ott 17:30 Python programming 3.ipynb
#-rw-r--r--   1 pirrone  staff   290B  3 Set 14:15 README.md
#-rw-r--r--   1 pirrone  staff    22K 23 Set 13:47 Widget example.ipynb

```

## HTTP -- package `urllib`

- `urllib.request`: modulo che contiene i metodi per effettuare una richiesta
    - `ufile = urllib.request.urlopen(url)`: metodo che apre una url e restituisce una `urllib.response`

- `urllib.response`: modulo che fornisce una interfaccia file minimale con i metodi `read()`, `readline()`, e soprattutto con i metodi
    - `urllib.reponse.geturl()`: restituisce la _base url_ della richiesta
    - `urllib.reponse.info()`: restituisce un dict che contiene gli header inviati dal server e il resto della pagina
    
- `urllib.parse`: manipola le url secondo la RFC 1808 e successive
    - `urllib.parse.urlencode(query)`: rappresenta `query`come una stringa ASCII che usa il carattere '%' per rappresentare i caratteri speciali non stampabili 
    - `urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)`: restituisce una _named tuple_ secondo il seguente schema:

<table class="docutils align-center">
<colgroup>
<col style="width: 25%" />
<col style="width: 10%" />
<col style="width: 36%" />
<col style="width: 30%" />
</colgroup>
<thead>
<tr class="row-odd"><th class="head"><p>Attribute</p></th>
<th class="head"><p>Index</p></th>
<th class="head"><p>Value</p></th>
<th class="head"><p>Value if not present</p></th>
</tr>
</thead>
<tbody>
<tr class="row-even"><td><p><code class="xref py py-attr docutils literal notranslate"><span class="pre">scheme</span></code></p></td>
<td><p>0</p></td>
<td><p>URL scheme specifier</p></td>
<td><p><em>scheme</em> parameter</p></td>
</tr>
<tr class="row-odd"><td><p><code class="xref py py-attr docutils literal notranslate"><span class="pre">netloc</span></code></p></td>
<td><p>1</p></td>
<td><p>Network location part</p></td>
<td><p>empty string</p></td>
</tr>
<tr class="row-even"><td><p><code class="xref py py-attr docutils literal notranslate"><span class="pre">path</span></code></p></td>
<td><p>2</p></td>
<td><p>Hierarchical path</p></td>
<td><p>empty string</p></td>
</tr>
<tr class="row-odd"><td><p><code class="xref py py-attr docutils literal notranslate"><span class="pre">params</span></code></p></td>
<td><p>3</p></td>
<td><p>Parameters for last path
element</p></td>
<td><p>empty string</p></td>
</tr>
<tr class="row-even"><td><p><code class="xref py py-attr docutils literal notranslate"><span class="pre">query</span></code></p></td>
<td><p>4</p></td>
<td><p>Query component</p></td>
<td><p>empty string</p></td>
</tr>
<tr class="row-odd"><td><p><code class="xref py py-attr docutils literal notranslate"><span class="pre">fragment</span></code></p></td>
<td><p>5</p></td>
<td><p>Fragment identifier</p></td>
<td><p>empty string</p></td>
</tr>
<tr class="row-even"><td><p><code class="xref py py-attr docutils literal notranslate"><span class="pre">username</span></code></p></td>
<td></td>
<td><p>User name</p></td>
<td><p><a class="reference internal" href="constants.html#None" title="None"><code class="xref py py-const docutils literal notranslate"><span class="pre">None</span></code></a></p></td>
</tr>
<tr class="row-odd"><td><p><code class="xref py py-attr docutils literal notranslate"><span class="pre">password</span></code></p></td>
<td></td>
<td><p>Password</p></td>
<td><p><a class="reference internal" href="constants.html#None" title="None"><code class="xref py py-const docutils literal notranslate"><span class="pre">None</span></code></a></p></td>
</tr>
<tr class="row-even"><td><p><code class="xref py py-attr docutils literal notranslate"><span class="pre">hostname</span></code></p></td>
<td></td>
<td><p>Host name (lower case)</p></td>
<td><p><a class="reference internal" href="constants.html#None" title="None"><code class="xref py py-const docutils literal notranslate"><span class="pre">None</span></code></a></p></td>
</tr>
<tr class="row-odd"><td><p><code class="xref py py-attr docutils literal notranslate"><span class="pre">port</span></code></p></td>
<td></td>
<td><p>Port number as integer,
if present</p></td>
<td><p><a class="reference internal" href="constants.html#None" title="None"><code class="xref py py-const docutils literal notranslate"><span class="pre">None</span></code></a></p></td>
</tr>
</tbody>
</table>

- `urllib.error`: modulo che esporta l'eccezione URLError e la sua sottoclasse HTTPError per la gestioen di errori HTTP

Qualche esempio da eseguire nella console Pyhton:

```python
##
#
# Scarica un file html da una data URL, visualizza le informazioni sulla risposta
# e la carica in un file temporaneo per poi stamparla; il file temporaneo viene poi cancellato
#

import shutil
import os
import tempfile
import urllib.request

with urllib.request.urlopen("http://www.unipa.it/persone/docenti/p/roberto.pirrone") as response:
    with tempfile.NamedTemporaryFile(delete=False) as tmp_file: # crea un file temporaneo con un nome 
                                                                # che non verrà cancellato
        print(response.geturl()) # stampa la base url
        print(response.info())   # stampa l'header della risposta HTTP
        shutil.copyfileobj(response, tmp_file) # copia l'oggetto response in tmp_file

print(tmp_file.name)      # tmp_file.name contiene il path assoluto del file temporaneo
with open(tmp_file.name) as html:
    for line in html.readlines():
        print(line)

os.unlink(tmp_file.name)   # cancella il file

##
#
# Parsing di una url e stampa delle sue componenti
#

res=urllib.parse.urlparse('http://user:pass@www.somedomain.pfx:8888/path/to/the/resource.html?req=val&req1=val1#anchor')

print(res)  # la tupla ParseResult mostra i campi fino all'indice 5 che corrispondono alle sei componenti base della
            # URL secondo la RFC, mentre i campi sucessivi si possono accedere solo tramite il nome e non con la 
            # notazione [...]

print(res.password)

print(res.port)

# ParseResult(scheme='http', netloc='user:pass@www.somedomain.pfx:8888', path='/path/to/the/resource.html', params='', query='req=val&req1=val1', fragment='anchor')
# pass
# 8888

##
#
# Invia una richiesta POST
#

import urllib.parse
import urllib.request

url = 'https://www.w3schools.com/action_page.php'
values = {'firstname' : 'Roberto',
          'lastname' : 'Pirrone'}   # campi previsti dalla form che si trova all'indirizzo punttao da url

user_agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:69.0) Gecko/20100101 Firefox/69.0"
headers = {'User-Agent': user_agent}     # crea un semplice header della richiesta con lo user agent

data = urllib.parse.urlencode(values)    # encoding dei valori nel corpo della richiesta
data = data.encode('ascii')              # encoding finale dei dati come byte
req = urllib.request.Request(url, data, headers)  # creazione di un oggetto urllib.request.Request con i dati che 
                                                  # genera una richiesta di tipo POST; viene aggiunto anche lo header

with urllib.request.urlopen(req) as response: # incio dells richiesta e stampa della risposta
   for line in response.readlines():
    print(line)

##
#
# Invia una richiesta GET
#
import urllib.parse
import urllib.request

url = 'https://www.w3schools.com/action_page.php'
values = {'firstname' : 'Roberto',
          'lastname' : 'Pirrone'}   # campi previsti dalla form che si trova all'indirizzo punttao da url

user_agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:69.0) Gecko/20100101 Firefox/69.0"
headers = {'User-Agent': user_agent}     # crea un semplice header della richiesta con lo user agent

data = urllib.parse.urlencode(values)    # encoding dei valori nel corpo della richiesta

print(data)

full_url = url + '?' + data
 
req = urllib.request.Request(full_url, None, headers)  # creazione di un oggetto urllib.request.Request senza i dati  
                                                       # e genera una richiesta di tipo GET; viene aggiunto anche lo 
                                                       # header e i dati sono stati concatenati all'indirizzo

with urllib.request.urlopen(req) as response: # invio della richiesta e stampa della risposta
   for line in response.readlines():
    print(line)

##
#
# gestione degli errori
#

import urllib.parse
import urllib.request
from urllib.error import URLError, HTTPError

url = 'https://www.w3schools.com/action_page.php'
values = {'firstname' : 'Roberto',
          'lastname' : 'Pirrone'}   # campi previsti dalla form che si trova all'indirizzo punttao da url

user_agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:69.0) Gecko/20100101 Firefox/69.0"
headers = {'User-Agent': user_agent}     # crea un semplice header della richiesta con lo user agent

data = urllib.parse.urlencode(values)    # encoding dei valori nel corpo della richiesta


full_url = url + '?' + data
 
req = urllib.request.Request(full_url, None, headers)  # creazione di un oggetto urllib.request.Request senza i dati  
                                                       # e genera una richiesta di tipo GET; viene aggiunto anche lo 
                                                       # header e i dati sono stati concatenati all'indirizzo
try:
    response=urllib.request.urlopen(req)
except HTTPError as e:
    print('Il server non ha soddisfatto la richiesta!!')
    print('Codice errore: ', e.code)
except URLError as e:
    print('Connessione al server non riuscita!')
    print('Motivazione: ', e.reason)
else:
    for line in response.readlines():
        print(line)

```

# Esercizi

1. Si scriva un programma `analysis.py` che prende in ingresso una url che punta ad un file di dati, ne fa il download ed eventualmente lo decomprime. Si assume che i dati siano in formato `.csv`. Il programma accetta una query sui campi del data set, con la seguente sintassi:
```
analysis.py <url> --field <numero> <operatore> [<valore>] [and|or --field <numero> <operatore> [<valore>] ...]
```
Si intende che le clausole in `or` vanno eseguite _dopo_ quelle in `and` per cui `a and b or c --> (a and b) or c`. I valori ammessi per `<operatore>` sono: `>, <, >=, <=, ==, !=, regex, min, max` di cui `min` e `max` non hanno valori su cui agire. Il programma dovrà selezionare le righe di dati che soddisfano i criteri specificati e salvarle in un nuovo file che avrà il nome: `<nome file di input senza estensione>_results.csv`.