# Esercizio: Sardi montani (CSV)

Requisiti: modulo built-in `csv`.

#### Contesto

Un tuo cliente vuole fare un po' di analisi di mercato e i chiede di aiutarlo a scrivere uno script in Python per leggere dei file CSV, JSON e XML, che provengono dai progetti di "Open Data" delle pubbliche amministrazioni. Avete selezionato come fonti i database regionali, in particolare delle tabelle che contengono dei dati sulla popolazione delle varie regioni italiane.

Dato che i file che contengono i dati di suo interesse sono molti e scritti in vari formati, usare direttamente Excel per compiere le analisi sarebbe lungo e complesso. Per questo motivo ti ha chiesto scrivere degli script che si devono occupare di estrarre dati, filtrarli e convertire i file in automatico. Ti chiede inoltre di farlo passo-passo così che anche lui possa capire come funzionano ed eventualmente modificarli in modo autonomo in futuro, in base alle sue esigenze.

Scegliete quindi dei file da utilizzarsi come campioni su cui provare gli algoritmi che svilupperai.

La Regione Sardenga ha pubblicato una tabella denominata ["Centri urbani per abitante e altitudine"](http://www.datiopen.it/it/opendata/Regione_Sardegna_Centri_Urbani_per_abitante_e_altititudine) e che contiene dei dati aggiornati al 13/01/2014. Come si intuisce dal nome, è un elenco di comuni con vari dati, tra cui il numero di abitanti e l'altezza del comune in metri sul livello del mare.

#### Consegna

I dati sono contenuti in un file di tipo CSV: `Sardegna_centri_urbani_per_abitante_e_altitudine_2014-01-13.csv` contenuto nella cartella `files_esercizi/` del nostro repository.

Apri il file in un editor di testo per visualizzare il suo contenuto "grezzo" e le <u>prime 10 righe, compresa la prima riga di intestazione</u>, appaiono così:

<pre>
COMUNE;PROVINCIA;REGIONE;NOME LOCALITA';ABITANTI LOCALITA';QUOTA LOCALITA';ID FEATURE;CODICE LOCALITA'
ALGHERO;SASSARI;Sardegna;ALGHERO;33677;7;348;1001
ALGHERO;SASSARI;Sardegna;FERTILIA;1146;9;346;1002
ALGHERO;SASSARI;Sardegna;GUARDIA GRANDE;10;30;335;2001
ALGHERO;SASSARI;Sardegna;MARISTELLA PORTO CONTE;379;9;344;1003
ALGHERO;SASSARI;Sardegna;PISCHINA SALIDA;17;5;349;1004
ALGHERO;SASSARI;Sardegna;SANTA MARIA LA PALMA;112;34;330;1005
ALGHERO;SASSARI;Sardegna;SA SEGADA;15;20;339;2002
ALGHERO;SASSARI;Sardegna;TRAMARIGLIO;4;5;345;2003
ANELA;SASSARI;Sardegna;ANELA;924;446;375;1001
</pre>


Importando i dati in un foglio di calcolo, l'aspetto di queste prime 10 righe appare così:

| COMUNE    | PROVINCIA | REGIONE  | NOME LOCALITA'         | ABITANTI LOCALITA' | QUOTA LOCALITA' | ID FEATURE | CODICE LOCALITA' |
|-----------|-----------|----------|------------------------|--------------------|-----------------|------------|------------------|
| ALGHERO   | SASSARI   | Sardegna | ALGHERO                | 33677              | 7               | 348        | 1001             |
| ALGHERO   | SASSARI   | Sardegna | FERTILIA               | 1146               | 9               | 346        | 1002             |
| ALGHERO   | SASSARI   | Sardegna | GUARDIA GRANDE         | 10                 | 30              | 335        | 2001             |
| ALGHERO   | SASSARI   | Sardegna | MARISTELLA PORTO CONTE | 379                | 9               | 344        | 1003             |
| ALGHERO   | SASSARI   | Sardegna | PISCHINA SALIDA        | 17                 | 5               | 349        | 1004             |
| ALGHERO   | SASSARI   | Sardegna | SANTA MARIA LA PALMA   | 112                | 34              | 330        | 1005             |
| ALGHERO   | SASSARI   | Sardegna | SA SEGADA              | 15                 | 20              | 339        | 2002             |
| ALGHERO   | SASSARI   | Sardegna | TRAMARIGLIO            | 4                  | 5               | 345        | 2003             |
| ANELA     | SASSARI   | Sardegna | ANELA                  | 924                | 446             | 375        | 1001             |


Il cliente ti chiede di cominciare a scrivere un primo programma per leggere questo file CSV, quindi contare il numero di record, ovvero di comuni, che sono più in alto di 600 metri s.l.m. e il numero di abitanti totali residenti in questi comuni.

Dunque i dati che ti interessano sono:

- numero di abitanti nel comune: campo `ABITANTI LOCALITA'`
- l'altezza del comune in metri: campo `QUOTA LOCALITA'`


Output atteso:
<pre>
N. centri urbani sopra i 600 m s.l.m.: 55
N. abitanti sopra i 600 m s.l.m.: 75251
</pre>

# --------- Soluzioni ---------

###  Pseudocodice:

<pre>
- creo due contatori per tracciare il numero di comuni e abitanti;
- apro il file;
- faccio il parsing del file;
- (se necessario, salto la prima riga, dove c'è l'intestazione;)
- per ciascun record/comune:
    - se l'altezza del comune è maggiore di 600 m s.l.m.:
        - incremento i contatori dei comuni e degli abitanti;
- stampo i risultati.
</pre>

In [5]:
import csv

tot_comuni = 0
tot_abitanti = 0

with open('../../files_esercizi/Sardegna_centri_urbani_per_abitante_e_altitudine_2014-01-13.csv',
          encoding='latin-1') as file_in:
    reader_obj = csv.reader(file_in, delimiter=';')  # ottengo una lista di liste (come iterabile)
    next(reader_obj)             # salto la prima riga, dove c'è l'intestazione
    for linea in reader_obj:     # per ciascuna lista (la riga, che corrisponde a un record/comune)
        if int(linea[5]) > 600:  # se il valore nella sesta colonna (index 5) è maggiore di 600
            tot_comuni += 1      # incrementa il contatore dei comuni di 1
            tot_abitanti += int(linea[4])  # incrementa il contatore abitanti del numero di
                                           #    abitanti del comune corrente (colonna 5, index 6)

print('N. centri urbani sopra i 600 m s.l.m.:', tot_comuni)
print('N. abitanti sopra i 600 m s.l.m.:', tot_abitanti)


N. centri urbani sopra i 600 m s.l.m.: 55
N. abitanti sopra i 600 m s.l.m.: 75251


Dato che è scomodo lavorare con le liste e accedere alle colonne dovendole chiamare per numero di indice, decidi ci usare `csv.DictReader` per poter lavorare su un dizionario.

In [11]:
import csv

tot_comuni = 0
tot_abitanti = 0

with open('../../files_esercizi/Sardegna_centri_urbani_per_abitante_e_altitudine_2014-01-13.csv',
          encoding='latin-1') as file_in:
    reader_obj = csv.DictReader(file_in, delimiter=';') # trasformiamo ogni riga in un dizionario
                                                        #    e ottengo una lista di dizionari (come mappatura iterabile)
    for linea in reader_obj:                            # per ciascuno di questi dizionari (che son i record/comuni)
        if int(linea["QUOTA LOCALITA'"]) > 600:         # se il valore alla chiave "QUOTA LOCALITA'" è maggiore di 600
                                                        # accedo al valore con la chiave anziché con l'indice
            tot_comuni += 1                             # incrementa il contatore dei comuni di 1
            tot_abitanti += int(linea["ABITANTI LOCALITA'"])  # incrementa il contatore abitanti del numero di
                                                              #    abitanti indicati alla chiave "ABITANTI LOCALITA'"

print('N. centri urbani sopra i 600 m s.l.m..:', tot_comuni)
print('N. abitanti sopra i 600 m s.l.m.:', tot_abitanti)

N. centri urbani sopra i 600 m s.l.m..: 55
N. abitanti sopra i 600 m s.l.m.: 75251


# Variante: Sardi montani (JSON)

Requisiti: modulo built-in `json`.

La stessa base di dati dell'esercizio precedente è anche disponibile in formato JSON.

Il file è `Sardegna_centri_urbani_per_abitante_e_altitudine_2014-01-13.json`, anche esso contenuto nella cartella `files_esercizi/` del nostro repository.

L'esercizio è il medesimo del precedente, ma ora invece di leggere e manipolare dati CSV, devi usare il modulo `json` e i relativi metodi.

In [20]:
import json
# from pprint import pprint

tot_comuni = 0
tot_abitanti = 0

with open('../../files_esercizi/Sardegna_centri_urbani_per_abitante_e_altitudine_2014-01-13.json',
          encoding='latin-1') as file_in:
    json_list = json.load(file_in)           # ottengo una lista di dizionari, uno per cisascun record
    # pprint(json_list)
    for comune in json_list:                 # per ciascun dizionario (che è un record/comune)
        if comune["QUOTA LOCALITA'"] > 600:  # se il valore alla chiave "QUOTA LOCALITA'" è maggiore di 600
            tot_comuni += 1                  # incrementa il contatore dei comuni di 1
            tot_abitanti += comune["ABITANTI LOCALITA'"]  # incrementa il contatore abitanti del numero di
                                                          #    abitanti indicati alla chiave "ABITANTI LOCALITA'"
        
print('N. centri urbani sopra i 600 m s.l.m.:', tot_comuni)
print('N. abitanti sopra i 600 m s.l.m.:', tot_abitanti)

N. centri urbani sopra i 600 m s.l.m.: 55
N. abitanti sopra i 600 m s.l.m.: 75251


# Variante: script generico (CSV e JSON)

#### Contesto

A questo punto decidete di provare a rilevare direttamente il formato del file (dall'estensione) e effettuare i conteggi come per gli esercizi precedenti. L'unica differenza è che ora abbiamo un intervallo di altezza in cui cercare. Dobbiamo trovare tutti i record che sono a un'altezza compresa tra l'altezza minima e massima indicate dall'utente.

#### Consegna

Ora prova a creare uno script che prende in ingresso (input) o parte con in seguenti parametri:

- un percorso a un file CSV o JSON;
- l'altitudine minima;
- l'altitudine massima.

E che svolge i seguenti compiti:

- determinare il tipo di file (dall'estensione) e usare l'apposito metodo per leggere il file;
- filtrare i dati per un intervallo di  altitudine (tra una massima e una minima).

Output atteso:
<pre>
******** REPORT ********
File: Sardegna_centri_urbani_per_abitante_e_altitudine_2014-01-13
Formato: .JSON
Filtro applicato: altitudine compresa tra 600 e inf metri s.l.m.
N. centri urbali: 55
N. abitanti: 75251
------------------------
</pre>

I valori di input (nome file, altezza min e max) li puoi scrivere direttamente "hard-coded" come costanti, puoi utilizzare la funzione `input()` o anche accettare argomenti `sys.argv`. Inizialmente, scrivere direttamente gli input come costanti ti faciliterà il lavoro. Una volta che l'algoritmo funziona, puoi sempre migliorare le modalità di inserimento degli input da parte dell'utente.

In [18]:
 
import json
from pathlib import Path

# parametri del filtro
h_min = 600
h_max = float('inf')

# parametri del file in ingresso
file_Path = Path('../../files_esercizi/Sardegna_centri_urbani_per_abitante_e_altitudine_2014-01-13.csv')
encoding_in = 'latin-1'
csv_delimiter = ';'

# funzione per leggere i CSV
def elabora_csv(file):
    tot_comuni = tot_abitanti = 0
    reader_obj = csv.DictReader(file, delimiter=';')
    for record in reader_obj:
        if h_min < int(record["QUOTA LOCALITA'"]) < h_max:
            tot_comuni += 1
            tot_abitanti += int(record["ABITANTI LOCALITA'"])
    return tot_comuni, tot_abitanti

# funzione per leggere i JSON
def elabora_json(file):
    tot_comuni = tot_abitanti = 0
    json_list = json.load(file)
    for record in json_list:
        if h_min < record["QUOTA LOCALITA'"] < h_max:
            tot_comuni += 1
            tot_abitanti += record["ABITANTI LOCALITA'"]
    return tot_comuni, tot_abitanti

# algoritmo principale
with open(file_Path, 'r', encoding=encoding_in) as file_in:
    if file_Path.suffix.lower() == '.csv':     # se l'estensione del file è .csv
        report = elabora_csv(file_in)          # usa la funzione per aprire i
                                               #    CSV e le passa il file aperto
    elif file_Path.suffix.lower() == '.json':  # se l'estensione del file è .json
        report = elabora_json(file_in)         # usa la funzione per aprire i JSON
                                               #    e le passa il file aperto
    else:                                      # altrimenti, solleva un errore
        raise ValueError('I file possono essere solo di tipo CSV o JSON.')

# stampa il report finale
print(f'''
******** REPORT ********
File: {file_Path.stem}
Formato: {file_Path.suffix.upper()}
Filtro applicato: altitudine compresa tra {h_min} e {h_max} metri s.l.m.
N. centri urbali: {report[0]}
N. abitanti: {report[1]}
------------------------
''')


******** REPORT ********
File: Sardegna_centri_urbani_per_abitante_e_altitudine_2014-01-13
Formato: .CSV
Filtro applicato: altitudine compresa tra 600 e inf metri s.l.m.
N. centri urbali: 55
N. abitanti: 75251
------------------------



# Variante: estrazione dati e script completo

Arrivato a questo punto, decidete di andare oltre e provare a esportare in un file tutti i record trovati.

Aggiungi dunque la funzionalità di esportazione dei dati trovati: CSV o JSON, è l'utente che deve poter decidere.

In questo modo avrai creato un convertitore di dati da CSV a JSON e viceversa con la possibilità di filtrare i dati prima dell'esportazione.

#### Consegna 1

Prova a scrivere qua sotto l'algoritmo per gestire:

- Funzione di esportazione in CSV e JSON.

###  Pseudocodice:

<pre>
- definisco parametri e opzioni di default;

- leggo parametri e opzioni;

- definisco le funzioni per leggere e creare il report da CSV e JSON:
    IN CIASCUNA FUNZIONE:
    - creo due contatori per tracciare il numero di comuni e abitanti;
    - creo un contenitore per i record trovati;
    - faccio il parsing del file;
    - per ciascun record/comune:;
        - se l'altitudine del comune è compresa tra i limiti min e max indicati:
            - incremento i contatori dei comune degli abitanti;
            - aggiungo il record al contenitore;

- definisco le funzioni per scrivere i record trovati in CSV e JSON:
    IN CIASCUNA FUNZIONE:
    - a partire da file di output e dati da scrivere;
    - scrivo i dati sul file di output;

- apro il file da leggere;
    - creo il "contenitore" per il Report e gli assegno Null
    - se il file ha estensione CSV:
        - usa la funzione creata per il CSV per ottenere il Report;
    - se il file ha estensione JSON:
        - usa la funzione creata per il JSON per ottenere il Report;
    - altrimenti:
        - solleva un errore informando l'utente dei tipi di file accettati;

- se fino qua è andato tutto bene, cioè il Report non è Null:
    - apro il file su cui scrivere;
        - con il REport generato dalle funzioni di "lettura";
        - se il file ha estensione CSV:
            - passa alla funzione per scrivere il CSV il file di output e il report;
        - se il file ha estensione JSON:
            - passa alla funzione per scrivere il JSON il file di output e il report;
        - altrimenti:
            - solleva un errore informando l'utente dei tipi di file accettati.
- altrimenti, se il Report è Null:
    - qualcosa è andato storto, quindi non scrivo nulla e informo l'utente

</pre>

In [3]:
import csv
import json
from pathlib import Path

# Simulo gli argomenti provenienti da sys.argv
file_in = '../../files_esercizi/Sardegna_centri_urbani_per_abitante_e_altitudine_2014-01-13.json'
file_out = '../../files_esercizi/outputs/sardegna_test.json'

# Preparo gli oggetti path-like
file_Path_in = Path(file_in)
file_Path_out = Path(file_out)

# Altitudine
h_min = 600
h_max = float('inf')

# Encoding
encoding_in = 'latin-1'
encoding_out = 'utf-8'

# CSV Delimiters
csv_delimiter_in = ';'
csv_delimiter_out = ';'


# funzione per leggere i CSV
def read_csv(file):
    tot_comuni = tot_abitanti = 0
    record_filtrati = [] 
    reader_obj = csv.DictReader(file, delimiter=';')
    for record in reader_obj:
        if h_min < int(record["QUOTA LOCALITA'"]) < h_max:
            tot_comuni += 1
            tot_abitanti += int(record["ABITANTI LOCALITA'"])
            record_filtrati.append(record)
    return {
        'tot_comuni': tot_comuni,
        'tot_abitanti': tot_abitanti,
        'records': record_filtrati
    }

# funzione per leggere i JSON
def read_json(file):
    tot_comuni = tot_abitanti = 0
    record_filtrati = [] 
    json_list = json.load(file)
    for record in json_list:
        if h_min < record["QUOTA LOCALITA'"] < h_max:
            tot_comuni += 1
            tot_abitanti += record["ABITANTI LOCALITA'"]
            record_filtrati.append(record)
    return {
        'tot_comuni': tot_comuni,
        'tot_abitanti': tot_abitanti,
        'records': record_filtrati
    }


# funzione per scrivere i CSV
def write_csv(file, records):
    intestazioni = records[0].keys()
    file_writer = csv.DictWriter(file, delimiter=csv_delimiter_out,
                                 lineterminator='\n', fieldnames=intestazioni)
    file_writer.writeheader()  # scrive la riga di intestazione
    file_writer.writerows(records)

# funzione per scrivere i JSON
def write_json(file, records):
    json.dump(records, file, indent=2)


# algoritmo principale
with file_Path_in.open('r', encoding=encoding_in) as file_in:
    report = None
    if file_Path_in.suffix.lower() == '.csv':
        report = read_csv(file_in, csv_delimiter)
    elif file_Path_in.suffix.lower() == '.json':
        report = read_json(file_in)
    else:
        raise ValueError('I file ammessi come input possono essere solo '
                            'di tipo CSV o JSON.')
if report is not None:
    with file_Path_out.open('w', encoding=encoding_out) as file_out:
        if file_Path_out.suffix.lower() == '.csv':
            write_csv(file_out, report['records']), 
        elif file_Path_out.suffix.lower() == '.json':
            write_json(file_out, report['records'])
        else:
            raise ValueError('I file ammessi come output possono essere solo '
                             'di tipo CSV o JSON.')
else:
    print('Si è verificato un errore non previsto. Si prega di contattare il '
          'Supporto Tecnico e riportare il presente errore. Grazie.')

#### Consegna 2

Ora che abbiamo l'algoritmo di massima, prova areare uno script che accetti la seguente sintassi:

<pre>
$ ./centri_urbani_per_altitudine.py <input_file> <output_file>
</pre>

In [None]:
# Importo il modulo per gestire i gli argomenti tramite sys.argv
import sys
import csv
import json
from pathlib import Path

# Copia questo codice in un file .py a sé stante e scrivi direttamente lì per
# creare lo script.


Guarda questa proposta di soluzione: [`esercizi/soluzioni/centri_urbani_per_altitudine.py`](./centri_urbani_per_altitudine.py)

## Variante: con argomenti opzionali, ovvero le opzioni

#### Contesto
Dato che il tuo cliente è un geometra, ha l'abitudine di scrivere i metri con l'abbreviazione `mt` o `mt.`, come fanno molti suoi colleghi. Tu gli speghi che bisognerebbe scrivere solo `m` perché è una convenzione internazionale e ci sono anche direttive ufficiali dello Stato che indicano che le forme, tutte italiane, `mt` o `mt.` sono da considerarsi errate. Dopo un'accesa discussione sul Sistema Internazionale e i gerghi professionali, decidete che nella versione finale dello script l'utente potrà inserire manualmente il simbolo dei metri da usarsi nei report finali. È un cliente quindi decidi di accontentarlo, ma di default, se l'utente non indica nulla, sarà usato il simbolo corretto: `m`.

#### Consegna

Creare uno script che accetti la seguente sintassi:

```bash
./centri_urbani_per_altitudine.py [options] <input_file> <output_file>
```

L'unica opzione è `-m` oppure `--metri` che accetta un argomento, ovvero la stringa da usare per indicare i metri. Ad esempio `m` (default), `mt`, `mt.`, `metri` o qualunque altra stringa indichi l'utente.

In [1]:
import csv
import json
from pathlib import Path
# Importo il modulo per gestire i parametri
from optparse import OptionParser

# Copia questo codice in un file .py a sé stante e scrivi direttamente lì per
# creare lo script, dato che OptionParser diventa complicato simulare il 
# comporamento di OptionParser qua su Jupyter Notebook.
