<h1>Estrazione delle scuole </h1>

Lo scopo principale del programma è quello di estrarre dall'indirizzo di ogni singola scuola, latitudine e longitudine utilizzando Nominatim.



Queste sono le librerie utilizzate; di fondamentale importanza è Nominatim.

In [1]:
import csv
import pandas as pd
import re
from geopy.geocoders import Nominatim
import numpy as np
import urllib
from contextlib import closing
import requests 
import time
from timeit import default_timer as timer
import sys
import codecs


La funzione <b>cleaner</b> ripulisce l'indirizzo.
Abbiamo constatato che in OSM (OpenStreetMap), non tutti i numeri civici sono presenti, pertanto, non sapendo quale numero civico è presente in OSM o meno, abbiamo deciso di eliminarli tutti.
Per ripulire l'indirizzo, abbiamo utilizzato una serie di replace e di regex (in ordine):

<b>Regex: </b>
- N. seguito da 2 numeri ed uno slash;
- N. seguito da uno o due numeri;
- N. seguito da uno spazio e da uno o due numeri;
- N seguito da uno spazio e da uno o due numeri;
- Numero civico con slash;
- Separare via da numero civico

<b>Replace: </b>
- Sostituzione delle incoerenze, come p.zza al posto di piazza, L.go al posto di largo ecc;
- Eliminazione del 'senza numero civico' in tutte le sue forme;
- Vari replace banali



In [2]:
def cleaner(text):
    regex_dict={
                r"N\.[0-9]{2}\/":r'', 
                r'N\.[0-9]{1,2}':r'', 
                r'N\.\s[0-9]{1,2}':r'',
                r'N\s[0-9]{1,2}':r'', 
                r'[0-9]\/[A-Z]{1}':r'',
                r'([A-Z])(\d{1})': r'\1 \2',
                }

    replace_dict = {
                    'P.ZZA':'PIAZZA',
                    'C.SO':'CORSO',
                    'snc':'',
                    's.n.c':'',
                    's.n.':'',
                    'L.GO':'LARGO',
                    'PROLUNG.':'PROLUNGAMENTO ',
                    '"':'',
                    'P.AZA':'PIAZZA',
                    '-':''
                    }
    #keywords
    for key, values in replace_dict.items():
        text = text.replace(key, values)
    #regex
    for key in regex_dict:
        rx = re.compile(key)
        text = rx.sub(regex_dict[key], text)
    return text

Qui avviene l'estrazione vera e propria:
Dall' URL, utilizzando urllib andiamo ad estrarre direttamente il file relativo alle scuole, che viene letto utilizzando il DictReader.
A fine file, troverà il perchè abbiamo utilizzato DictReader e altri accorgimenti.
Dal csv, andiamo ad estrarre i campi interessati, come l'indirizzo della scuola, il codice, il tipo di scuola ecc.

OSM blocca l'accesso dopo un elevato numero di richieste, pertanto abbiamo deciso di scomporre il tutto per città (in questo caso Palermo).

Nominatim tenterà di effettuare il geocoding dell'indirizzo, inserendo <b>None</b> se non troverà nulla.

Il <b>timer</b> è stato inserito per effettuare un piccolo controllo sulla velocità di geocode di ogni singolo indirizzo.

Successivamente verranno scritti sull'output i diversi campi. 

Se una scuola non possiede un sito web, sarà presente la stringa 'Non disponibile', che verrà rimossa; inoltre, al sitoweb, viene aggiunto il protocollo http, che non è presente.

Il file verrà riaperto utilizzando <b>pandas</b>, quindi come <b>DataFrame</b>, e da qui, andremo ad eliminare tutte le righe in cui non è presente la latitudine (o longitudine, è indifferente).

Il DataFrame è una struttura dati molto veloce e prestante, infatti abbiamo deciso di utilizzarla sia per la facilità con il quale vengono eliminate molte righe, sia per una questione di tempi computazionali.


L'indirizzo è stato trattato nel seguente modo:
- Prendiamo l'indirizzo non pulito dal dataset,
- Applichiamo la funzione cleaner su di esso, 
- Aggiungiamo il cap (migliora notevolmente la precisione)

Nel file di output, aggiungeremo l'indirizzo privo di cap:


In [3]:
# coding: utf-8
import csv
import pandas as pd
import re
from geopy.geocoders import Nominatim
import numpy as np
import urllib
from contextlib import closing
import requests
import time
from timeit import default_timer as timer
import sys
import codecs


def cleaner(text):
    regex_dict = {
        r"N\.[0-9]{2}\/": r'',
        r'N\.[0-9]{1,2}': r'',
        r'N\.\s[0-9]{1,2}': r'',
        r'N\s[0-9]{1,2}': r'',
        r'[0-9]\/[A-Z]{1}': r'',
        r'([A-Z])(\d{1})': r'\1 \2',
    }

    replace_dict = {
        'P.ZZA': 'PIAZZA',
        'C.SO': 'CORSO',
        'snc': '',
        's.n.c': '',
        's.n.': '',
        'L.GO': 'LARGO',
        'PROLUNG.': 'PROLUNGAMENTO ',
                    '"': '',
                    'P.AZA': 'PIAZZA',
                    '-': ''
    }
    # keywords
    for key, values in replace_dict.items():
        text = text.replace(key, values)
    # regex
    for key in regex_dict:
        rx = re.compile(key)
        text = rx.sub(regex_dict[key], text)
    return text


# Estrazione
with open('Output_estrazione.csv', 'w', newline='') as csvoutput:
    output_fieldnames = ['NOMESCUOLA', 'DESCRIZIONECOMUNE', 'CODICESCUOLA', 'INDIRIZZO', 'LATITUDINE', 'LONGITUDINE',
                         'SITOWEB', 'DESCRIZIONETIPOLOGIAGRADOISTRUZIONESCUOLA', 'CODICEISTITUTORIFERIMENTO', 'CAPSCUOLA']
    writer = csv.DictWriter(csvoutput, delimiter=',',
                            fieldnames=output_fieldnames)
    writer.writeheader()
    url = 'http://dati.istruzione.it/opendata/opendata/catalogo/elements1/leaf/SCUANAGRAFESTAT20181920180901.csv'
    response = urllib.request.urlopen(url)
    reader = csv.DictReader(codecs.iterdecode(response, 'utf-8'))
    geolocator = Nominatim(user_agent="my-application")
    comune = 'PALERMO'
    for row in reader:
        indirizzo = row['INDIRIZZOSCUOLA']
        indirizzo_pulito = cleaner(indirizzo)
        codice_istituto = row['CODICESCUOLA']
        descrizione_comune = row['DESCRIZIONECOMUNE']
        nome_scuola = row['DENOMINAZIONEISTITUTORIFERIMENTO']
        sito_web = row['SITOWEBSCUOLA']
        tipologia_scuola = row['DESCRIZIONETIPOLOGIAGRADOISTRUZIONESCUOLA']
        codice_istituto_riferimento = row['CODICEISTITUTORIFERIMENTO']
        cap_scuola = row['CAPSCUOLA']
        indirizzo_pulito_cap = indirizzo_pulito+' '+row['CAPSCUOLA']
        if str(comune) == str(descrizione_comune).upper():
            try:
                start = timer()
                location = geolocator.geocode(indirizzo_pulito_cap)
                latitude = location.latitude
                longitude = location.longitude
                end = timer()
                print(end-start)
            except:
                latitude = None
                longitude = None
            # Scrittura
            output_row = {}
            output_row['NOMESCUOLA'] = nome_scuola
            output_row['DESCRIZIONECOMUNE'] = descrizione_comune.upper()
            output_row['CODICESCUOLA'] = codice_istituto
            output_row['INDIRIZZO'] = indirizzo_pulito.upper()
            output_row['DESCRIZIONETIPOLOGIAGRADOISTRUZIONESCUOLA'] = tipologia_scuola
            output_row['LATITUDINE'] = latitude
            output_row['LONGITUDINE'] = longitude
            if 'non' in sito_web.lower():
                output_row['SITOWEB'] = None
            else:
                output_row['SITOWEB'] = 'http://'+sito_web.lower()
            output_row['CODICEISTITUTORIFERIMENTO'] = codice_istituto_riferimento
            output_row['CAPSCUOLA'] = cap_scuola
            writer.writerow(output_row)


df = pd.read_csv('Output_estrazione.csv')
df.dropna(subset=['LATITUDINE'], how='all', inplace=True)
df.to_csv('Output_estrazione.csv', index=False)



0.5750460000001567
0.546332300000131
0.6240651999999045
0.475332200000139
0.5010131999999885
0.8034494000000905
0.8227155000001858
0.521442099999831
0.49232089999986783
0.53922979999993
0.831624500000089
1.0756039000000328
0.4863460000001396
0.789245499999879
1.2351542000001245
0.5083442000000105
0.7514933999998448
0.4878105999998752
0.46403399999985595
0.6560617000000093
0.5104992000001403
0.509552499999927
0.7980916999999863
0.7768325000001823
0.643824099999847
0.7414039999998749
0.5268926999999621
0.537776200000053
0.5122954000000846
0.5988697000000229
0.5724165999999968
0.544834499999979
0.5384438999999475
0.5756070999998428
0.5065114000001358
0.535566400000107
0.5341060000000653
0.8087222000001475
0.6649686999999176
0.49860260000014023
0.52843299999995
0.5289296999999351
1.142404899999974
1.1305442000000312
0.6241683999999168
0.6632588999998461
0.6268572000001313
0.5232336999999916
0.5526484000001801
0.5715692999999646
0.5090950999999677
0.6060099999999693
1.4461751999999706
0.821

Ecco il file: 

In [4]:
df

Unnamed: 0,NOMESCUOLA,DESCRIZIONECOMUNE,CODICESCUOLA,INDIRIZZO,LATITUDINE,LONGITUDINE,SITOWEB,DESCRIZIONETIPOLOGIAGRADOISTRUZIONESCUOLA,CODICEISTITUTORIFERIMENTO,CAPSCUOLA
1,A. VOLTA,PALERMO,PAIS027002,PASSAGGIO DEI PICCIOTTI 1,38.104349,13.384438,,ISTITUTO SUPERIORE,PAIS027002,90123
2,I.C. LEONARDO SCIASCIA-PA,PALERMO,PAAA870011,VIA SMITH,49.809512,-97.139668,http://www.istitutosciascia.gov.it,SCUOLA INFANZIA,PAIC870004,90100
6,I.C. LEONARDO SCIASCIA-PA,PALERMO,PAEE870016,VIA ADAMO SMITH,38.177230,13.311783,http://www.istitutosciascia.gov.it,SCUOLA PRIMARIA,PAIC870004,90146
10,I.C. M.RAPISARDI /GARIBALDI -PA,PALERMO,PAEE8AP019,VIA CALTANISSETTA 27,38.128882,13.350617,http://www.rapisardigaribaldi.it,SCUOLA PRIMARIA,PAIC8AP007,90141
12,I.C. LEONARDO SCIASCIA-PA,PALERMO,PAIC870004,VIA FRANCESCO DE GOBBIS 13,38.178900,13.310333,,ISTITUTO COMPRENSIVO,PAIC870004,90146
17,I.C. POLITEAMA -PA,PALERMO,PAIC890009,PIAZZA CASTELNUOVO 40,38.124514,13.355120,,ISTITUTO COMPRENSIVO,PAIC890009,90141
18,EDUCANDATO MARIA ADELAIDE,PALERMO,PAEE89401P,CORSO CALATAFIMI 86,38.103186,13.330621,http://http//www.mariaadelaide.it,SCUOLA PRIMARIA,PAIC89400L,90129
19,"I.P.S.S.E.O.A. ""PIETRO PIAZZA""",PALERMO,PARH02050Q,CORSO DEI MILLE 181,38.100146,13.384509,http://www.ipssarpiazza.it,IST PROF PER I SERVIZI ALBERGHIERI E RISTORAZIONE,PARH02000A,90123
24,D.D. A. DE GASPERI - PA,PALERMO,PAEE013002,PIAZZA PAPA GIOVANNI PAOLO II,38.152381,13.337908,,SCUOLA PRIMARIA,PAEE013002,90146
27,I.C. RITA LEVI MONTALCINI -PA,PALERMO,PAAA8A0019,LARGO CAMASTRA 5,38.127671,13.297750,http://www.icsritalevimontalcini.it,SCUOLA INFANZIA,PAIC8A000C,90135


Il file <b>Output_estrazione</b> contiene:
- Nome scuola,
- Descrizione comune, 
- Codice della scuola,
- Indirizzo della scuola,
- Latitudine
- Longitudine
- Sitoweb 
- Tipo di scuola
- Codice istituto di riferimento
- CAP della scuola

Il codice istituto di riferimento rappresenta il codice univoco per ogni scuola, e serve inoltre per distinguere la scuola principale dal plesso.


<h3>Perchè abbiamo scelto CSV DictReader? </h3>

Abbiamo provato ad utilizzare direttamente pandas, leggendo il file direttamente come DataFrame:

In [None]:
df=pd.read_csv('http://dati.istruzione.it/opendata/opendata/catalogo/elements1/leaf/SCUANAGRAFESTAT20181920180901.csv.csv')
comune = 'PALERMO'
df = df.loc[df['DESCRIZIONECOMUNE']==comune]
df['INDIRIZZOSCUOLA'] = df['INDIRIZZOSCUOLA']+' '+df['CAPSCUOLA']
df['INDIRIZZOSCUOLA'] = df['INDIRIZZOSCUOLA'].apply(cleaner)


geolocator = Nominatim(user_agent = "my-application")
geocode = RateLimiter(geolocator.geocode, min_delay_seconds=1)
f = pd.DataFrame()
f['INDIRIZZO'] = geolocator.geocode(str(df['INDIRIZZOSCUOLA']))
f['LATITUDINE'] = str(f['INDIRIZZO']).latitude
f['LONGITUDINE'] = str(f['INDIRIZZO']).longitude


f.dropna(subset=['COORDINATE'], how='all', inplace = True)
f.to_csv('Output_estrazione.csv', index=False)

Secondo la documentazione di <b>GeoPy</b>, per poter usare il geocode con pandas, bisogna impostare un rate_limiter, in modo da limitare le richieste,
che va a rallentare l'intero processo di estrazione. Per questo motivo, abbiamo deciso di utilizzare il DictReader per l'estrazione dei dati.


Qui viene riportata la parte di documentazione che fa riferimento al geocode con pandas:

<i><b>"It's possible to geocode a pandas DataFrame with geopy, however, rate-limiting must be taken into account.

A large number of DataFrame rows might produce a significant amount of geocoding requests to a Geocoding service,
which might be throttled by the service (e.g. by returning Too Many Requests 429 HTTP error or timing out).

geopy.extra.rate_limiter.RateLimiter class provides a convenient wrapper, 
which can be used to automatically add delays between geocoding calls to reduce the load on the Geocoding service. 
Also it can retry failed requests and swallow errors for individual rows."</b></i>

<i>È sconsigliata l'esecuzione del codice soprastante, in quanto i tempi di attesa potrebbero essere elevati.</i>

<h1>Bonus: OSM vs Google API</h1>

Abbiamo deciso di testare le API per il geocode di Google, confrontandone i tempi. 
Ecco alcuni tempi di OSM:

0.5750460000001567<br>
0.546332300000131<br>
0.6240651999999045<br>
0.475332200000139<br>
0.5010131999999885<br>
0.8034494000000905<br>
0.8227155000001858<br>
0.521442099999831<br>
0.49232089999986783<br>
0.53922979999993<br>



La media di questi tempi è: 0.59009466000002, quindi circa 1/2 secondo di tempo per indirizzo.

Per quanto riguarda Google API, abbiamo ottenuto un unico risultato, ovvero: 2.303347826.

<h3>Prova Google:</h3>

In [None]:
gmaps = googlemaps.Client(key='AIzaSyBhgjHA4LD7KjVqvYOhquOkgEQJ9fNI-Jk')
geocode_result = gmaps.geocode(str(df['INDIRIZZOSCUOLA']))
f = pd.DataFrame()
f['INDIRIZZO'] = df['INDIRIZZOSCUOLA']
f['LATITUDINE'] = geocode_result[0]["geometry"]["location"]["lat"]
f['LONGITUDINE'] = geocode_result[0]["geometry"]["location"]["lng"]
f.dropna(subset=['LATITUDINE'], how='all', inplace = True)
f.to_csv('Output_googleapi.csv', index=False)