# DAF - Torino: data processing 

In questo notebook vengono elencate le operazioni di preprocessing da effettuare sui dataset del comune di Torino (AperTO) prima di procedere all'inserimento nella piattaforma DAF.

I dataset presenti ad oggi mappano i servizi nelle circoscrizioni e non nei quartieri.

Avendo a disposizione i poligoni dei quartieri e la geometry del servizio è possibile tramite dei servizi offerti ad esempio con geopandas collocare ogni servizio nel quartiere di appartenenza geografica.

Inoltre i dataset verranno arricchiti con la descrizione della circoscrizione e del quarteire (ad oggi ci sono solamente i codici).

In fase iniziale si scaricheranno in locale i dataset in formato csv e da questi si procedera con le elaborazioni necessarie e il caricamento in DAF. 

E' importante tenere in considerazione che sarà necessario stabilire dei flussi di aggiornamento in base alle note sotto riportate.


[Geoportale:](http://www.comune.torino.it/geoportale/ser_professionali_2.htm#tabs-4)



**NOTA:** 

La periodicità di aggiornamento è riferita ai dati pubblicati e consultabili sul Visualizzatore del Geoportale.

- Aggiornamento settimanale: lunedì.
- Aggiornamento trimestrale: gennaio, aprile, luglio, ottobre.
- Aggiornamento semestrale: gennaio, luglio.
- Aggiornamento annuale: 31/12 dell’anno di riferimento.
- L’aggiornamento non è previsto per i dati storici, riferiti a dati consolidati ad una certa data (es. ex quartieri).
- L'aggiornamento su segnalazione avviene su richiesta del titolare del dato.





### Table of content:

* [Conversione formato geografico da AperTO](#conversione)

* [Abbina quartiere](#abbina_quartiere) 

* [Segnalazioni contact center](#segnalazioni)

* [Scuole di Torino](#scuole)

* [Dataset senza circoscrizione](#nocircoscrizione)


### Risorse utili

#### Geopandas
- http://geopandas.org/index.html

- https://geohackweek.github.io/vector/04-geopandas-intro/

- https://github.com/datadesk/geopandas-spatial-join-example/blob/master/notebook.ipynb


#### Geoconding

- [Libreria Geocoder](http://geocoder.readthedocs.io/index.html)

- [Komoot](http://photon.komoot.de) - No API key required (OSM powered)

- [check coordinate](http://www.geoin.it/coordinate_converter/)

## Conversione formato geografico per dataset di AperTO  <a class="anchor" id="conversione"></a>


Per ogni dataset è necessario:


- convertire le info geografiche nel formato **WSG84**: i dati della Città di Torino sono acquisiti nel sistema di riferimento Gauss Boaga sui grigliati catastali. Il codice internazionale di riferimento usato è: 

EPSG 3003 – Monte Mario Italy Zone 1. 

'epsg:3003'

In particolare per ogni dataset in cui i record rappresentano dei punti geografici, è necessario convertire anche le colonne riferite a latitudine e longitudine.

Queste informazioni saranno poi utili per la visualizzazione su Superset.

Inoltre ogni dataset originario verrà arricchito con le seguenti informzioni:

- campo **"QUARTIERE"** valorizzato con il quartiere di riferimento reperito dal file geografico "EX QUARTIERI.geojson". Per ogni punto dotato di latitudine e longitudine viene fatta con geopandas un'intersezione tra il punto e i poligoni dei qurtieri

- campo **"DQUARTIERE"** valorizzato con la descrizione del codice quartiere

- campo **"DCIRCOSCRIZ"**: valorizzato con la descrizione della circoscrizione


Il mapping tra codice circoscrizione e testo è stato reperito al seguente link
http://www.comune.torino.it/decentr/


Non c'è uniformità di nomenclatura su tutti i dataset, in particolare il campo che indica la Circoscrizione, a volte è indicato come "NCIRCO", altre come "CIRCOSCRIZ". Viene effettuato un controllo e tutti i dataset allineati con il nome campo "CIRCOSCRIZ"

http://geopandas.org/projections.html

You can find the codes for most commonly used projections from www.spatialreference.org 

**TO DO:**

- creare dataset aggregati sui servizi offerti dai vari quartieri


In [None]:
import pandas as pd
import json 
import os
import glob
import geopandas as gpd
import shapely.wkt
import matplotlib.pyplot as plt


import geocoder
import folium

from geopandas import GeoDataFrame
from shapely.geometry import Point
from fiona.crs import from_epsg

### Funzioni di utilità per convertire dataframe e geodataframe

In [None]:
def df_to_gdf_convert(input_df, input_crs, output_crs, input_geo): #read 3003, convert to WSG84
    """
    Convert a DataFrame with longitude and latitude columns
    to a GeoDataFrame. 3003
    """
    crs = {'init': 'epsg:3003'}
    geo_df = GeoDataFrame(input_df, crs=crs, geometry=input_geo)
    #conversione sistema di riferimento
    geo_df['geometry'] = geo_df['geometry'].to_crs(epsg=output_crs)
    geo_df["latitudine"] = geo_df.geometry.x
    geo_df["longitudine"] = geo_df.geometry.y
    
    return geo_df

In [None]:
def df_to_gdf(input_df): 
    """
    Convert a DataFrame with longitude and latitude columns
    to a GeoDataFrame
    """
    crs = {'init': 'epsg:4326'} 
    df = input_df.copy()
    geometry = [Point(xy) for xy in zip(df.longitude, df.latitude)]
    
    geo = gpd.GeoDataFrame(df, crs=crs, geometry=geometry)
    #if you have to convert epsg
    geo.crs = {'init' :'epsg:4326'}
    #geo = geo.to_crs(epsg=4326)
    
    geo.crs = {'init': 'epsg:4326'}
    
    return geo

In [None]:
def csv_to_gdf_aperTO (filename)
    
    df = pd.read_csv(filename, sep=";", encoding="ISO-8859-1", decimal=",")
    #crea il campo geometry
    geometry = [Point(xy) for xy in zip(df.COORD_X, df.COORD_Y)]
    crs = {'init': 'epsg:3003'} #http://www.spatialreference.org/ref/epsg/2263/
    geo_df = GeoDataFrame(df, crs=crs, geometry=geometry)
    
    #conversion
    geo = geo.to_crs(epsg=4326)
    geo_df['geometry'] = geo_df['geometry'].to_crs(epsg=4326)
    geo_df["latitudine"] = geo_df.geometry.y
    geo_df["longitudine"] = geo_df.geometry.x
    
    return geo

### Circoscrizioni

Per ogni dataset oltre al codice circoscrizione abbino anche il campo descrittivo della circoscrizione

In [None]:
dic_circoscrizioni= {
    1:"Centro - Crocetta",
    2:"Santa Rita - Mirafiori",
    3:"San Paolo - Cenisia - Pozzo Strada - Cit Turin - Borgata Lesna",
    4:"San Donato - Campidoglio - Parella",
    5:"Borgo Vittoria - Madonna di Campagna - Lucento - Vallette",
    6:"Barriera di Milano - Regio Parco - Barca - Bertolla - Falchera - Rebaudengo - Villaretto",
    7:"Aurora, Vanchiglia - Sassi - Madonna del Pilone",
    8:"San Salvario - Cavoretto - Borgo Po - Nizza Millefonti - Lingotto - Filadelfia"
    }

#Read Quartieri GeoJson
fname = "utils/circoscrizioni_wgs84.geojson"
circo = gpd.read_file(fname)
circo.rename(columns={"DENOM": 'DCIRCOSCRIZ', "NCIRCO": 'CIRCOSCRIZ'}, inplace=True)

In [None]:
circo

### Quartieri (ex-quartieri)

I dataset originali non possiedono l'info del quartiere ma solo la circoscrizione.

Spatial join con latitudine e longitudine dei vari punti proveniente dai dataet

In [None]:
#Read Quartieri GeoJson
fname = "utils/ex_quartieri_WGS84.geojson"
quartieri = gpd.read_file(fname)
quartieri["DENOM"]
quartieri.rename(columns={"DENOM": 'DQUARTIERE', "ID_QUART": 'QUARTIERE'}, inplace=True)

In [None]:
quartieri

### Conversione dataset in formato csv di geoportale e arricchimento info

Vengono processati tutti i dataset che si trovano sotto la cartella "original".

I dataset sono quelli pubblicati sul geoportale e sul portale di AperTO.

Dal campo geometry ricavo il centroide e da questo estraggo latitudine e longitudine (nel dataset originale ci sono i campi COORD_Y e COORD_Y che droppo.

Cancello anche il campo WKT_GEOM che sostituisco con la nuova geometria convertita.


In [None]:
folder_dati = "original/"
folder = glob.glob('./'+folder_dati+'/*.csv')

for file_ in folder:
    print (file_)
    name = (os.path.basename(file_)).split(".")[0]
    
    #leggo il dataset originario
    df = pd.read_csv(file_, sep=";", encoding="ISO-8859-1", decimal=",")
    
    #check su campo Circoscrizione, per alcuni dataset la label è NCIRCO
    if 'NCIRCO' in df.columns:
        df.rename(columns={"NCIRCO": 'CIRCOSCRIZ'}, inplace=True)
    
    #campo geometry da convertire
    geometry = df['WKT_GEOM'].map(shapely.wkt.loads)
    
    #cancello i campi con il vecchio sistema di riferimento
    df = df.drop('WKT_GEOM', axis=1)
    df = df.drop('COORD_X', axis=1)
    df = df.drop('COORD_Y', axis=1)
    
    #initial crs used
    crs = {'init': 'epsg:3003'}
    
    #leggo il geodataframe con il sistema di riferimento corretto
    gdf = gpd.GeoDataFrame(df, crs=crs, geometry=geometry)
    
    #setto nuova proiezione
    gdf = gdf.to_crs({'init': 'epsg:4326'}) # gdf.to_crs(epsg=4326) would also work
   
    #x and y attribute access only provided for Point geometries, 
    #attribuiamo al campo latitudine e longitudine le coordinate del centroide in modo che anche se si tratta di un poligono lo si riesca a ricavare 
    gdf["LATITUDE"] = gdf.geometry.centroid.y
    gdf["LONGITUDE"] = gdf.geometry.centroid.x
     
    # QUARTIERI
    #Spatial Joins: in a Spatial Join, two geometry objects are merged based on their spatial relationship to one another.
    #final = gpd.sjoin(data_proj, quartieri, how="inner", op='intersects')
    final = gpd.sjoin(gdf, quartieri, how="inner", op='intersects')
   
    # CIRCOSCRIZIONE
    #aggiungo label descrittiva
    final["DCIRCOSCRIZ"] = final["CIRCOSCRIZ"].map(dic_circoscrizioni)
   
    final = final.drop('index_right', axis=1)

    final.to_csv("./output/"+name+".csv", index=False, sep=";" )

In [None]:
final.head(3)

### Check re-projecting data   

In [None]:
# Plot the original 3003 crs
gdf.plot(markersize=6, color="red");

# Add title
plt.title("3003 projection");

# Remove empty white space around the plot
plt.tight_layout()

# Plot the one with WSG84 projection
data_proj.plot(markersize=6, color="blue");

# Add title
plt.title("WGS84 projection");

## Segnalazioni Contact Center  <a class="anchor" id="segnalazioni"></a>

http://aperto.comune.torino.it/?q=node/430

Segnalazioni arrivate al contact Center della Polizia Municipale di Torino con indicazioni del tipo di violazione segnalata, indicazione del luogo, di data e ora della segnalazione.

Unità organizzativa Direzione Centrale Corpo di Polizia Municipale

Sito web: http://www.comune.torino.it/vigiliurbani/

Indirizzi e-mail: vigili.urbani@comune.torino.it

Frequenza di aggiornamento: semestrale

Periodo di riferimento: 2012 - 2018

Licenza: IODL v2.0

Formato: Comma Separated Value (CSV)

NB: i dataset utilizzano il ";" come separatore tranne l'ultimo che usa ","

In [None]:
header = ["Categoria criminologa","Sottocategoria Criminologica","Circoscrizione","Localita","Area Verde","Data","Ora"]

field_type = {'Circoscrizione': object, 
              'Localita': object
}

#NB: il dataset di Luglio_Dicembre_2017  utilizza il ; come separatore di campo
comma_files =["OpenDataContact_Luglio_Dicembre_2017.csv"]

folder_dati = "original/contactcenter"
folder = glob.glob('./'+folder_dati+'/*.csv')

list_ =[]

for file_ in folder:
    file_name = os.path.basename(file_)
    if file_name in comma_files:
        #l'ultimo dataset utilizza il ; come separatore di campo
        df = pd.read_csv(file_, index_col=None, sep=",", names=header, skiprows=1,  dtype=field_type, encoding="cp1252")
    else:    
        df = pd.read_csv(file_, index_col=None, sep=";", names=header, skiprows=1,  dtype=field_type, encoding="cp1252")
    
    print (file_name+" - "+str(len(df)))
    df["Data"]= pd.to_datetime(df["Data"], format='%d/%m/%Y')
    df["Localita"] = df["Localita"].str.strip()
   
    list_.append(df)
frame = pd.concat(list_)
#rinomino il campo circoscrizione come tutti gli altri Dataset di APERTO
frame.rename(columns ={'Circoscrizione': 'CIRCOSCRIZ'}, inplace =True)

#salvo il file completo in output

frame.to_csv("./output/SegnalazioniContactCenter.csv", index= False)

In [None]:
frame.head(10)

In [None]:
len(frame)

In [None]:
frame.Data.dt.year.value_counts()

In [None]:
frame.CIRCOSCRIZ.value_counts()

In [None]:
frame.columns

In [None]:
# pulizia di campi che hanno come "Categoria criminologa"
frame['Categoria criminologa'].replace(['Qualit… Urbana'], 'Qualità Urbana',inplace=True)

In [None]:
frame['Sottocategoria Criminologica'].value_counts()

In [None]:
frame['Categoria criminologa'].value_counts()

## Scuole di Torino <a class="anchor" id="scuole"></a>


Sulle scuole abbiamo a disposizione i dati delle scuole di Torino che provengono dal sito del MIUR e i dati elaborati per la mappa del quartiere che possiedono la latitudine e longitudine (dataset: Torino_scuole.csv)

### Scuole georeferenziate

non verranno utilizzate poichè non sono tutte.

In [None]:
scuole_TO_mappa = pd.read_csv("original/scuole/Torino_scuole.csv", sep=";")
#scuole_TO_mappa.rename(columns={"Unnamed: 0": 'CODICEISTITUTORIFERIMENTO'}, inplace=True)

In [None]:
scuole_TO_mappa.dtypes

### MIUR: anagrafiche scuole e alunni 

Direttamente dai dataset di anagrafiche che il MIUR espone, da segmentare su scuole di Torino.

Sono disponibili le anagrafiche per 
 - scuole private
 - scuole paritarie

In [None]:
#Creo il dataframe SCUOLE con le info basi delle scuole
#Carico file di anagrafica base delle scuole
folder_dati = "original/scuole/MIUR/anagrafica"
folder = glob.glob('./'+folder_dati+'/*.csv')
list_ =[]

for file_ in folder:
    file_name = os.path.basename(file_)
    print (file_name)
    data = pd.read_csv(file_, sep=",", index_col=None, header=0)
    list_.append(data)
scuole = pd.concat(list_)

scuole = scuole.rename(columns=lambda x: x.strip())

In [None]:
scuole.columns

In [None]:
scuole.head(3)

#### Seziono su comune di TORINO: scuole_to 

In [None]:
scuole_to = scuole.loc[scuole["DESCRIZIONECOMUNE"]=="TORINO"]

In [None]:
scuole_to.dtypes

In [None]:
print ("Tot codici scuola univoca per TORINO: ",scuole_to.CODICESCUOLA.nunique())
scuole_to.DENOMINAZIONEISTITUTORIFERIMENTO.value_counts()

#### Ogni istituto contiene più codici scuola 

L'istituto con il codice TOIC8BR003 possiede 8 scuole.

Sono 112 i codici istituto univoci.

In [None]:
scuole_to.CODICEISTITUTORIFERIMENTO.value_counts()

In [None]:
scuole_to.CODICEISTITUTORIFERIMENTO.describe()

In [None]:
scuole_to.DESCRIZIONETIPOLOGIAGRADOISTRUZIONESCUOLA.value_counts()

## Geocoding scuole

#### Preparo il campo con via - comune e nazione per il geocoding e lo salvo in colonna "INDIRIZZO_TOT"

Utilizzo script batch con API key per Google Maps (2500 day rate limit) - GeoGoogleAPI.py

In [None]:
scuole_to["INDIRIZZO_TOT"] = scuole_to.INDIRIZZOSCUOLA + ", " + scuole_to.DESCRIZIONECOMUNE + ", Italia"

scuole_to.to_csv("./output/ScuoleTorino.csv", index= False)

In [None]:
scuole_to

### Load csv di output di geomapping fatto con script batch Google Maps API 

#### Chiamo il servizio per farmi dare la latitudine e la longitudine: salvo in un dictionary con chiave indirizzo e value latlong

In [None]:
scuole_geo = pd.read_csv("./output/ScuoleTorinooutputGoogleMaps.csv", sep=",")

#### Join su input_string, prenso solo latitude e longitudine

In [None]:
scuole_geo.status.value_counts()

In [103]:
len(scuole_geo)

617

In [None]:
scuole_geo_to = pd.merge(left=scuole_to, right=scuole_geo[['input_string','latitude','longitude','formatted_address']],left_on='INDIRIZZO_TOT', right_on='input_string')
#elimino l'indirizzo originale che è doppiato
scuole_geo_to = scuole_geo_to.drop('input_string', axis=1)

In [None]:
scuole_geo_to.head(3)

In [102]:
len(scuole_geo_to)

839

### Aggiungo campo quartiere e circoscrizione 
#### converto df in geodataframe

In [None]:
gdf_scuole_to = df_to_gdf(scuole_geo_to)

In [None]:
gdf_scuole_to.crs

In [None]:
quartieri.crs

In [101]:
len(gdf_scuole_to)

839

#### Aggiungo info "Quartiere":

Campo QUARTIERE E DQUARTIERE

In [None]:
#Spatial Joins: in a Spatial Join, two geometry objects are merged based on their spatial relationship to one another.
scuole_geo_to_q = gpd.sjoin(gdf_scuole_to, quartieri, how="inner", op='intersects')
scuole_geo_to_q.drop('index_right', axis=1, inplace=True)
#final_q.drop('QUARTIERE_left', axis=1, inplace=True)

In [99]:
len(scuole_geo_to_q)

834

#### Aggiungo info "Circoscrizione"

In [100]:
#Spatial Joins: in a Spatial Join, two geometry objects are merged based on their spatial relationship to one another.

scuole_geo_to_final = gpd.sjoin(scuole_geo_to_q, circo, how="inner", op='intersects')
scuole_geo_to_final.drop('index_right', axis=1, inplace=True)
len(scuole_geo_to_final)

834

#### Rinomino i campi latitudine e longitudine ed elimino campo indirizzo di appoggio e AREAGEOGRAFICA non necessari

In [None]:
scuole_geo_to_final.rename(columns={"latitude": 'LATITUDE', "longitude": 'LONGITUDE', 'formatted_address':'INDIRIZZO_FORMATTATO',}, inplace=True)

In [None]:
scuole_geo_to_final = scuole_geo_to_final.drop('INDIRIZZO_TOT', axis=1)
scuole_geo_to_final = scuole_geo_to_final.drop('AREAGEOGRAFICA', axis=1)


#### Salvo file completo

In [98]:
scuole_geo_to_final.to_csv("./output/Scuole_geo_TO_final.csv", index=False, sep=";" )

#### Test su Folium

In [None]:
#defaut values for Turin
turin_default = [45.07049, 7.68682]

In [None]:
mappa = folium.Map(location=[coordinatescuola.latlng[0], coordinatescuola.latlng[1]],zoom_start=17)
folium.Marker([coordinatescuola.latlng[0], coordinatescuola.latlng[1]], popup=nome_scuola).add_to(mappa)
mappa

In [78]:
locationslocatio  = scuole_geo_to_final[['LATITUDE', 'LONGITUDE']]
locationlist = locationslocatio.values.tolist()
len(locationlist)

[45.070312, 7.686856499999998]

In [87]:
map_osm = folium.Map(location=[45.07049, 7.68682], zoom_start=13)

for point in range(0, len(locationlist)):
    folium.Marker(locationlist[point]).add_to(map_osm)
map_osm

## SISTEMA DI VALUTAZIONE

Al momento non si è deciso di utluzzare queste informazioni

## STRUTTURE PRESENTI NELLE SCUOLE

In [None]:
# da vedere quali campi sono sognificativi

## ALUNNI

In [90]:
#ISTITUTI STATALI - raggruppo per CODICESCUOLA
alunni_statali = pd.read_csv("original/scuole/MIUR/alunni/ALUCORSOETASTA20170221.csv", sep=',')
#clean columns name
alunni_statali = alunni_statali.rename(columns=lambda x: x.strip())
print ("Unique edifici statali: ", alunni_statali["CODICESCUOLA"].nunique())
alunni_statali["Statale_Paritaria"]='S'
alunni_statali = alunni_statali.reset_index()


Unique edifici statali:  28272


In [91]:
#ISTITUTI PARITARI - raggruppo per CODICESCUOLA
alunni_paritari = pd.read_csv("original/scuole/MIUR/alunni/ALUCORSOETAPAR20170221.csv", sep=',')
#clean columns name
alunni_paritari = alunni_paritari.rename(columns=lambda x: x.strip())
#alunni_paritari = alunni_paritari[["CODICESCUOLA", "ALUNNI"]]
print ("Unique edifici paritari: ", alunni_paritari["CODICESCUOLA"].nunique())
#alunni_paritari= alunni_paritari.groupby(['CODICESCUOLA']).sum()
alunni_paritari["Statale_Paritaria"]='P'
alunni_paritari = alunni_paritari.reset_index()

Unique edifici paritari:  3587


#### Concateno i due dataset 

In [92]:
alunni= pd.concat([alunni_statali, alunni_paritari])
alunni.head()

Unnamed: 0,index,ANNOSCOLASTICO,CODICESCUOLA,ORDINESCUOLA,ANNOCORSO,FASCIAETA,ALUNNI,Statale_Paritaria
0,0,201617,AGEE01102E,SCUOLA PRIMARIA,1,6 anni,40,S
1,1,201617,AGEE01102E,SCUOLA PRIMARIA,1,< di 6 anni,10,S
2,2,201617,AGEE01102E,SCUOLA PRIMARIA,2,6 anni,2,S
3,3,201617,AGEE01102E,SCUOLA PRIMARIA,2,7 anni,47,S
4,4,201617,AGEE01102E,SCUOLA PRIMARIA,3,7 anni,2,S


#### Filtro su scuole di Torino

In [93]:
# join scuole e alunni
print ("Iniziale: ", len(scuole_to), "  ", len(alunni))
scuole_alunni_to = pd.merge(scuole_to, alunni, how="inner",on='CODICESCUOLA')
print ("Finale: ",len(scuole_alunni_to))

Iniziale:  617    366105
Finale:  3963


#### Salvo il file con i dati alunni per ogni scuola 

In [94]:
scuole_alunni_to.to_csv("scuoleAlunni_TO.csv", sep='|',index=False, header=True,  encoding='utf-8')

In [95]:
scuole_alunni_to.CODICESCUOLA.nunique()

301

In [96]:
scuole_to.CODICESCUOLA.nunique()

617

In [97]:
scuole_alunni_to.columns

Index(['AREAGEOGRAFICA', 'CAPSCUOLA', 'CODICECOMUNESCUOLA',
       'CODICEISTITUTORIFERIMENTO', 'CODICESCUOLA',
       'DENOMINAZIONEISTITUTORIFERIMENTO', 'DENOMINAZIONESCUOLA',
       'DESCRIZIONECARATTERISTICASCUOLA', 'DESCRIZIONECOMUNE',
       'DESCRIZIONETIPOLOGIAGRADOISTRUZIONESCUOLA', 'INDICAZIONESEDEDIRETTIVO',
       'INDICAZIONESEDEOMNICOMPRENSIVO', 'INDIRIZZOEMAILSCUOLA',
       'INDIRIZZOPECSCUOLA', 'INDIRIZZOSCUOLA', 'PROVINCIA', 'REGIONE',
       'SITOWEBSCUOLA', 'ANNOSCOLASTICO_x', 'INDIRIZZO_TOT', 'index',
       'ANNOSCOLASTICO_y', 'ORDINESCUOLA', 'ANNOCORSO', 'FASCIAETA', 'ALUNNI',
       'Statale_Paritaria'],
      dtype='object')

In [None]:
scuole_alunni_to.head(10)

field_to_keep(['CAPSCUOLA', 
       'CODICEISTITUTORIFERIMENTO', 'CODICESCUOLA',
       'DENOMINAZIONEISTITUTORIFERIMENTO', 'DENOMINAZIONESCUOLA',
       'DESCRIZIONECARATTERISTICASCUOLA', 'DESCRIZIONECOMUNE',
       'DESCRIZIONETIPOLOGIAGRADOISTRUZIONESCUOLA', 'INDICAZIONESEDEDIRETTIVO',
       'INDICAZIONESEDEOMNICOMPRENSIVO', 'INDIRIZZOEMAILSCUOLA',
       'INDIRIZZOPECSCUOLA', 'INDIRIZZOSCUOLA', 'PROVINCIA', 'REGIONE',
       'SITOWEBSCUOLA', 'ANNOSCOLASTICO_y',
       'ORDINESCUOLA', 'ANNOCORSO', 'FASCIAETA', 'ALUNNI', 'Tipo'],)


# Processing dei dataset senza l'info su per circoscrizione <a class="anchor" id="nocircoscrizione"></a>


### Dataset Disabili

Nota: il campo COORD_X;

COORD_Y non sono valorizzati, 

neppure il campo CIRCOSCRIZIONE

In [None]:
fname = "original/mobilita/parcheggi_disabili.csv"
df = pd.read_csv(fname, sep=";", encoding="ISO-8859-1", decimal=",")
    
#aggiungo campo quartiere vuoto per implementazione futura ma già per permettere metadatazione
#df["QUARTIERE"]=""
   
geometry = df['WKT_GEOM'].map(shapely.wkt.loads)
    
#cancello i campi con il vecchio sistema di riferimento
df = df.drop('WKT_GEOM', axis=1)
df = df.drop('COORD_X', axis=1)
df = df.drop('COORD_Y', axis=1)

#setto nuova proiezione
#set the original projection
crs = {'init': 'epsg:3003'}
#load into a geodataframe    
gdf = gpd.GeoDataFrame(df, crs=crs, geometry=geometry)

#setto nuova proiezione su tutto il dataframe
gdf = gdf.to_crs({'init': 'epsg:4326'})   
gdf['geometry'] = gdf['geometry'].to_crs(epsg=4326)


#x and y attribute access only provided for Point geometries, 
#attribuiamo al campo latitudine e longitudine le coordinate del centroide in modo che anche se si tratta di un poligono lo si riesca a ricavare 
gdf["LATITUDE"] = gdf.geometry.centroid.y
gdf["LONGITUDE"] = gdf.geometry.centroid.x   

In [None]:
#Spatial Joins: in a Spatial Join, two geometry objects are merged based on their spatial relationship to one another.
#final = gpd.sjoin(data_proj, quartieri, how="inner", op='intersects')
final_q = gpd.sjoin(gdf, quartieri, how="inner", op='intersects')
final_q.drop('index_right', axis=1, inplace=True)
#final_q.drop('QUARTIERE_left', axis=1, inplace=True)

In [None]:
#Spatial Joins: in a Spatial Join, two geometry objects are merged based on their spatial relationship to one another.
#final = gpd.sjoin(data_proj, quartieri, how="inner", op='intersects')
final = gpd.sjoin(final_q, circo, how="inner", op='intersects')
final.drop('index_right', axis=1, inplace=True)
final.to_csv("./output/parcheggi_disabili.csv", index=False, sep=";" )

### Dataset inseriti in cartela "soloxy"

In [None]:
#....#

folder_dati = "original/soloxy/"
folder = glob.glob('./'+folder_dati+'/*.csv')

for file_ in folder:
    print (file_)
    name = (os.path.basename(file_)).split(".")[0]
    df = pd.read_csv(file_, sep=";", encoding="ISO-8859-1", decimal=",")
    
    #aggiungo campo quartiere vuoto per implementazione futura ma già per permettere metadatazione
    #df["QUARTIERE"]=""

    geometry = df['WKT_GEOM'].map(shapely.wkt.loads)

    #cancello i campi con il vecchio sistema di riferimento
    df = df.drop('WKT_GEOM', axis=1)
    df = df.drop('COORD_X', axis=1)
    df = df.drop('COORD_Y', axis=1)

    #setto nuova proiezione
    #set the original projection
    crs = {'init': 'epsg:3003'}
    #load into a geodataframe    
    gdf = gpd.GeoDataFrame(df, crs=crs, geometry=geometry)

    #setto nuova proiezione su tutto il dataframe
    gdf = gdf.to_crs({'init': 'epsg:4326'})   
    gdf['geometry'] = gdf['geometry'].to_crs(epsg=4326)


    #x and y attribute access only provided for Point geometries, 
    #attribuiamo al campo latitudine e longitudine le coordinate del centroide in modo che anche se si tratta di un poligono lo si riesca a ricavare 
    gdf["LATITUDE"] = gdf.geometry.centroid.y
    gdf["LONGITUDE"] = gdf.geometry.centroid.x  
    
    #Spatial Joins: in a Spatial Join, two geometry objects are merged based on their spatial relationship to one another.
    #final = gpd.sjoin(data_proj, quartieri, how="inner", op='intersects')
    final_q = gpd.sjoin(gdf, quartieri, how="inner", op='intersects')
    final_q.drop('index_right', axis=1, inplace=True)
    #final_q.drop('QUARTIERE_left', axis=1, inplace=True)
    
    #Spatial Joins: in a Spatial Join, two geometry objects are merged based on their spatial relationship to one another.
    #final = gpd.sjoin(data_proj, quartieri, how="inner", op='intersects')
    final = gpd.sjoin(final_q, circo, how="inner", op='intersects')
    final.drop('index_right', axis=1, inplace=True)
    
    
    final.to_csv("./output/"+name+".csv", index=False, sep=";" )