# Data carpentery Lab:   <img src="img/team.png" align="right">

## [Data Analytics Framework ](https://dataportal.daf.teamdigitale.it/#/) and Data processing 


#### Scuola Umbra di Amministrazione Pubblica - 2 agosto 2018 

### Obiettivi:

- illustrare nuovi strumenti e modalità con cui analizzare i dati 
- analizzare alcuni dataset attualmente pubblicati sul portale regionale umbro (Strutture ricettive) 
- arricchire e manipolare il dataset con le decodifiche con nuove informazioni
- aggiungere il nuovo dataset sulla piattaforma DAF
- visualizzare i dati inviati tramite i tool offerti dalla piattaforma DAF e sul portale [SaaS](https://umbria.daf.teamdigitale.it/)

- confrontare il formato del dataset con l'ontologia proposta

<img src="img/carpentery.png">

## Strumenti:

### Anaconda
una distribuzione che contiene tutto ciò che ti serve
https://conda.io/miniconda.html
### Jupyter Notebook:
un ambiente di programmazione interattivo che ti permette di programmare direttamente dal tuo browser
### Pandas:
La libreria [Pandas](https://pandas.pydata.org/) fornisce strutture e strumenti per l'analisi di dati in linguaggio Python.

### Geo pandas:
La libreria per manipolare dati geografici
http://geopandas.org/gallery/create_geopandas_from_pandas.html#sphx-glr-gallery-create-geopandas-from-pandas-py
### Request
Per effettuare chiamate ad API 
http://docs.python-requests.org/en/master/user/quickstart/
### Pysftp
Per utilizzare agilmente SFTP in python
http://pysftp.readthedocs.io/en/release_0.2.9/

## Risorse utili
- [Learn Python: the hard way](Learn Python: the hard way)
- [Pandas in 10 minuti](https://pandas.pydata.org/pandas-docs/stable/10min.html)
    - [video](https://vimeo.com/59324550)

![open data umbria](./img/logo.jpg) 

## [Strutture ricettive](http://dati.umbria.it/dataset/strutture-ricettive)  

![dataset](./img/dataset.png)

### Importiamo la libreria Pandas

In [61]:
import pandas as pd

### Salviamo il contenuto di un dataset (URL) in un oggetto di tipo dataframe

In [62]:
strutture = pd.read_csv("http://dati.umbria.it/datastore/dump/062d7bd6-f9c6-424e-9003-0b7cb3744cab")

### Visulizziamo il dataframe "strutture"

In [63]:
strutture

Unnamed: 0,_id,ID,APT,COMUNE_CODICE,COMUNE,DENOMINAZIONE,TIPOLOGIA,CATEGORIA,INDIRIZZO,FRAZIONE,...,TELEFONO,TELEFONO2,FAX,WEB,EMAIL,COORDX,COORDY,TOTALE_UNITA,TOTALE_LETTI,TOTALE_BAGNI
0,1,4945,2,54001,ASSISI,OSTELLO FONTEMAGGIO,Ostello della gioventu',Ostello della gioventu',Via Eremo delle Carceri 24,,...,075813636,075812317,075813749,www.fontemaggio.it,info@fontemaggio.it,2.327079e+06,4.770871e+06,16,74,17
1,2,17481,2,54001,ASSISI,A CASA DELLE FATE di Cannelli Lorena,Bed & Breakfast,Bed & Breakfast,Via Metastasio 24,,...,075813739,075816413,,www.casalefate.it,info@casalefate.it,,,2,4,2
2,3,18660,2,54001,ASSISI,A CASA MODESTINI di Vignoli Francesca,Bed & Breakfast,Bed & Breakfast,Via San Paolo 38,,...,3491930389,075812252,1782219813,,casamodestini@gmail.com,,,1,3,1
3,4,18126,2,54001,ASSISI,A CASA TUA di Mantovani Anna,Bed & Breakfast,Bed & Breakfast,Via Piaggia San Pietro 9,,...,075812987,329 7741497,,,info.acasatua@yahoo.it,,,2,3,2
4,5,13437,2,54001,ASSISI,ADALGISA di Sensi Adalgisa,Bed & Breakfast,Bed & Breakfast,Via Lorenzo Perosi 33,,...,075813378,,,,agricola@nizzi.com,2.326766e+06,4.771047e+06,1,2,1
5,6,9260,2,54001,ASSISI,AGORA',Centro soggiorno studi,Centro soggiorno studi,Voc. Le Case 42,SANTA MARIA DI LIGNANO,...,075802261,,,,assisiresort1@gmail.com,2.333097e+06,4.777327e+06,20,35,20
6,7,4948,2,54001,ASSISI,AGRICOLA NIZZI,Agriturismo,4 spighe,Costa di Trex 65,COSTA DI TREX,...,075813378,,,www.nizzi.com,agricola@nizzi.com,2.329235e+06,4.774595e+06,6,28,6
7,8,9392,2,54001,ASSISI,AGRITURISMO CASA NOCCHIA TOR DEI MAMMONI,Agriturismo,2 spighe,Costa di Trex 7,COSTA DI TREX,...,0758019025,,,www.agriturismocasanocchia.it,info@agriturismocasanocchia.it,2.330307e+06,4.773160e+06,4,10,4
8,9,4991,2,54001,ASSISI,AGRITURISMO CASA NUOVA,Agriturismo,2 spighe,Pian della Pieve 55,,...,075802143,,075802143,www.agriturismocasanuova.it,info@agriturismocasanuova.it,2.329929e+06,4.775384e+06,5,10,5
9,10,5048,2,54001,ASSISI,AGRITURISMO COL CACIONE,Agriturismo,3 spighe,Costa di Trex,COSTA DI TREX,...,0758019010,3358352477,0758019010,www.agriturismocolcacione.it,colcacione@gmail.com,2.330887e+06,4.773296e+06,6,13,6


Abbiamo eseguito il comando "read_csv" messo a disposizione di Pandas che è stato così smart da:

- interpretare correttamente il separatore di campo
- capire che la prima riga dentifica i nomi dei campi
- inferire correttamente il tipo di dato contenuto in ogni colonna

Il dataframe "strutture" può essere pensato come una tabella.

Ogni colonna della tabella è una "Series" di dati e può contenere un tipo di dato differente dalle altre.

<img src="img/df.png">

# Ispezioniamo i dati

#### Che forma ha il nostro dataframe "strutture"?

In [64]:
strutture.shape

(4099, 22)

Il nostro dataset è composto da:
- 4099 righe/strutture 
- 22 colonne/attributi

#### Da quali Series/colonne è composto?

In [65]:
strutture.columns

Index(['_id', 'ID', 'APT', 'COMUNE_CODICE', 'COMUNE', 'DENOMINAZIONE',
       'TIPOLOGIA', 'CATEGORIA', 'INDIRIZZO', 'FRAZIONE', 'CAP', 'PROV',
       'TELEFONO', 'TELEFONO2', 'FAX', 'WEB', 'EMAIL', 'COORDX', 'COORDY',
       'TOTALE_UNITA', 'TOTALE_LETTI', 'TOTALE_BAGNI'],
      dtype='object')

#### Di che tipo sono le Series/colonne che Pandas ha inferito automaticamente?

In [66]:
strutture.dtypes

_id                int64
ID                 int64
APT                int64
COMUNE_CODICE      int64
COMUNE            object
DENOMINAZIONE     object
TIPOLOGIA         object
CATEGORIA         object
INDIRIZZO         object
FRAZIONE          object
CAP               object
PROV              object
TELEFONO          object
TELEFONO2         object
FAX               object
WEB               object
EMAIL             object
COORDX           float64
COORDY           float64
TOTALE_UNITA       int64
TOTALE_LETTI       int64
TOTALE_BAGNI       int64
dtype: object

#### Visualizza un'anteprima del dataset

In [67]:
strutture.head(5)

Unnamed: 0,_id,ID,APT,COMUNE_CODICE,COMUNE,DENOMINAZIONE,TIPOLOGIA,CATEGORIA,INDIRIZZO,FRAZIONE,...,TELEFONO,TELEFONO2,FAX,WEB,EMAIL,COORDX,COORDY,TOTALE_UNITA,TOTALE_LETTI,TOTALE_BAGNI
0,1,4945,2,54001,ASSISI,OSTELLO FONTEMAGGIO,Ostello della gioventu',Ostello della gioventu',Via Eremo delle Carceri 24,,...,75813636,075812317,75813749.0,www.fontemaggio.it,info@fontemaggio.it,2327079.0,4770871.0,16,74,17
1,2,17481,2,54001,ASSISI,A CASA DELLE FATE di Cannelli Lorena,Bed & Breakfast,Bed & Breakfast,Via Metastasio 24,,...,75813739,075816413,,www.casalefate.it,info@casalefate.it,,,2,4,2
2,3,18660,2,54001,ASSISI,A CASA MODESTINI di Vignoli Francesca,Bed & Breakfast,Bed & Breakfast,Via San Paolo 38,,...,3491930389,075812252,1782219813.0,,casamodestini@gmail.com,,,1,3,1
3,4,18126,2,54001,ASSISI,A CASA TUA di Mantovani Anna,Bed & Breakfast,Bed & Breakfast,Via Piaggia San Pietro 9,,...,75812987,329 7741497,,,info.acasatua@yahoo.it,,,2,3,2
4,5,13437,2,54001,ASSISI,ADALGISA di Sensi Adalgisa,Bed & Breakfast,Bed & Breakfast,Via Lorenzo Perosi 33,,...,75813378,,,,agricola@nizzi.com,2326766.0,4771047.0,1,2,1


#### Qualità del dataset - Missing data

The choice of using **NaN** internally to denote missing data was largely for simplicity and performance reasons.

By “missing” we simply mean NA (“not available”) or “not present for whatever reason”. Many data sets simply arrive with missing data, either because it exists and was not collected or it never existed. 

--> In Pandas un valore mancante viene indicato con "NaN".

Consulta la [Documentazione](http://pandas.pydata.org/pandas-docs/stable/missing_data.html#working-with-missing-data)


In [68]:
strutture.isnull().sum()

_id                 0
ID                  0
APT                 0
COMUNE_CODICE       0
COMUNE              0
DENOMINAZIONE       0
TIPOLOGIA           0
CATEGORIA           0
INDIRIZZO           0
FRAZIONE         2312
CAP                 0
PROV                0
TELEFONO            5
TELEFONO2        2041
FAX              2162
WEB              1394
EMAIL             191
COORDX           1564
COORDY           1564
TOTALE_UNITA        0
TOTALE_LETTI        0
TOTALE_BAGNI        0
dtype: int64

In [69]:
strutture.isnull().sum().sum()

11233

#### Alcune statistiche descrittive

In [70]:
strutture.describe()

Unnamed: 0,_id,ID,APT,COMUNE_CODICE,COORDX,COORDY,TOTALE_UNITA,TOTALE_LETTI,TOTALE_BAGNI
count,4099.0,4099.0,4099.0,4099.0,2535.0,2535.0,4099.0,4099.0,4099.0
mean,2050.0,12909.655526,6.380337,54212.974628,2311022.0,4762242.0,8.649915,21.731886,8.787753
std,1183.423705,5191.564168,3.132897,387.297396,50737.35,98398.85,16.636649,48.097353,15.127693
min,1.0,4780.0,1.0,54001.0,0.0,0.0,0.0,0.0,0.0
25%,1025.5,7622.5,4.0,54014.0,2295178.0,4743371.0,2.0,6.0,2.0
50%,2050.0,14475.0,6.0,54037.0,2312843.0,4768255.0,4.0,10.0,4.0
75%,3074.5,18005.5,9.0,54053.0,2326788.0,4780571.0,8.0,23.0,9.0
max,4099.0,19700.0,12.0,55033.0,2373583.0,4828010.0,282.0,1220.0,245.0


#### Quali sono i valori e le frequenze che assume una colonne/series?

In [71]:
strutture.COMUNE.value_counts()

ASSISI                      416
PERUGIA                     370
GUBBIO                      205
ORVIETO                     196
SPOLETO                     165
CASTIGLIONE DEL LAGO        163
FOLIGNO                     159
TODI                        115
CITTA' DI CASTELLO          105
MAGIONE                      92
UMBERTIDE                    89
TERNI                        83
SPELLO                       80
NORCIA                       72
MONTEFALCO                   64
AMELIA                       64
CITTA' DELLA PIEVE           62
MARSCIANO                    59
PASSIGNANO SUL TRASIMENO     58
BEVAGNA                      56
NARNI                        54
TUORO SUL TRASIMENO          50
VALFABBRICA                  48
PANICALE                     46
CORCIANO                     46
PIEGARO                      45
TREVI                        42
CASCIA                       42
GUALDO CATTANEO              41
BASTIA                       39
                           ... 
AVIGLIAN

#### Filtrare il dataset per uno specifico valore all'interno di una colonna/Series

In [72]:
strutture[strutture['COMUNE'] == "PANICALE"]

Unnamed: 0,_id,ID,APT,COMUNE_CODICE,COMUNE,DENOMINAZIONE,TIPOLOGIA,CATEGORIA,INDIRIZZO,FRAZIONE,...,TELEFONO,TELEFONO2,FAX,WEB,EMAIL,COORDX,COORDY,TOTALE_UNITA,TOTALE_LETTI,TOTALE_BAGNI
2054,2053,5155,4,54037,PANICALE,AGRITURISMO CERES,Agriturismo,2 spighe,VIA DEI MANDORLI 25,CASALINI,...,3333063304,3333063304,662276682.0,www.agriturismoceres.it,info@agriturismoceres.it,2287490.0,4771557.0,6,24,9
2055,2054,15437,4,54037,PANICALE,AGRITURISMO NELLA QUIETE DEL VERDE,Agriturismo,1 spiga,VOC.FORNACE SECONDO 36,,...,755003735,3483316096,755003735.0,www.nellaquietedelverde.com,brunocalzature@libero.it,2282494.0,4761933.0,3,10,3
2056,2055,15249,4,54037,PANICALE,ANGELI BIONDI,Agriturismo,Agriturismo,VIA XXV APRILE 15,,...,3391621661,0758355779,,,angeli.biondi@alice.it,2285168.0,4765864.0,1,3,1
2057,2056,17199,4,54037,PANICALE,ANTICA CASA DEI FRATI,Affittacamere,Affittacamere,VIA ROMA 3,,...,3283343032,075833316,758355549.0,www.anticacasadeifrati.com,romizi@romizi.com,,,1,6,2
2058,2057,5223,4,54037,PANICALE,ANTICA POSTA DI BRACCIO,Case e appartamenti per vacanze,Case e appartamenti per vacanze,VIA TRASIMENO - BRACCIO 54,,...,758350670,3356676889,758350165.0,www.anticaposta.it,info@anticaposta.it,2286649.0,4773571.0,22,70,29
2059,2058,5145,4,54037,PANICALE,AZIENDA AGRICOLA LA QUERCIOLANA,Agriturismo,4 spighe,VIA VIENICHE 4,,...,75837477,3282196849,,www.laquerciolana.it,alessioquerciolana@tiscali.it,2284860.0,4768459.0,5,21,8
2060,2059,5154,4,54037,PANICALE,AZIENDA AGRICOLA POGGIO DI BRACCIO,Agriturismo,3 spighe,POGGIO DI BRACCIO,,...,758350549,,,,r.beccali4@gmail.com,2286929.0,4773686.0,4,20,9
2061,2060,5297,4,54037,PANICALE,AZIENDA AGRITURISTICA MONTALI,Agriturismo,2 spighe,VIA MONTALI 23,,...,758350680,3357023591,758350144.0,www.montalionline.com,montali@montalionline.com,2289532.0,4771903.0,10,25,10
2062,2061,14205,4,54037,PANICALE,AZIENDA AGRITURISTICA OLDANI MARIA RAFFAELLA,Agriturismo,4 spighe,VIA VIENICHE 13,,...,3201650167,3409271617,,www.poggiodelpero.it,info@vocabolopoggiodelpero.it,2285607.0,4768177.0,3,15,4
2063,2062,9798,4,54037,PANICALE,CASA BIANCONI,Affittacamere,Affittacamere,VIA DEL FILATOIO 24-26,,...,75837202,,75837202.0,www.casabianconi.com,mauriziobianconi@libero.it,2283610.0,4768169.0,2,5,2


In [73]:
strutture[(strutture['COMUNE'] == "ASSISI") & (strutture['TIPOLOGIA']=="Agriturismo")]

Unnamed: 0,_id,ID,APT,COMUNE_CODICE,COMUNE,DENOMINAZIONE,TIPOLOGIA,CATEGORIA,INDIRIZZO,FRAZIONE,...,TELEFONO,TELEFONO2,FAX,WEB,EMAIL,COORDX,COORDY,TOTALE_UNITA,TOTALE_LETTI,TOTALE_BAGNI
6,7,4948,2,54001,ASSISI,AGRICOLA NIZZI,Agriturismo,4 spighe,Costa di Trex 65,COSTA DI TREX,...,075813378,,,www.nizzi.com,agricola@nizzi.com,2.329235e+06,4.774595e+06,6,28,6
7,8,9392,2,54001,ASSISI,AGRITURISMO CASA NOCCHIA TOR DEI MAMMONI,Agriturismo,2 spighe,Costa di Trex 7,COSTA DI TREX,...,0758019025,,,www.agriturismocasanocchia.it,info@agriturismocasanocchia.it,2.330307e+06,4.773160e+06,4,10,4
8,9,4991,2,54001,ASSISI,AGRITURISMO CASA NUOVA,Agriturismo,2 spighe,Pian della Pieve 55,,...,075802143,,075802143,www.agriturismocasanuova.it,info@agriturismocasanuova.it,2.329929e+06,4.775384e+06,5,10,5
9,10,5048,2,54001,ASSISI,AGRITURISMO COL CACIONE,Agriturismo,3 spighe,Costa di Trex,COSTA DI TREX,...,0758019010,3358352477,0758019010,www.agriturismocolcacione.it,colcacione@gmail.com,2.330887e+06,4.773296e+06,6,13,6
10,11,17160,2,54001,ASSISI,AGRITURISMO DOLCE SENTIRE,Agriturismo,2 spighe,Loc.Catecuccio 72,PORZIANO,...,3396180265,3392232293,,www.agriturismodolcesentireassisi.it,info@agriturismodolcesentireassisi.it,,,4,10,4
11,12,5018,2,54001,ASSISI,AGRITURISMO IL CASTELLO,Agriturismo,4 spighe,Costa di Trex 25,COSTA DI TREX,...,075813683,3333282225,075813683,www.agriturismoilcastello.com,info@agriturismoilcastello.com,2.329871e+06,4.773312e+06,9,18,9
12,13,4975,2,54001,ASSISI,AGRITURISMO IL GIRASOLE,Agriturismo,2 spighe,Via Campiglione 2,,...,075813449,3471030526,075813449,www.agriturismoilgirasole.net,info@agriturismoilgirasole.net,2.321257e+06,4.772125e+06,5,10,5
13,14,5073,2,54001,ASSISI,AGRITURISMO IL GROTTINO,Agriturismo,2 spighe,Via Campiglione 26,,...,3779986054,3474799436,,,agri.grottino@gmail.com,2.321257e+06,4.772125e+06,6,10,4
14,15,5074,2,54001,ASSISI,AGRITURISMO IL PODERE,Agriturismo,5 spighe,Via Casa Madonna 14,PETRIGNANO,...,0758038806,3312689221,0758038806,www.agriturismoilpodere.com,agriturismoilpodereassisi@gmail.com,2.319533e+06,4.775286e+06,5,10,5
15,16,5017,2,54001,ASSISI,AGRITURISMO LA CANTINA,Agriturismo,2 spighe,"Via Campiglione,22 e Voc. S.Martino Via Vaiano...",,...,075813386,3388553792,075813386,www.agriturismolacantina.it,agri.lacantina@alice.it,2.322845e+06,4.772253e+06,9,23,11


In [74]:
agriturismi_assisi = strutture[(strutture['COMUNE'] == "ASSISI") & (strutture['TIPOLOGIA']=="Agriturismo")]

In [75]:
agriturismi_assisi.shape

(89, 22)

### Campi geografici: COORDX e COORDY ovvero latitudine e longitudine:

I dati geografici su DAF devono rispettare la codifica WGS84 (EPSG:4326) in modo da poter essere visualizzati dai tool che la piattaforma mette a disposizione

Nel dataset delle strutture ricettive **non** è indicato il tipo di formato usato.

In questo caso è necessario capire in quale formato sono espressi e convertire in WSG84

Per effettuare "operazioni geografiche" sui dataset abbiamo a disposizione la libreria [**geopandas**](http://geopandas.org/gallery/create_geopandas_from_pandas.html#sphx-glr-gallery-create-geopandas-from-pandas-py) 

[Link utile per convertire coordinate](http://www.geoin.it/coordinate_converter/)

In [76]:
import geopandas as gpd

### 1 - Creare un GEOdataframe 
partendo dal dataframe Strutture

In [77]:
from shapely.geometry import Point
import matplotlib.pyplot as plt

Un GeoDataFrame ha bisogno di contenere un oggetto "shapely",  

dobbiamo quindi creare una nuova colonna Coordinates come una tupla di Longitude e Latitude

In [78]:
strutture['Coordinate'] = list(zip(strutture.COORDX, strutture.COORDY))

In [79]:
strutture['Coordinate'].head(5)

0    (2327078.82923, 4770870.82219)
1                        (nan, nan)
2                        (nan, nan)
3                        (nan, nan)
4    (2326766.01207, 4771047.31195)
Name: Coordinate, dtype: object

### Trasformiamo le tuple in oggetti "Point"

In [80]:
strutture['Coordinate'] = strutture['Coordinate'].apply(Point)

### Adesso possiamo creare il geodataframe
e convertire il CRS

In [81]:
strutture_geo = gpd.GeoDataFrame(strutture, geometry='Coordinate')

In [86]:
strutture_geo.head(4)

Unnamed: 0,_id,ID,APT,COMUNE_CODICE,COMUNE,DENOMINAZIONE,TIPOLOGIA,CATEGORIA,INDIRIZZO,FRAZIONE,...,TELEFONO2,FAX,WEB,EMAIL,COORDX,COORDY,TOTALE_UNITA,TOTALE_LETTI,TOTALE_BAGNI,Coordinate
0,1,4945,2,54001,ASSISI,OSTELLO FONTEMAGGIO,Ostello della gioventu',Ostello della gioventu',Via Eremo delle Carceri 24,,...,075812317,75813749.0,www.fontemaggio.it,info@fontemaggio.it,2327079.0,4770871.0,16,74,17,POINT (2327078.82923 4770870.82219)
1,2,17481,2,54001,ASSISI,A CASA DELLE FATE di Cannelli Lorena,Bed & Breakfast,Bed & Breakfast,Via Metastasio 24,,...,075816413,,www.casalefate.it,info@casalefate.it,,,2,4,2,POINT (nan nan)
2,3,18660,2,54001,ASSISI,A CASA MODESTINI di Vignoli Francesca,Bed & Breakfast,Bed & Breakfast,Via San Paolo 38,,...,075812252,1782219813.0,,casamodestini@gmail.com,,,1,3,1,POINT (nan nan)
3,4,18126,2,54001,ASSISI,A CASA TUA di Mantovani Anna,Bed & Breakfast,Bed & Breakfast,Via Piaggia San Pietro 9,,...,329 7741497,,,info.acasatua@yahoo.it,,,2,3,2,POINT (nan nan)


## Dataset codifiche apt

Difficile capire di cosa si tratta, immaginiamo che si tratti della decodifica del campo "APT" contenuto in "strutture"


![dataset](./img/codifiche_screen.png)

In [83]:
codifiche= pd.read_csv("http://dati.umbria.it/datastore/dump/917d5b95-6c27-4acd-9b8d-8b60e190c891")

In [84]:
codifiche.shape

(12, 4)

In [85]:
codifiche

Unnamed: 0,_id,CODICE,COD_ISTAT,DESCRIZIONE
0,1,1,553603,AMERINO
1,2,2,543102,ASSISANO
2,3,3,543603,VALNERINA - CASCIA
3,4,4,543309,TRASIMENO
4,5,5,543601,ALTA VALLE DEL TEVERE
5,6,6,543604,FOLIGNATE - NOCERA UMBRA
6,7,7,543105,EUGUBINO - ALTOCHIASCIO
7,8,8,553101,ORVIETANO
8,9,9,541106,PERUGINO
9,10,10,543107,SPOLETINO


### Confrontiamo i campi "codifiche"

![dataset](./img/codifiche_original.png)  
![dataset](./img/codifiche_all.png)

### INNER JOIN tra il dataset *Strutture* e il dataset *codifiche*

Attraverso il comando "merge" offerto dalla libreria Pandas, in modo da avere un unico dataframe contenente anche le decodifiche/informazioni racchiuse nel dataset delle codifiche

[Consulta la documentazione](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html)

In [87]:
strutture_codifiche = strutture.merge(codifiche, how='inner',left_on='APT', right_on='CODICE')

In [88]:
strutture_codifiche.head(3)

Unnamed: 0,_id_x,ID,APT,COMUNE_CODICE,COMUNE,DENOMINAZIONE,TIPOLOGIA,CATEGORIA,INDIRIZZO,FRAZIONE,...,COORDX,COORDY,TOTALE_UNITA,TOTALE_LETTI,TOTALE_BAGNI,Coordinate,_id_y,CODICE,COD_ISTAT,DESCRIZIONE
0,1,4945,2,54001,ASSISI,OSTELLO FONTEMAGGIO,Ostello della gioventu',Ostello della gioventu',Via Eremo delle Carceri 24,,...,2327079.0,4770871.0,16,74,17,POINT (2327078.82923 4770870.82219),2,2,543102,ASSISANO
1,2,17481,2,54001,ASSISI,A CASA DELLE FATE di Cannelli Lorena,Bed & Breakfast,Bed & Breakfast,Via Metastasio 24,,...,,,2,4,2,POINT (nan nan),2,2,543102,ASSISANO
2,3,18660,2,54001,ASSISI,A CASA MODESTINI di Vignoli Francesca,Bed & Breakfast,Bed & Breakfast,Via San Paolo 38,,...,,,1,3,1,POINT (nan nan),2,2,543102,ASSISANO


### Check su dataframe finale *strutture_codifiche*
Il numero di righe del dataframe risultante deve avere lo stesso numero di righe di quello iniziale a patto che ci sia integrità tra la tabella dei fatti (strutture) e quella della dimensione (codifiche)

In [89]:
strutture_codifiche.shape


(4099, 27)

In [90]:
strutture.shape

(4099, 23)

### Salvo il dataset finale
Per caricare sulla piattaforma DAF ho bisogno di un sample del dataset e dell'inter dataset in formato csv.
La libreria Pandas ci permette di farlo agilmente in un unico comando:

In particolare utilizziamo il comando **nome_dataframe.to_csv()**

Si possono specificare molte opzioni ad esempio sul *separatore* da usare, il tipo di *encoding*...

Il parametro **index=False** fa sì che non venga esportata anche la prima colonna contenente l'indice del dataframe.

[Consulta la documentazione](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html)

In [91]:
strutture_codifiche.to_csv("./data/strutture_umbria.csv", sep=';',index=False)

### Invio a DAF il dataset via SFTP

Importiamo il modulo **pysftp** che ci permette di effettuare il trasferimento via SFTP

[Consulta la documentazione](http://pysftp.readthedocs.io/en/release_0.2.8/cookbook.html)

In [92]:
import pysftp

In [None]:
sftp_host = "daf.teamdigitale.it"
sftp_user = "user"
sftp_password = "secret"


local_path = "./data/strutture_umbria.csv"
sftp_path = "test/2"

cnopts = pysftp.CnOpts()
cnopts.hostkeys = None
cnopts.compression = True

with pysftp.Connection(host=sftp_host, 
                       username=sftp_user,
                       password=sftp_password, 
                       cnopts=cnopts) as sftp:
    sftp.chdir(sftp_path)
    sftp.put(local_path, confirm=True)
