# Dati Territoriali e Ambientali

Opus Facere - Fondazione Golinelli

Matteo Fortini

In [4]:
%matplotlib inline
import pandas as pd
import numpy as np
import geopandas as gpd
import matplotlib.pyplot as plt
import numpy as np

# Make the graphs a bit prettier, and bigger
plt.rcParams['figure.figsize'] = (15, 5)


# Cosa sono i Dati?

<img src="img/dataFireRegister.jpg" width="80%" />

# Oggi, tutto è un dato

* La **digitalizzazione** rende tutto una **sequenza di numeri**
* I **computer** permettono di **elaborare** queste sequenze
* Gli **algoritmi** permettono di **estrarre significato** da queste elaborazioni
* La **scienza** permette di **analizzare** questi dati

## Un po' di esempi

* I [prezzi dei carburanti](https://medium.com/@vincpatruno/vado-a-fare-il-pieno-di-benzina-in-veneto-51520dd0dfdc) qui i [dati](https://www.mise.gov.it/index.php/it/open-data/elenco-dataset/2036944-carburanti-archivio-prezzi)
* Le [parole nei libri](https://books.google.com/ngrams)
* Le [ricerche su Google](https://trends.google.com/trends/)
* Dati [satellitari](https://s2maps.eu/)
* Ricerca sui [suicidi](http://www.infodata.ilsole24ore.com/2019/01/15/i-suicidi-misurano-il-malessere-di-una-nazione-i-casi-di-russia-e-stati-uniti/) (qui i [dati](https://www.kaggle.com/szamil/who-suicide-statistics))
* Dati sulla [ricchezza e popolazione delle nazioni](https://www.kaggle.com/gemartin/world-bank-data-1960-to-2016)


# Parliamo di **dati geografici**

I dati aumentano di significato quando possiamo collegarli con altri.

Il modo più semplice per abilitare questi collegamenti è assegnare delle **coordinate** ai dati. Queste coordinate possono essere in tutte le 4 dimensioni:

* nello spazio: 3D o più spesso 2D se si parla di punti sulla superficie terrestre
* nel tempo

Le **interrogazioni** (_query_) che possiamo eseguire sui dati diventano quindi al primo livello di **prossimità** (in caso di elementi puntuali) o **sovrapposizione** (in caso di elementi che coinvolgano aree).

## Coordinate nello spazio

<img src="img/1280px-Latitude_and_Longitude_of_the_Earth.svg.png" width="80%" />


## Alcuni problemi di conversione

* La Terra non è una sfera
* Si utilizza un **ellissoide**
* A seconda delle scelte, vi saranno luoghi con più o meno errori
* Ad ogni scelta, si dà origine a un **Sistema di Riferimento** (vedi [EPSG](http://www.epsg.org/))
* Problema di conversione fra coordinate geografiche e cartesiane

(Parallelo: le [proiezioni cartografiche](https://it.wikipedia.org/wiki/Categoria:Proiezioni_cartografiche))

# I passaggi di un'analisi di dati

# OSEMN

1. **O**btaining data
2. **S**crubbing data
3. **E**xploring data
4. **M**odeling data
5. i**N**terpreting data

Mason, Hilary, and Chris H. Wiggins. 2010. [“A Taxonomy of Data Science.”](http://www.dataists.com/2010/09/a-taxonomy-of-data-science.)


## 1. **O**btaining data

Recuperare dei dati. Come si fa? Due strade non esclusive:

* Li si prende da qualche parte
* Li si genera

### Prendere dati da qualche parte

* Esistono tantissimi dati già disponibili
* Per utilizzare un _dataset_ occorre avere una **licenza**
* È qui che entrano in gioco gli **open data**

### Esercizio: creiamo un dataset

* Le nostre date di nascita
* Le nostre altezze
* Dov'era la nostra scuola elementare

https://goo.gl/forms/CVuh0UlZpzb22ZHL2


## 2. Scrubbing data

* I dati non sono necessariamente tutti nello stesso formato
* Potrebbe essere necessario ripulirli, ovvero:
   * eliminare doppioni
   * sistemare maiuscole/minuscole
   * eliminare spazi
   * sistemare accenti
   * ...

### Esercizio: ripuliamo il nostro dataset

* Verifichiamo il formato
* Verifichiamo gli spazi
* Verifichiamo accenti e maiuscole/minuscole

## 3. Exploring data

Ci sono due modi principali per esplorare un dataset:

* calcolare delle **statistiche**
* **visualizzare**

### Calcolare delle statistiche

* **moda**: valore più numeroso
* **mediana**: valore che si trova a metà della popolazione del campione statistico
* **media** $\mu$: valore pari alla somma di tutti i valori, diviso il loro numero $\mu = \frac{\sum_{i=1}^N{x_i}}{N}$
* **deviazione standard** $\sigma$: radice quadrata della somma della distanza al quadrato dei valori dalla media $\sigma = \sqrt{\frac{\sum_{i=1}^N{(x_i-\mu)^2}}{N}}$
* **indice di correlazione**: valore che misura la "somiglianza" di due dataset

Sono stati inventati nel tempo tantissimi diversi indici statistici per cercare di descrivere i dataset, soprattutto nelle epoche in cui le visualizzazioni di dati erano soltanto manuali.

Note:
* La media soffre di un **errore standard** che può essere stimato come $e_S=\frac{\sigma}{\sqrt{N}}$ quindi il valore stimato è $\mu \pm e_S$
* Correlation is not causation: [Spurious correlations](http://tylervigen.com/spurious-correlations)

#### Esercizio: calcoliamo le statistiche sui nostri dati

* Utilizziamo le formule dei Google sheet:
   * Moda: MODE()
   * Mediana: MEDIAN()
   * Media: AVERAGE()
   * Deviazione Standard: STDEV()

### Visualizzare

Perché visualizzare i dati?

* Perché le visualizzazioni (ben fatte) sono molto più **intuitive** ([come mentire](https://towardsdatascience.com/5-ways-data-visualizations-can-lie-46e54f41de37))
* Perché le statistiche possono fallire

<img src="img/anscombe_quartet.png" width="70%" />

(Anscombe's Quartet by [Schutz](https://commons.wikimedia.org/wiki/User:Schutz))

#### Alcune regole per le visualizzazioni

* [What makes a good data visualization](https://informationisbeautiful.net/visualizations/what-makes-a-good-data-visualization/)
* [Cleveland e Mc Gill](https://www.getnerdyhr.com/1984-was-awesome-why-bar-charts-are-so-effective/)


#### Esercizio: Visualizziamo i dati del nostro dataset

* Usando i grafici di Google
* Usando [Datawrapper](https://www.datawrapper.de/)
* Usando [Umap](https://umap.openstreetmap.fr/it/)
* Usando [timeline.js](https://timeline.knightlab.com/)
* Usando [storymap.js](https://storymap.knightlab.com/)

# Open Data

_“Open data and content can be freely used, modified, and shared by anyone for any purpose”_ ([Open definition](http://opendefinition.org/)).

<img src="img/5-star-steps.png" width="50%" />

[5-star Open Data](https://5stardata.info/en/)


# Cataloghi di dati _pubblici_

Una lista (molto parziale) per iniziare

* [Awesome public datasets](https://github.com/awesomedata/awesome-public-datasets)
* [Awesome italian public datasets](https://github.com/italia/awesome-italian-public-datasets)
* [dati.gov.it](http://dati.gov.it/)
* [RNDT - Repertorio Nazionale Dati Territoriali](http://geodati.gov.it/geoportale/eng/)
* [European Data Portal](https://data.europa.eu/euodp/en/home/)
* [Freecodecamp best free open data sources](https://medium.freecodecamp.org/https-medium-freecodecamp-org-best-free-open-data-sources-anyone-can-use-a65b514b0f2d)
* [Data.world](https://data.world)
* [dati.emilia-romagna.it](http://dati.emilia-romagna.it/)
* [Dati di ARPAE](https://dati.arpae.it/)
* [Kaggle](https://www.kaggle.com/datasets)
* [Transit.land](http://transit.land/)

## Dati pubblici generati da volontari(e)

Gli enti pubblici sono fra i più grandi produttori di dati. Ci sono però tanti dati che sono generati da volontari(e).

* [OpenStreetMap](https://www.openstreetmap.org) che è un DB geografico (vedi [Overpass](https://overpass-turbo.eu/) o [figure ground](https://hanshack.com/figuregrounder/))
* [Wikipedia](https://it.wikipedia.org), [Wikidata](https://www.wikidata.org/wiki/Wikidata:Main_Page) e [DBPedia](https://wiki.dbpedia.org/)

# Esempio: i dati sui rifiuti

* Utilizziamo il dataset di ARPAE
* Impariamo a usare le **tabelle pivot**
* Facciamo statistiche
* Facciamo visualizzazioni dati



* https://sylum.lima-city.de/viziData/
* https://tools.wmflabs.org/wikidata-todo/tempo_spatial_display.html

# Progetti

## Aumentiamo dei dati OSM

* https://www.openstreetmap.org/edit?way=251564152#map=18/44.50795/11.30718
* https://osmbuildings.org/?lat=44.50848&lon=11.30729&zoom=17.8&tilt=30
* https://demo.f4map.com/#lat=44.5083724&lon=11.3071484&zoom=20

## Mapillary

* [Documentiamo con Mapillary](https://www.mapillary.com/app/?focus=map&lat=44.508206674198846&lng=11.306618811716135&z=17.509119280631033), interno ed esterno


## Noise planet

* [Documentiamo i livelli di rumore](http://noise-planet.org/map_noisecapture/index.html#17/44.50807/11.30787/)