## Lezione :: Analisi statistica spaziale di alcune proprietà dei suoli

### Laurea magistrale in scienze forestali ed ambientali.<br>Corso di Geografia e Valutazione del suolo

Giuliano Langella<br>
glangella@unina.it

<b>Tobler's Low of Geography (1970): <br><em>$\quad$ "Everything is related to everything else, but near things are more related than distant things".</em></b>

#### ––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––

### LINKS:
https://cran.r-project.org/doc/contrib/intro-spatial-rl.pdf <br>
http://www.rspatial.org <br>
http://pakillo.github.io/R-GIS-tutorial/#iovec <br>
http://www.nickeubank.com/wp-content/uploads/2015/10/ <br>
http://neondataskills.org/R/extract-raster-data-R/#method-3-extract-values-using-a-shapefile <br>


## Step #3: Esercizio in R sulla geostatistica
#### <u>Nota:</u><br>Il kernel utilizzato per Jupyter è R per cui il codice è in tale linguaggio. <br>Ai fini dello studio degli argomenti annotare i comandi necessari per eseguire le analisi (geo)statistiche proposte.<br>

Argomenti trattati:
<ol type="A">
 
  <li>EXCEL</li>
  <ul>
      <li>Illustrare la procedura in Excel, e consegnarla agli studenti (assegnare esercizio a casa utilizzando i dati estratti dal DEM per la costruzione del variogramma)</li>
  </ul>
<br>

  <li>GSTAT: esempio built-in</li>
  <ul>
      <li>Prendiamo confidenza – mediante l'uso di GSTAT – con (i) l'analisi variografica (variogramma sperimentale, fitting di variogramma) e (ii) l'interpolazione geostatistica mediante kriging.</li>
      <li>https://cran.r-project.org/web/packages/gstat/vignettes/gstat.pdf</li>
  </ul>
<br>

  <li>GSTAT: esempio applicativo in Valle Telesina</li>
    <ul>
      <li>Entriamo in R, installiamo il pacchetto gstat e creiamo lo schema di campionamento</li>
      <li>Entriamo in GIS (SAGA, QGIS, ...), importiamo il DEM, importiamo le coordinate dei punti di campionamento ed astraiamo i punti di quota in corrispondenza dei punti di campionamento (pedologico).</li>
      <li>Equipariamo mentalmente il processo di "estrazione" dei dati di quota dal DEM come all'intera procedura che passa per il campionamento pedologico nei punti individuati, alla raccolta dei campioni, alle analisi di laboratorio ed alla determinazione dei valori di una certa variabile (es. C.O. in [g/kg]).</li>
      <li>Aprire RStudio</li>
      <ul>
        <li>Importare i dati di quota estratti (ovvero di C.O. misurati) nei punti di campionamento</li>
        <li>Costruire un variogramma sperimentale</li>
        <li>Eseguire il fitting mediante un variogramma teorico autorizzato (sferico ed esponenziale)</li>
        <li>Utilizzare il modello di variogramma per l'interpolazione mediante kriging</li>
        <li>Confrontare le mappe di kriging utilizzando i diversi modelli di variogramma</li>
        <li>Confrontare una mappa di kriging con il DEM originale</li>
        <li>(nel caso del campionamento pedologico, è come se potessimo confrontare le nostre interpolazioni del C.O. con i valori effettivamente presenti nella realtà)</li>
      </ul>
    </ul>
</ol>

#### ––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––

## 3. GSTAT: esempio applicativo in Valle Telesina

- importare un raster (DEM) in R
- creare un griglia regolare di punti di campionamento, metodo artigianale
- creazione di un raster, metodo rapido
- creare la lista di punti da esportare per uso in GIS (saltiamo)
- estrazione della ELEV nei punti di campionamento (in R, con/senza buffer)
- variogramma e fitting della ELEV
- interpolazione spaziale (kriging) della ELEV
- valutazione critica dei risultati dell'analisi

#### Caricare i pacchetti R richiesti dalla procedura seguente:

In [None]:
#library(repr)   # to size plots within Jupyter
#    options(repr.plot.width=4)
require(rgdal)   # 
library(raster)  # to use the raster function
require(gstat)   # to run geostatistical analysis

#### Dai metadati del DEM in ambiente GIS ricaviamo le coordinate del Bounding Box
Il DEM è della Valle Telesina.<br>
Nel corso degli esperimenti statistici affronteremo lo studio di un dataset pedologico ottenuto in Valle Telesina.<br>
Per questa ragione eseguiremo le nostre analisi in questo areale.<br>
<img src="artwork/DEM_VT.png" alt="DEM della Valle Telesina" style="width:500px;float:left;" >

In [None]:
DEM <- raster("data/dem5m.tif") # importare il DEM dal disco
#plot(DEM)

In [None]:
DEM

In [None]:
extent(DEM)

In [None]:
bbox(DEM)

Incolliamo le coordinate del Bounding Box della nostra area di studio, avendo cura di riconoscere opportunamente le dimensioni X (Easting) ed Y (Northing).<br>
Possiamo ottenere le info del bbox sia in R con extent(_GRID_) sia in GIS.

In [None]:
xmin = 453000  # metri
ymin = 4556000 # metri
xmax = 477000  # metri
ymax = 4572320 # metri

In [None]:
%get xmin ymin xmax ymax --from R
line( [xmin,xmin],[ymin,ymax] ) % left
line( [xmin,xmax],[ymin,ymin] ) % bottom
line( [xmax,xmax],[ymin,ymax] ) % right
line( [xmin,xmax],[ymax,ymax] ) % bottom
text(xmin+(xmax-xmin)/2,ymin+(ymax-ymin)/2,...
     'Bounding Box','HorizontalAlignment','center')
xmin_o = xmin;
ymin_o = ymin; 
xmax_o = xmax;
ymax_o = ymax;

Calcoliamo l'estensione dell'area studio lungo X ed Y:

In [None]:
xdelta = xmax-xmin
ydelta = ymax-ymin
# stampa i valori in metri:
print( cbind(xdelta,ydelta) )

I punti di campionamento devono ricadere all'interno del bounding box, evitando quindi di posizionare punti sul bordo o in prossimità di esso:

In [None]:
xmin = xmin + 500# m
xmax = xmax - 500# m
ymin = ymin + 1320/2
ymax = ymax - 1320/2
# stampa i valori in metri:
print( cbind(xmin,xmax,ymin,ymax) )

In [None]:
%get xmin xmax ymin ymax --from R
line( [xmin_o,xmin_o],[ymin_o,ymax_o], 'color','b' ) % left
line( [xmin_o,xmax_o],[ymin_o,ymin_o], 'color','b' ) % bottom
line( [xmax_o,xmax_o],[ymin_o,ymax_o], 'color','b' ) % right
line( [xmin_o,xmax_o],[ymax_o,ymax_o], 'color','b' ) % bottom
text(xmin_o+(xmax_o-xmin_o)/2,ymax_o,'Bounding Box',...
     'HorizontalAlignment','center','VerticalAlignment','bottom','color','b')
line( [xmin,xmin],[ymin,ymax], 'color','r' ) % left
line( [xmin,xmax],[ymin,ymin], 'color','r' ) % bottom
line( [xmax,xmax],[ymin,ymax], 'color','r' ) % right
line( [xmin,xmax],[ymax,ymax], 'color','r' ) % bottom
text(xmin+(xmax-xmin)/2,ymin+(ymax-ymin)/2,...
     'Area di Campionamento','HorizontalAlignment','center','color','r')
axis off
axis equal

Calcoliamo la nuova estensione dell'area studio lungo X ed Y:

In [None]:
xdelta = xmax-xmin
ydelta = ymax-ymin
# stampa i valori in metri:
print( cbind(xdelta,ydelta) )

#### Creare una griglia regolare di campionamento
Si divide il dominio XY (=2D, ossia in termini matematici $\mathfrak{D}^2\subset\Re^2$) dell'area studio in una griglia regolare di $N_x \times N_y$ punti di campionamento.<br>
Fissiamo la distanza tra i punti di campionamento, secondo X ed Y:

In [None]:
dx   = 1000 # m
dy   = 1000 # m

Scriviamo le coordinate dei punti lungo i due transetti X ed Y.<br>
La funzione seq crea una sequenza regolare di valori, partendo da xmin fino ad xmax con uno step pari a dx.<br>
(abbiamo che il vettore xtransect è costituito da 101 elementi, come ytransect)

In [None]:
xtransect = seq(xmin,xmax,dx)
ytransect = seq(ymin,ymax,dy)
# Numero di punti lungo X e lungo Y:
Nx = length(xtransect)
Ny = length(ytransect)
# stampa il numero di elementi del vettore xtransect (ytransect ha le stesse dimensioni)
print( cbind(Nx,Ny) )

In [None]:
head(ytransect)

In [None]:
%get xtransect ytransect --from R
hold on
    line( [xmin_o,xmin_o],[ymin_o,ymax_o], 'color','b' ) % left
    line( [xmin_o,xmax_o],[ymin_o,ymin_o], 'color','b' ) % bottom
    line( [xmax_o,xmax_o],[ymin_o,ymax_o], 'color','b' ) % right
    line( [xmin_o,xmax_o],[ymax_o,ymax_o], 'color','b' ) % bottom
    line( [xmin,xmin],[ymin,ymax], 'color','r' ) % left
    line( [xmin,xmax],[ymin,ymin], 'color','r' ) % bottom
    line( [xmax,xmax],[ymin,ymax], 'color','r' ) % right
    line( [xmin,xmax],[ymax,ymax], 'color','r' ) % bottom
    scatter( xtransect, repmat(ymax,numel(xtransect),1) )
    scatter( repmat(xmin,numel(ytransect),1), ytransect )
hold off
axis off
axis equal

text(xmin_o+(xmax_o-xmin_o)/2,ymax_o,'Bounding Box',...
     'HorizontalAlignment','center','VerticalAlignment','bottom','color','b')

text(xmin+(xmax-xmin)/2,ymin+(ymax-ymin)/2,...
     'Area di Campionamento','HorizontalAlignment','center','color','r')

Replichiamo il vettore transect a formare una matrice per ogni dimensione del dominio spaziale (quindi X ed Y):

In [None]:
Xgrid = rep(xtransect,Ny) # Xgrid è ancora un vettore, ma di Nx*Ny elementi
Ygrid = rep(ytransect,Nx) # Ygrid è ancora un vettore, ma di Nx*Ny elementi
# Xgrid (e Ygrid) è un vettore con numero di elementi pari a Nx*Ny:
class(Xgrid)  # ad un oggetto R "numeric" possiamo chiedere "length" ma non "dim"
length(Xgrid) # infatti "length" restituisce il numero di elementi (Nx*Ny)
dim(Xgrid)    # "dim" non funziona in quanto il tipo dati Xgrid è "numeric" e non "matrix"

Osserviamo come le coordinate X ed Y nelle matrice non sono ancora organizzate correttamente:

In [None]:
%get Xgrid Ygrid --from R
scatter(Xgrid,Ygrid)

Manipolazione dei vettori Xgrid ed Ygrid per formare le matrici 2D di $N_x$ colonne e $N_y$ righe:<br>
<font color="red">NOTA :: usare Ny ed Nx in modo coerente con trasposizione e ribaltamento successivi!!</font>

In [None]:
Xgrid = matrix( Xgrid, Ny, Nx )
Ygrid = matrix( Ygrid, Ny, Nx )
dim(Xgrid)# numero di elementi distinti per dimensione X ed Y
dim(Ygrid)# numero di elementi distinti per dimensione X ed Y

La riorganizzazione da vettore a matrice non ha modificato l'organizzazione dei dati:

In [None]:
%get Xgrid Ygrid --from R
scatter(Xgrid(:),Ygrid(:))

#### Riorganizziamo le matrici in modo da ordinare le coordinate in modo opportuno:

 - trasposizione della matrice Xgrid:

In [None]:
Xgrid = t(Xgrid)

 - ribaltamento (flip-up-down) della matrice Ygrid:

In [None]:
tmp = rev(Ygrid)
# Osserviamo le differenza rispetto alle stampe effettuate in precedenza su Xgrid:
class(Xgrid)  # ad un oggetto R "matrix" possiamo chiedere sia "length" che "dim"
length(Xgrid) # infatti "length" restituisce il numero di elementi (Nx*Ny)
dim(Xgrid)    # "dim" restituisce il numero di elementi distinti per dimensione X ed Y

Il punto P di coordinate matriciali [1,1] è definito come <font color="red"><b>P_1_1</b></font> ed ha le seguenti coordinate x(1,1) ed y(1,1):

In [None]:
pi = paste("P_",1,"_",1,sep="")
xi = Xgrid[1,1]
yi = Ygrid[1,1]
print( cbind(pi,xi,yi) )

Il punto di campionamento <font color="red"><b>P_1_2</b></font> è ubicato uno step dx a destra lungo l'asse X ed è fermo lungo l'asse Y:

In [None]:
pi = paste("P_",1,"_",2,sep="")
xi = Xgrid[1,2]
yi = Ygrid[1,2]
print( cbind(pi,xi,yi,dx,dy) )

per cui ha la stessa coordinata Y di P_1_1 ma la coordinata X è quella di P_1_1 + dx

Il punto di campionamento <font color="red"><b>P_2_1</b></font> è ubicato uno step sotto lungo l'asse Y ed è fermo lungo l'asse X:

In [None]:
pi = paste("P_",2,"_",1,sep="")
xi = Xgrid[2,1]
yi = Ygrid[2,1]
print( cbind(pi,xi,yi,dx,dy) )

per cui ha la stessa coordinata X di P_1_1 ma la coordinata Y è quella di P_1_1 + dy

#### Metodo rapido per la creazione di un raster
Leggere il CRS con codice EPSG:32632 in formato PROJ4 dal portale spatialreference.org:<br>
http://spatialreference.org/ref/epsg/32633/proj4/

In alternativa è possibile chiedere il CRS al DEM precedentemente importato in R:

In [None]:
proj4string(DEM) 

In [None]:
GRID <- raster(ncol = Nx, nrow = Ny, xmn = xmin, xmx = xmax, ymn = ymin, ymx = ymax, 
               crs="+proj=utm +zone=33 +ellps=WGS84 +datum=WGS84 +units=m +no_defs")
GRID

In [None]:
hasValues(GRID) # esiste il grigliato ma non è valorizzato!

In [None]:
# Note Nx*Ny is the total number of cells in the grid
values(GRID) <- 1:(Nx * Ny)
options(repr.plot.width=5,repr.plot.height=4)
plot(GRID)

#### Creazione della lista di punti di coordinate X ed Y in corrispondenza dei quali eseguire il campionamento<br>
Nel nostro caso specifico, l'estrazione dei valori di quota dal DEM in ambiente GIS mediante l'uso di Points.txt

In [None]:
# Attenzione: inserendo la [] dopo la funzione forza la richiesta degli elementi indicati in []
Nrows = dim(Xgrid)[1] # si chiede il primo elemento di output della funzione dim
Ncols = dim(Xgrid)[2] # si chiede il secondo elemento di output della funzione dim
i=0
Pi <- vector(mode = "character", length = Nrows*Ncols)
Xi <- vector(mode = "numeric",   length = Nrows*Ncols)
Yi <- vector(mode = "numeric",   length = Nrows*Ncols)
# questo è un ciclo for, serve a ripetere una stessa operazione N-volte scrivendola 1-volta
for (row in 1:Nrows){
    for (col in 1:Ncols){
        i=i+1
        # Stampa dell'etichetta del punto di campionamento, per le successive elaborazioni
        # Il risultato è del tipo P_riga_colonna
        # Ad es. P_17_100 indica il punto di campionamento alla riga 17 e colonna 100
        # Costruzione del campo etichetta dei punti Pi di campionamento, es. P1, P2, ecc.
        Pi[i] = paste("P_",row,"_",col, sep="")
        # Stampa del valore di coordinata X ed Y
        Xi[i] = Xgrid[row,col]
        Yi[i] = Ygrid[row,col]
        #print(Pi[i])
        #print(Xi[i])
        #print(Yi[i])
    }
}

In [None]:
Points = cbind(Pi,Xi,Yi)
#creare la matrice XY e salvare su disco per poi importarla in GIS (QGIS/SAGA)
write.table(Points, file = "data/Points.txt", append = FALSE, quote = FALSE, sep = ",",
            eol = "\n", na = "NA", dec = ".", row.names = FALSE,
            col.names = TRUE, qmethod = c("escape", "double"),
            fileEncoding = "")

In [None]:
class(Points)

## Estrarre i dati di quota dal DEM (plugin :: Point Sampling Tool)

### In QGIS:
Importare in GIS la tabella Points.txt appena creata e campionare il DEM (i suoli) nei punti della griglia di campionamento. <br>
 - http://www.qgistutorials.com/it/docs/sampling_raster_data.html <br>
 - https://pvanb.wordpress.com/2010/02/15/sampling-raster-values-at-point-locations-in-qgis/

### In R:
- http://neondataskills.org/R/extract-raster-data-R/#method-3-extract-values-using-a-shapefile

#### Si crea un oggetto R del tipo Spatial Points, assegnando opportuno CRS:

In [None]:
XY = cbind(Xi,Yi) # concatena Xi ed Yi a formare 2 colonne, a differenza di c()
dimnames(XY)[[1]] = Pi # aggiunge un row-header a XY
head(XY) # stampa le prime righe di XY per analizzare la tabella creata

In [None]:
XY_sp = SpatialPoints(XY)
summary(XY_sp)

In [None]:
# CRS : Coordinate Reference System
proj4string(XY_sp) <- '+proj=utm +zone=33 +datum=WGS84 
                       +units=m +no_defs +ellps=WGS84 +towgs84=0,0,0'
summary(XY_sp)

#### Estrazione del valore della variabile in corrispondenza della griglia di campionamento:

In [None]:
ELEV <- extract(DEM,     # raster layer
                XY_sp,   # SPDF with centroids
                'simple')# method = {'simple' or 'bilinear'}

ELEV_buf <- extract(DEM, # raster layer
	XY_sp,               # SPDF with centroids for buffer
	buffer = 400,        # buffer size, units depend on CRS, in our case meters
	fun=max,             # what value to extract (min, mean, max, myfun(),...)
	df=FALSE)            # return a dataframe? 

In [None]:
summary(ELEV)
summary(ELEV_buf)

#### Confrontare i valori campionati con la sorgente primaria (DEM):

In [None]:
# crea matrice da vettore
mELEV     = matrix(ELEV,Nx,Ny)
mELEV_buf = matrix(ELEV_buf,Nx,Ny)
# traspone matrice
mELEV     = t(mELEV)  
mELEV_buf = t(mELEV_buf)  
# ribalta la matrice up/down
mELEV     = apply(mELEV, 2, rev)
mELEV_buf = apply(mELEV_buf, 2, rev)
# scrivi i valori di quota sul grigliato mappa
GRID_buf = GRID
values(GRID) <- mELEV
values(GRID_buf) <- mELEV_buf

In [None]:
options(repr.plot.width=7,repr.plot.height=4)
par( mfrow = c( 2, 2 ) )
plot(GRID,    main="Valori campionati [pixel]")
plot(GRID_buf,main="Valori campionati [max,r=400m]")
plot(DEM,     main="Sorgente primaria (DEM)")

In [None]:
options(repr.plot.width=4,repr.plot.height=4)
ceeb = cor(cbind(ELEV,ELEV_buf))
plot(ELEV,ELEV_buf,main=paste("Correlation = ",round(ceeb[2],3)) )

### Costruire il variogramma sperimentale (su ELEV)
Abbiamo le coordindate in XY ed i valori della variabile in ELEV.

In [None]:
print("XY")
summary(XY)
print("ELEV")
summary(ELEV)

In [None]:
Points = data.frame(XY,ELEV)
class(Points)   # stampa il tipo di dato di Points
head(Points)    # stampa le prime N righe di Points
summary(Points) # stampa le statistiche di Points

La funzione "coordinates", quando utilizzata (es. sul lato sinistro di un segno = oppure <-), <br>
promuove il data.frame in un a SpatialPointsDataFrame, che ha consapevolezza circa le sue coordinates geospaziali:

In [None]:
coordinates(Points) <- ~Xi+Yi
class(Points)

In [None]:
summary(Points)

Possiamo assegnare ai punti il CRS corretto (con EPSG:32633):

In [None]:
proj4string(Points) <- "+proj=utm +zone=33 +ellps=WGS84 +datum=WGS84 +units=m +no_defs"
summary(Points)

#### Evidenziare la presenza di un gradiente lineare e smussato
The plotting function used, bubble, assumes that the x- and y-axis are the spatial coordinates:

In [None]:
options(repr.plot.width=7,repr.plot.height=4)
bubble(Points, "ELEV",
       col=c("#00ff0088", "#00ff0088"), main = "elevation (m)")

### NOTA: creare un GRID 2 o 4 volte meno denso del DEM (se troppo pesante)
Costruzione del GRID di interpolazione, con lo stesso grigliato del DEM (differente da ELEV)

In [None]:
DEM

In [None]:
xy=as.data.frame(coordinates(DEM))
class(xy)

In [None]:
coordinates(xy)=~x+y
class(xy)

In [None]:
gridded(xy)=TRUE
class(xy)

In [None]:
proj4string(xy) <- "+proj=utm +zone=33 +ellps=WGS84 +datum=WGS84 +units=m +no_defs"
summary(xy)

In [None]:
summary(Points)

In [None]:
elev.idw = idw(ELEV~1, Points, newdata=xy)

In [None]:
#par( mfrow = c( 2, 2 ) )
options(repr.plot.width=5,repr.plot.height=3)
plot(GRID,main="Valori campionati")
plot(DEM, main="Sorgente primaria (DEM)")
spplot(elev.idw["var1.pred"], main = "ELEV IDW interpolation")

In [None]:
elev.vgm  = variogram(ELEV~1, Points, cutoff=16000)
elev.vgmc = variogram(ELEV~1, Points, cutoff=16000, cloud=TRUE)
elev.vgm

In [None]:
options(repr.plot.width=4,repr.plot.height=4)
plot(elev.vgm)
plot(elev.vgmc)

In [None]:
elev.fit1 = fit.variogram(elev.vgm, model = vgm(10000, "Sph", 8000, 1000) )

elev.fit2 = fit.variogram(elev.vgm, model = vgm(10000, "Sph", 5000,   00), 
                         fit.sills = TRUE, fit.ranges = TRUE, fit.method=7 )

elev.fit3 = fit.variogram(elev.vgm, model = vgm(10000, "Sph", 5000,   00), 
                         fit.sills = TRUE, fit.ranges = TRUE, fit.method=1 )


elev.fit4 = fit.variogram(elev.vgm, model = vgm(95000,"Sph", 10000, 5000), 
                        fit.sills = FALSE, fit.ranges = FALSE )



In [None]:
elev.fit1
elev.fit2
elev.fit3
elev.fit4

In [None]:
par( mfrow = c( 2, 2 ) )
plot(elev.vgm,elev.fit1,main="default & automatic")
plot(elev.vgm,elev.fit2,main="fit.method=7")
plot(elev.vgm,elev.fit3,main="fit.method=1")
plot(elev.vgm,elev.fit4,main="manual setting")

## Kriging Formulas

### $z({\mathbf u}) = \displaystyle\sum _{\alpha=1}^{n({\mathbf u})} \lambda_{\alpha}({\mathbf u}) z({\mathbf u}_{\alpha})$

### <b>$\lambda(u) = K^{-1} k$</b> $\;\;$ ove $\;\;$ $K^{-1} = (K^{T}K)^{-1}K^T$

### $K = 
 \begin{bmatrix}
  C(u_1-u_1) & \cdots & C(u_1,u_n) \\
  \vdots  & \ddots & \vdots  \\
  C(u_n-u_1) & \cdots & C(u_n-u_n) 
 \end{bmatrix}$ $\;\;$ matrice di varianza-covarianza dei dati

### $\lambda(u) = 
 \begin{bmatrix}
  \lambda_1(u) \\
  \vdots  \\
  \lambda_n(u)  
 \end{bmatrix}$ $\;\;$ vettore dei pesi

### $k = 
 \begin{bmatrix}
  C(u_1-u) \\
  \vdots  \\
  C(u_n-u)  
 \end{bmatrix}$ $\;\;$ vettore di covarianza dati-incognite