# Mentoria: Monitoreo de Espacios Verdes

__DIPLODATOS 2022 - FAMAF UNC__

_Felix Rojo Lapalma_

## Análisis y Visualización de Datos 

Trabajar con imágenes satelitales implica incorporar conceptos tales como rasters, resolución, bandas, proyecciones,etc. Para su visualización o representación existen diferentes formas que pueden brindar una mejor interpretación de las mismas (cuando queremos resaltar algo en particular por ejemplo). Adicionalmente al trabajo con rasters (en forma simplificada un raster es una grilla de puntos cada uno de los cuales tiene alguna clase de identificación geográfica, que nos permite ubicarlos en el espacio) le sumamos ciertas representaciones geométricas, lineas, puntos polígonos (también asociados a cierta clase de referencia geométrica) que nos permiten marcar sobre un raster ciertas zonas de interés por ejemplo.

Para una introduccion un poco mas extensa respecto al origen de los datos y su procesamiento se pueden referir a :
- [ab-initio-data-build](../data/ab-initio-dataset-build.md)
- [ab-initio-analisis-visualizacion](../data/ab-initio-analisis-visualizacion.md)


### Fuentes

El presente trabajo practico está fuertemente inspirado en los correspondientes de:

- _jbergamasco_
    - [jbergamasco2019](https://github.com/jbergamasco/DiploDatos2019)
    - [jbergamasco2020](https://github.com/jbergamasco/DiploDatos2020)
- [sergiobuzzi2020](https://github.com/sergiobuzzi/MentoriaDiploDatos2020)


In [1]:
import pandas as pd

In [2]:
# recuerde descargar el dataset desde los links mencionados en el README
df_=pd.read_csv('../data/cba/espacios-verdes-indexs-cba-20170101-20220420.csv',index_col=0)

Le damos una primera mirada al conjunto de datos.

In [3]:
print(f"Dataframe HEAD")
display(df_.head())
print(f"Dataframe TAIL")
display(df_.tail())
print(f"Dataframe INFO")
display(df_.info())
print(f"Dataframe DESCRIBE")
display(df_.describe())

Dataframe HEAD


Unnamed: 0,B02_min,B02_max,B02_mean,B02_median,B02_nodata,B02_range,B02_count,B03_min,B03_max,B03_mean,...,sipi_median,sipi_nodata,sipi_range,sipi_count,raster,clouds_on_raster,osm_id,name,area_m2,date
0,0.0871,0.1421,0.10257,0.0965,0.0,0.055,47,0.0768,0.1516,0.098885,...,0.884216,0.0,0.453065,47,S2A_MSIL1C_20170103T142022_N0204_R010_T20JLL_2...,0.0,605976736,,4650.710032,2017-01-03
1,0.097,0.1936,0.118354,0.1066,0.0,0.0966,13,0.1006,0.1949,0.122154,...,0.971875,0.0,0.247045,13,S2A_MSIL1C_20170103T142022_N0204_R010_T20JLL_2...,0.0,559322368,,1502.000513,2017-01-03
2,0.0992,0.1273,0.111805,0.1129,0.0,0.0281,19,0.1037,0.1369,0.117795,...,0.973017,0.0,0.207006,19,S2A_MSIL1C_20170103T142022_N0204_R010_T20JLL_2...,0.0,559322369,,2004.192528,2017-01-03
3,0.0995,0.1933,0.118491,0.11355,0.0,0.0938,66,0.0993,0.199,0.124512,...,0.966202,0.0,0.258424,66,S2A_MSIL1C_20170103T142022_N0204_R010_T20JLL_2...,0.0,559328111,,6940.50764,2017-01-03
4,0.1059,0.1385,0.122453,0.1224,0.0,0.0326,47,0.1036,0.158,0.132455,...,0.993986,0.0,0.260419,47,S2A_MSIL1C_20170103T142022_N0204_R010_T20JLL_2...,0.0,559328112,,4587.356048,2017-01-03


Dataframe TAIL


Unnamed: 0,B02_min,B02_max,B02_mean,B02_median,B02_nodata,B02_range,B02_count,B03_min,B03_max,B03_mean,...,sipi_median,sipi_nodata,sipi_range,sipi_count,raster,clouds_on_raster,osm_id,name,area_m2,date
208927,0.099,0.1684,0.11599,0.1127,0.0,0.0694,31,0.0862,0.1627,0.107387,...,0.892669,0.0,0.545993,31,S2A_MSIL1C_20220417T141741_N0400_R010_T20JLL_2...,0.0,307532496,,3824.467794,2022-04-17
208928,0.1145,0.324,0.149746,0.13665,0.0,0.2095,80,0.0977,0.3363,0.149332,...,1.084102,0.0,2.805242,80,S2A_MSIL1C_20220417T141741_N0400_R010_T20JLL_2...,0.0,307535460,Plaza Exodo Jujeño,7184.535857,2022-04-17
208929,0.0993,0.1388,0.11087,0.10625,0.0,0.0395,10,0.093,0.1473,0.10616,...,0.914887,0.0,0.199024,10,S2A_MSIL1C_20220417T141741_N0400_R010_T20JLL_2...,0.0,307796387,,1147.997645,2022-04-17
208930,0.0991,0.1407,0.124008,0.1257,0.0,0.0416,53,0.0852,0.1377,0.118574,...,0.9912,0.0,0.29991,53,S2A_MSIL1C_20220417T141741_N0400_R010_T20JLL_2...,0.0,307097955,,5185.690046,2022-04-17
208931,0.0874,0.1347,0.104697,0.1018,0.0,0.0473,95,0.0707,0.1321,0.095941,...,0.889747,0.0,0.456241,95,S2A_MSIL1C_20220417T141741_N0400_R010_T20JLL_2...,0.0,901791744,,9394.381202,2022-04-17


Dataframe INFO
<class 'pandas.core.frame.DataFrame'>
Int64Index: 208932 entries, 0 to 208931
Columns: 167 entries, B02_min to date
dtypes: float64(140), int64(24), object(3)
memory usage: 267.8+ MB


None

Dataframe DESCRIBE


Unnamed: 0,B02_min,B02_max,B02_mean,B02_median,B02_nodata,B02_range,B02_count,B03_min,B03_max,B03_mean,...,sipi_min,sipi_max,sipi_mean,sipi_median,sipi_nodata,sipi_range,sipi_count,clouds_on_raster,osm_id,area_m2
count,167269.0,167269.0,167269.0,167269.0,208932.0,167269.0,208932.0,167264.0,167264.0,167264.0,...,167260.0,167260.0,167260.0,167260.0,208932.0,167260.0,208932.0,208932.0,208932.0,208932.0
mean,0.109851,0.166474,0.131182,0.129623,25.194393,0.056624,99.740877,0.099372,0.164881,0.125957,...,-1.688595e+35,1.7089389999999998e+35,,0.969624,25.204545,3.397534e+35,99.730726,19.473638,434363100.0,12493.88
std,0.030815,0.050951,0.034782,0.035332,341.298796,0.042698,699.326759,0.032069,0.051504,0.035032,...,7.578372e+36,7.623866e+36,,0.253205,341.495289,1.125051e+37,699.314819,33.424013,214106900.0,78957.3
min,0.0001,0.067,0.062357,0.0619,0.0,0.0,0.0,0.022,0.0484,0.045698,...,-3.4028230000000003e+38,-9.347826,-inf,-22.149998,0.0,0.0,0.0,0.0,1331006.0,422.5951
25%,0.093,0.1387,0.112461,0.1103,0.0,0.0339,11.0,0.081,0.1361,0.106518,...,0.7514496,1.040685,0.9009012,0.891668,0.0,0.2119307,11.0,0.0,286706500.0,2066.559
50%,0.1027,0.1541,0.124327,0.1228,0.0,0.0465,29.0,0.0928,0.154,0.119943,...,0.8494449,1.189367,0.96969,0.956522,0.0,0.3560274,29.0,0.0,359674200.0,3812.182
75%,0.1163,0.1759,0.138747,0.1378,0.0,0.0643,56.0,0.1084,0.1781,0.135888,...,0.9036525,1.456376,1.072648,1.054187,0.0,0.6366461,56.0,25.009939,605976700.0,6644.794
max,0.6317,0.9803,0.684304,0.6897,13701.0,0.8913,13701.0,0.6218,1.0643,0.679233,...,1.887117,3.4028230000000003e+38,inf,16.321413,13701.0,6.8056470000000006e+38,13701.0,100.0,924965700.0,1370630.0


La descripción de las columnas las pueden encontrar en:
- [estructura-datos](../data/estructura-datos.md)

## Sobre el Trabajo Requerido

Se propone la elaboración de un _informe o reporte_ que deberá entregarse en formato html/pdf/md y deberá apuntar a un público técnico, 
pero sin conocimientos específicos en el tema (es decir nos deberiamos abstraer de conceptos tales como raster, vectores, etc).  

La estructura del reporte sugerida es:

- Introducción [1]
- Presentación del Dataset (el que consideren mas vistoso o demostrativo) [2]
- Variables de interés (relacionado al punto [3])
- Series temporales (relacionado al punto [4])
- Conclusiones ([5])

Cada parte del informe las deberian poder extraer de las respuestas o comentarios de los proximos puntos.

__NOTA__: Todos aquellos listados como __Punto Extra__ no son necesarios para el informe pero su resolución se considera un aporte positivo.

### Presentación/Slides (__Punto Extra__)

Se valorará la generacion de una presentación compacta (< 8 slides) en base a lo analizado, que permita responder:
- Utilidad del Monitoreo de espacios verdes
- Beneficios/Desventajas
- Limitaciones del enfoque via indices de imagenes satelitales y mitigaciones a esto
- Condiciones o criterios que hagan que un dado espacio sea monitoreable via imágenes satelitales

__NOTA__: Por presentacion, entendemos, google slides, ppt, beamer,las generadas a partir de las jupyter notebooks,etc.

## [1] Introducción 

Sobre porque consideran importante el monitoreo de espacios verdes (y otras razones que quieran sumar). Y que piensan descubrir a
partir del análisis y la visualizacion de los mismos (o que piensan que no vamos a poder hacer)

## [2] Presentación del Dataset

Sobre como entienden el dataset, como piensan que se generaron los valores dentro del dataset a partir de los datos crudos,etc.

## [3] Análisis Estadístico de Variables

Deberán realizar un análisis estadístico riguroso de variables que seleccionen por ser de su interés (entre 2 y 4), incluyendo en el set al menos una banda y un indice. 

Deberán responder preguntas como:

-   _Variables_: ¿Qué _tipo de variable_ es cada una? Parecen estar acotadas? (Puede ser interesante suplementar con alguna bibliografia extra respecto a que valores puede  tener un indice o banda) ¿Son fisicamente razonables?
-   _Outliers_: ¿Existen _outliers_ en las variables seleccionadas? (Note que en la presentación de los datos, esto parece estar presente en casi todos los casos)
-   _Valores Faltantes_: ¿Existen? ¿Es mejor descartarlos o completarlos con un valor particular? (Quizas le sirva responder la siguiente pregunta en primer lugar)
-   _Distribucion de Valores_: ¿Cómo es la _distribución_ de las variables en el dataset? ¿Se parecen a alguna distribucion que recuerde? Son todas de la misma distribución?
-   _Distribucion Condicionada_: ¿Cómo es la distribución de una variable (cualquiera que haya elegido) condicionada a la variable temporal por ejemplo? ¿Tiene sentido utilizar la dependencia temporal cuando estamos intentando completar valores faltantes?

En caso de calcular estadísticos, explicar por qué lo hicieron y que buscaban obtener al calcularlos. Utilizar los gráficos apropiados para mostrar el análisis realizado.  
Además:


-  ¿Existe _correlacion_ entre variables? ¿Entre cuales es mas "intensa"? -> Considere utilizar  [__pandas-profiling__](https://github.com/ydataai/pandas-profiling)
-  Analizar la dispersión de las bandas (para un estadistico, por ejemplo la media) a lo largo del tiempo. ¿La dispersión es la misma en todos los casos? ¿O existen bandas que "se dispersan" mas?

Utilizar gráficos que permitan visualizar de un modo simple las conclusiones.

## [4] Series temporales

Como las observaciones se encuentran indexadas en el tiempo, este tipo de datos se conocen como **series de tiempo**. Elija alguno de los espacios verdes mas conocidos (Parque Sarmiento por ejemplo) y responda: 

- ¿Cual es el período de tiempo bajo análisis?
- Elija una banda y un indice (B02 y NDVI, por ejemplo) ambos parecen seguir alguna estacionalidad? Es decir, sus valores parecen "repetirse" cada cierto periodo? (Para este analisis considere utilizar la mediana de todas las mediciones {}_median).
- Ahora extienda el analisis a todas las variables, son estacionales? Todas tienen el mismo tipo de estacionalidad? __Nota__: En este punto y etapa no se espera un criterio estricto de estacionalidad sino mostrar que bajo algun criterio (por ejemplo boxplots "similares" por temporada, etc) parecen serlo.
- Seleccione un índice y grafique un boxplot para cada año. ¿Se mantiene inalterada en el tiempo la distribución? Que pasa si ese boxplot lo separa por estación (invierno,verano,otoño, primavera) y año son parecidas entre ellas en algun caso? Como se comportan año a año?
- Tiene sentido calcular outliers para todo el tiempo de la serie o deberia segmentarse? Es decir, un outlier en otoño es lo mismo que en primavera o verano?
- Sobre datos faltantes, existe algun intervalo temporal en el cual esto parezca ser mas recurrente (observe [ab-initio-data-build](../data/ab-initio-dataset-build.md) # Imagenes CBA) ? 

    __Punto Extra__: replique la imágen _cantidad de imágenes por fecha y nubosidad_, se le ocurre alguna forma alternativa de representarlo?
- Sobre los outliers, elija alguna banda o indice y compute los outliers (bajo algun criterio que le parezca razonable), ahora contraste los mismos (o el rango de los mismos) con la representacion de los rasters ( descargables desde: [parches rbg/cloud-mask](https://drive.google.com/file/d/1VJnFvc9waDWPzm0i6UitKwlOSaQVwn_j/view?usp=sharing) ), su eleccion de outliers parece sostenerse? O esta desechando datos que podrian servir?
- __Punto Extra__: Explique el indice NDVI, y su aplicabilidad para observar la evolución de cultivos. ¿Esto nos serviria para monitorear plazas y parques?
- __Punto Extra__: Se le ocurre alguna forma de normalizar los datos para hacernos independientes de los años (pero si mantener la estacionalidad)? 
- __Punto Extra__: El tipo de sensor que estamos considerando esta afectado fuertemente por las condiciones luminicas, puede encontrar algún par de {imagenes, indices} que parezcan representar esta situación? Para ello deberia seleccionar imagenes cercanas temporalmente (misma semana o mes, sin nubes) y obtener sus indices. Podria concluir algo a partir de eso? O le hacen falta mas datos? (Respuesta preliminar: la informacion brindada parece ser insuficiente) 
- ¿Dado un indice, es capaz de encontrar algun rango temporal en el cual parezca romperse la estacionalidad? (Esto lo podria intentar contrastar con las imagenes en rgb para ello le recomendamos que elija un espacio verde extenso)
- Le parece que existen espacios verdes que no sean susceptibles de ser monitoreados via las bandas o indices? 

    __Punto Extra__: Podria generar condiciones o criterios (tamaño, reflectancia en alguna banda, etc) que nos indiquen si un dado espacio es monitoreable ( o no) via imágenes satelitales?


## [5] Conclusiones

Se considerará como positivo la capacidad de generar conclusiones o analisis que permitan construir nuevo conocimiento en base a los datos provistos.
Respecto a las conclusiones, se espera que a partir de los puntos [3] y [4] hayan podido conocer el dataset y tener una idea (linea de acción) para mitigar o atacar temas tales como:
- Outliers?
- Faltantes de datos?
- Todas las variables son relevantes?
- etc

No hay límites respecto a la extensión, pero se valorará el poder de síntesis y de comunicación, así como el uso de las herramientas pertinentes..