<a href="https://colab.research.google.com/github/uba/tathu/blob/master/notebooks/full-example-goes16.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Autores:
*   [Douglas Uba](https://github.com/uba) - douglas.uba@inpe.br
*   [Camila Lopes](https://github.com/cclopes) - camila.lopes@iag.usp.br



# **Instalação TATHU - Tracking and Analysis of Thunderstorms**

![https://github.com/uba/tathu](https://raw.githubusercontent.com/uba/tathu/master/docs/sphinx/img/logo-tathu.png)

Primeiro, instalamos o pacote TATHU e as dependências necessárias para a sua execução. 

Mais detalhes do processo de instalação podem ser vistos no notebook: [Instalação do TATHU e suas dependências.](https://github.com/uba/tathu/blob/master/notebooks/tathu-install.ipynb)

In [None]:
!wget https://raw.githubusercontent.com/uba/tathu/master/notebooks/tathu-install.ipynb -O tathu-install.ipynb
%run tathu-install.ipynb

# **Obtenção dos Dados** 

### **Download de Imagens GOES-16**

Utilizando o suporte fornecido pelo TATHU, vamos realizar o download de um conjunto de imagens obtidas pelo satélite GOES-16. Mais especificamente, imagens do dia 26 de Outubro de 2022, canal 13 em 10,35 µm, horas [0-6] UTC, do setor *full-disk*. Essas imagens serão utilizadas para a detecção e rastreio dos objetos de interesse, os **Sistemas Convectivos (SC)**.

In [None]:
from datetime import datetime
from tathu.downloader.goes import AWS
from tathu.progress import TqdmProgress

# Download 26 October 2022, Channel 13, [00, 01, 02, 03, 04, 05, 06] hours UTC
start = end = datetime.strptime('20221026', '%Y%m%d')
hours = ['00', '01', '02', '03', '04', '05', '06']

# From AWS (full-disk)
AWS.download(AWS.buckets['GOES-16'], ['ABI-L2-CMIPF'],
    start, end, hours, ['13'], './goes16-aws',
    progress=TqdmProgress('Download GOES-16 data (AWS)', 'files'))

### Verificando a Lista de Arquivos Obtidos

Os dados foram baixados. Vamos realizar uma busca no sistema de arquivos com o objetivo de definir uma lista de imagens que serão utilizados nos processos de detecção e rastreio. São arquivos do tipo netCDF, que possuem os valores medidos pelo sensor ABI a bordo do satélite GOES-16.



In [None]:
import glob

# List download files
files = sorted(glob.glob("./goes16-aws/noaa-goes16/ABI-L2-CMIPF/2022/*/*/*.nc"))
for f in files:
  print(f)

### **Visualização Full-Disk**

Para exemplificar o tipo de dado que estamos trabalhando, vamos visualizar a imagem do dia 26 de Outubro de 2022, 00:00 UTC. Tratam-se de imagens no infravermelho termal, posicionado em uma região de janela atmosférica, em 10,35 µm. O setor *full-disk* refere-se ao imageamento de um Polo a outro da Terra, dentro dos limites de longitude estabelecidos pela posição do satélite geoestacionário.

In [None]:
import matplotlib.pyplot as plt
from netCDF4 import Dataset

# Visualize first file
path = files[0]

# Open netCDF file and show full-disk data
nc = Dataset(path)
data = nc.variables['CMI'][:]
plt.imshow(data, cmap='Greys', vmin=180.0, vmax=320.0)
plt.colorbar()
nc.close()

### **Remapeamento para Grade Regular**

Para o processo de detecção e rastreio, precisamos remapear o dado  *full-disk* para uma grade regular. Essa operação pode ser realizada a partir do suporte fornecido pelo TATHU. Precisamos fornecer a região geográfica desejada e a resolução espacial que iremos trabalhar (em quilômetros). Aqui, fazemos o remapeamento do dado para a região geográfica que compreende a América do Sul, na resolução de 2 km.

In [None]:
from osgeo import gdal

from tathu.constants import LAT_LONG_WGS84_SOUTH_AMERICA_EXTENT, LAT_LON_WGS84
from tathu.satellite import goes16

# Geographic area of regular grid [llx, lly, urx, ury], where ll=lower-left, ur=upper-right
extent = [-88.02, -46.50, -26.22, 12.54]

 # Grid resolution (kilometers)
resolution = 2.0

print('Remapping')
grid = goes16.sat2grid(path, extent, resolution, LAT_LON_WGS84, 'HDF5', progress=gdal.TermProgress_nocb)

# Visualize regular grid result
from tathu.visualizer import MapView

m = MapView(extent)
m.plotImage(grid, cmap='Greys', vmin=180.0, vmax=320.0)
m.show()


# **Detecção, Caracterização e Rastreio dos Sistemas Convectivos**

### Detecção Utilizando Limiarização

Vamos agora realizar a **detecção** dos SC utilizando um processo de limiarização, implementado na classe `detector.LessThan`.

Definimos alguns parâmetros de configuração, incluindo:

* `threshold` - Valor o máximo de temperatura de brilho (235K);
* `minarea` - Área mínima de detecção (3000km2) para cada SC.

In [None]:
from tathu.tracking.utils import area2degrees

# Threshold value
threshold = 235 # Kelvin
    
# Define minimum area
minarea = 3000 # km^2

# Convert to degrees^2
minarea = area2degrees(minarea)

Realizamos o processo de deteção a partir da classe `detector.LessThan`:

In [None]:
from tathu.tracking import detectors

# Create detector
detector = detectors.LessThan(threshold, minarea)

# Searching for systems
print('Searching for systems...')
systems = detector.detect(grid)
print('# Number of detected systems:', len(systems))

Os limites geográficos de cada SC detectado (em vermelho) podem ser visualizados a partir do seguinte trecho de código:


In [None]:
m = MapView(extent)
m.plotImage(grid, cmap='Greys', vmin=180.0, vmax=320.0)
m.plotSystems(systems, facecolor='none', edgecolor='red', centroids=False)
m.show()

### **Extração de Atributos**

Uma vez definidos os limites geográficos de cada SC, podemos extrair uma série de atributos para cada objeto de interesse. 

Neste caso, pode-se considerar atributos espectrais (medidas de
um sensor em diferentes canais), análises estatísticas (média, variância,
etc) e de forma (tamanho, orientação, retangularidade), entre outros.

Neste exemplo, vamos extrair atributos estatísticos para cada SC, incluindo valor mínimo, média e desvio padrão de temperatura de brilho, além do número de pixels que compõe determinado sistema - `attrs = ['min', 'mean', 'std', 'count']`.

Essa operação é realizada pela classe `descriptors.StatisticalDescriptor`.



In [None]:
# Attributes that will be computed
attrs = ['min', 'mean', 'std', 'count']

# Silence some warnings in order to improve visualization
import warnings
from shapely.errors import ShapelyDeprecationWarning
warnings.filterwarnings('ignore', category=ShapelyDeprecationWarning) 

from tathu.tracking import descriptors

# Create statistical descriptor
descriptor = descriptors.StatisticalDescriptor(rasterOut=True)

# Describe systems (stats)
descriptor.describe(grid, systems)

# Visualize attributes
for s in systems:
  print(s.name, s.attrs)

### **Função para Detecção e Extração de Atributos**

Compreendidos os conceitos de remapeamento, deteção e extração de atributos (i.e. caracterização), vamos agora definir uma função auxiliar em Python para realizar essas operações dado um caminho de arquivo - `path`.

Chamaremos a função de `detect`, definida a seguir. A função retorna ao final uma lista de objetos que representam cada SC.



In [None]:
from tathu.utils import file2timestamp

def detect(path):
  # Extract time from file-name
  timestamp = file2timestamp(path, regex=goes16.DATE_REGEX, format=goes16.DATE_FORMAT).replace(microsecond=0)

  print('Processing', timestamp)

  # Remap data
  grid = goes16.sat2grid(path, extent, resolution, LAT_LON_WGS84, 'HDF5', progress=gdal.TermProgress_nocb)

  # Create detector
  detector = detectors.LessThan(threshold, minarea)

  # Searching for systems
  print('Searching for systems...')
  systems = detector.detect(grid)
  print('# Number of detected systems:', len(systems))

  # Adjust timestamp for each system
  for s in systems:
    s.timestamp = timestamp

  # Create statistical descriptor
  descriptor = descriptors.StatisticalDescriptor(rasterOut=True)

  # Describe systems (stats)
  descriptor.describe(grid, systems)

  # Free resources
  grid = None

  return systems

Agora podemos utilizar essa função de modo prático para cada arquivo de imagem.

Por exemplo, para a primeira imagem da lista temos:

In [None]:
systems = detect(files[0])

## **Rastreio Utilizando Sobreposição de Áreas**

Definida a função `detect` capaz de detectar e extrair os atributos dos SC para cada instante de tempo, vamos agora tratar da **associação** desses elementos no tempo (i.e. **acompanhamento**, **rastreio automático**).

A etapa de rastreio é determinar como os objetos de interesse se comportaram no intervalo de tempo ∆t, decorrido
entre as duas imagens. Nessa etapa, os processos de detecção e caracterização também são utilizados. Em síntese, o acompanhamento deve ser capaz de determinar quais objetos da observação anterior ainda estão presentes no instante t (associação), além de também identificar novos objetos que surgiram.

Como exemplo, o rastreio pode ser realizado a partir da relação topológica entre os SC em conjunto com a análise das áreas de interseção.

![https://tathu.readthedocs.io/en/latest/split.merge.html](https://raw.githubusercontent.com/uba/tathu/master/docs/sphinx/img/system-events.png)

Situações consideradas durante o acompanhamento dos SC a partir do critério de interseção de área mínima: (a) continuidade, (b) split e (c) merge. As linhas tracejadas representam os sistemas no instante t−∆t.

Vamos utilizar o suporte fornecido pelo TATHU para realizar o rastreio considerando imagens de dois instantes de tempo distintos e consecutivos: 00:00 UTC e 00:10 UTC. Vamos utilizar a classe `tracker.OverlapAreaTracker`. Uma sobreposição de pelo menos 10% da área é necessária para associar os SC como sendo o mesmo elemento.



In [None]:
from tathu.tracking import trackers

# Define overlap area criterion
overlapAreaCriterion = 0.1 # 10%

systems_00_00_UTC = detect(files[0]) # previous
systems_00_10_UTC = detect(files[1]) # current

# Create overlap area strategy
strategy = trackers.RelativeOverlapAreaStrategy(overlapAreaCriterion)

#  Let's track!
print('Tracking...')
t = trackers.OverlapAreaTracker(systems_00_00_UTC, strategy=strategy)
t.track(systems_00_10_UTC)
print('done!')

# Let's see the defined relations for each current system 
for system in systems_00_10_UTC:
  print(system.event)


De modo mais geral, podemos realizar o rastreio considerando todo o conjunto de imagens:


In [None]:
from tathu.tracking import trackers

# List that store detected systems
systems = []

# Prepare tracking...
previous = None

# Define overlap area criterion
overlapAreaCriterion = 0.1 # 10%

# Create overlap area strategy
strategy = trackers.RelativeOverlapAreaStrategy(overlapAreaCriterion)

# for each image file
for f in files:
  # Detect current systems
  current = detect(f)

  # Store
  systems.append(current)

  if previous is None:
    previous = current
    continue

  # Let's track!
  print('Tracking...')
  t = trackers.OverlapAreaTracker(previous, strategy=strategy)
  t.track(current)
  print('done!')

  # Prepare next iteration
  previous = current

Aqui, a lista `systems` possui todos os sistemas convectivos rastreados.

In [None]:
print(systems)

# **Serialização dos Resultados**

Neste ponto, uma lista de objetos de interesse (SC) está definida e temos ela somente em memória. Veremos agora como serializar (*i.e.* salvar) esse resultado utilizando diferentes abordagens fornecidas pelo TATHU.

### GeoPandas DataFrame

![https://geopandas.org/en/stable/index.html](https://geopandas.org/en/stable/_static/geopandas_logo_web.svg
)

[GeoPandas](https://geopandas.org/en/stable/index.html) é um projeto de código aberto para facilitar o trabalho com dados geoespaciais em Python.

TATHU fornece suporte para exportar os resultados utilizando os conceitos propostos e implementados no pacote GeoPandas. Para isso, vamos utilizar o módulo específico `tathu.io.dataframe`.


In [None]:
from tathu.io import dataframe

# Convert result to GeoPandas DataFrame
outputter = dataframe.Outputter()

# for each list of systems, output to DataFrame
for item in systems:
  outputter.output(item)

Verificando o `DataFrame`:

In [None]:
outputter.gdf

As colunas são:

- `name`: identificado da família
- `timestamp`: data do sistema
- `event`: classificação do sistema
  - `SPONTANEOUS_GENERATION`: geração espontânea
  - `CONTINUITY`: continuidade
  - `MERGE`: fusão
  - `SPLIT`: separação
- `min`: temperatura de brilho (Tb) mínima do sistema (K)
- `mean`: Tb média do sistema (K)
- `count`: tamanho (em pixels) do sistema
- `std`: desvio-padrão de Tb do sistema
- `relationships`: relação entre famílias quando há fusão/separação
- `geometry`: limites geográficos do sistema

Podemos visualizar os sistemas convectivos utilizando o suporte fornecido pelo `GeoPandas`:

In [None]:
# Show result
outputter.gdf.plot(figsize=(5, 5), alpha=0.5, edgecolor='k')
plt.show()

Também exportar o resultado para um arquivo em disco, no formato [GeoPackage](https://www.geopackage.org/), por exemplo. 

*Nota: Todos os formatos suportados pelo GeoPandas podem ser utilizados. Veja na documentação do método [geopandas.GeoDataFrame.to_file](https://geopandas.org/en/stable/docs/reference/api/geopandas.GeoDataFrame.to_file.html).*

In [None]:
import os
path = '/content'
os.chdir(path)

# Export dataframe to geo-package
outputter.gdf.to_file('systems.gpkg', driver='GPKG', layer='systems')

### SpatiaLite

‎| ‎ 
-------------------|------------------
![https://www.gaia-gis.it/fossil/libspatialite/index](https://www.gaia-gis.it/fossil/libspatialite/logo)      | ![www.sqlite.org](https://www.sqlite.org/images/sqlite370_banner.gif) **negrito**

[SpatiaLite](https://www.gaia-gis.it/fossil/libspatialite/index) é uma biblioteca de código aberta, com o objetivo de estender o **banco de dados** [SQLite](https://www.sqlite.org/index.html) para oferecer **suporte espacial**. Esses bancos de dados com suporte espacial possuem a capacidade de armazenar **atributos tabulares** em conjunto com a **representação espacial** dos objetos, permitindo a construção de diferentes funcionalidades e modos de consulta. A partir do armazenamento dos resultados nesse tipo de estrutura, consegue-se realizar consultas espaço-temporais de modo bastante eficiente.

TATHU oferece suporte para exportarmos os resultados para esse tipo de banco de dados. Para isso, vamos utilizar o módulo específico `tathu.io.spatialite`. O banco de dados será armazenado em um arquivo em disco chamado `systems-db.sqlite`.


In [None]:
from tathu.io import spatialite

# Create database connection
db = spatialite.Outputter('systems-db.sqlite', 'systems', attrs)

# for each list of systems, output to SpatiaLite Database
for item in systems:
  db.output(item)

### PostGIS

![https://postgis.net/](https://postgis.net/logos/postgis-logo.png)

[PostGIS](https://postgis.net/) é uma extensão espacial para banco de dados objeto-relacional [PostgreSQL](https://www.postgresql.org/). A extensão adiciona suporte para objetos geográficos, permitindo que consultas espaciais sejam executadas em SQL.

TATHU oferece suporte para exportarmos os resultados para esse tipo de banco de dados (PostGIS). Para isso, vamos utilizar o módulo específico `tathu.io.pgis`.

***Nota: por estarmos no ambiente Colab, não vamos realizar de fato a materialização dos resultados no PostgreSQL.***

In [None]:
from tathu.io import pgis

# Create database connection
db = pgis.Outputter('localhost', 'tathu_db',
                    'postgres', 'my_secret_password', 
                    'systems', attrs)

# for each list of systems, output to PostGIS Database
for item in systems:
  db.output(item)

# **Leitura e Exploração dos Resultados**

Neste ponto, temos salvos em diferentes formatos os resultados obtidos no rastreio dos sistemas convectivos. Esta seção apresenta exemplos de como podemos ler e explorar os dados utilizando o suporte SQL e as operações espaciais.  

### GeoPackage + GeoPandas

Incialmente, realizamos a leitura do arquivo GeoPackage (.gpkg) criado anteriormente e a visualizamos os dados no formato de tabela.

In [None]:
import pandas as pd
import geopandas as gpd

systems = gpd.read_file('./systems.gpkg')
systems['timestamp'] = [pd.to_datetime(i) for i in systems['timestamp']]
systems

A partir do dataframe `systems`, é possível analisar diversas características das famílias de sistemas convectivos e responder perguntas como:

- Quantas famílias foram identificadas no período?
- Qual é a duração mínima/média/máxima das famílias?
- Qual é a temperatura de brilho mínima mínima/média/máxima das famílias?
- Qual é a área máxima mínima/média/máxima das famílias?
- Quantas famílias se fundiram/se separaram ao longo do ciclo de vida?

#### Quantas famílias foram identificadas no período?

Para saber sobre as famílias, precisamos usar a coluna `name`:

In [None]:
systems['name']

Como uma família pode ter vários passos de tempo, precisamos filtrar os nomes que se repetem com `np.unique()`. Essa função gera uma lista, portanto para saber o tamanho dela basta usar a função `len()`:

In [None]:
import numpy as np
num_fams = len(np.unique(systems['name']))
print('Total de famílias', num_fams)

Lembrando que o número total de objetos individuais detectados pode ser calculado a partir de:

In [None]:
len(systems['name'])

#### Qual é a duração mínima/média/máxima das famílias?

Para saber a duração das famílias, precisamos agrupar em função da família (`name`) e somar as diferenças (`.diff()`) entre tempos (`timestamps`) de cada família.

In [None]:
# Diferenças de tempo por família
systems['diff'] = systems.sort_values(['name','timestamp']).groupby('name')['timestamp'].diff().astype('timedelta64[m]') # em minutos

# Calculando a duração somando as diferenças
dur_fams = systems.groupby('name')["diff"].sum() + 10  # diferença = 0: família durou 10 minutos
dur_fams

A partir da duração, é possível saber a mínima/média/máxima:

In [None]:
print('Duração mínima:', np.min(dur_fams), 'min')
print('Duração média:', np.round(np.mean(dur_fams), 2), 'min')
print('Duração máxima:', np.max(dur_fams), 'min')

Representando a partir de um histograma, temos:

In [None]:
hist = plt.hist(dur_fams, bins=36)  # bins a cada 30 min
plt.title('Duração das famílias')
plt.xlabel('Duração (min)')
plt.ylabel('Frequência')

#### Qual é a temperatura de brilho mínima mínima/média/máxima das famílias?

Uma lógica parecida é aplicada aqui: precisamos agrupar em função da família (`name`) e achar a **menor** temperatura de brilho mínima (`min`) de cada família para então calcular a mínima/média/máxima.

In [None]:
# Tb mínima de cada família
tbmin_fams = systems.groupby('name')['min'].min()

print('Mínima da menor Tb mínima:', np.min(tbmin_fams), 'K')
print('Média da menor Tb mínima:', np.round(np.mean(tbmin_fams), 2), 'K')
print('Máxima da menor Tb mínima:', np.max(tbmin_fams), 'K')

Colocando em um histograma:

In [None]:
hist = plt.hist(tbmin_fams, bins=range(180, 240, 5))
plt.title('Tb mínima das famílias')
plt.xlabel('Temperatura de brilho (K)')
plt.ylabel('Frequência')

#### Quantas famílias se fundiram/se separaram ao longo do ciclo de vida?

Neste caso, precisamos primeiro filtrar os casos (`event`) de fusão (`MERGE`) e separação (`SPLIT`) para então selecionar as famílias correspondentes.

In [None]:
# Proporção de tipos de eventos
systems.groupby('event')['event'].count()

In [None]:
# Selecionando linhas com merge/split
mergesplit_fams = systems.loc[systems['event'].isin(['MERGE', 'SPLIT'])]['name'].reset_index(drop=True)
mergesplit_fams

In [None]:
print('Famílias com fusão/separação:', len(np.unique(mergesplit_fams)))
print('Total de famílias:', num_fams)

### Conectando no SpatiaLite

Agora, vamos realizar a conexão com o banco de dados  `SpatiaLite` gerado anteriormente (`/content/systems-db.sqlite`).

Este banco de dados possui o mesmo conteúdo do arquivo `GeoPackage` gerado pelo `GeoPandas`.

A vantagem é que esse formato de base de dados tem uma linguagem própria ([SQL](https://pt.wikipedia.org/wiki/SQL)) que permite buscas e relações mais eficientes (principalmente em bases muito grandes) do que outras linguagens de programação.

Nota: Não iremos entrar em detalhes sobre SQL nesse notebook, apenas usaremos essa base em alguns módulos de visualização do TATHU.

In [None]:
from tathu.io import spatialite

# Informações sobre a base de dados
dbname = '/content/systems-db.sqlite'
table = 'systems'

# Conectando a base de dados
tathu_db = spatialite.Loader(dbname, table)

Estabelecida a conexão com a base de dados, podemos realizar a leitura dos dados a partir do suporte oferecido pelo TATHU com os métodos da classe `spatialite.Loader`.

Por exemplo, fazemos a leitura do nome das famílias de sistemas:

In [None]:
names = tathu_db.loadNames()
print(names)

#### Seleção por tempo de duração

A partir de outros métodos, podemos selecionar de modo eficiente famílias que tiveram determinado tempo de duração.

Por exemplo, vamos selecionar as que tiveram entre 2 e 3h de duração (*i.e.* não muito curtas nem muito longas) usando a base de dados SQLite, com o método `loadByInterval`:

In [None]:
fams = tathu_db.loadByInterval(2, 3)
for name in fams:
  print('Name:', name)

Conhecido o nome das família, podemos carregar a  história de uma família específica a partir do método `load`. 

Neste exemplo simples, vamos obter as informações da primeira família da lista das que tiveram tempo de duração entre 2-3h. No caso, também estamos interessados em obter os atributos `['min', 'mean', 'std', 'count']`.

In [None]:
fam = tathu_db.load(fams[0], ['min', 'mean', 'std', 'count'])

#### Visualizando espacialmente a evolução de um SC

TATHU fornece suporte para visualização espacial dos sistemas convectivos, a partir do módulo `tathu.visualizer`. Neste caso, vamos visualizar a história do sistema convectivo a partir da classe `visualizer.SystemHistoryView`:

In [None]:
from tathu import visualizer 
view = visualizer.SystemHistoryView(fam)
view.show()

Podemos também visualizar, a partir de uma animação, a evolução da temperatura de brilho mínima e tamanho (em pixels) com a classe `visualizer.AnimationMap()`:

In [None]:
from matplotlib import rc
rc('animation', html='jshtml')

animation = visualizer.AnimationMap(fam, ['min', 'count'])
plt.close()
animation