# Extração de Imagens de Cicatrizes de Incêndios

Este notebook implementa o fluxo de **seleção e extração de pares de imagens Sentinel-2 (pré e pós-incêndio)** a partir de focos de queimadas registrados pelo INPE, com foco no Cerrado dos estados do **Maranhão** e **Tocantins**. O resultado final é um arquivo `.csv` com as coordenadas e metadados das cenas que serão usadas nas etapas seguintes do projeto (cálculo de índices espectrais, segmentação fuzzy/quantum etc.).

De forma resumida, o fluxo é:

1. **Carregamento de bibliotecas e conexão ao STAC**
   - Importa bibliotecas de geoprocessamento, análise de dados e imagens (`geopandas`, `pandas`, `numpy`, `matplotlib`, `rasterio`, `shapely`, `folium`, `pystac_client`, entre outras).
   - Define o endpoint do **STAC do BDC/INPE** (`https://data.inpe.br/bdc/stac/v1/`) e abre o catálogo para consulta da coleção Sentinel-2 (`S2_L2A-1`).

2. **Leitura e filtragem dos focos de incêndio**
   - Lê um arquivo `.csv` com os focos de incêndio (BDQueimadas).
   - Aplica filtros para selecionar apenas os focos mais relevantes:
     - Estados: **MARANHÃO / TOCANTINS**;
     - `RiscoFogo` ≥ 0,85;
     - `FRP` ≥ 70.
   - Converte a coluna de data/hora (`DataHora`) para o tipo `datetime`, facilitando operações temporais.

3. **Transformação dos focos em áreas de interesse (AOIs)**
   - Converte o `DataFrame` filtrado em um **GeoDataFrame** (pontos a partir de latitude/longitude).
   - Reprojeta os focos para um sistema métrico (`EPSG:3857`) e **agrupa por dia**.
   - Para cada dia:
     - Cria um **buffer de 5 km** em torno dos focos e dissolve as geometrias para obter áreas contínuas queimadas/potenciais.
     - Converte essas áreas de volta para coordenadas geográficas (`EPSG:4326`).
     - Extrai as **bounding boxes** de cada área e registra, para cada AOI:
       - data,
       - bounding box,
       - número de focos (`n_focos`),
       - mediana do FRP,
       - média do risco de fogo.

4. **Priorização das AOIs mais promissoras**
   - Organiza a lista de AOIs em um `DataFrame` (`bboxes_df`).
   - Garante os tipos numéricos e trata valores ausentes.
   - Calcula um **score de relevância** (com base em FRP, risco e número de focos) e faz um ranking.
   - Para cada dia, seleciona as **AOIs prioritárias** (por exemplo, o **TOP-K** por data), gerando o conjunto `priorizadas`.

5. **Consulta ao STAC para obter cenas pré e pós-incêndio**
   - Para cada AOI priorizada, consulta o catálogo STAC do BDC:
     - Coleção: `S2_L2A-1`;
     - Janela temporal em torno da data do foco (por exemplo, alguns dias **antes** e **depois** do incêndio);
     - Limite máximo de cobertura de nuvens (`cloud_cover`).
   - Identifica, para cada AOI/data, um par de cenas:
     - **Imagem pré-incêndio** (anterior à data do foco);
     - **Imagem pós-incêndio** (posterior à data do foco).
   - Armazena os pares em uma lista `pairs`, incluindo:
     - data do cluster (`cluster_date`),
     - chave/região,
     - bounding box,
     - FRP mediano e risco médio,
     - IDs das cenas pré e pós,
     - datas de aquisição,
     - cobertura de nuvens.

6. **Construção do DataFrame de pares e remoção de duplicatas**
   - Converte `pairs` em um `DataFrame` (`pairs_df`), ordenado por data e região.
   - Remove pares duplicados de (`pre_id`, `post_id`), evitando repetição de cenas em múltiplos alertas muito próximos.

7. **Visualização rápida das cenas selecionadas**
   - Implementa funções auxiliares para:
     - Buscar **quicklooks** ou composições RGB diretamente do STAC;
     - Baixar e exibir as imagens pré e pós-incêndio lado a lado.
   - A função `show_pair(i)` permite inspecionar visualmente o par de imagens correspondente à linha `i` de `pairs_df`, facilitando a escolha manual das melhores cenas.

8. **Seleção final e exportação dos pares escolhidos**
   - Após inspecionar visualmente os pares, o usuário informa uma lista de índices de interesse (por exemplo, `[n_1, n_2, n_3, ...]`).
   - O notebook seleciona essas linhas em `pairs_df`, gera o `DataFrame` **`df_final_images`** e salva:
     - `Imagens_e_indices/coordenadas_e_informacoes_cenas_usadas.csv`
   - Esse arquivo concentra **as coordenadas, datas e metadados dos pares de cenas Sentinel-2 pré/pós-incêndio** que serão usados nas etapas seguintes de análise e segmentação.

---

Em resumo, este notebook faz a ponte entre os **focos de incêndio pontuais** (BDQueimadas) e um **conjunto curado de cenas Sentinel-2 pré/pós-incêndio**, automatizando boa parte da seleção espacial e temporal e deixando apenas a curadoria final (visual) a cargo do usuário.


## Bibliotecas usadas:

In [None]:
import geopandas as gpd
import pandas as pd
import math
import os
import numpy as np
from datetime import timedelta


import matplotlib.pyplot as plt
from IPython.display import Image
from skimage.morphology import (
    binary_closing,
    binary_erosion,
    binary_dilation,
    remove_small_objects,
    remove_small_holes,
    disk
)
from shapely.geometry import box
import folium
import warnings
warnings.filterwarnings("ignore")

import rasterio
from rasterio import Affine
from rasterio.crs import CRS
#import rasterio.transform
from rasterio.windows import from_bounds
from rasterio.warp import Resampling, reproject, transform

import pystac_client
pystac_client.__version__

### Definindo catálogo e API (STAC client e data.inpe)

Para isso utilizaremos o serviço Spatio Temporal Asset Catalog (STAC) por meio de um client na linguagem de programação Python.

O endereço do serviço STAC do BDC é https://data.inpe.br/bdc/stac/v1/. 

In [None]:
servico  = "https://data.inpe.br/bdc/stac/v1/"   
catalogo  = pystac_client.Client.open(servico)

## Extração Pontual de Imagens:

### Importando Arquivo de Focos de Incêndio, aplicando filtros e transformando:

In [None]:
df = pd.read_csv("focos_incêndios_cerrado/focos_qmd_inpe_2024-08-01_2024-10-31_08.347472.csv") # Lendo arquivo que possui dados dos focos de incêndio

# Aplique os filtros
filtro = (
    (df["Estado"].isin(["MARANHÃO","MARANHAO", "TOCANTINS"])) &
    (df["RiscoFogo"] >= 0.85) &
    (df["FRP"] >= 70)
)

# Selecione apenas as linhas que atendem aos filtros
df_filtrado = df[filtro]


In [None]:
# Exibir as primeiras linhas do resultado
df_filtrado.head()

In [None]:
df_filtrado['DataHora'] = pd.to_datetime(df_filtrado['DataHora'], utc=True, errors='coerce') 
# Converte a coluna 'DataHora' para datetime(Mais facil manipular datas e realizar operações)

In [None]:
'''
gpd.GeoDataFrame(...)
Cria um GeoDataFrame (objeto do geopandas) a partir do DataFrame focos_filt.
Diferente de um pandas.DataFrame comum, ele entende geometrias (pontos, polígonos, linhas) e permite fazer operações espaciais (interseção, buffer, dissolver, reprojetar etc.).

geometry=gpd.points_from_xy(...)
Converte as colunas de Longitude e Latitude em uma coluna de geometria do tipo Point. Cada foco de incêndio vira um ponto no espaço.

crs="EPSG:4326"
Define o sistema de referência espacial (CRS) como WGS84 (EPSG:4326), que é latitude/longitude em graus decimais — o padrão usado pelo INPE, STAC, Sentinel, etc.
'''
gdf = gpd.GeoDataFrame(
    df_filtrado,
    geometry=gpd.points_from_xy(df_filtrado['Longitude'], df_filtrado['Latitude']),
    crs="EPSG:4326"
)


### Transformando focos em áreas de interesse (AOIs) para o STAC:

In [None]:
# reprojetar para métrico antes de fazer buffer
focos_m = gdf.to_crs(epsg=3857)  # projeta para Web Mercator (metros)
focos_m['date'] = focos_m['DataHora'].dt.date

bboxes = []
for dt, sub in focos_m.groupby('date'):
    # Buffer de 5 km (5000 m)
    area = sub.buffer(5000).unary_union  # dissolve
    # Converter de volta para lat/long
    area4326 = gpd.GeoSeries([area], crs=3857).to_crs(4326).iloc[0]
    # Gerar bounding boxes (multi‑polígonos separados)
    geoms = list(area4326.geoms) if hasattr(area4326, 'geoms') else [area4326]
    for geom in geoms:
        minx, miny, maxx, maxy = geom.bounds
        bboxes.append({
            'date': pd.to_datetime(dt),
            'bbox': [minx, miny, maxx, maxy],
            'n_focos': len(sub),
            'frp_median': sub['FRP'].median(),
            'risco_mean': sub['RiscoFogo'].mean(),
        })

### Elencando as áreas de interesse mais promissoras:

In [None]:
bboxes_df = pd.DataFrame(bboxes).copy()

In [None]:
bboxes_df.head(5)

In [None]:

#### CÓDIDO DUPLICADO PARA TESTE


# garantir tipos, (tranformando as datas em datetime e os números em float, o que permite operações numéricas e comparações)
bboxes_df["date"] = pd.to_datetime(bboxes_df["date"])
for c in ["frp_median", "risco_mean", "n_focos"]:
    bboxes_df[c] = pd.to_numeric(bboxes_df[c], errors="coerce")
#_____________________________________________________________



# 2) (opcional) tratar NaN (se houver, o que não deve acontecer)
bboxes_df["frp_median"] = bboxes_df["frp_median"].fillna(0)
bboxes_df["risco_mean"] = bboxes_df["risco_mean"].fillna(0)
bboxes_df["n_focos"] = bboxes_df["n_focos"].fillna(0)
#_____________________________________________________________



# 3) (opcional) criar um score combinado para ordenar melhor
# normaliza colunas (min-max por TODO o período; se preferir, normalize por dia)
def minmax(x):
    x = x.astype(float)
    if x.max() == x.min():
        return np.zeros_like(x, dtype=float)
    return (x - x.min()) / (x.max() - x.min())

bboxes_df["frp_n"]   = minmax(bboxes_df["frp_median"])
bboxes_df["risco_n"] = minmax(bboxes_df["risco_mean"])
bboxes_df["nfocos_n"]= minmax(bboxes_df["n_focos"])
#_____________________________________________________________


# peso ajustável; aqui dou mais peso a FRP e n_focos
w_frp, w_risco, w_nfocos = 0.5, 0.2, 0.3
bboxes_df["score"] = (w_frp*bboxes_df["frp_n"] +
                      w_risco*bboxes_df["risco_n"] +
                      w_nfocos*bboxes_df["nfocos_n"])
#_____________________________________________________________



# 4) ordenar global (útil pra inspecionar)
bboxes_df = bboxes_df.sort_values(["date", "score"], ascending=[True, False]).reset_index(drop=True)
#_____________________________________________________________



# 5) RANQUEAR por dia (top-K por data)
TOPK = 1  # ajuste como quiser
topk_por_dia = (
    bboxes_df
    .groupby("date", group_keys=False)
    .apply(lambda df: df.nlargest(TOPK, "score"))
    .reset_index(drop=True)
)
#_____________________________________________________________


priorizadas = topk_por_dia


In [None]:
priorizadas.head(5)

### Consultando o STAC do INPE com as AOIs:

In [None]:

# =========================
# Parâmetros de teste
# =========================
SERVICO_STAC = "https://data.inpe.br/bdc/stac/v1/"
COLECAO = "S2_L2A-1"
cloud_lt = 15                 # mais restrito p/ teste
pre_days = 6
post_days = 6
DATE_WIN = 20           
MAX_CLUSTERS = 100           
MAX_ITEMS_PER_CLUSTER = 100  # limitar nº de itens analisados por cluster

catalogo = pystac_client.Client.open(SERVICO_STAC)
cloud_filter = {"eo:cloud_cover": {"lt": cloud_lt}}

# -------------------------
# Utils para "mesma região"
# -------------------------
def mgrs_or_bbox_key(item):
    """Tenta pegar o tile MGRS do item; se não existir,
    volta uma 'assinatura' via bbox arredondada."""
    props = item.properties or {}

    # chaves possíveis (varia entre catálogos)
    candidates = [
        "s2:tile_id", "s2:mgrs_tile",
        "mgrs:tile", "mgrs:code", "grid:code",
        # combinação UTM/latitude_band/grid_square às vezes aparece
        ("sentinel:utm_zone", "sentinel:latitude_band", "sentinel:grid_square"),
    ]

    for c in candidates:
        if isinstance(c, tuple):
            a, b, d = (props.get(c[0]), props.get(c[1]), props.get(c[2]))
            if a and b and d:
                return f"MGRS:{a}{b}{d}"
        else:
            if props.get(c):
                return f"MGRS:{props[c]}"

    # fallback: chave pelo bbox (arredondado)
    minx, miny, maxx, maxy = item.bbox
    r = lambda v: round(float(v), 4)
    return f"BBOX:{r(minx)},{r(miny)},{r(maxx)},{r(maxy)}"


# ---------- Utils de tempo (padrão: UTC tz-aware) ----------
def to_utc_ts(x):
    """
    Converte qualquer objeto de data (str/datetime/Timestamp) para pandas.Timestamp
    tz-aware em UTC. Retorna None se não der pra converter.
    """
    if x is None:
        return None
    ts = pd.to_datetime(x, utc=True, errors="coerce")
    if ts is None:
        return None
    # se por algum motivo vier sem tz (raro c/ utc=True), localiza em UTC
    if getattr(ts, "tz", None) is None:
        ts = ts.tz_localize("UTC")
    return ts

def item_datetime_utc(item):
    """
    Pega a melhor data/hora de um item STAC e devolve tz-aware em UTC.
    Prioriza 'datetime'; se não houver, tenta 'start_datetime'/'end_datetime'
    e, por último, item.datetime.
    """
    p = getattr(item, "properties", {}) or {}
    if p.get("datetime"):
        return to_utc_ts(p["datetime"])
    # alguns catálogos usam intervalo:
    if p.get("start_datetime"):
        return to_utc_ts(p["start_datetime"])
    if p.get("end_datetime"):
        return to_utc_ts(p["end_datetime"])
    # fallback
    if getattr(item, "datetime", None) is not None:
        return to_utc_ts(item.datetime)
    return None

# substitui a sua antiga `to_date`
def to_date(item):
    return item_datetime_utc(item)

# -------------------------
# Busca + pareamento
# -------------------------
pairs = []  # lista final com pares antes/depois

print(f"Buscando pares p/ até {MAX_CLUSTERS} clusters...")

for _, row in priorizadas.head(MAX_CLUSTERS).iterrows():
    print(f"Cluster {row['date'].date()} (score={row['score']:.3f})...")
    # row["date"] possivelmente vem como date (sem hora/tz). Coloque em UTC:
    foco_date = to_utc_ts(row["date"])              # vira 00:00:00Z daquele dia
    # caso queira centralizar no meio do dia, você pode somar horas:
    # foco_date = foco_date + pd.Timedelta(hours=12)

    # janelinha curta p/ teste (aqui pode ser DATE_WIN tz-naive,
    # pois vamos usar só para compor strings de busca do STAC)
    date_range = f"{(foco_date.tz_convert('UTC') - timedelta(days=DATE_WIN)).date()}/" \
                 f"{(foco_date.tz_convert('UTC') + timedelta(days=DATE_WIN)).date()}"

    search = catalogo.search(
        bbox=row["bbox"],
        collections=[COLECAO],
        query=cloud_filter,
        datetime=date_range
    )
    items = list(search.get_items())
    print(f"  → {len(items)} itens encontrados.")
    if not items:
        print("⚠️ Nenhum item encontrado.")
        continue

    items = items[:MAX_ITEMS_PER_CLUSTER]
    
    ############################################################### Aqui tudo funcionando #######################################################

    # agrupar por região
    region_groups = {}
    for it in items:
        key = mgrs_or_bbox_key(it)
        region_groups.setdefault(key, []).append(it)

    # cortes tz-aware
    pre_cut  = foco_date - timedelta(days=pre_days)
    post_cut = foco_date + timedelta(days=post_days)

    for region_key, its in region_groups.items():
        # ordenar por datetime em UTC
        its_sorted = sorted(its, key=to_date)

        # candidatos pré/pós (tudo tz-aware)
        pre_candidates  = [it for it in its_sorted if to_date(it) is not None and to_date(it) <= pre_cut]
        post_candidates = [it for it in its_sorted if to_date(it) is not None and to_date(it) >= post_cut]

        pre_item  = pre_candidates[-1] if pre_candidates else None
        post_item = post_candidates[0]  if post_candidates else None

        if pre_item and post_item:
            pairs.append({
                    "cluster_date": foco_date.tz_convert("UTC").date(),  # ✅ nome certo e date()
                    "region_key":   region_key,
                    "bbox":         row["bbox"],
                    "frp_median":   row.get("frp_median"),
                    "risco_mean":   row.get("risco_mean"),
                    "pre_id":       pre_item.id,
                    "pre_datetime": to_date(pre_item),   # tz-aware
                    "pre_cloud":    pre_item.properties.get("eo:cloud_cover"),
                    "post_id":      post_item.id,
                    "post_datetime":to_date(post_item),  # tz-aware
                    "post_cloud":   post_item.properties.get("eo:cloud_cover"),
                })

In [None]:
pairs_df = pd.DataFrame(pairs)
pairs_df = pairs_df.sort_values(["cluster_date","region_key"])


#### Pegando imagens não repetidas:

In [None]:
pairs_df = pairs_df.drop_duplicates(subset=["pre_id", "post_id"]) # remover duplicatas exatas de imagens(as vezes existem multiplos alertas de incêndio para o mesmo foco)


#### Tentando vizualizar pares de imagens encontrados:

In [None]:
import io, requests
from PIL import Image
import matplotlib.pyplot as plt
import pystac_client
import pandas as pd

SERVICO_STAC = "https://data.inpe.br/bdc/stac/v1/"
COLECAO = "S2_L2A-1"

catalogo = pystac_client.Client.open(SERVICO_STAC)

def pick_quicklook_url(item):
    # tenta encontrar uma pré-visualização pronta
    for key in ["thumbnail","visual","overview","quicklook"]:
        if key in item.assets:
            return item.assets[key].href
    return None  # sem quicklook disponível

def fetch_image(url):
    r = requests.get(url, timeout=60)
    r.raise_for_status()
    return Image.open(io.BytesIO(r.content))

def show_pair(idx):
    row = pairs_df.iloc[idx]

    def fetch_item(item_id):
        search = catalogo.search(
            collections=[COLECAO],
            ids=[item_id]
        )
        itens = list(search.get_items())
        return itens[0] if itens else None

    pre_item  = fetch_item(row["pre_id"])
    post_item = fetch_item(row["post_id"])

    pre_url  = pick_quicklook_url(pre_item)
    post_url = pick_quicklook_url(post_item)

    # mostra o índice real do DataFrame junto do índice passado
    print(f"[{idx}] (pairs_df index={row.name}) cluster_date={row['cluster_date']}, region={row['region_key']}")
    print("pre:", row["pre_id"], row["pre_datetime"], "cloud:", row["pre_cloud"], "→", pre_url)
    print("post:", row["post_id"], row["post_datetime"], "cloud:", row["post_cloud"], "→", post_url)

    if pre_url and post_url:
        im_pre  = fetch_image(pre_url)
        im_post = fetch_image(post_url)

        plt.figure(figsize=(10,5))
        plt.subplot(1,2,1); plt.title(f"PRE (row {row.name})");  plt.axis("off"); plt.imshow(im_pre)
        plt.subplot(1,2,2); plt.title(f"POST (row {row.name})"); plt.axis("off"); plt.imshow(im_post)
        plt.tight_layout()
        plt.show()
    else:
        print("Quicklook não disponível para algum dos itens; tente o fluxo RGB (B04,B03,B02).")




In [None]:
for i in range(0, 3):
    show_pair(i)

## Gerando Df_final com relações das imagens usadas

In [None]:


# exemplo:
lista1 = [n_1,n_2,n_3]  # substitua n_1, n_2, n_3 pelos índices desejados com nas imagens de interesse acima (Esses itens correpondem aos itens visualizados com show_pair)

# seleciona as linhas desejadas de cada dataset
subset1 = pairs_df.iloc[lista1]

# concatena preservando as colunas
df_final_images = pd.concat([subset1], ignore_index=True)

import os
if not os.path.exists("Imagens_e_indices"):
    os.makedirs("Imagens_e_indices")

df_final_images.to_csv("Imagens_e_indices/coordenadas_e_informacoes_cenas_usadas.csv", index=False)
