# An√°lise de Imagens Sentinel para o Prot√≥tipo NAI√Å

Este notebook analisa as imagens Sentinel-1 (VV/VH) e Sentinel-2 (RGB+NIR) recortadas por setores censit√°rios urbanos de Bar√£o Geraldo, Campinas (SP), no contexto do Hackathon CopernicusLAC Panam√° 2025 (Dia 1, 21:09, 29/07/2025, -03). O objetivo √©:
1. Calcular m√©tricas por setor censit√°rio:
   - **Sentinel-1**: Backscatter m√©dio (VV e VH) em dB.
   - **Sentinel-2**: NDVI m√©dio (usando bandas NIR e Red).
2. Salvar resultados em `data/processed/metrics.csv`.
3. Gerar gr√°ficos de valida√ß√£o (histogramas de NDVI e backscatter).

## Configura√ß√£o
- **Ambiente**: `naia-env` (Python 3.12.7).
- **Reposit√≥rio**: `/home/lorhan/git/CorpenicusHackthon/`.
- **Entradas**:
  - `data/processed/s1_setor_<CD_SETOR>.tiff` (Sentinel-1, VV/VH, 2 bandas).
  - `data/processed/s2_setor_<CD_SETOR>.tiff` (Sentinel-2, RGB+NIR, 4 bandas).
  - `data/area_prova_barao.geojson` (setores censit√°rios).
- **Sa√≠das**:
  - `data/processed/metrics.csv`: Tabela com `CD_SETOR`, `VV_mean_dB`, `VH_mean_dB`, `NDVI_mean`.
  - `data/processed/ndvi_histogram.png`: Histograma de NDVI m√©dio.
  - `data/processed/vv_histogram.png`: Histograma de backscatter VV m√©dio.
  - `data/processed/vh_histogram.png`: Histograma de backscatter VH m√©dio.

## Pr√©-requisitos
1. Ative o ambiente: `source naia-env/bin/activate`.
2. Instale depend√™ncias:
   ```bash
   pip install geopandas rasterio matplotlib pandas numpy
   pip freeze > requirements.txt
   ```
3. Execute `preprocess.ipynb` para gerar os TIFFs recortados.
4. Verifique a exist√™ncia de `data/area_prova_barao.geojson`.
5. Execute as c√©lulas sequencialmente.

In [None]:
# Importa√ß√µes
import os
import geopandas as gpd
import rasterio
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import glob

# Configurar diret√≥rios
os.makedirs('data/processed', exist_ok=True)
print('‚úì Diret√≥rio data/processed/ criado ou j√° existente')

# Definir caminhos
sectors_path = 'data/area_prova_barao.geojson'
s1_pattern = 'data/processed/s1_setor_*.tiff'
s2_pattern = 'data/processed/s2_setor_*.tiff'

# Verificar arquivos de entrada
print('\n--- Verificando arquivos de entrada ---')
s1_files = glob.glob(s1_pattern)
s2_files = glob.glob(s2_pattern)
print(f'‚úì Encontrados {len(s1_files)} arquivos Sentinel-1 recortados')
print(f'‚úì Encontrados {len(s2_files)} arquivos Sentinel-2 recortados')
if os.path.exists(sectors_path):
    size_mb = os.path.getsize(sectors_path) / (1024 * 1024)
    print(f'‚úì {sectors_path} ({size_mb:.1f} MB)')
else:
    print(f'‚ùå {sectors_path} n√£o encontrado')

## 1. Carregamento dos Setores Censit√°rios

Carregamos `data/area_prova_barao.geojson` e filtramos setores com TIFFs dispon√≠veis.

In [None]:
try:
    sectors_gdf = gpd.read_file(sectors_path)
    print(f'‚úì GeoJSON de setores carregado: {len(sectors_gdf)} setores censit√°rios')
    print(f'  Colunas dispon√≠veis: {list(sectors_gdf.columns)}')
    if 'CD_SETOR' not in sectors_gdf.columns:
        raise ValueError('Coluna CD_SETOR n√£o encontrada no GeoJSON')
    # Filtrar setores urbanos com √°rea <= 1.0 km¬≤
    sectors_gdf_urban = sectors_gdf[(sectors_gdf['SITUACAO'] == 'Urbana') & (sectors_gdf['AREA_KM2'] <= 1.0)]
    print(f'‚úì Setores filtrados: {len(sectors_gdf_urban)} setores urbanos com √°rea ‚â§ 1.0 km¬≤')
    if len(sectors_gdf_urban) == 0:
        raise ValueError('Nenhum setor urbano encontrado ap√≥s filtro')
    # Extrair IDs de setores com TIFFs dispon√≠veis
    s1_ids = {os.path.basename(f).replace('s1_setor_', '').replace('.tiff', '') for f in s1_files}
    s2_ids = {os.path.basename(f).replace('s2_setor_', '').replace('.tiff', '') for f in s2_files}
    sector_ids = s1_ids.intersection(s2_ids)  # Setores com ambos S1 e S2
    print(f'‚úì IDs de setores com TIFFs dispon√≠veis: {len(sector_ids)}')
    # Filtrar GeoDataFrame para setores com TIFFs
    sectors_gdf_urban = sectors_gdf_urban[sectors_gdf_urban['CD_SETOR'].astype(str).isin(sector_ids)]
    print(f'‚úì Setores filtrados com TIFFs: {len(sectors_gdf_urban)}')
except Exception as e:
    print(f'‚ùå Erro ao carregar {sectors_path}: {e}')
    sectors_gdf_urban = None

## 2. C√°lculo das M√©tricas por Setor

Calculamos o backscatter m√©dio (VV e VH) para Sentinel-1 e o NDVI m√©dio para Sentinel-2.

In [None]:
def calculate_metrics(s1_files, s2_files, sector_ids):
    """Calcula m√©tricas por setor censit√°rio."""
    metrics = []
    s1_files_set = set(s1_files)
    s2_files_set = set(s2_files)
    for cd_setor in sector_ids:
        s1_file = f'data/processed/s1_setor_{cd_setor}.tiff'
        s2_file = f'data/processed/s2_setor_{cd_setor}.tiff'
        metric = {'CD_SETOR': cd_setor}

        # Processar Sentinel-1 (VV/VH)
        if s1_file in s1_files_set:
            try:
                with rasterio.open(s1_file) as src:
                    data = src.read()
                    if data.shape[0] >= 2:  # VV e VH
                        vv = data[0]
                        vh = data[1]
                        # Converter para dB (log10)
                        vv_db = 10 * np.log10(vv + 1e-10)
                        vh_db = 10 * np.log10(vh + 1e-10)
                        # M√©dias, ignorando zeros
                        vv_mean = np.nanmean(vv_db[vv_db > -100]) if np.any(vv_db > -100) else np.nan
                        vh_mean = np.nanmean(vh_db[vh_db > -100]) if np.any(vh_db > -100) else np.nan
                        metric['VV_mean_dB'] = vv_mean
                        metric['VH_mean_dB'] = vh_mean
                        print(f'‚úì Processado S1: {cd_setor} (VV={vv_mean:.2f} dB, VH={vh_mean:.2f} dB)')
                    else:
                        print(f'‚ö†Ô∏è {s1_file} tem menos de 2 bandas')
                        metric['VV_mean_dB'] = np.nan
                        metric['VH_mean_dB'] = np.nan
            except Exception as e:
                print(f'‚ùå Erro ao processar {s1_file}: {e}')
                metric['VV_mean_dB'] = np.nan
                metric['VH_mean_dB'] = np.nan
        else:
            metric['VV_mean_dB'] = np.nan
            metric['VH_mean_dB'] = np.nan

        # Processar Sentinel-2 (NDVI)
        if s2_file in s2_files_set:
            try:
                with rasterio.open(s2_file) as src:
                    data = src.read()
                    if data.shape[0] >= 4:  # R, G, B, NIR
                        red = data[0].astype(float)
                        nir = data[3].astype(float)
                        # Calcular NDVI: (NIR - Red) / (NIR + Red)
                        ndvi = (nir - red) / (nir + red + 1e-10)
                        # M√©dia, ignorando valores inv√°lidos
                        ndvi_mean = np.nanmean(ndvi[(ndvi >= -1) & (ndvi <= 1)]) if np.any((ndvi >= -1) & (ndvi <= 1)) else np.nan
                        metric['NDVI_mean'] = ndvi_mean
                        print(f'‚úì Processado S2: {cd_setor} (NDVI={ndvi_mean:.3f})')
                    else:
                        print(f'‚ö†Ô∏è {s2_file} tem menos de 4 bandas')
                        metric['NDVI_mean'] = np.nan
            except Exception as e:
                print(f'‚ùå Erro ao processar {s2_file}: {e}')
                metric['NDVI_mean'] = np.nan
        else:
            metric['NDVI_mean'] = np.nan

        metrics.append(metric)
    return pd.DataFrame(metrics)

if sectors_gdf_urban is not None:
    print('\n--- Calculando m√©tricas por setor ---')
    metrics_df = calculate_metrics(s1_files, s2_files, sector_ids)
    output_csv = 'data/processed/metrics.csv'
    metrics_df.to_csv(output_csv, index=False)
    print(f'‚úì M√©tricas salvas em {output_csv}')
else:
    print('‚ùå Pulando c√°lculo de m√©tricas devido a falha no carregamento dos setores')

## 3. Valida√ß√£o com Gr√°ficos

Geramos histogramas para visualizar a distribui√ß√£o de NDVI e backscatter.

In [None]:
if 'metrics_df' in locals() and not metrics_df.empty:
    # Histograma de NDVI
    plt.figure(figsize=(10, 6))
    plt.hist(metrics_df['NDVI_mean'].dropna(), bins=20, color='green', alpha=0.7)
    plt.title('Distribui√ß√£o de NDVI M√©dio por Setor Censit√°rio', fontsize=14)
    plt.xlabel('NDVI M√©dio')
    plt.ylabel('Frequ√™ncia')
    plt.grid(True, alpha=0.3)
    plt.tight_layout()
    plt.savefig('data/processed/ndvi_histogram.png', dpi=300, bbox_inches='tight')
    plt.show()
    print('‚úì Histograma de NDVI salvo em data/processed/ndvi_histogram.png')

    # Histograma de VV (Sentinel-1)
    plt.figure(figsize=(10, 6))
    plt.hist(metrics_df['VV_mean_dB'].dropna(), bins=20, color='blue', alpha=0.7)
    plt.title('Distribui√ß√£o de Backscatter VV M√©dio (dB) por Setor Censit√°rio', fontsize=14)
    plt.xlabel('Backscatter VV M√©dio (dB)')
    plt.ylabel('Frequ√™ncia')
    plt.grid(True, alpha=0.3)
    plt.tight_layout()
    plt.savefig('data/processed/vv_histogram.png', dpi=300, bbox_inches='tight')
    plt.show()
    print('‚úì Histograma de VV salvo em data/processed/vv_histogram.png')

    # Histograma de VH (Sentinel-1)
    plt.figure(figsize=(10, 6))
    plt.hist(metrics_df['VH_mean_dB'].dropna(), bins=20, color='purple', alpha=0.7)
    plt.title('Distribui√ß√£o de Backscatter VH M√©dio (dB) por Setor Censit√°rio', fontsize=14)
    plt.xlabel('Backscatter VH M√©dio (dB)')
    plt.ylabel('Frequ√™ncia')
    plt.grid(True, alpha=0.3)
    plt.tight_layout()
    plt.savefig('data/processed/vh_histogram.png', dpi=300, bbox_inches='tight')
    plt.show()
    print('‚úì Histograma de VH salvo em data/processed/vh_histogram.png')
else:
    print('‚ùå Pulando gr√°ficos devido a falha no c√°lculo de m√©tricas')

## 4. Resumo da Execu√ß√£o

Resumimos o status da an√°lise.

In [None]:
print('\n' + '='*50)
print('üìã RESUMO DA EXECU√á√ÉO')
print('='*50)
print(f'‚úì Setores urbanos processados: {len(sectors_gdf_urban) if sectors_gdf_urban is not None else 0}')
print(f'‚úì Arquivos Sentinel-1 processados: {len(s1_files)}')
print(f'‚úì Arquivos Sentinel-2 processados: {len(s2_files)}')
if 'metrics_df' in locals():
    print(f'‚úì Setores com m√©tricas calculadas: {len(metrics_df)}')
    print(f'‚úì Setores com TIFFs ausentes: {len(sector_ids) - len(metrics_df[metrics_df[["VV_mean_dB", "VH_mean_dB", "NDVI_mean"]].notna().all(axis=1)])}')
    print(f'‚úì M√©dia NDVI: {metrics_df["NDVI_mean"].mean():.3f}')
    print(f'‚úì M√©dia VV (dB): {metrics_df["VV_mean_dB"].mean():.2f}')
    print(f'‚úì M√©dia VH (dB): {metrics_df["VH_mean_dB"].mean():.2f}')

print('\nüóÇÔ∏è ARQUIVOS GERADOS:')
for file in glob.glob('data/processed/*.csv') + glob.glob('data/processed/*_histogram.png'):
    if os.path.exists(file):
        print(f'  ‚úì {file} (Tamanho: {os.path.getsize(file) / 1024 / 1024:.2f} MB)')

## 5. Pr√≥ximos Passos

- **Valida√ß√£o**: Abra `data/processed/metrics.csv` para verificar as m√©tricas. Inspecione `data/processed/ndvi_histogram.png`, `data/processed/vv_histogram.png`, e `data/processed/vh_histogram.png` para validar as distribui√ß√µes.
- **Solu√ß√£o de Problemas**:
  - Se setores ausentes forem cr√≠ticos, verifique os limites das imagens:
    ```python
    import rasterio
    for path in ['data/sentinel1_unicamp.tiff', 'data/sentinel2_unicamp.tiff']:
        with rasterio.open(path) as src:
            print(f'{path}: Bounds={src.bounds}, CRS={src.crs}')
    ```
    Reexecute `ingest_sentinel.ipynb` com uma bounding box maior, se necess√°rio.
  - Para validar um TIFF:
    ```python
    with rasterio.open('data/processed/s1_setor_350950210000110.tiff') as src:
        print(f'Dimens√µes: {src.width}x{src.height}, Bandas: {src.count}')
    ```
- **Commit**:
   ```bash
   git add analyze.ipynb data/processed/metrics.csv data/processed/*_histogram.png
   git commit -m "An√°lise: corrigido para processar apenas setores com TIFFs dispon√≠veis"
   git push origin main
   ```
- **Cronograma**: Conclua at√© 23:59 (29/07/2025). Solicite o pr√≥ximo notebook (ex.: integra√ß√£o com dados clim√°ticos) se desejar avan√ßar.
- **Dicas**:
  - Para dados clim√°ticos, instale:
    ```bash
    pip install xarray netCDF4 cdsapi
    ```
  - Exemplo de mapa de NDVI:
    ```python
    with rasterio.open('data/processed/s2_setor_350950210000110.tiff') as src:
        red, nir = src.read(1), src.read(4)
        ndvi = (nir - red) / (nir + red + 1e-10)
        plt.imshow(ndvi, cmap='RdYlGn', vmin=-1, vmax=1)
        plt.colorbar(label='NDVI')
        plt.show()
    ```