# CLIMBRA PREC

> Notebook organizado para reprodutibilidade. Edite apenas a célula **CONFIGURAÇÕES**.

In [None]:
from pathlib import Path
import os

# CONFIGURAÇÕES (edite se necessário)
# A pasta raiz do projeto (por padrão, a pasta acima de /notebooks)
ROOT = Path(os.getenv('CLIMBRA_PROJECT_ROOT', Path.cwd().parent)).resolve()
DATA_DIR = ROOT / 'data'
RAW_DIR  = DATA_DIR / '00_raw'
INT_DIR  = DATA_DIR / '01_intermediate'
FINAL_DIR= DATA_DIR / '02_final'
OUT_DIR  = ROOT / 'outputs'
FIG_DIR  = OUT_DIR / 'figures'
TAB_DIR  = OUT_DIR / 'tables'

for d in [RAW_DIR, INT_DIR, FINAL_DIR, FIG_DIR, TAB_DIR]:
    d.mkdir(parents=True, exist_ok=True)


In [None]:
# ------------------------------------------------------------------------------
# Script: Extrair e Recortar Dados Climáticos de Arquivos NetCDF (.nc)
# ------------------------------------------------------------------------------
# Descrição:
# Este script realiza a leitura de arquivos NetCDF contendo dados climáticos
# (por exemplo, precipitação, temperatura, etc.), aplica um recorte espacial 
# com base em um shapefile (ex: bacia hidrográfica) e exporta os dados 
# espacialmente recortados para arquivos CSV individuais.
#
# Etapas:
# 1. Define caminhos de entrada e saída, e variável de interesse (ex: 'pr').
# 2. Garante que o shapefile esteja no mesmo sistema de coordenadas (WGS84).
# 3. Lê cada arquivo NetCDF da pasta e aplica o recorte espacial.
# 4. Converte os dados recortados para DataFrame e remove valores nulos.
# 5. Salva um arquivo CSV por ponto do grid com nome <modelo>_<lat>_<lon>.csv
#
# Requisitos:
# - Pacotes: xarray, rioxarray, geopandas, pandas, tqdm
# - Sistema de coordenadas: EPSG:4326 (WGS84) no shapefile e nos NetCDFs
#
# Autor: Matheus Marinho
# Projeto: Mestrado - Modelagem Hidrológica e Projeções CLIMBra
# Data: Junho/2025
# ------------------------------------------------------------------------------
import xarray as xr
import geopandas as gpd
import rioxarray
import pandas as pd
import os
from tqdm import tqdm

# === CONFIGURAÇÕES ===
pasta_nc = r"D:\SSP5_85\pr"
caminho_saida = r"D:\Intermediario"
shapefile = r"C:\Users\Matheus Marinho\Desktop\IGUAÇU_OTTO\Shp\Buffer.shp"
variavel = "pr"

# === Ler shapefile ===
bacia = gpd.read_file(shapefile)
bacia = bacia.to_crs("EPSG:4326")

# === Lista de arquivos ===
arquivos_nc = [os.path.join(pasta_nc, f) for f in os.listdir(pasta_nc) if f.endswith(".nc")]

# === Processamento ===
for caminho_nc in tqdm(arquivos_nc, desc="Processando arquivos"):

    try:
        nome_modelo = os.path.basename(caminho_nc).replace(".nc", "")
        pasta_modelo = os.path.join(caminho_saida, nome_modelo)
        os.makedirs(pasta_modelo, exist_ok=True)

        ds = xr.open_dataset(caminho_nc)
        dados = ds[variavel]
        dados.rio.set_spatial_dims(x_dim="lon", y_dim="lat", inplace=True)
        dados.rio.write_crs("EPSG:4326", inplace=True)

        dados_recorte = dados.rio.clip(bacia.geometry, bacia.crs, drop=True)

        for lat in dados_recorte.lat.values:
            for lon in dados_recorte.lon.values:
                try:
                    ponto = dados_recorte.sel(lat=lat, lon=lon, method="nearest")
                    df_ponto = ponto.to_dataframe().reset_index().dropna(subset=[variavel])

                    if df_ponto.empty:
                        continue

                    nome_ponto = f"{nome_modelo}_{round(lat, 4)}_{round(lon, 4)}.csv"
                    caminho_csv = os.path.join(pasta_modelo, nome_ponto)
                    df_ponto.to_csv(caminho_csv, index=False)

                except Exception as e:
                    print(f"Erro no ponto lat={lat}, lon={lon}: {e}")

        print(f">>> Finalizado: {nome_modelo}")

    except Exception as e:
        print(f"Erro ao processar {caminho_nc}: {e}")

In [None]:
# ------------------------------------------------------------------------------
# Script: Padronizar Séries Temporais Extraídas de Arquivos NetCDF (.nc)
# ------------------------------------------------------------------------------
# Descrição:
# Este script processa arquivos CSV gerados a partir de extrações de dados 
# climáticos (ex: precipitação, temperatura) contidos em arquivos NetCDF.
# Ele reorganiza os dados no formato padrão: Dia;Mes;Ano;Valor.
#
# Funcionalidades:
# - Detecta automaticamente o separador do CSV.
# - Identifica a coluna de tempo e a coluna da variável (ex: 'pr').
# - Extrai Dia, Mês, Ano da coluna de tempo.
# - Regride 80 anos nos dados (ex: 2015 → 1935).
# - Salva os arquivos formatados em uma nova subpasta chamada "input", 
#   espelhando a estrutura de pastas original.
#
# Requisitos:
# - Pacotes: pandas, pathlib, os
#
# Autor: Matheus Marinho
# Projeto: Mestrado - Modelagem Hidrológica com o MGB e Projeções CLIMBra
# Data: Junho/2025
# ------------------------------------------------------------------------------


import os
import pandas as pd
from pathlib import Path

# === CONFIGURAÇÃO ===
BASE_DIR   = Path(r"D:\CLIMBRA_SSP585\Intermediario")
OUTPUT_DIR = BASE_DIR / "input"

def verificar_csv(path: Path) -> bool:
    if path.stat().st_size == 0:
        print(f"Aviso: {path} está vazio.")
        return False
    return True

def process_csv(path: Path):
    if not verificar_csv(path):
        return

    # Tenta detectar separador automaticamente
    df = None
    for sep in [',',';','\t']:
        try:
            tmp = pd.read_csv(path, sep=sep)
            if tmp.shape[1] >= 2:
                df = tmp
                break
        except Exception:
            continue
    if df is None:
        print(f"Falha ao ler {path} com delimitadores padrão.")
        return

    # Detecta a coluna de tempo e a de valor
    col_time = next((col for col in df.columns if "time" in col.lower()), df.columns[0])
    col_valor = next((col for col in df.columns if col.lower() in ["pr", "valor", "value"]), df.columns[-1])

    # Converter datas
    df[col_time] = pd.to_datetime(df[col_time], errors='coerce')
    df_out = pd.DataFrame({
        'Dia':   df[col_time].dt.day,
        'Mes':   df[col_time].dt.month,
        'Ano':   df[col_time].dt.year,
        'Valor': df[col_valor]
    })

    # Regridar 80 anos
    df_out['Ano'] = df_out['Ano'] - 80

    # Caminho de saída
    rel    = path.relative_to(BASE_DIR)
    target = OUTPUT_DIR / rel
    target.parent.mkdir(parents=True, exist_ok=True)

    # Salvar CSV
    df_out.to_csv(target, sep=';', index=False)
    print(f"✔️ Salvo: {target}")

def processar_todos():
    OUTPUT_DIR.mkdir(exist_ok=True)
    for root, _, files in os.walk(BASE_DIR):
        root_path = Path(root)
        if OUTPUT_DIR == root_path or OUTPUT_DIR in root_path.parents:
            continue
        for fname in files:
            if fname.lower().endswith('.csv'):
                process_csv(root_path / fname)

if __name__ == "__main__":
    processar_todos()


In [None]:
# ------------------------------------------------------------------------------
# Script: Ajustar Datas Incompletas em Séries Temporais (Anos Bissextos + Dia 31)
# ------------------------------------------------------------------------------
# Descrição:
# Este script percorre arquivos CSV contendo séries temporais no formato 
# Dia;Mes;Ano;Valor e insere automaticamente valores faltantes para:
# - 29 de fevereiro em anos bissextos, caso não esteja presente;
# - Dias 31 nos meses que possuem 31 dias, caso ausentes.
#
# A linha inserida recebe o valor 0.0 e a posição correta na sequência temporal.
#
# Funcionalidades:
# - Lê os arquivos CSV a partir de um diretório de entrada (INPUT_DIR).
# - Detecta e preenche datas faltantes com zero.
# - Recria a estrutura de subpastas no diretório de saída (OUTPUT_DIR).
# - Salva os arquivos corrigidos mantendo o nome original.
#
# Requisitos:
# - Python 3.7+
# - Pacotes: pandas, calendar, pathlib
#
# Autor: Matheus Marinho
# Projeto: Mestrado - Modelagem Hidrológica com o MGB e Projeções CLIMBra
# Data: Junho/2025
# ------------------------------------------------------------------------------

import pandas as pd
import calendar
from pathlib import Path

# ——————————————————————————————
# Ajuste estes paths
INPUT_DIR  = Path(r"D:\CLIMBRA_SSP585\Intermediario\input")
OUTPUT_DIR = Path(r"D:\CLIMBRA_SSP585\Intermediario\input_corrigido")
#————————————————————————————————————————

# lista de meses com 31 dias
meses_31 = [1, 3, 5, 7, 8, 10, 12]

# percorre todos os CSVs dentro de INPUT_DIR (incluindo subpastas)
for arquivo in INPUT_DIR.rglob("*.csv"):
    # lê o CSV, pulando o header original
    df = pd.read_csv(
        arquivo,
        sep=';',
        skiprows=1,
        names=['dia','mes','ano','valor'],
        dtype={'dia':int, 'mes':int, 'ano':int, 'valor':float}
    )
    # monta coluna datetime
    df['data'] = pd.to_datetime({
        'year':  df['ano'],
        'month': df['mes'],
        'day':   df['dia']
    })

    insercoes = []
    for ano in sorted(df['ano'].unique()):
        # 29/02 em ano bissexto
        if calendar.isleap(ano) and not ((df['ano']==ano)&(df['mes']==2)&(df['dia']==29)).any():
            insercoes.append({
                'dia': 29, 'mes': 2, 'ano': ano,
                'valor': 0.0,
                'data': pd.Timestamp(year=ano, month=2, day=29)
            })
        # dia 31 nos meses de 31 dias
        for mes in meses_31:
            if not ((df['ano']==ano)&(df['mes']==mes)&(df['dia']==31)).any():
                insercoes.append({
                    'dia': 31, 'mes': mes, 'ano': ano,
                    'valor': 0.0,
                    'data': pd.Timestamp(year=ano, month=mes, day=31)
                })

    # concatena e ordena
    if insercoes:
        df = pd.concat([df, pd.DataFrame(insercoes)], ignore_index=True)
    df = df.sort_values('data').reset_index(drop=True)

    # determina onde salvar, recriando a estrutura de pastas
    rel_path = arquivo.relative_to(INPUT_DIR)            # ex: "ACCESS-…/file.csv"
    out_dir  = OUTPUT_DIR / rel_path.parent              # mantém subpasta
    out_dir.mkdir(parents=True, exist_ok=True)           # cria, se necessário

    # salva apenas as colunas originais
    df[['dia','mes','ano','valor']].to_csv(
        out_dir / arquivo.name,
        sep=';', index=False, float_format="%.1f"
    )

    print(f"Processado: {rel_path} → inseridas {len(insercoes)} linhas")

In [None]:
# ------------------------------------------------------------------------------
# Script: Gerar Arquivos ASCII Formatados para Entrada no Modelo MGB
# ------------------------------------------------------------------------------
# Descrição:
# Este script lê arquivos CSV no formato padronizado Dia;Mes;Ano;Valor, 
# remove o cabeçalho, alinha as colunas em largura fixa (formato ASCII) e 
# exporta arquivos `.txt` compatíveis com o modelo hidrológico MGB.
#
# Funcionalidades:
# - Lê arquivos CSV organizados em subpastas do diretório de entrada.
# - Converte o conteúdo para ASCII com espaçamento fixo por coluna.
# - Substitui valores ausentes (NaN) por -1.
# - Recria a estrutura de subpastas no diretório de saída.
# - Salva arquivos `.txt` prontos para uso no MGB.
#
# Layout final:
# - Colunas: dia (6), mes (5), ano (5), valor (15), todas alinhadas à direita.
#
# Requisitos:
# - Python 3.7+
# - Pacotes: pandas, numpy, pathlib, glob, os
#
# Autor: Matheus Marinho
# Projeto: Mestrado - Modelagem Hidrológica com o MGB e Projeções CLIMBra
# Data: Junho/2025
# ------------------------------------------------------------------------------


import os
import glob
import numpy as np
import pandas as pd
from pathlib import Path

# Diretórios de entrada e saída
INPUT_DIR  = Path(r"D:\CLIMBRA_SSP585\Intermediario\input_corrigido")
OUTPUT_DIR = Path(r"D:\CLIMBRA_SSP585\Intermediario\Output")

# Verifica/cria pasta de saída
OUTPUT_DIR.mkdir(parents=True, exist_ok=True)

# Padrão de nomes e tipos das colunas
_columns_names = ['dia', 'mes', 'ano', 'valor']
_dtype = {
    'dia':   int,
    'mes':   int,
    'ano':   int,
    'valor': float
}
# Espaços para alinhamento ASCII
col_space = [6, 5, 5, 15]

# Encontra todos os .csv sob INPUT_DIR, em qualquer subpasta
for csv_path in INPUT_DIR.rglob("*.csv"):
    # lê pulando o header original "Dia;Mes;Ano;Valor"
    df = (
        pd.read_csv(
            csv_path,
            delimiter=';',
            names=_columns_names,
            dtype=_dtype,
            skiprows=1
        )
        .reset_index(drop=True)
    )

    # formata coluna 'valor' e garante ordem
    df['valor'] = df['valor'].apply('{:,.6f}'.format)
    df = df[_columns_names]

    # determina pasta de saída mantendo a estrutura relativa
    rel = csv_path.relative_to(INPUT_DIR)           # ex: ACCESS-CM2/.../ponto.csv
    target_dir = OUTPUT_DIR / rel.parent           # ex: output/ACCESS-CM2/...
    target_dir.mkdir(parents=True, exist_ok=True)

    # monta nome .txt
    txt_name    = csv_path.with_suffix('.txt').name
    output_path = target_dir / txt_name

    # escreve o ASCII alinhado, sem cabeçalho e sem índice
    with open(output_path, "w") as f:
        f.write(
            df.to_string(
                col_space=col_space,
                justify='right',
                max_colwidth=16,
                index=False,
                header=False
            )
            .replace("NaN", "-1")
        )

    print(f"Convertido: {csv_path} → {output_path}")

In [None]:
# ------------------------------------------------------------------------------
# Script: Renomear Arquivos ASCII do MGB com Códigos de Grade (Grid.csv)
# ------------------------------------------------------------------------------
# Descrição:
# Este script percorre arquivos `.txt` gerados para o modelo MGB, localiza os
# nomes que contêm coordenadas geográficas (lat/lon) e renomeia os arquivos
# com o código correspondente (campo 'Codigo') de 8 dígitos conforme planilha
# de mapeamento fornecida (`Grid.csv`).
#
# Funcionalidades:
# - Lê a tabela de mapeamento com latitudes, longitudes e códigos do grid.
# - Identifica lat/lon no nome dos arquivos via expressão regular.
# - Aplica tolerância para casar coordenadas com diferentes casas decimais.
# - Renomeia cada arquivo para o código numérico correspondente (ex: 00012345.txt).
# - Mantém a estrutura de diretórios e ignora nomes que não seguem o padrão.
#
# Requisitos:
# - Python 3.7+
# - Pacotes: pandas, pathlib, re
#
# Autor: Matheus Marinho
# Projeto: Mestrado - Modelagem Hidrológica com o MGB e Projeções CLIMBra
# Data: Junho/2025
# ------------------------------------------------------------------------------


import re
from pathlib import Path

import pandas as pd

# ——— Ajuste estes caminhos ———
OUTPUT_DIR   = Path(r"D:\CLIMBRA_SSP585\Intermediario\Output")
MAPPING_FILE = Path(r"E:\CLIMBRA\Extract\Grid.csv")
# ——————————————————————————

# 1) Carrega o mapeamento (sep=';' e colunas Lat, Long, Codigo)
df_map = pd.read_csv(MAPPING_FILE, sep=';')
df_map['lat']  = df_map['Lat'].astype(float)
df_map['lon']  = df_map['Long'].astype(float)
df_map['code'] = df_map['Codigo'].astype(str).str.zfill(8)

# 2) Regex para extrair modelo, lat e lon do nome (sem extensão)
pattern = re.compile(r"(?P<model>.+)_(?P<lat>[-\d\.]+)_(?P<lon>[-\d\.]+)$")

# 3) Tolerância para casar truncamentos (2 casas vs 3 casas decimais)
tol = 1e-2

# 4) Percorre todos os .txt em OUTPUT_DIR
for txt_path in OUTPUT_DIR.rglob("*.txt"):
    stem = txt_path.stem
    m = pattern.match(stem)
    if not m:
        print(f"[AVISO] nome fora do padrão, pulando: {txt_path.name}")
        continue

    # 5) Extrai lat/lon do nome
    lat = float(m.group('lat'))
    lon = float(m.group('lon'))

    # 6) Busca o código dentro da tolerância definida
    cond_lat = (df_map['lat'] - lat).abs() < tol
    cond_lon = (df_map['lon'] - lon).abs() < tol
    match    = df_map[cond_lat & cond_lon]
    if match.empty:
        print(f"[ERRO] sem código para lat={lat}, lon={lon} em {txt_path.name}")
        continue
    code = match['code'].iloc[0]

    # 7) Renomeia o arquivo
    new_name = f"{code}.txt"
    new_path = txt_path.with_name(new_name)
    if new_path != txt_path:
        txt_path.rename(new_path)
        print(f"{txt_path.name} → {new_name}")
    else:
        print(f"{txt_path.name} já está com nome correto")