In [160]:
!pip -q install -U scikit-learn pandas numpy openpyxl xarray netCDF4 matplotlib plotly


[notice] A new release of pip is available: 24.2 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [171]:
import numpy as np, pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from calendar import monthrange
import xarray as xr
import pandas as pd
import plotly.express as px
import plotly.io as pio
pio.renderers.default = "notebook_connected"  # ou "vscode", "jupyterlab", etc.

## Extração dos Dados

### Download dos dados a partir do earthdata

Para utilizar devidamente esse script é necessário se cadastrar em https://urs.earthdata.nasa.gov, após isso, crie um .env com suas credenciais para fazer o download desse dataset, ajuste as variáveis iniciais de acordo com o folder desejado e range da data de download. Foi implementado paralelismo para acelerar o processo de download, ajuste conforme necessário.

In [44]:
import os
import sys
import time
import netrc
import pathlib
import platform
from datetime import datetime, timedelta
from urllib.parse import urlparse
from concurrent.futures import ThreadPoolExecutor, as_completed
from typing import Iterable, Tuple, List, Optional

import requests

# -------------------- Configuração rápida (edite aqui) --------------------
START = "2016-01-01"     # YYYY-MM-DD
END   = "2016-12-31"     # YYYY-MM-DD (inclusivo)
OUTDIR = "./dados_gpcp"  # pasta de saída
WORKERS = 4              # paralelismo
SKIP_EXISTING = True     # pular arquivos já existentes

# -------------------- Constantes do produto --------------------
EARTHDATA_HOST = "urs.earthdata.nasa.gov"
PRODUCT_ROOT = "https://data.gesdisc.earthdata.nasa.gov/data/GPCP/GPCPDAY.3.3"
VERSION_TAG = "V3.3"  # versão do produto

# --- Loader .env (zero-deps) ---
def load_dotenv_simple(path: str = ".env") -> None:
    p = pathlib.Path(path)
    if not p.exists():
        print(f"[aviso] .env não encontrado em {p.resolve()}")
        return
    for line in p.read_text(encoding="utf-8").splitlines():
        line = line.strip()
        if not line or line.startswith("#") or "=" not in line:
            continue
        k, v = line.split("=", 1)
        os.environ.setdefault(k.strip(), v.strip().strip('"').strip("'"))

# carregue o .env antes de qualquer uso de credenciais
load_dotenv_simple(".env")

# -------------------- Helpers --------------------
def get_credentials() -> Tuple[Optional[str], Optional[str]]:
    """Tenta obter (user, pwd) de env vars -> NETRC explícito -> _netrc/.netrc."""
    user = os.getenv("EARTHDATA_USERNAME")
    pwd  = os.getenv("EARTHDATA_PASSWORD")
    if user and pwd:
        return user, pwd

    netrc_env = os.getenv("NETRC")
    if netrc_env and pathlib.Path(netrc_env).exists():
        try:
            a = netrc.netrc(netrc_env)
            c = a.authenticators(EARTHDATA_HOST)
            if c and len(c) >= 3:
                return c[0], c[2]
        except Exception:
            pass

    home = pathlib.Path.home()
    candidates = [home / ".netrc"]
    if platform.system().lower().startswith("win"):
        candidates.insert(0, home / "_netrc")

    for p in candidates:
        if p.exists():
            try:
                a = netrc.netrc(str(p))
                c = a.authenticators(EARTHDATA_HOST)
                if c and len(c) >= 3:
                    return c[0], c[2]
            except Exception:
                continue

    return None, None

def human(n: float) -> str:
    for unit in ['','K','M','G','T','P']:
        if abs(n) < 1024.0:
            return f"{n:3.1f}{unit}B"
        n /= 1024.0
    return f"{n:.1f}EB"

def filename_from_url(url: str) -> str:
    return pathlib.Path(urlparse(url).path).name or "download.bin"

def daterange(start: datetime, end: datetime) -> Iterable[datetime]:
    cur = start
    step = timedelta(days=1)
    while cur <= end:
        yield cur
        cur += step

def build_gpcp_url(day: datetime) -> str:
    yyyy = day.strftime("%Y")
    ymd  = day.strftime("%Y%m%d")
    fname = f"GPCPDAY_L3_{ymd}_{VERSION_TAG}.nc4"
    return f"{PRODUCT_ROOT}/{yyyy}/{fname}"

def session_with_auth(user: Optional[str]=None, pwd: Optional[str]=None, token: Optional[str]=None) -> requests.Session:
    """Cria sessão; se houver token, usa Bearer; senão, usa Basic (user,pwd)."""
    s = requests.Session()
    s.headers.update({"User-Agent": "iDEV-downloader/1.3 (Notebook)"})
    if token:
        s.headers["Authorization"] = f"Bearer {token}"
    elif user and pwd:
        s.auth = (user, pwd)
    return s

def earthdata_fetch(session: requests.Session, url: str, auth_pair: Tuple[Optional[str], Optional[str]], token: Optional[str]=None, timeout=60) -> requests.Response:
    """
    Faz GET já com a auth disponível.
    Se 401 apontar para fluxo OAuth do URS, sugere consent/login no navegador.
    """
    user, pwd = auth_pair
    if token:
        r = session.get(url, stream=True, allow_redirects=True, timeout=timeout)
    elif user and pwd:
        r = session.get(url, stream=True, allow_redirects=True, timeout=timeout, auth=(user, pwd))
    else:
        r = session.get(url, stream=True, allow_redirects=True, timeout=timeout)

    if r.status_code == 401 and "urs.earthdata.nasa.gov/oauth/authorize" in r.url:
        raise RuntimeError(
            "HTTP 401 via URS/OAuth. Se estiver usando token, verifique validade/escopo. "
            "Caso seja o primeiro acesso, abra a URL do dataset no navegador, faça login e autorize o domínio "
            "(consent) para sua conta Earthdata. Depois rode novamente."
        )
    return r

def download_one(url: str, outdir: pathlib.Path, skip_existing: bool, retries=3, backoff=2.0) -> pathlib.Path:
    outdir.mkdir(parents=True, exist_ok=True)
    outpath = outdir / filename_from_url(url)

    if skip_existing and outpath.exists() and outpath.stat().st_size > 0:
        print(f"[skip] {outpath.name} ({human(outpath.stat().st_size)})")
        return outpath

    user, pwd = get_credentials()
    token = os.getenv("EARTHDATA_TOKEN")  # ← prioriza Bearer se existir no .env
    s = session_with_auth(user, pwd, token)

    last_err = None
    for attempt in range(1, retries + 1):
        try:
            r = earthdata_fetch(s, url, (user, pwd), token=token)
            if r.status_code == 404:
                raise FileNotFoundError(f"HTTP 404 (não encontrado): {url}")
            if r.status_code != 200:
                raise RuntimeError(f"HTTP {r.status_code} – URL final: {r.url}")

            total = int(r.headers.get("Content-Length", 0))
            downloaded = 0
            start = time.time()

            tmp_path = outpath.with_suffix(outpath.suffix + ".part")
            with open(tmp_path, "wb") as f:
                for chunk_bytes in r.iter_content(chunk_size=1024*1024):
                    if not chunk_bytes:
                        continue
                    f.write(chunk_bytes)
                    downloaded += len(chunk_bytes)
                    if total > 0:
                        pct = 100 * downloaded / total
                        sys.stdout.write(f"\rBaixando {outpath.name}: {human(downloaded)}/{human(total)} ({pct:5.1f}%)")
                    else:
                        sys.stdout.write(f"\rBaixando {outpath.name}: {human(downloaded)}")
                    sys.stdout.flush()

            tmp_path.replace(outpath)
            dur = time.time() - start
            sys.stdout.write(f"\n[ok] {outpath.name} em {dur:.1f}s ({human(downloaded)})\n")
            return outpath

        except Exception as e:
            last_err = e
            if attempt < retries:
                wait = backoff ** (attempt - 1)
                print(f"[tentativa {attempt}/{retries} falhou] {e} → retry em {wait:.1f}s")
                time.sleep(wait)
            else:
                print(f"[erro] {e}")

    raise RuntimeError(f"Falha definitiva ao baixar: {url} → {last_err}")

# -------------------- Execução --------------------
try:
    start_dt = datetime.strptime(START, "%Y-%m-%d")
    end_dt   = datetime.strptime(END,   "%Y-%m-%d")
except ValueError as e:
    raise SystemExit(f"[erro] Datas inválidas: {e}\nUse o formato YYYY-MM-DD.")

if end_dt < start_dt:
    raise SystemExit("[erro] END não pode ser anterior a START.")

urls = [build_gpcp_url(d) for d in daterange(start_dt, end_dt)]
print(f"Total de arquivos a baixar: {len(urls)}")

outdir_path = pathlib.Path(OUTDIR).resolve()
failed: List[str] = []

if WORKERS <= 1:
    for u in urls:
        try:
            download_one(u, outdir_path, skip_existing=SKIP_EXISTING)
        except Exception as e:
            failed.append(f"{u} → {e}")
else:
    with ThreadPoolExecutor(max_workers=WORKERS) as pool:
        futs = {pool.submit(download_one, u, outdir_path, SKIP_EXISTING): u for u in urls}
        for fut in as_completed(futs):
            try:
                fut.result()
            except Exception as e:
                failed.append(f"{futs[fut]} → {e}")

print("\nConcluído.")
if failed:
    print("\nFalhas:")
    for item in failed:
        print(" -", item)


Total de arquivos a baixar: 366
Baixando GPCPDAY_L3_20160104_V3.3.nc4: 1.5MB/1.5MB (100.0%)
[ok] GPCPDAY_L3_20160104_V3.3.nc4 em 0.6s (1.5MB)
Baixando GPCPDAY_L3_20160101_V3.3.nc4: 1.5MB/1.5MB (100.0%)
[ok] GPCPDAY_L3_20160101_V3.3.nc4 em 0.6s (1.5MB)
Baixando GPCPDAY_L3_20160103_V3.3.nc4: 1.5MB/1.5MB (100.0%)
[ok] GPCPDAY_L3_20160103_V3.3.nc4 em 0.8s (1.5MB)
Baixando GPCPDAY_L3_20160102_V3.3.nc4: 1.5MB/1.5MB (100.0%)
[ok] GPCPDAY_L3_20160102_V3.3.nc4 em 0.8s (1.5MB)
Baixando GPCPDAY_L3_20160105_V3.3.nc4: 1.5MB/1.5MB (100.0%)
[ok] GPCPDAY_L3_20160105_V3.3.nc4 em 0.8s (1.5MB)
Baixando GPCPDAY_L3_20160106_V3.3.nc4: 1.5MB/1.5MB (100.0%)
[ok] GPCPDAY_L3_20160106_V3.3.nc4 em 0.6s (1.5MB)
Baixando GPCPDAY_L3_20160107_V3.3.nc4: 1.5MB/1.5MB (100.0%)
[ok] GPCPDAY_L3_20160107_V3.3.nc4 em 0.7s (1.5MB)
Baixando GPCPDAY_L3_20160108_V3.3.nc4: 1.5MB/1.5MB (100.0%)
[ok] GPCPDAY_L3_20160108_V3.3.nc4 em 0.8s (1.5MB)
Baixando GPCPDAY_L3_20160110_V3.3.nc4: 1.5MB/1.5MB (100.0%)
[ok] GPCPDAY_L3_20160110_V3.

### Leitura e concatenação de todos nc4 em um único dataframe

In [196]:
import re
import os
import xarray as xr
from pathlib import Path

# -------------------- Config --------------------
FOLDER = "./dados_gpcp"            # pasta com os .nc4 baixados
VARIABLE = None                    # se souber o nome (ex.: "precip"), coloque aqui; se None, detecta
OUTPUT_CSV = "gpcp_daily_concat.csv"
OUTPUT_PARQUET = "gpcp_daily_concat.parquet"

NORMALIZE_LON = True               # converte lon para [-180, 180]
SORT_OUTPUT = True                 # ordena por (date, lat, lon)

# (Opcional) bounding box do Pará – ative se quiser filtrar já aqui
USE_PA_BBOX = False
PA_BBOX = dict(lon_min=-60.5, lon_max=-46.0, lat_min=-9.8, lat_max=2.5)

# -------------------- Funções utilitárias --------------------
DATE_RE = re.compile(r"(\d{8})")  # captura YYYYMMDD no nome do arquivo

def parse_date_from_name(path: Path) -> np.datetime64:
    m = DATE_RE.search(path.name)
    if not m:
        raise ValueError(f"Não consegui extrair YYYYMMDD do nome: {path.name}")
    ymd = m.group(1)
    return np.datetime64(f"{ymd[:4]}-{ymd[4:6]}-{ymd[6:8]}")

def load_one_dataset(p: Path) -> xr.Dataset:
    ds = xr.open_dataset(p)
    # garante dimensão temporal (muitos diários já têm 'time' com 1 passo)
    if "time" not in ds.coords and "time" not in ds.dims:
        t = parse_date_from_name(p)
        ds = ds.expand_dims(time=[t])
    # assegura que time seja datetime64 ns
    if np.issubdtype(ds["time"].dtype, np.datetime64) is False:
        ds["time"] = xr.decode_cf(ds).get("time", ds["time"])
    return ds

def pick_main_var(ds: xr.Dataset, prefer: str | None = None) -> str:
    if prefer and prefer in ds.data_vars:
        return prefer
    # heurística: a primeira variável não escalar, ignorando flags/máscaras comuns
    ignore = {"mask", "lsmask", "land_sea_mask", "lat_bnds", "lon_bnds"}
    for v in ds.data_vars:
        if v.lower() in ignore:
            continue
        if ds[v].ndim >= 2:
            return v
    # fallback: a primeira variável qualquer
    return list(ds.data_vars)[0]

# -------------------- Coleta e leitura --------------------
files = sorted(Path(FOLDER).glob("*.nc4"))
if not files:
    raise SystemExit(f"Nenhum .nc4 encontrado em {Path(FOLDER).resolve()}")

datasets = []
failed = []
for i, p in enumerate(files, 1):
    try:
        ds = load_one_dataset(p)
        datasets.append(ds)
        print(f"[{i}/{len(files)}] ok → {p.name}")
    except Exception as e:
        failed.append((p.name, str(e)))
        print(f"[{i}/{len(files)}] erro → {p.name}: {e}")

if not datasets:
    raise SystemExit("Nenhum dataset pôde ser aberto.")



[1/366] ok → GPCPDAY_L3_20160101_V3.3.nc4
[2/366] ok → GPCPDAY_L3_20160102_V3.3.nc4
[3/366] ok → GPCPDAY_L3_20160103_V3.3.nc4
[4/366] ok → GPCPDAY_L3_20160104_V3.3.nc4
[5/366] ok → GPCPDAY_L3_20160105_V3.3.nc4
[6/366] ok → GPCPDAY_L3_20160106_V3.3.nc4
[7/366] ok → GPCPDAY_L3_20160107_V3.3.nc4
[8/366] ok → GPCPDAY_L3_20160108_V3.3.nc4
[9/366] ok → GPCPDAY_L3_20160109_V3.3.nc4
[10/366] ok → GPCPDAY_L3_20160110_V3.3.nc4
[11/366] ok → GPCPDAY_L3_20160111_V3.3.nc4
[12/366] ok → GPCPDAY_L3_20160112_V3.3.nc4
[13/366] ok → GPCPDAY_L3_20160113_V3.3.nc4
[14/366] ok → GPCPDAY_L3_20160114_V3.3.nc4
[15/366] ok → GPCPDAY_L3_20160115_V3.3.nc4
[16/366] ok → GPCPDAY_L3_20160116_V3.3.nc4
[17/366] ok → GPCPDAY_L3_20160117_V3.3.nc4
[18/366] ok → GPCPDAY_L3_20160118_V3.3.nc4
[19/366] ok → GPCPDAY_L3_20160119_V3.3.nc4
[20/366] ok → GPCPDAY_L3_20160120_V3.3.nc4
[21/366] ok → GPCPDAY_L3_20160121_V3.3.nc4
[22/366] ok → GPCPDAY_L3_20160122_V3.3.nc4
[23/366] ok → GPCPDAY_L3_20160123_V3.3.nc4
[24/366] ok → GPCPDA

In [197]:
df_test = datasets[0].to_dataframe()
print(df_test)

                                  precip  probability_liquid_phase  time_bnds
time       lat    lon     bnds                                               
2016-01-01  89.75 -179.75 0     1.086710                       0.0 2016-01-01
                          1     1.086710                       0.0 2016-01-02
                  -179.25 0     1.086710                       0.0 2016-01-01
                          1     1.086710                       0.0 2016-01-02
                  -178.75 0     1.092535                       0.0 2016-01-01
...                                  ...                       ...        ...
           -89.75  178.75 1     0.000000                       0.0 2016-01-02
                   179.25 0     0.000000                       0.0 2016-01-01
                          1     0.000000                       0.0 2016-01-02
                   179.75 0     0.000000                       0.0 2016-01-01
                          1     0.000000                       0

In [198]:
# -------------------- Concatenação temporal --------------------
# concatena ao longo de 'time' (cada arquivo diário vira 1 passo temporal)
ds_all = xr.concat(datasets, dim="time", join="outer", combine_attrs="override")

# escolhe a variável principal
var_name = pick_main_var(ds_all, prefer=VARIABLE)
print(f"Variável selecionada: {var_name}")

# renomeia para 'precip' (padrão), mantendo apenas o necessário
ds_main = ds_all[[var_name]].rename({var_name: "precip"})

# --- substitua/adicione isto ---

# 1) ative o recorte e use o bbox do Pará (IBGE, extremos oficiais)
USE_PA_BBOX = True
PA_BBOX = dict(
    lon_min=-58.89833,  # Oeste  (−58°53′54″)
    lon_max=-46.06083,  # Leste  (−46°03′39″)
    lat_min=-9.84111,   # Sul    (−09°50′28″)
    lat_max= 2.59111    # Norte  (+02°35′28″)
)

# 2) normaliza longitude p/ [-180, 180] (mantém seu trecho)
if NORMALIZE_LON and ds_main.coords.get("lon") is not None:
    lon = ds_main["lon"]
    if lon.max() > 180:
        ds_main = ds_main.assign_coords(lon=(((lon + 180) % 360) - 180))

# 3) recorte robusto ao sentido das coordenadas
if USE_PA_BBOX and {"lon", "lat"}.issubset(ds_main.coords):
    # lon pode estar crescente (−180→+180) – normalmente está
    lon_vals = ds_main["lon"].values
    lon_slice = slice(PA_BBOX["lon_min"], PA_BBOX["lon_max"]) \
        if lon_vals[0] < lon_vals[-1] else slice(PA_BBOX["lon_max"], PA_BBOX["lon_min"])

    # lat às vezes vem decrescente (+90→−90); adapte o slice ao sentido
    lat_vals = ds_main["lat"].values
    lat_slice = slice(PA_BBOX["lat_min"], PA_BBOX["lat_max"]) \
        if lat_vals[0] < lat_vals[-1] else slice(PA_BBOX["lat_max"], PA_BBOX["lat_min"])

    ds_main = ds_main.sel(lon=lon_slice, lat=lat_slice)


Variável selecionada: precip


In [199]:

# -------------------- DataFrame final --------------------
# Garante nomes padrão de coord
rename_coords = {}
for cand in ["latitude", "Latitude", "LAT"]:
    if "lat" not in ds_main.coords and cand in ds_main.coords:
        rename_coords[cand] = "lat"
for cand in ["longitude", "Longitude", "LON"]:
    if "lon" not in ds_main.coords and cand in ds_main.coords:
        rename_coords[cand] = "lon"
if rename_coords:
    ds_main = ds_main.rename(rename_coords)

# Para DataFrame "longo": (date, lat, lon, precip)
df = ds_main.to_dataframe().reset_index()

# Renomeia coluna temporal para 'date'
if "time" in df.columns:
    df = df.rename(columns={"time": "date"})

# Colunas em ordem amigável
cols = [c for c in ["date", "lat", "lon", "precip"] if c in df.columns] + \
       [c for c in df.columns if c not in {"date", "lat", "lon", "precip"}]
df_chuva = df[cols]

# Ordena (opcional)
if SORT_OUTPUT:
    sort_cols = [c for c in ["date", "lat", "lon"] if c in df.columns]
    if sort_cols:
        df = df.sort_values(sort_cols).reset_index(drop=True)


# -------------------- Resumo --------------------
print(f"\n✅ DataFrame criado: {df.shape[0]:,} linhas x {df.shape[1]} colunas")
if "date" in df.columns:
    print(f"   período: {pd.to_datetime(df['date']).min().date()} → {pd.to_datetime(df['date']).max().date()}")
if failed:
    print("\n⚠️ Arquivos com erro:")
    for name, err in failed[:10]:
        print(f" - {name}: {err}")
    if len(failed) > 10:
        print(f"... e mais {len(failed)-10} erros.")


✅ DataFrame criado: 237,900 linhas x 4 colunas
   período: 2016-01-01 → 2016-12-31


### KNN para definir mesorregiões paraenses

In [200]:

USE_PA_BBOX = True
PA_BBOX = dict(lon_min=-58.89833, lon_max=-46.06083,  # Oeste/Leste
               lat_min=-9.84111,  lat_max= 2.59111)   # Sul/Norte

if USE_PA_BBOX:
    df_chuva = df_chuva[
        (df_chuva['lon'] >= PA_BBOX['lon_min']) & (df_chuva['lon'] <= PA_BBOX['lon_max']) &
        (df_chuva['lat'] >= PA_BBOX['lat_min']) & (df_chuva['lat'] <= PA_BBOX['lat_max'])
    ].copy()

# ------------- centróides aproximados das mesorregiões (WGS84) -------------

meso_centroids = pd.DataFrame([
    # name                                lat      lon
    ["Baixo Amazonas (PA)",              -2.40,  -56.40],  # região Santarém/Óbidos/Oriximiná
    ["Marajó (PA)",                      -0.90,  -49.50],  # ilha do Marajó (Soure/Salvaterra)
    ["Metropolitana de Belém (PA)",      -1.45,  -48.50],  # Belém/Ananindeua
    ["Nordeste Paraense (PA)",           -1.10,  -47.30],  # Capanema/Bragança/Castanhal eixo
    ["Sudoeste Paraense (PA)",           -6.00,  -55.00],  # Itaituba/Novo Progresso/Altamira S-O
    ["Sudeste Paraense (PA)",            -5.50,  -49.30],  # Marabá/Parauapebas/Redenção
], columns=["mesoregion","lat_c","lon_c"])

# ---------------- FUNÇÕES ----------------
def haversine_np(lat1, lon1, lat2, lon2):
    """
    Distância Haversine vetorizada (km).
    """
    R = 6371.0088  # raio médio da Terra em km
    # converte para radianos
    lat1_rad = np.radians(lat1); lon1_rad = np.radians(lon1)
    lat2_rad = np.radians(lat2); lon2_rad = np.radians(lon2)
    dlat = lat2_rad - lat1_rad
    dlon = lon2_rad - lon1_rad
    a = np.sin(dlat / 2.0) ** 2 + np.cos(lat1_rad) * np.cos(lat2_rad) * np.sin(dlon / 2.0) ** 2
    c = 2 * np.arcsin(np.sqrt(a))
    return R * c

def assign_mesoregion_knn(df_points, centroids):
    """
    df_points: DataFrame com colunas ['lat','lon']
    centroids: DataFrame com ['mesoregion','lat_c','lon_c']
    Retorna Series com rótulo da mesorregião (string) por linha de df_points.
    """
    # matriz distâncias: (n_points, n_centroids)
    dists = haversine_np(
        df_points['lat'].to_numpy()[:, None],
        df_points['lon'].to_numpy()[:, None],
        centroids['lat_c'].to_numpy()[None, :],
        centroids['lon_c'].to_numpy()[None, :]
    )
    idx_min = np.argmin(dists, axis=1)
    return pd.Series(centroids['mesoregion'].to_numpy()[idx_min], index=df_points.index)


### Agrupando mesoregião para agregar média de precipitação

In [201]:
for col in ['mesoregion', 'mesoregion_x', 'mesoregion_y']:
    if col in df_chuva.columns:
        df_chuva = df_chuva.drop(columns=col)

# mapeia (lat, lon) -> mesoregion sem usar merge (evita conflitos)
coord_to_meso = { (r.lat, r.lon): r.mesoregion for r in coords.itertuples(index=False) }
df_chuva['mesoregion'] = list(map(coord_to_meso.get, zip(df_chuva['lat'], df_chuva['lon'])))

# --- agregação diária por mesorregião ---
df_meso_daily = (
    df_chuva
    .dropna(subset=['mesoregion'])
    .groupby(['date', 'mesoregion'], as_index=False)
    .agg(precip_mean=('precip', 'mean'))
)


### Agrupando semanas para agregar média de precipitação

In [227]:
df_meso_daily['date'] = pd.to_datetime(df_meso_daily['date'])

# define semana ISO (início na segunda-feira)
week_start = df_meso_daily['date'] - pd.to_timedelta(df_meso_daily['date'].dt.weekday, unit='D')
df_meso_daily['week_start'] = week_start
df_meso_daily['week_end'] = df_meso_daily['week_start'] + pd.Timedelta(days=6)

# acumulado semanal por mesorregião (mm/semana)
df_meso_weekly = (
    df_meso_daily
    .groupby(['mesoregion', 'week_start', 'week_end'], as_index=False)
    .agg(precip_sum_week_mm=('precip_mean', 'sum'))  # 'precip_mean' está em mm/dia → soma = mm/semana
    .sort_values(['mesoregion', 'week_start'])
    .reset_index(drop=True)
)


In [228]:
print(df_meso_weekly)

                 mesoregion week_start   week_end  precip_sum_week_mm
0       Baixo Amazonas (PA) 2015-12-28 2016-01-03           18.714729
1       Baixo Amazonas (PA) 2016-01-04 2016-01-10           10.979014
2       Baixo Amazonas (PA) 2016-01-11 2016-01-17           29.736334
3       Baixo Amazonas (PA) 2016-01-18 2016-01-24           18.624718
4       Baixo Amazonas (PA) 2016-01-25 2016-01-31           47.250248
..                      ...        ...        ...                 ...
313  Sudoeste Paraense (PA) 2016-11-28 2016-12-04           41.873493
314  Sudoeste Paraense (PA) 2016-12-05 2016-12-11           48.261589
315  Sudoeste Paraense (PA) 2016-12-12 2016-12-18           93.745483
316  Sudoeste Paraense (PA) 2016-12-19 2016-12-25           83.633514
317  Sudoeste Paraense (PA) 2016-12-26 2017-01-01           43.072006

[318 rows x 4 columns]


In [229]:
acai_dataset = pd.read_excel("./Acai_Datasets/Lavoura_Permanente_Acai_Para.xlsx",  sheet_name='Quantidade produzida (Tonela...',header=None)
print(acai_dataset)

                                                   0     1   \
0   Tabela 1613 - Área destinada à colheita, área ...   NaN   
1         Variável - Quantidade produzida (Toneladas)   NaN   
2                                               Nível  Cód.   
3                                                 NaN   NaN   
4                                                 NaN   NaN   
5                                                  UF    11   
6                                                  UF    12   
7                                                  UF    13   
8                                                  UF    14   
9                                                  UF    15   
10                                                 UF    16   
11                                                 UF    17   
12                                                 ME  1501   
13                                                 ME  1502   
14                                                 ME  

## Tratamento dos Dados

 Necessário converter os dados relacionados a açaí para o formato Série Temporal (por semana).

In [230]:
training_data_df = (
    acai_dataset[acai_dataset[0].eq('ME') & acai_dataset[2].notna()][[2, 3]]
      .rename(columns={2: 'mesoregion', 3: 'toneladas'})
)

# normaliza tipos/strings
training_data_df['mesoregion'] = training_data_df['mesoregion'].astype(str).str.strip()
training_data_df['toneladas'] = pd.to_numeric(training_data_df['toneladas'], errors='coerce')

# adiciona ano e reordena
training_data_df.insert(1, 'ano', 2016)
training_data_df = training_data_df[['mesoregion', 'ano', 'toneladas']]

training_data_df

Unnamed: 0,mesoregion,ano,toneladas
12,Baixo Amazonas (PA),2016,9834
13,Marajó (PA),2016,152465
14,Metropolitana de Belém (PA),2016,158930
15,Nordeste Paraense (PA),2016,700842
16,Sudoeste Paraense (PA),2016,3061
17,Sudeste Paraense (PA),2016,55480


Agora os dados serão convertidos para um modelo de semana em semana, utilizando como referência os seguintes valores de distribuição de produção (em toneladas)

- Mensal (BRS Pará, sem irrigação): Jan 15, Fev 10, Mar 3, Abr 2, Mai 0, Jun 0, Jul 0, Ago 3, Set 7, Out 15, Nov 25, Dez 20. (https://www.infoteca.cnptia.embrapa.br/infoteca/bitstream/doc/1101575/1/SistemadeproducaoAcai2018.pdf)
- Semestres (Pará, sem irrigação): S1 (jan–jun) ~20–30% · S2 (jul–dez) ~70–80%.  https://www.alice.cnptia.embrapa.br/bitstream/doc/994953/1/CULTIVO20.pdf

In [231]:
MONTH_WEIGHTS = {1:0.15,2:0.10,3:0.03,4:0.02,5:0.00,6:0.00,7:0.00,8:0.03,9:0.07,10:0.15,11:0.25,12:0.20}

def mondays_in_month(year: int, month: int) -> pd.DatetimeIndex:
    start = pd.Timestamp(year=year, month=month, day=1)
    end = pd.Timestamp(year=year, month=month, day=monthrange(year, month)[1])
    d = pd.date_range(start, end, freq="W-MON")
    if start.weekday() == 0 and (len(d) == 0 or d[0] != start):
        d = d.insert(0, start)
    return d[d.month == month]

def generate_weekly_series_meso(df_meso: pd.DataFrame, seed: int = 42) -> pd.DataFrame:
    """
    df_meso: colunas ['mesoregion','ano','toneladas'] (um total anual por mesorregião)
    retorna: semanal com ['mesoregion','date','year','month','week','toneladas_semana','dist_ano','dist_mes','periodo']
    """
    rng = np.random.default_rng(seed)
    if not np.isclose(sum(MONTH_WEIGHTS[m] for m in range(1,7)), 0.30) or \
       not np.isclose(sum(MONTH_WEIGHTS[m] for m in range(7,13)), 0.70):
        raise ValueError("MONTH_WEIGHTS deve somar 30% (jan-jun) e 70% (jul-dez).")

    rows = []
    for _, r in df_meso.iterrows():
        reg  = str(r['mesoregion'])
        year = int(r['ano'])
        total_year = float(r['toneladas'])

        for m in range(1,13):
            w = MONTH_WEIGHTS[m]
            month_total = total_year * w
            weeks = mondays_in_month(year, m)
            n = len(weeks)
            if n == 0: 
                continue
            alpha = 5.0
            shares = np.zeros(n) if w == 0.0 else rng.dirichlet(np.full(n, alpha))
            tons = month_total * shares
            for d, t in zip(weeks, tons):
                rows.append({
                    'mesoregion': reg,
                    'date': d.normalize(),
                    'year': year,
                    'month': m,
                    'week': int(d.isocalendar().week),
                    'toneladas_semana': float(t),
                    'dist_ano': float(t / total_year if total_year > 0 else 0.0),
                    'dist_mes': float(t / month_total) if month_total > 0 else (0.0 if w == 0 else np.nan),
                    'periodo': 'entressafra' if m <= 6 else 'safra'
                })
    return pd.DataFrame(rows).sort_values(['mesoregion','year','date']).reset_index(drop=True)


df_meso_annual = pd.DataFrame({
     'mesoregion': ['Baixo Amazonas (PA)','Marajó (PA)','Metropolitana de Belém (PA)','Nordeste Paraense (PA)','Sudoeste Paraense (PA)','Sudeste Paraense (PA)'],
     'ano': [2016]*6,
     'toneladas': [9834, 152465, 158930, 700842, 3061, 55480] })
weekly_series_meso = generate_weekly_series_meso(df_meso_annual, seed=123)
weekly_series_meso.head(80)

Unnamed: 0,mesoregion,date,year,month,week,toneladas_semana,dist_ano,dist_mes,periodo
0,Baixo Amazonas (PA),2016-01-04,2016,1,1,197.100086,0.020043,0.133618,entressafra
1,Baixo Amazonas (PA),2016-01-11,2016,1,2,557.988023,0.056741,0.378271,entressafra
2,Baixo Amazonas (PA),2016-01-18,2016,1,3,482.449373,0.049059,0.327062,entressafra
3,Baixo Amazonas (PA),2016-01-25,2016,1,4,237.562519,0.024157,0.161048,entressafra
4,Baixo Amazonas (PA),2016-02-01,2016,2,5,120.990118,0.012303,0.123032,entressafra
...,...,...,...,...,...,...,...,...,...
75,Marajó (PA),2016-06-13,2016,6,24,0.000000,0.000000,0.000000,entressafra
76,Marajó (PA),2016-06-20,2016,6,25,0.000000,0.000000,0.000000,entressafra
77,Marajó (PA),2016-06-27,2016,6,26,0.000000,0.000000,0.000000,entressafra
78,Marajó (PA),2016-07-04,2016,7,27,0.000000,0.000000,0.000000,safra


### Concatenação dos dados de precipitação e dos dados de produção

In [233]:

# 1) chave semanal = segunda-feira (week_start)
df_meso_weekly['week_start'] = pd.to_datetime(df_meso_weekly['week_start'])
df_meso_weekly['week_end']   = pd.to_datetime(df_meso_weekly['week_end'])
df_meso_weekly['mesoregion'] = df_meso_weekly['mesoregion'].astype(str).str.strip()
df_meso_weekly_2016 = df_meso_weekly[df_meso_weekly['week_start'].dt.year == 2016].copy()

weekly_series_meso['date'] = pd.to_datetime(weekly_series_meso['date'])
weekly_series_meso['mesoregion'] = weekly_series_meso['mesoregion'].astype(str).str.strip()
wk_2016 = weekly_series_meso[weekly_series_meso['year'] == 2016].copy()
wk_2016 = wk_2016.rename(columns={'date':'week_start'})

# 2) merge limpo por mesorregião + semana
df_weekly_join = (
    wk_2016.merge(
        df_meso_weekly_2016[['mesoregion','week_start','week_end','precip_mean_week']],
        on=['mesoregion','week_start'],
        how='left',
        validate='one_to_one'
    )
    .sort_values(['mesoregion','week_start'])
    .reset_index(drop=True)
)

# df_weekly_join: colunas de produção semanal + precipitação semanal 2016
# exemplo de seleção final (ajuste como preferir)
cols = ['mesoregion','week_start','week_end','year','month','week',
        'toneladas_semana','dist_ano','dist_mes','periodo','precip_mean_week']
training_data = df_weekly_join[cols]
training_data = training_data.drop(['dist_ano', 'dist_mes'], axis=1)
# opcional: salvar
# df_weekly_final.to_csv("weekly_meso_2016_join.csv", index=False)
# df_weekly_final.to_parquet("weekly_meso_2016_join.parquet", index=False)

#training_data = training_data[training_data['mesoregion'] == 'Nordeste Paraense (PA)']
training_data 

KeyError: "['precip_mean_week'] not in index"

## Análise dos Dados

É possível aferir sobre a precipitação observando a média, máxima e mediana, que existe uma forte assimetria, destacando que algumas semanas são responsáveis por boa parte da precipitação do trimestre.


In [222]:
training_data.describe(include="all")

Unnamed: 0,mesoregion,week_start,week_end,year,month,week,toneladas_semana,periodo,precip_mean_week
count,52,52,52,52.0,52.0,52.0,52.0,52,52.0
unique,1,,,,,,,2,
top,Nordeste Paraense (PA),,,,,,,entressafra,
freq,52,,,,,,,26,
mean,,2016-06-30 12:00:00,2016-07-06 12:00:00,2016.0,6.480769,26.5,13477.730769,,4.291507
min,,2016-01-04 00:00:00,2016-01-10 00:00:00,2016.0,1.0,1.0,0.0,,0.027301
25%,,2016-04-02 06:00:00,2016-04-08 06:00:00,2016.0,3.75,13.75,1089.312145,,0.861289
50%,,2016-06-30 12:00:00,2016-07-06 12:00:00,2016.0,6.5,26.5,6197.561595,,1.986092
75%,,2016-09-27 18:00:00,2016-10-03 18:00:00,2016.0,9.25,39.25,21537.465734,,5.801113
max,,2016-12-26 00:00:00,2017-01-01 00:00:00,2016.0,12.0,52.0,66932.916495,,19.233263


In [223]:
training_data.corr(numeric_only = True)

Unnamed: 0,year,month,week,toneladas_semana,precip_mean_week
year,,,,,
month,,1.0,0.996531,0.404772,-0.541729
week,,0.996531,1.0,0.403629,-0.536154
toneladas_semana,,0.404772,0.403629,1.0,-0.130189
precip_mean_week,,-0.541729,-0.536154,-0.130189,1.0


Maior quantidade de chuvas no começo e final do ano, uma menor quatidade de chuva ao meio do ano, ainda que dificilmente chegue em 0 de fato.

In [224]:
fig = px.scatter_matrix(
    training_data,
    dimensions=['precip_mean_week', 'week'],
    color='mesoregion'
)
fig.update_traces(diagonal_visible=False)
fig.update_layout(height=600, width=800)
fig.show()

Existe uma maior produção de açaí no começo e final do ano. Meio do ano costuma apresentar menos açaí.

In [225]:
fig = px.scatter_matrix(
    training_data,
    dimensions=['toneladas_semana', 'week'],
    color='mesoregion'
)
fig.update_traces(diagonal_visible=False)
fig.update_layout(height=600, width=800)
fig.show()

In [226]:

fig = px.scatter_matrix(
    training_data,
    dimensions=['precip_mean_week', 'toneladas_semana'],
    color='mesoregion'
)
fig.update_traces(diagonal_visible=False)
fig.update_layout(height=600, width=800)
fig.show()