<a href="https://colab.research.google.com/github/Araujopri/bot_ipca/blob/main/Notebook_Bot_IPCA_Organizado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Bot IPCA (SIDRA/IBGE) → Parquet — Notebook organizado

Este notebook consolida os passos em ordem:
1) Setup de pastas (opcionalmente usando Google Drive)  
2) Instalação de dependências  
3) Criação do projeto (`/content/ipca_bot`) e do script `bot_ipca.py` (com **retry/backoff** e **API v2**)  
4) Execução **ao vivo** com fallback para **fixture**  
5) Leitura do Parquet, limpeza e recorte (últimos 24 meses)  
6) Geração de CSV/Parquet finais + README e TXT da Parte 2  


## 1) Setup (pasta de trabalho; monte o Drive se quiser persistir)

In [13]:
# from google.colab import drive
# drive.mount('/content/drive')

BASE_DIR = '/content/ipca_bot'
import os
os.makedirs(f"{BASE_DIR}/data", exist_ok=True)
os.makedirs(f"{BASE_DIR}/output", exist_ok=True)
print('BASE_DIR:', BASE_DIR)

BASE_DIR: /content/ipca_bot


## 2) Dependências

In [14]:
!pip -q install pandas pyarrow requests

## 3) Criar projeto e o `bot_ipca.py` (API v2 + retry/backoff + fixture)

In [15]:
from pathlib import Path
import json

BASE_DIR = '/content/ipca_bot'

CODE = r'''#!/usr/bin/env python3
"""
Bot de captura do IPCA (SIDRA/IBGE) e gravação em Parquet.
"""
import argparse, json, logging
from pathlib import Path
from typing import List, Dict
import pandas as pd, requests

SIDRA_URLS = [
    "https://apisidra.ibge.gov.br/values/t/1737/n1/all/p/last%20120?formato=json",
    "https://apisidra.ibge.gov.br/values/t/1737/n1/all/p/all?formato=json",
    "https://sidra.ibge.gov.br/Ajax/JSon/Tabela/1/1737?versao=-1",
]

BASE_DIR = Path(__file__).resolve().parent
DATA_DIR = BASE_DIR / "data"
OUT_DIR  = BASE_DIR / "output"
FIXTURE_FILE = DATA_DIR / "sample_ipca.json"

def setup_logging(): logging.basicConfig(level=logging.INFO, format="%(asctime)s | %(levelname)s | %(message)s")

def _make_session():
    from requests.adapters import HTTPAdapter
    from urllib3.util.retry import Retry
    retry = Retry(total=5, backoff_factor=1.5, status_forcelist=[429,500,502,503,504], allowed_methods=["GET"], raise_on_status=False)
    s = requests.Session()
    s.headers.update({"User-Agent": "ipca-bot/1.0 (+colab)"})
    s.mount("https://", HTTPAdapter(max_retries=retry))
    s.mount("http://",  HTTPAdapter(max_retries=retry))
    return s

def fetch_json(url: str):
    s = _make_session()
    logging.info("Baixando dados: %s", url)
    r = s.get(url, timeout=30); r.raise_for_status()
    try: return r.json()
    except Exception:
        import json as _j; return _j.loads(r.text)

def fetch_json_with_fallback():
    last_err=None
    for u in SIDRA_URLS:
        try: return fetch_json(u)
        except Exception as e:
            last_err=e; logging.warning("Falha em %s: %s", u, e)
    raise last_err

def load_fixture(path: Path) -> List[Dict]:
    logging.info("Carregando fixture local: %s", path)
    with open(path,"r",encoding="utf-8") as f: return json.load(f)

def normalize_ipca(payload) -> pd.DataFrame:
    if isinstance(payload, list) and len(payload)>1 and isinstance(payload[1], dict):
        regs=[]
        for item in payload[1:]:
            period=str(item.get("D3C") or "")
            ano=int(period[:4]) if period[:4].isdigit() else None
            mes=int(period[4:6]) if len(period)>=6 and period[4:6].isdigit() else None
            v=item.get("V")
            if isinstance(v,str): v=v.replace(",", ".")
            try: valor=float(v)
            except: valor=None
            regs.append({"ano":ano,"mes":mes,"localidade_codigo":item.get("D1C") or "1",
                         "localidade":item.get("D1N") or "Brasil","indice":"IPCA","unidade":"%","valor":valor})
        import pandas as pd
        df=pd.DataFrame(regs).sort_values(["ano","mes"]).reset_index(drop=True)
        return df[["ano","mes","localidade_codigo","localidade","indice","unidade","valor"]]
    import pandas as pd
    try: return pd.json_normalize(payload)
    except Exception: return pd.DataFrame()

def save_parquet(df, path: Path):
    path.parent.mkdir(parents=True, exist_ok=True)
    df.to_parquet(path, engine="pyarrow", index=False)
    logging.info("Arquivo salvo: %s (linhas=%d, colunas=%d)", path, len(df), df.shape[1])

def main():
    setup_logging()
    import argparse
    p=argparse.ArgumentParser();
    p.add_argument("--live", action="store_true");
    p.add_argument("--out", type=str, default=str(OUT_DIR / "ipca.parquet"))
    args=p.parse_args()
    if args.live:
        try: payload=fetch_json_with_fallback()
        except Exception as e: logging.warning("Falha na rede: %s. Usando fixture.", e); payload=load_fixture(FIXTURE_FILE)
    else:
        payload=load_fixture(FIXTURE_FILE)
    df=normalize_ipca(payload); save_parquet(df, Path(args.out))

if __name__ == "__main__": main()
'''

Path(f"{BASE_DIR}/bot_ipca.py").write_text(CODE, encoding="utf-8")

fixture = [
    {"ano": 2024, "mes": 12, "localidade_codigo": "1", "localidade": "Brasil", "indice": "IPCA", "unidade": "%", "valor": 0.56},
    {"ano": 2025, "mes":  1, "localidade_codigo": "1", "localidade": "Brasil", "indice": "IPCA", "unidade": "%", "valor": 0.42},
]
Path(f"{BASE_DIR}/data").mkdir(parents=True, exist_ok=True)
Path(f"{BASE_DIR}/data/sample_ipca.json").write_text(json.dumps(fixture, ensure_ascii=False, indent=2), encoding="utf-8")
print('Arquivos criados em', BASE_DIR)

Arquivos criados em /content/ipca_bot


In [22]:
# === Patch: substituir a função normalize_ipca por uma versão robusta (D3C e D3N) ===
from pathlib import Path

BASE_DIR = "/content/ipca_bot"
p = Path(BASE_DIR) / "bot_ipca.py"
code = p.read_text(encoding="utf-8")

PATCH_FUNC = '''
def normalize_ipca(payload) -> pd.DataFrame:
    """
    Normaliza resposta da API v2 (lista em que o item 0 é o cabeçalho).
    Faz parsing do período usando D3C (AAAAMM) ou D3N ('jan/2025', etc).
    """
    import pandas as pd, re

    mes_pt = {"jan":1,"fev":2,"mar":3,"abr":4,"mai":5,"jun":6,
              "jul":7,"ago":8,"set":9,"out":10,"nov":11,"dez":12}

    def parse_period(item):
        # 1) AAAAMM direto (D3C / D4C / D5C) ou 1994-01 / 1994.01
        for k in ("D3C","D4C","D5C"):
            v = str(item.get(k) or "")
            if len(v) == 6 and v.isdigit():
                return int(v[:4]), int(v[4:6])
            m = re.match(r"^(\d{4})[-/.](\d{2})$", v)
            if m:
                return int(m.group(1)), int(m.group(2))

        # 2) 'jan/2025' (D3N / D4N / D5N)
        for k in ("D3N","D4N","D5N"):
            v = str(item.get(k) or "").strip().lower()
            m = re.match(r"^(jan|fev|mar|abr|mai|jun|jul|ago|set|out|nov|dez)[/\\- ](\d{4})$", v)
            if m:
                return int(m.group(2)), mes_pt[m.group(1)]

        return None, None

    # Formato API v2 (lista)
    if isinstance(payload, list) and len(payload) > 1 and isinstance(payload[1], dict):
        regs = []
        for item in payload[1:]:
            ano, mes = parse_period(item)

            v = item.get("V")
            if isinstance(v, str):
                v = v.replace(",", ".")
            try:
                valor = float(v)
            except Exception:
                valor = None

            regs.append({
                "ano": ano,
                "mes": mes,
                "localidade_codigo": item.get("D1C") or "1",
                "localidade": item.get("D1N") or "Brasil",
                "indice": "IPCA",
                "unidade": "%",
                "valor": valor,
            })

        df = pd.DataFrame(regs)
        df = df.dropna(subset=["ano","mes"])
        if not df.empty:
            df["ano"] = df["ano"].astype(int)
            df["mes"] = df["mes"].astype(int)
            df = df.sort_values(["ano","mes"]).reset_index(drop=True)
        return df[["ano","mes","localidade_codigo","localidade","indice","unidade","valor"]]

    # Fallback
    try:
        return pd.json_normalize(payload)
    except Exception:
        return pd.DataFrame()
'''

# localizar início e fim da função atual
start = code.find("def normalize_ipca(")
end   = code.find("\ndef save_parquet", start)
if start == -1 or end == -1:
    raise RuntimeError("Não encontrei os marcadores da função no arquivo. Rode a célula 3 (criar bot_ipca.py) e tente de novo.")

# montar novo código
new_code = code[:start] + PATCH_FUNC + code[end:]
p.write_text(new_code, encoding="utf-8")
print("✅ normalize_ipca atualizada com parsing de D3C e D3N.")


✅ normalize_ipca atualizada com parsing de D3C e D3N.


  m = re.match(r"^(\d{4})[-/.](\d{2})$", v)


In [25]:
from pathlib import Path
import re

BASE_DIR = "/content/ipca_bot"
p = Path(BASE_DIR) / "bot_ipca.py"
code = p.read_text(encoding="utf-8")

# 1) Troca a lista de URLs para incluir v/all (variáveis)
code = re.sub(
    r"SIDRA_URLS\s*=\s*\[[^\]]+\]",
    'SIDRA_URLS = [\n'
    '    "https://apisidra.ibge.gov.br/values/t/1737/n1/all/v/all/p/last%20120?formato=json",\n'
    '    "https://apisidra.ibge.gov.br/values/t/1737/n1/all/v/all/p/all?formato=json",\n'
    '    "https://sidra.ibge.gov.br/Ajax/JSon/Tabela/1/1737?versao=-1",\n'
    ']',
    code,
    flags=re.S
)

# 2) Insere um log: se payload tiver só header, vira DataFrame vazio
code = code.replace(
    "def fetch_json_with_fallback():",
    "def fetch_json_with_fallback():\n"
    "    import logging\n"
)
code = code.replace(
    "def normalize_ipca(payload) -> pd.DataFrame:",
    "def normalize_ipca(payload) -> pd.DataFrame:\n"
    "    import logging\n"
)

# Em normalize: loga caso venha só cabeçalho
code = code.replace(
    "if isinstance(payload, list) and len(payload) > 1 and isinstance(payload[1], dict):",
    "if isinstance(payload, list) and isinstance(payload[0], dict):\n"
    "        if len(payload) <= 1:\n"
    "            logging.warning('Payload só com cabeçalho (len=1). Verifique parâmetros v/p na URL.');\n"
    "            return pd.DataFrame(columns=['ano','mes','localidade_codigo','localidade','indice','unidade','valor'])\n"
    "        # len>1: tem dados"
)

p.write_text(code, encoding="utf-8")
print("✅ URLs atualizadas para v/all e logs defensivos adicionados.")


✅ URLs atualizadas para v/all e logs defensivos adicionados.


## 4) Executar o BOT (live com fallback; se falhar rede, usa fixture)

In [26]:
import os
BASE_DIR = "/content/ipca_bot"
try: os.remove(f"{BASE_DIR}/output/ipca.parquet")
except FileNotFoundError: pass

!python /content/ipca_bot/bot_ipca.py --live || python /content/ipca_bot/bot_ipca.py



2025-08-26 21:01:05,476 | INFO | Baixando dados: https://apisidra.ibge.gov.br/values/t/1737/n1/all/v/all/p/last%20120?formato=json
2025-08-26 21:01:37,515 | INFO | Arquivo salvo: /content/ipca_bot/output/ipca.parquet (linhas=720, colunas=7)


In [27]:
import pandas as pd
df = pd.read_parquet("/content/ipca_bot/output/ipca.parquet")
print(df.head())
print(df.tail())
print("mes únicos:", sorted(df['mes'].dropna().unique())[:12])



    ano  mes localidade_codigo localidade indice unidade    valor
0  2015    8                 1     Brasil   IPCA       %  4346.65
1  2015    8                 1     Brasil   IPCA       %     0.22
2  2015    8                 1     Brasil   IPCA       %     1.64
3  2015    8                 1     Brasil   IPCA       %     4.48
4  2015    8                 1     Brasil   IPCA       %     7.06
      ano  mes localidade_codigo localidade indice unidade  valor
715  2025    7                 1     Brasil   IPCA       %   0.26
716  2025    7                 1     Brasil   IPCA       %   0.76
717  2025    7                 1     Brasil   IPCA       %   3.10
718  2025    7                 1     Brasil   IPCA       %   3.26
719  2025    7                 1     Brasil   IPCA       %   5.23
mes únicos: [np.int64(1), np.int64(2), np.int64(3), np.int64(4), np.int64(5), np.int64(6), np.int64(7), np.int64(8), np.int64(9), np.int64(10), np.int64(11), np.int64(12)]


## 5) Ler Parquet, limpar e gerar recorte (últimos 24 meses)

In [28]:
import pandas as pd
df = pd.read_parquet("/content/ipca_bot/output/ipca.parquet")
df.tail()

Unnamed: 0,ano,mes,localidade_codigo,localidade,indice,unidade,valor
715,2025,7,1,Brasil,IPCA,%,0.26
716,2025,7,1,Brasil,IPCA,%,0.76
717,2025,7,1,Brasil,IPCA,%,3.1
718,2025,7,1,Brasil,IPCA,%,3.26
719,2025,7,1,Brasil,IPCA,%,5.23


In [29]:
import pandas as pd

BASE_DIR = '/content/ipca_bot'
df = pd.read_parquet(f'{BASE_DIR}/output/ipca.parquet')

# se mes veio None, tenta recuperar do campo 'ano' (que às vezes guarda AAAAMM inteiro)
def split_period(row):
    a, m = row['ano'], row['mes']
    if pd.notna(m):  # já tem mês
        return a, m
    if a and str(a).isdigit() and len(str(a)) == 6:  # AAAAMM
        return int(str(a)[:4]), int(str(a)[4:6])
    return None, None

df['ano'], df['mes'] = zip(*df.apply(split_period, axis=1))

# agora remove só linhas inválidas
df = df.dropna(subset=['ano','mes'])
df = df[(df['mes'].between(1,12)) & (df['ano'].between(1990,2100))].copy()

# cria coluna data
df['data'] = pd.to_datetime(df['ano'].astype(int).astype(str)+'-'+df['mes'].astype(int).astype(str).str.zfill(2)+'-01')
df = df.sort_values('data')

# recorte últimos 24 meses
df_24 = df.tail(24).copy()

# salva novamente
df.to_parquet(f'{BASE_DIR}/output/ipca_limpo.parquet', engine='pyarrow', index=False)
df_24.to_parquet(f'{BASE_DIR}/output/ipca_ultimos_24m.parquet', engine='pyarrow', index=False)
df_24.to_csv(f'{BASE_DIR}/output/ipca_ultimos_24m.csv', index=False)

df_24.tail()


Unnamed: 0,ano,mes,localidade_codigo,localidade,indice,unidade,valor,data
714,2025,7,1,Brasil,IPCA,%,7331.98,2025-07-01
715,2025,7,1,Brasil,IPCA,%,0.26,2025-07-01
716,2025,7,1,Brasil,IPCA,%,0.76,2025-07-01
717,2025,7,1,Brasil,IPCA,%,3.1,2025-07-01
719,2025,7,1,Brasil,IPCA,%,5.23,2025-07-01


## 6) Gerar README e TXT (Parte 2)

In [6]:
BASE_DIR = '/content/ipca_bot'
readme = f"""# Bot IPCA (SIDRA/IBGE) -> Parquet

## Como rodar no Colab
```bash
!pip install pandas pyarrow requests
!python {BASE_DIR}/bot_ipca.py --live
```
Saídas: output/ipca.parquet, ipca_limpo.parquet, ipca_ultimos_24m.parquet, ipca_ultimos_24m.csv
"""
open(f'{BASE_DIR}/README.md','w',encoding='utf-8').write(readme)
texto = """Solução quando não existe link direto:
1) RPA (Playwright/Selenium) headless; menus/logins/cliques.
2) Persistir cookies/tokens; waits explícitos.
3) Interceptar requests (Playwright) para achar endpoint do download.
4) Retry/timeouts/screenshots/logs; captcha com passo assistido.
5) Orquestração: cron/ADF; landing->transform->Parquet.
"""
open(f'{BASE_DIR}/explicacao_sem_link.txt','w',encoding='utf-8').write(texto)
"README.md e explicacao_sem_link.txt gerados."

'README.md e explicacao_sem_link.txt gerados.'

In [31]:
import pandas as pd
df = pd.read_parquet("/content/ipca_bot/output/ipca_ultimos_24m.parquet")
df.tail()

Unnamed: 0,ano,mes,localidade_codigo,localidade,indice,unidade,valor,data
19,2025,7,1,Brasil,IPCA,%,7331.98,2025-07-01
20,2025,7,1,Brasil,IPCA,%,0.26,2025-07-01
21,2025,7,1,Brasil,IPCA,%,0.76,2025-07-01
22,2025,7,1,Brasil,IPCA,%,3.1,2025-07-01
23,2025,7,1,Brasil,IPCA,%,5.23,2025-07-01
