# üì• Ingest√£o de Dados IBGE ‚Äì API SIDRA

## Objetivo

Extrair dados de produ√ß√£o agr√≠cola municipal (**manga** e **uva**) via API SIDRA do IBGE, estruturando uma base hist√≥rica consistente para o Vale do S√£o Francisco (Petrolina‚ÄìPE e Juazeiro‚ÄìBA).  

## Escopo dos Dados

- **Per√≠odo:** 2013‚Äì2024  
- **Munic√≠pios:** Petrolina (PE) e Juazeiro (BA)  
- **Produtos:**  
  - Manga (c√≥digo 2737)  
  - Uva (c√≥digo 2748)  
- **Vari√°veis:**  
  - √Årea colhida  
  - Quantidade produzida  
  - Rendimento m√©dio da produ√ß√£o  

## Fonte dos Dados

- **API:** IBGE SIDRA ‚Äì Produ√ß√£o Agr√≠cola Municipal (PAM, Lavouras Permanentes)  
- **Caracter√≠sticas:**  
  - Dados anuais por munic√≠pio e produto  
  - Acesso via requisi√ß√£o HTTP com par√¢metros (tabela, vari√°veis, produtos, munic√≠pios, anos)  

## Papel deste Notebook no Projeto

Este notebook √© o **primeiro est√°gio do pipeline**, respons√°vel por:  
1. Conectar na API SIDRA com sess√£o HTTP robusta (retry e timeout).  
2. Baixar e consolidar os dados brutos em formato tabular.  
3. Salvar um CSV padronizado na pasta `data/raw` para ser usado no notebook de limpeza (`02_data_cleaning_FIXED.ipynb`).  

A preocupa√ß√£o aqui √© **reprodutibilidade** e **confiabilidade da ingest√£o**, garantindo que qualquer pessoa consiga reconstruir a base bruta a partir da fonte oficial.  


In [1]:
# ============================================================================
# C√âLULA 1: IMPORTS E CONFIGURA√á√ïES INICIAIS
# ============================================================================
# Organiza√ß√£o:
# - Standard library
# - Third-party
# - Colab / utilit√°rios
# ============================================================================

# --- Standard library ---
import os
import logging
from typing import Dict, Any
from urllib3.util.retry import Retry

# --- Third-party ---
import pandas as pd
import requests
from requests.adapters import HTTPAdapter

# --- Google Colab / utilit√°rios ---
from google.colab import drive
from IPython.display import display

# --- Configura√ß√£o de logging ---
logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s - %(levelname)s - %(message)s",
)
logger = logging.getLogger(__name__)

logger.info("Inicializando notebook 01_data_ingestion (IBGE SIDRA).")

# --- Montagem do Google Drive ---
drive.mount("/content/drive")

# Diret√≥rios base do projeto
BASE_DIR = "/content/drive/MyDrive/projeto_produtividade"
RAW_DATA_DIR = os.path.join(BASE_DIR, "data", "raw")

os.makedirs(RAW_DATA_DIR, exist_ok=True)
logger.info(f"Diret√≥rio de dados RAW garantido em: {RAW_DATA_DIR}")

Mounted at /content/drive


## ‚öôÔ∏è C√âLULA 2 ‚Äì Par√¢metros finais da consulta SIDRA

Nesta c√©lula definimos, de forma expl√≠cita e documentada, **todos os par√¢metros** usados na chamada √† API SIDRA do IBGE:  

- **Tabela:** 1613 ‚Äì Produ√ß√£o Agr√≠cola Municipal (Lavouras Permanentes).  
- **N√≠vel geogr√°fico:** Munic√≠pios (`n6`).  
- **Munic√≠pios-alvo:**  
  - 2611101 ‚Äì Petrolina (PE)  
  - 2918407 ‚Äì Juazeiro (BA)  
- **Per√≠odo:** 2013‚Äì2024 (s√©rie hist√≥rica usada no MVP).  
- **Vari√°veis:**  
  - 216 ‚Äì √Årea colhida  
  - 214 ‚Äì Quantidade produzida  
  - 112 ‚Äì Rendimento m√©dio da produ√ß√£o  
- **Classifica√ß√£o (c82 ‚Äì Lavouras permanentes):**  
  - 2748 ‚Äì Uva  
  - 2737 ‚Äì Manga  

Tamb√©m definimos o caminho de sa√≠da para o arquivo bruto `pam_permanente_vsf_raw.csv` na pasta `data/raw`, que alimenta o notebook de limpeza (`02_data_cleaning_FIXED.ipynb`).  


In [2]:
# ============================================================================
# C√âLULA 2: PAR√ÇMETROS FINAIS DA CONSULTA √Ä API SIDRA
# ============================================================================

# --- PAR√ÇMETROS DA TABELA E GEOGRAFIA ---

# Tabela 1613: Produ√ß√£o Agr√≠cola Municipal - Lavouras PERMANENTES
TABLE_CODE = "1613"

# N√≠vel geogr√°fico 6: Munic√≠pios
GEOGRAPHIC_LEVEL = "n6"

# C√≥digos IBGE dos munic√≠pios do Vale do S√£o Francisco (PE e BA)
MUNICIPIOS_VSF = [
    "2611101",  # Petrolina (PE)
    "2918407",  # Juazeiro (BA)
]
GEO_CODES = ",".join(MUNICIPIOS_VSF)

# --- PER√çODO E VARI√ÅVEIS ---

# Per√≠odo de an√°lise (s√©rie hist√≥rica 2013‚Äì2024)
PERIOD = "2013-2024"

# Vari√°veis de interesse:
# 216: √Årea colhida
# 214: Quantidade produzida
# 112: Rendimento m√©dio da produ√ß√£o
VARIABLES = "216,214,112"

# --- CLASSIFICA√á√ÉO DE PRODUTOS (LAVOURAS PERMANENTES) ---

# Classifica√ß√£o c82 (Lavouras Permanentes) e c√≥digos:
# 2748: Uva
# 2737: Manga
CLASSIFICATION_PATH = "c82/2748,2737"

# --- CAMINHOS DE ARQUIVOS ---

BASE_DIR = "/content/drive/MyDrive/projeto_produtividade"
OUTPUT_DIR = os.path.join(BASE_DIR, "data", "raw")
OUTPUT_FILE_PATH = os.path.join(OUTPUT_DIR, "pam_permanente_vsf_raw.csv")

os.makedirs(OUTPUT_DIR, exist_ok=True)

logger.info("Par√¢metros FINAIS configurados:")
logger.info(f"Tabela-alvo (TABLE_CODE): {TABLE_CODE}")
logger.info(f"N√≠vel geogr√°fico (GEOGRAPHIC_LEVEL): {GEOGRAPHIC_LEVEL}")
logger.info(f"Munic√≠pios (GEO_CODES): {GEO_CODES}")
logger.info(f"Per√≠odo (PERIOD): {PERIOD}")
logger.info(f"Vari√°veis (VARIABLES): {VARIABLES}")
logger.info(f"Classifica√ß√£o (CLASSIFICATION_PATH): {CLASSIFICATION_PATH}")
logger.info(f"Arquivo de sa√≠da (OUTPUT_FILE_PATH): {OUTPUT_FILE_PATH}")

## üåê C√âLULA 3 ‚Äì Workflow completo de ingest√£o via API SIDRA

Aqui implementamos o fluxo completo de ingest√£o:

1. Montar a URL da API SIDRA com base nos par√¢metros da C√âLULA 2.  
2. Criar uma sess√£o HTTP com **retry** e **timeout** configurados.  
3. Executar a requisi√ß√£o, tratar erros e converter a resposta JSON em `DataFrame`.  
4. Salvar os dados brutos em `pam_permanente_vsf_raw.csv` na pasta `data/raw`.  
5. Exibir uma amostra dos dados para valida√ß√£o r√°pida.  

Essa c√©lula √© o ‚Äúbot√£o de executar‚Äù da ingest√£o: ao rod√°-la, toda a coleta de dados IBGE √© refeita de ponta a ponta.  

In [3]:
# ============================================================================
# C√âLULA 3: WORKFLOW COMPLETO DE INGEST√ÉO (FINAL REFACTORED)
# ============================================================================

def create_sidra_session() -> requests.Session:
    """
    Cria uma sess√£o HTTP com pol√≠tica de retry para chamadas √† API SIDRA.
    """
    session = requests.Session()
    retries = Retry(
        total=5,
        backoff_factor=0.5,
        status_forcelist=[429, 500, 502, 503, 504],
        allowed_methods=["GET"],
    )
    adapter = HTTPAdapter(max_retries=retries)
    session.mount("https://", adapter)
    session.mount("http://", adapter)
    return session


def build_sidra_url() -> str:
    """
    Monta a URL completa da API SIDRA com base nos par√¢metros globais.
    """
    base_url = "https://apisidra.ibge.gov.br/values"
    url = (
        f"{base_url}/t/{TABLE_CODE}/{GEOGRAPHIC_LEVEL}/{GEO_CODES}/"
        f"p/{PERIOD}/v/{VARIABLES}/{CLASSIFICATION_PATH}"
    )
    return url


def run_ingestion() -> pd.DataFrame:
    """
    Executa o workflow de ingest√£o:
    - Monta URL
    - Faz requisi√ß√£o com retry
    - Converte JSON em DataFrame
    - Salva CSV em OUTPUT_FILE_PATH
    """
    url = build_sidra_url()
    logger.info("Executando requisi√ß√£o para a API do IBGE SIDRA...")
    logger.info(f"URL: {url}")

    session = create_sidra_session()

    try:
        resp = session.get(url, timeout=90)
        resp.raise_for_status()
        data = resp.json()
        logger.info("Dados recebidos com sucesso da API SIDRA.")

        if not data or len(data) <= 1:
            logger.warning(
                "A API retornou resposta vazia ou apenas cabe√ßalho. "
                "Verifique par√¢metros de tabela, per√≠odo ou classifica√ß√£o."
            )
            return pd.DataFrame()

        # Primeira linha do JSON √© o cabe√ßalho
        header = data[0]
        df_raw = pd.DataFrame(data[1:])
        df_raw.columns = header.values()
        logger.info("DataFrame criado com sucesso a partir da resposta da API.")

        # Salvar CSV bruto
        df_raw.to_csv(OUTPUT_FILE_PATH, index=False, encoding="utf-8-sig")
        logger.info(f"SUCESSO: Dados brutos salvos em: {OUTPUT_FILE_PATH}")

        return df_raw

    except requests.exceptions.HTTPError as err:
        msg = f"Erro HTTP na requisi√ß√£o: {err.response.status_code}\n{err.response.text[:500]}"
        logger.error(msg)
        raise RuntimeError(msg) from err
    except Exception as e:
        msg = f"Ocorreu um erro inesperado durante o processo de ingest√£o: {e}"
        logger.error(msg)
        raise RuntimeError(msg) from e


# --- EXECU√á√ÉO DA INGEST√ÉO ---

df_ibge_raw = run_ingestion()

if not df_ibge_raw.empty:
    print("\nAmostra dos dados brutos retornados pela API:")
    display(df_ibge_raw.head())
else:
    print("\n‚ö†Ô∏è Nenhum dado foi retornado. Verifique os logs acima.")


Amostra dos dados brutos retornados pela API:


Unnamed: 0,N√≠vel Territorial (C√≥digo),N√≠vel Territorial,Unidade de Medida (C√≥digo),Unidade de Medida,Valor,Munic√≠pio (C√≥digo),Munic√≠pio,Ano (C√≥digo),Ano,Vari√°vel (C√≥digo),Vari√°vel,Produto das lavouras permanentes (C√≥digo),Produto das lavouras permanentes
0,6,Munic√≠pio,1006,Hectares,4642,2611101,Petrolina (PE),2013,2013,216,√Årea colhida,2748,Uva
1,6,Munic√≠pio,1006,Hectares,7880,2611101,Petrolina (PE),2013,2013,216,√Årea colhida,2737,Manga
2,6,Munic√≠pio,1017,Toneladas,162448,2611101,Petrolina (PE),2013,2013,214,Quantidade produzida,2748,Uva
3,6,Munic√≠pio,1017,Toneladas,173360,2611101,Petrolina (PE),2013,2013,214,Quantidade produzida,2737,Manga
4,6,Munic√≠pio,33,Quilogramas por Hectare,34995,2611101,Petrolina (PE),2013,2013,112,Rendimento m√©dio da produ√ß√£o,2748,Uva
