# 📘 coleta_dados
### **Objetivo:**
- Coletar lista de deputados e seus eventos via API da Câmara

In [None]:
import requests
import pandas as pd
from tqdm import tqdm
from datetime import date
import os

# Criar diretório de saída - se ainda não tiver/perder diretório data
os.makedirs("../data/processed", exist_ok=True)
BASE_URL = "https://dadosabertos.camara.leg.br/api/v2"

# Coletar TODOS os deputados com paginação
session = requests.Session()
session.headers.update({
    "Accept": "application/json",
    "User-Agent": "PUCRS-Assiduidade/1.0 (contato: seu_email@exemplo.com)"
})


### 1️⃣ Deputados:

In [None]:
deputados_total = []
pagina = 1
while True:
    params_dep = {"itens": 100, "pagina": pagina}
    r = session.get(f"{BASE_URL}/deputados", params=params_dep, timeout=30)
    if r.status_code != 200:
        print(f"⚠️ Falha deputados pág {pagina}: {r.status_code}")
        break
    dados = r.json().get("dados", [])
    if not dados:
        break
    deputados_total.extend(dados)
    pagina += 1
    time.sleep(0.15)  # polidez

df_deputados = pd.DataFrame(deputados_total)
df_deputados.to_json("../data/processed/deputados.json", orient="records", indent=2, force_ascii=False)
print(f"✅ Deputados coletados: {len(df_deputados)}")

### 2️⃣ Eventos:

- Evento é uma atividade oficial registrada na Câmara dos Deputados e associada a um ou mais parlamentares. Esses eventos servem para medir **frequência**, **assiduidade** e **atuação**.

![image.png](attachment:71e6c5c4-9d45-45a9-82d3-01e2ba40c5a1.png)

In [None]:
eventos_total = []

params_base = {
    "dataInicio": "2020-01-01",
    "dataFim": str(date.today()),
    "itens": 100,
    "ordenarPor": "dataHoraInicio",
    "ordem": "ASC",
}

for dep_id in tqdm(df_deputados["id"], desc="Coletando eventos..."):
    pagina = 1
    while True:
        params = {**params_base, "pagina": pagina}

        # retries simples
        for tentativa in range(3):
            try:
                r = session.get(f"{BASE_URL}/deputados/{dep_id}/eventos", params=params, timeout=30)
                if r.status_code == 200:
                    break
                time.sleep(0.5 + tentativa)  # backoff leve
            except requests.RequestException:
                time.sleep(0.5 + tentativa)
        else:
            print(f"⚠️ Falha após 3 tentativas: dep {dep_id} pág {pagina}")
            break

        dados = r.json().get("dados", [])
        if not dados:  # acabou a paginação para esse deputado
            break

        # anexa e marca o deputado
        eventos_total.extend([{**e, "id_deputado": int(dep_id)} for e in dados])
        pagina += 1
        time.sleep(0.15)  # polidez

df_eventos = pd.DataFrame(eventos_total)

# Deduplicação por segurança (evento por deputado)
if not df_eventos.empty:
    df_eventos.drop_duplicates(subset=["id", "id_deputado"], inplace=True)
    df_eventos.sort_values(["id_deputado", "id"], inplace=True)

df_eventos.to_json("../data/processed/eventos.json", orient="records", indent=2, force_ascii=False)
print(f"✅ Eventos coletados: {len(df_eventos)}")