# 🔎 BigQuery com Python: **Adquirindo dados**


Nesta aula você vai:

- ✅ Ler dados com `pandas_gbq.read_gbq`  
- ✅ Ler dados com `google.cloud.bigquery.Client.query(...).to_dataframe()`  
- ✅ Fazer *dry-run* e estimar bytes (💸)  
- ✅ Proteger com `maximum_bytes_billed`  
- ✅ Usar parâmetros (seguro)  
- ✅ Salvar para CSV/Parquet  

> Rode as células na ordem. Ajuste `PROJECT_ID` e `LOCATION` 😉

## 🧰 Pré-requisitos
- Projeto GCP com BigQuery habilitado  
- Permissão de leitura  
- Dataset/tabela já existentes (da aula 01 ou do seu projeto)

## ⬇️ Instalar bibliotecas (Colab)
Se estiver no Colab, rode:

In [3]:
!pip -q install pandas-gbq google-cloud-bigquery

## 🔐 Autenticação (Colab)

In [4]:
try:
    from google.colab import auth  # type: ignore
    auth.authenticate_user()
    print("✔ Autenticado com sucesso!")
except Exception as e:
    print("ℹ️ Se não estiver no Colab, ignore. Aviso:", e)

✔ Autenticado com sucesso!


In [5]:
import pandas as pd
import pandas_gbq
from google.cloud import bigquery

PROJECT_ID = "escolap2p"
LOCATION   = "southamerica-east1"   # ex.: "US", "EU", "southamerica-east1"

# Exemplo de destino da Aula 01 (ajuste conforme seu projeto)
DATASET_ID = "cliente_teste"
TABLE_ID   = "teste_exemplo"

FULL_TABLE = f"{PROJECT_ID}.{DATASET_ID}.{TABLE_ID}"

print("Projeto:", PROJECT_ID)
print("Local:", LOCATION)
print("Tabela alvo:", FULL_TABLE)


Projeto: escolap2p
Local: southamerica-east1
Tabela alvo: escolap2p.cliente_teste.teste_exemplo


## 📚 Lendo com `pandas_gbq.read_gbq`

In [6]:
query = f"""
SELECT *
FROM `{FULL_TABLE}`
LIMIT 100
"""

In [7]:
df_a = pandas_gbq.read_gbq(query, project_id=PROJECT_ID, location=LOCATION)

Downloading: 100%|[32m██████████[0m|


In [8]:
df_a.head()

Unnamed: 0,id,page,views,dt_ref
0,1,posts,120,2025-01-10
1,2,posts,45,2025-01-10
2,3,posts,12,2025-01-10


### 💸 Dry-run: estime custo antes de executar

In [9]:
client = bigquery.Client(project=PROJECT_ID, location=LOCATION)

job_config = bigquery.QueryJobConfig(dry_run=True, use_query_cache=False)
dry = client.query(query, job_config=job_config)
print(f"Estimativa de bytes processados: {dry.total_bytes_processed:,} B (~{dry.total_bytes_processed/1e9:.3f} GB)")

Estimativa de bytes processados: 93 B (~0.000 GB)


## B) 🧪 Parâmetro para acelerar leitura

In [None]:
df_a = pandas_gbq.read_gbq(query, project_id=PROJECT_ID, location=LOCATION, use_bqstorage_api=True)
df_a.head()

## 🧠 Exercícios (mão na massa)
1. **Cache de resultados:** execute a mesma query 2x com  use_bqstorage_api=True e `False`; observe tempo/bytes.

## 🎯 Conclusão
Você aprendeu a **adquirir dados** do BigQuery com segurança e eficiência: `read_gbq`.
Na **Aula 03**, vamos **agendar uma rotina** com *Managed Notebooks*