# Dataset de Microrregi√µes Brasileiras para An√°lise

## Extra√ß√£o com mapeamento CORRETO de microrregi√µes

Este notebook extrai dados da [Base dos Dados](https://basedosdados.org/) usando o mapeamento correto munic√≠pio ‚Üí microrregi√£o, gerando um dataset consolidado para an√°lises econom√©tricas.


## 0. Como usar este Notebook

### Um √∫nico produto:
```python
PRODUTOS_AGRICOLAS = ['Soja']
```

### M√∫ltiplos produtos (agregados):
```python
PRODUTOS_AGRICOLAS = ['Milho', 'Soja']  # An√°lise conjunta de milho + soja
```

### Exemplos de produtos dispon√≠veis:
- `['Cana-de-a√ß√∫car']` - Padr√£o
- `['Soja']` - Apenas soja
- `['Milho']` - Apenas milho
- `['Caf√© (beneficiado)']` - Caf√© processado
- `['Algod√£o herb√°ceo']` - Algod√£o
- `['Arroz']` - Arroz
- `['Milho', 'Soja', 'Trigo']` - Gr√£os combinados
- `['Laranja', 'Lim√£o', 'Tangerina']` - C√≠tricos combinados

O c√≥digo se adapta automaticamente! Os valores s√£o agregados quando m√∫ltiplos produtos s√£o selecionados. üéØ


In [52]:
# Importar bibliotecas
import basedosdados as bd
import pandas as pd
import numpy as np
import os

# Configura√ß√£o
PROJECT_ID = "bdsdasd"
ANOS = list(range(2003, 2024))

# CONFIGURA√á√ÉO DOS PRODUTOS AGR√çCOLAS
# Pode ser uma lista com 1 ou mais produtos!
PRODUTOS_AGRICOLAS = ['Cana-de-a√ß√∫car']  # Exemplos: ['Soja'], ['Milho', 'Soja'], ['Caf√© (beneficiado)']

# Garantir que sempre seja uma lista
if isinstance(PRODUTOS_AGRICOLAS, str):
    PRODUTOS_AGRICOLAS = [PRODUTOS_AGRICOLAS]

os.makedirs("output", exist_ok=True)

print("‚úÖ Configura√ß√£o completa!")
print(f"üìÖ Per√≠odo: {ANOS[0]}-{ANOS[-1]}")
print(f"üåæ Produtos selecionados: {', '.join(PRODUTOS_AGRICOLAS)}")


‚úÖ Configura√ß√£o completa!
üìÖ Per√≠odo: 2003-2023
üåæ Produtos selecionados: Cana-de-a√ß√∫car


## 1. Mapeamento Munic√≠pio ‚Üí Microrregi√£o

Query correta para obter o mapeamento:


In [53]:
# PASSO 1: Obter mapeamento correto munic√≠pio -> microrregi√£o
query_mapeamento = """
SELECT 
    id_municipio,
    id_microrregiao,
    nome AS nome_municipio,
    sigla_uf
FROM 
    `basedosdados.br_bd_diretorios_brasil.municipio`
"""

print("üó∫Ô∏è Baixando mapeamento munic√≠pio ‚Üí microrregi√£o...")
df_municipios = bd.read_sql(query_mapeamento, billing_project_id=PROJECT_ID)

print(f"‚úÖ {len(df_municipios):,} munic√≠pios mapeados")
print(f"‚úÖ {df_municipios['id_microrregiao'].nunique()} microrregi√µes identificadas")
print(f"\nExemplo do mapeamento:")
df_municipios.head()


üó∫Ô∏è Baixando mapeamento munic√≠pio ‚Üí microrregi√£o...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 5,570 munic√≠pios mapeados
‚úÖ 558 microrregi√µes identificadas

Exemplo do mapeamento:


Unnamed: 0,id_municipio,id_microrregiao,nome_municipio,sigla_uf
0,1100809,11001,Candeias do Jamari,RO
1,1100338,11001,Nova Mamor√©,RO
2,1100205,11001,Porto Velho,RO
3,1101104,11001,Itapu√£ do Oeste,RO
4,1100940,11001,Cujubim,RO


## 2. Esta√ß√µes Meteorol√≥gicas (Tratamento)

Agora vamos agregar as esta√ß√µes usando o mapeamento correto:


In [54]:
# PASSO 2: Esta√ß√µes meteorol√≥gicas
query_estacoes = """
SELECT
    e.id_municipio,
    e.id_estacao,
    e.estacao AS nome_estacao,
    EXTRACT(YEAR FROM e.data_fundacao) AS ano_fundacao,
    e.latitude,
    e.longitude
FROM
    `basedosdados.br_inmet_bdmep.estacao` e
WHERE
    e.data_fundacao IS NOT NULL
    AND e.id_municipio IS NOT NULL
"""

print("üå°Ô∏è Baixando dados de esta√ß√µes...")
df_estacoes_mun = bd.read_sql(query_estacoes, billing_project_id=PROJECT_ID)

# Fazer o JOIN com o mapeamento
df_estacoes_full = df_estacoes_mun.merge(
    df_municipios[['id_municipio', 'id_microrregiao']], 
    on='id_municipio', 
    how='left'
)

# Agregar por microrregi√£o
df_estacoes = df_estacoes_full.groupby('id_microrregiao').agg({
    'ano_fundacao': 'min',
    'id_estacao': 'count'
}).reset_index()

df_estacoes.columns = ['id_microrregiao', 'primeiro_ano_estacao', 'num_estacoes']

print(f"‚úÖ {len(df_estacoes)} microrregi√µes com esta√ß√µes ({len(df_estacoes)/558*100:.1f}% de cobertura)")
print(f"‚úÖ Total: {df_estacoes_full['id_estacao'].nunique()} esta√ß√µes")
df_estacoes.head()


üå°Ô∏è Baixando dados de esta√ß√µes...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 394 microrregi√µes com esta√ß√µes (70.6% de cobertura)
‚úÖ Total: 610 esta√ß√µes


Unnamed: 0,id_microrregiao,primeiro_ano_estacao,num_estacoes
0,11001,2007,1
1,11002,2016,2
2,11003,2008,1
3,11006,2008,1
4,11007,2008,2


## 3. Popula√ß√£o e PIB

Agregar dados socioecon√¥micos por microrregi√£o:


In [55]:
# PASSO 3: Popula√ß√£o
query_pop = f"""
SELECT
    ano,
    id_municipio,
    populacao
FROM
    `basedosdados.br_ibge_populacao.municipio`
WHERE
    ano BETWEEN {ANOS[0]} AND {ANOS[-1]}
"""

print("üë• Baixando dados de popula√ß√£o...")
df_pop_mun = bd.read_sql(query_pop, billing_project_id=PROJECT_ID)

# JOIN com mapeamento
df_pop_mapped = df_pop_mun.merge(
    df_municipios[['id_municipio', 'id_microrregiao', 'sigla_uf']], 
    on='id_municipio', 
    how='left'
)

# Agregar por microrregi√£o
df_pop = df_pop_mapped.groupby(['ano', 'id_microrregiao', 'sigla_uf'])['populacao'].sum().reset_index()
df_pop.columns = ['ano', 'id_microrregiao', 'uf', 'populacao_total']

print(f"‚úÖ {len(df_pop):,} registros agregados")

# PASSO 4: PIB
query_pib = f"""
SELECT
    ano,
    id_municipio,
    pib,
    va_agropecuaria
FROM
    `basedosdados.br_ibge_pib.municipio`
WHERE
    ano BETWEEN {ANOS[0]} AND {ANOS[-1]}
"""

print("\nüí∞ Baixando dados de PIB...")
df_pib_mun = bd.read_sql(query_pib, billing_project_id=PROJECT_ID)

# JOIN com mapeamento
df_pib_mapped = df_pib_mun.merge(
    df_municipios[['id_municipio', 'id_microrregiao']], 
    on='id_municipio', 
    how='left'
)

# Agregar
df_pib = df_pib_mapped.groupby(['ano', 'id_microrregiao']).agg({
    'pib': 'sum',
    'va_agropecuaria': 'sum'
}).reset_index()

df_pib.columns = ['ano', 'id_microrregiao', 'pib_total', 'pib_agropecuario']

print(f"‚úÖ {len(df_pib):,} registros agregados")


üë• Baixando dados de popula√ß√£o...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 11,160 registros agregados

üí∞ Baixando dados de PIB...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 10,602 registros agregados


## 4. Consolida√ß√£o do Dataset

Criar painel balanceado com todas as microrregi√µes e anos:


In [56]:
# PASSO 5: Criar painel
# Obter lista de todas as microrregi√µes
all_micros = sorted(df_municipios['id_microrregiao'].unique())
print(f"üìä Total de microrregi√µes: {len(all_micros)}")

# Criar painel balanceado
from itertools import product
painel = pd.DataFrame(
    list(product(all_micros, ANOS)), 
    columns=['id_microrregiao', 'ano']
)

# Adicionar informa√ß√µes b√°sicas das microrregi√µes
micro_info = df_municipios.groupby('id_microrregiao')['sigla_uf'].first().reset_index()
painel = painel.merge(micro_info, on='id_microrregiao', how='left')

# Adicionar tratamento (esta√ß√µes)
painel = painel.merge(
    df_estacoes[['id_microrregiao', 'primeiro_ano_estacao']], 
    on='id_microrregiao', 
    how='left'
)

painel['primeiro_ano_tratamento'] = painel['primeiro_ano_estacao'].fillna(0).astype(int)
painel['tratado'] = (painel['primeiro_ano_tratamento'] != 0).astype(int)
painel['pos_tratamento'] = (
    (painel['ano'] >= painel['primeiro_ano_tratamento']) & 
    (painel['tratado'] == 1)
).astype(int)

# Adicionar popula√ß√£o
painel = painel.merge(
    df_pop[['ano', 'id_microrregiao', 'populacao_total']], 
    on=['ano', 'id_microrregiao'], 
    how='left'
)

# Adicionar PIB
painel = painel.merge(
    df_pib, 
    on=['ano', 'id_microrregiao'], 
    how='left'
)

# PIB per capita
painel['pib_per_capita'] = (painel['pib_total'] / painel['populacao_total']).round(2)

print(f"\n‚úÖ Painel criado: {len(painel):,} observa√ß√µes")
print(f"üìä Microrregi√µes tratadas: {painel[painel['tratado'] == 1]['id_microrregiao'].nunique()}")
print(f"üìä Microrregi√µes controle: {painel[painel['tratado'] == 0]['id_microrregiao'].nunique()}")

# Mostrar amostra
painel.head()


üìä Total de microrregi√µes: 558

‚úÖ Painel criado: 11,718 observa√ß√µes
üìä Microrregi√µes tratadas: 394
üìä Microrregi√µes controle: 164


Unnamed: 0,id_microrregiao,ano,sigla_uf,primeiro_ano_estacao,primeiro_ano_tratamento,tratado,pos_tratamento,populacao_total,pib_total,pib_agropecuario,pib_per_capita
0,11001,2003,RO,2007,2007,1,0,448419,3173358000,170001000,7076.77
1,11001,2004,RO,2007,2007,1,0,497775,3885396000,175586000,7805.53
2,11001,2005,RO,2007,2007,1,0,485002,4385122000,195425000,9041.45
3,11001,2006,RO,2007,2007,1,0,497936,4723308000,192598000,9485.77
4,11001,2007,RO,2007,2007,1,1,474532,5169521000,230175000,10893.94


In [57]:
# PASSO 6: Dados REAIS de produ√ß√£o agr√≠cola (PAM)

# Converter lista de produtos para formato SQL
produtos_sql = ', '.join([f"'{p}'" for p in PRODUTOS_AGRICOLAS])

query_pam = f"""
SELECT
    lav.id_municipio,
    lav.ano,
    SUM(lav.area_plantada) AS area_plantada,
    SUM(lav.area_colhida) AS area_colhida,
    SUM(lav.quantidade_produzida) AS quantidade_produzida,
    AVG(lav.rendimento_medio_producao) AS produtividade,
    SUM(lav.valor_producao) AS valor_producao
FROM
    `basedosdados.br_ibge_pam.lavoura_temporaria` AS lav
WHERE
    lav.ano BETWEEN {ANOS[0]} AND {ANOS[-1]}
    AND lav.produto IN ({produtos_sql})
GROUP BY
    lav.id_municipio,
    lav.ano
"""

print(f"üåæ Baixando dados de produ√ß√£o de: {', '.join(PRODUTOS_AGRICOLAS)}...")
df_pam_mun = bd.read_sql(query_pam, billing_project_id=PROJECT_ID)
print(f"‚úÖ {len(df_pam_mun):,} registros de produ√ß√£o municipal")

# JOIN com mapeamento para obter microrregi√£o
df_pam_mapped = df_pam_mun.merge(
    df_municipios[['id_municipio', 'id_microrregiao']], 
    on='id_municipio', 
    how='left'
)

# Agregar por microrregi√£o
df_pam = df_pam_mapped.groupby(['ano', 'id_microrregiao']).agg({
    'area_plantada': 'sum',
    'area_colhida': 'sum',
    'quantidade_produzida': 'sum',
    'valor_producao': 'sum',
    'produtividade': 'mean'  # M√©dia ponderada seria ideal, mas por simplicidade
}).reset_index()

# Renomear colunas genericamente (sem sufixo _cana)
df_pam.columns = [
    'ano', 'id_microrregiao',
    'area_plantada', 'area_colhida', 
    'producao', 'valor_producao',
    'produtividade'
]

print(f"‚úÖ {len(df_pam):,} registros agregados por microrregi√£o")

# Adicionar ao painel
painel_final = painel.merge(
    df_pam, 
    on=['ano', 'id_microrregiao'], 
    how='left'
)

# Preencher zeros onde n√£o h√° produ√ß√£o
cols_producao = ['area_plantada', 'area_colhida', 'producao', 
                 'valor_producao', 'produtividade']
for col in cols_producao:
    painel_final[col] = painel_final[col].fillna(0)

# NOVO: Calcular taxa de aproveitamento (√°rea colhida / √°rea plantada)
# Essa m√©trica mostra a efici√™ncia da produ√ß√£o - quanto maior, melhor o aproveitamento
painel_final['taxa_aproveitamento'] = np.where(
    painel_final['area_plantada'] > 0,
    painel_final['area_colhida'] / painel_final['area_plantada'],
    0
)

# NOVO: Filtrar microrregi√µes com pelo menos 10 anos de produ√ß√£o
anos_com_producao = painel_final[painel_final['area_plantada'] > 0].groupby('id_microrregiao').size()
micros_validas = anos_com_producao[anos_com_producao >= 10].index
n_micros_antes = painel_final['id_microrregiao'].nunique()

# Aplicar filtro
painel_final = painel_final[painel_final['id_microrregiao'].isin(micros_validas)]
n_micros_depois = painel_final['id_microrregiao'].nunique()

# Remover coluna auxiliar
if 'primeiro_ano_estacao' in painel_final.columns:
    painel_final = painel_final.drop('primeiro_ano_estacao', axis=1)

print(f"\n‚úÖ Dados de produ√ß√£o REAIS integrados!")
print(f"üìä Cobertura: {(painel_final['producao'] > 0).sum()} observa√ß√µes com produ√ß√£o")
print(f"üìä Microrregi√µes produtoras: {painel_final[painel_final['producao'] > 0]['id_microrregiao'].nunique()}")
print(f"\nüîç Filtro de qualidade aplicado:")
print(f"   - Microrregi√µes antes do filtro: {n_micros_antes}")
print(f"   - Microrregi√µes ap√≥s filtro (‚â•10 anos produ√ß√£o): {n_micros_depois}")
print(f"   - Microrregi√µes removidas: {n_micros_antes - n_micros_depois}")


üåæ Baixando dados de produ√ß√£o de: Cana-de-a√ß√∫car...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 116,823 registros de produ√ß√£o municipal
‚úÖ 11,718 registros agregados por microrregi√£o

‚úÖ Dados de produ√ß√£o REAIS integrados!
üìä Cobertura: 9932 observa√ß√µes com produ√ß√£o
üìä Microrregi√µes produtoras: 490

üîç Filtro de qualidade aplicado:
   - Microrregi√µes antes do filtro: 558
   - Microrregi√µes ap√≥s filtro (‚â•10 anos produ√ß√£o): 490
   - Microrregi√µes removidas: 68


In [58]:
# Verificar estat√≠sticas b√°sicas ap√≥s filtro
print(f"\nüìä Estat√≠sticas ap√≥s filtro de qualidade:")
print(f"   - Taxa de aproveitamento m√©dia: {painel_final[painel_final['taxa_aproveitamento'] > 0]['taxa_aproveitamento'].mean():.1%}")
print(f"   - Produtividade m√©dia: {painel_final[painel_final['produtividade'] > 0]['produtividade'].mean():.1f} kg/ha")



üìä Estat√≠sticas ap√≥s filtro de qualidade:
   - Taxa de aproveitamento m√©dia: 99.1%
   - Produtividade m√©dia: 49240.3 kg/ha


## 7. Exportar Dataset Final


In [59]:
# PASSO 7: Exportar dataset
# Ordenar colunas
cols_order = [
    'ano', 'id_microrregiao', 'sigla_uf',
    'primeiro_ano_tratamento', 'tratado', 'pos_tratamento',
    'area_plantada', 'area_colhida', 'taxa_aproveitamento', 'producao', 'produtividade', 'valor_producao',
    'populacao_total', 'pib_total', 'pib_per_capita', 'pib_agropecuario'
]

# Selecionar colunas existentes
cols_final = [c for c in cols_order if c in painel_final.columns]
df_final = painel_final[cols_final].sort_values(['id_microrregiao', 'ano'])

# Criar nome do arquivo com produtos separados por h√≠fen
produtos_filename = '-'.join(PRODUTOS_AGRICOLAS).replace(' ', '_').replace('(', '').replace(')', '')
output_file = f'data/microrregions_{produtos_filename}_{min(ANOS)}-{max(ANOS)}.csv'

# Criar diret√≥rio se n√£o existir
os.makedirs('data', exist_ok=True)

# Salvar com nome descritivo
df_final.to_csv(output_file, index=False)

print(f"‚úÖ Dataset exportado: {output_file}")
print(f"üìè Tamanho: {os.path.getsize(output_file) / 1024 / 1024:.1f} MB")
print(f"üìä Dimens√µes: {len(df_final):,} observa√ß√µes √ó {len(df_final.columns)} vari√°veis")

# Estat√≠sticas finais
print(f"\nüìä Resumo do dataset filtrado:")
print(f"  - Microrregi√µes: {df_final['id_microrregiao'].nunique()} (com ‚â•10 anos de produ√ß√£o)")
print(f"  - Estados: {df_final['sigla_uf'].nunique()}")
print(f"  - Microrregi√µes tratadas: {df_final[df_final['tratado'] == 1]['id_microrregiao'].nunique()}")
print(f"  - Microrregi√µes controle: {df_final[df_final['tratado'] == 0]['id_microrregiao'].nunique()}")
print(f"  - Taxa de aproveitamento m√©dia: {df_final[df_final['taxa_aproveitamento'] > 0]['taxa_aproveitamento'].mean():.1%}")
print(f"  - Missing values popula√ß√£o: {df_final['populacao_total'].isnull().sum()} ({df_final['populacao_total'].isnull().sum()/len(df_final)*100:.1f}%)")
print(f"  - Missing values PIB: {df_final['pib_total'].isnull().sum()} ({df_final['pib_total'].isnull().sum()/len(df_final)*100:.1f}%)")

# Salvar mapeamento munic√≠pio-microrregi√£o
df_municipios.to_csv('output/mapeamento_municipio_microrregiao.csv', index=False)
print(f"\n‚úÖ Mapeamento salvo: output/mapeamento_municipio_microrregiao.csv")

# Mostrar amostra final
df_final.head(10)


‚úÖ Dataset exportado: data/microrregions_Cana-de-a√ß√∫car_2003-2023.csv
üìè Tamanho: 0.9 MB
üìä Dimens√µes: 10,290 observa√ß√µes √ó 16 vari√°veis

üìä Resumo do dataset filtrado:
  - Microrregi√µes: 490 (com ‚â•10 anos de produ√ß√£o)
  - Estados: 27
  - Microrregi√µes tratadas: 351
  - Microrregi√µes controle: 139
  - Taxa de aproveitamento m√©dia: 99.1%
  - Missing values popula√ß√£o: 490 (4.8%)
  - Missing values PIB: 980 (9.5%)

‚úÖ Mapeamento salvo: output/mapeamento_municipio_microrregiao.csv


Unnamed: 0,ano,id_microrregiao,sigla_uf,primeiro_ano_tratamento,tratado,pos_tratamento,area_plantada,area_colhida,taxa_aproveitamento,producao,produtividade,valor_producao,populacao_total,pib_total,pib_per_capita,pib_agropecuario
0,2003,11001,RO,2007,1,0,82,82,1.0,5695.0,66000.0,226.0,448419,3173358000,7076.77,170001000
1,2004,11001,RO,2007,1,0,99,99,1.0,6817.0,68142.857143,291.0,497775,3885396000,7805.53,175586000
2,2005,11001,RO,2007,1,0,92,92,1.0,6111.0,65957.142857,271.0,485002,4385122000,9041.45,195425000
3,2006,11001,RO,2007,1,0,117,117,1.0,7645.0,64558.571429,440.0,497936,4723308000,9485.77,192598000
4,2007,11001,RO,2007,1,1,75,75,1.0,4657.0,61917.428571,318.0,474532,5169521000,10893.94,230175000
5,2008,11001,RO,2007,1,1,78,78,1.0,4576.0,57257.142857,327.0,486884,6118513000,12566.68,340318000
6,2009,11001,RO,2007,1,1,104,104,1.0,5827.0,56335.714286,233.0,493445,7786946000,15780.78,367499000
7,2010,11001,RO,2007,1,1,73,73,1.0,4088.0,56000.0,163.0,540320,10298189000,19059.43,426759000
8,2011,11001,RO,2007,1,1,47,47,1.0,2587.0,55255.5,760.0,550089,12509934000,22741.65,508095000
9,2012,11001,RO,2007,1,1,0,0,0.0,0.0,0.0,0.0,559543,13425222000,23993.19,633448000
