# Dataset Flex√≠vel com MapBiomas para An√°lise de Uso da Terra

## Extra√ß√£o com dados de sat√©lite e agrega√ß√£o flex√≠vel

Este notebook extrai dados da [Base dos Dados](https://basedosdados.org/) usando MapBiomas (dados de sat√©lite) para identificar √°reas dedicadas a diferentes culturas, com op√ß√£o de agrega√ß√£o por munic√≠pio, microrregi√£o ou AMC.

### Principais melhorias:
- ‚úÖ **MapBiomas**: Dados de sat√©lite mais precisos que autodeclara√ß√£o
- ‚úÖ **Agrega√ß√£o flex√≠vel**: Munic√≠pio, Microrregi√£o ou AMC
- ‚úÖ **Cobertura completa**: Todas as unidades geogr√°ficas inclu√≠das
- ‚úÖ **M√∫ltiplas culturas**: √Åreas de agricultura, cana, soja, caf√©, c√≠tricos e outras


## 0. Configura√ß√£o e Setup

Configure aqui os par√¢metros principais da extra√ß√£o:


In [1]:
# Importar bibliotecas
import basedosdados as bd
import pandas as pd
import numpy as np
import os
from datetime import datetime

# CONFIGURA√á√ïES PRINCIPAIS
PROJECT_ID = "bdsdasd"
ANOS = list(range(2003, 2022))

# CONFIGURA√á√ÉO DE AGREGA√á√ÉO
# Escolha uma das op√ß√µes: 'municipio', 'microrregiao', 'amc'
NIVEL_AGREGACAO = 'microrregiao'  # ‚öôÔ∏è ALTERE AQUI!

# CONFIGURA√á√ÉO DO PRODUTO (apenas para dados PAM, n√£o MapBiomas)
# MapBiomas sempre exporta todas as categorias
PRODUTO_PAM = 'Cana-de-a√ß√∫car'  # Exemplos: 'Soja', 'Milho', 'Caf√© (beneficiado)'

# Criar diret√≥rios
os.makedirs("output", exist_ok=True)
os.makedirs("data", exist_ok=True)

# Validar configura√ß√£o
assert NIVEL_AGREGACAO in ['municipio', 'microrregiao', 'amc'], "N√≠vel de agrega√ß√£o inv√°lido!"

print("‚úÖ Configura√ß√£o completa!")
print(f"üìÖ Per√≠odo: {ANOS[0]}-{ANOS[-1]}")
print(f"üéØ N√≠vel de agrega√ß√£o: {NIVEL_AGREGACAO.upper()}")
print(f"üåæ Produto PAM: {PRODUTO_PAM}")
print(f"üõ∞Ô∏è Categorias MapBiomas: Agricultura, Cana, Soja, Caf√©, C√≠tricos, Outras Lavouras")


‚úÖ Configura√ß√£o completa!
üìÖ Per√≠odo: 2003-2021
üéØ N√≠vel de agrega√ß√£o: MICRORREGIAO
üåæ Produto PAM: Cana-de-a√ß√∫car
üõ∞Ô∏è Categorias MapBiomas: Agricultura, Cana, Soja, Caf√©, C√≠tricos, Outras Lavouras


## 1. Mapeamentos Geogr√°ficos

Obter os mapeamentos necess√°rios para agrega√ß√£o:


In [2]:
# PASSO 1.1: Obter diret√≥rio de munic√≠pios
query_municipios = """
SELECT 
    id_municipio,
    id_microrregiao,
    nome AS nome_municipio,
    sigla_uf
FROM 
    `basedosdados.br_bd_diretorios_brasil.municipio`
"""

print("üó∫Ô∏è Baixando diret√≥rio de munic√≠pios...")
df_municipios = bd.read_sql(query_municipios, billing_project_id=PROJECT_ID)
print(f"‚úÖ {len(df_municipios):,} munic√≠pios mapeados")
print(f"‚úÖ {df_municipios['id_microrregiao'].nunique()} microrregi√µes identificadas")

# PASSO 1.2: Obter mapeamento AMC se necess√°rio
if NIVEL_AGREGACAO == 'amc':
    # Query AMC ajustada
    query_amc = f"""
    SELECT DISTINCT
        id_amc,
        id_municipio
    FROM 
        `basedosdados.br_ibge_amc.municipio_de_para`
    WHERE 
        ano_de <= {ANOS[0]} 
        AND ano_para >= {ANOS[-1]}
    """
    
    print("\nüó∫Ô∏è Baixando mapeamento AMC...")
    df_amc = bd.read_sql(query_amc, billing_project_id=PROJECT_ID)
    
    # Adicionar AMC ao dataframe de munic√≠pios
    df_municipios = df_municipios.merge(df_amc, on='id_municipio', how='left')
    print(f"‚úÖ {df_amc['id_amc'].nunique()} AMCs identificadas")


üó∫Ô∏è Baixando diret√≥rio de munic√≠pios...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 5,570 munic√≠pios mapeados
‚úÖ 558 microrregi√µes identificadas


## 2. Dados MapBiomas (Uso da Terra)

Extrair dados de cobertura da terra por sat√©lite:


In [4]:
# PASSO 2: Baixar dados MapBiomas
# IDs das categorias de interesse
CATEGORIAS_MAPBIOMAS = {
    '18': 'agricultura',
    '19': 'lavoura_temporaria',
    '39': 'soja',
    '20': 'cana',
    '41': 'outras_lavouras_temporarias',
    '46': 'cafe',
    '47': 'citricos'
}

ids_categorias = list(CATEGORIAS_MAPBIOMAS.keys())
ids_str = ', '.join([f"'{id}'" for id in ids_categorias])

query_mapbiomas = f"""
SELECT
    ano,
    id_municipio,
    id_classe,
    area
FROM 
    `basedosdados.br_mapbiomas_estatisticas.cobertura_municipio_classe`
WHERE 
    ano BETWEEN {ANOS[0]} AND {ANOS[-1]}
    AND id_classe IN ({ids_str})
"""

print(f"üõ∞Ô∏è Baixando dados MapBiomas para {len(CATEGORIAS_MAPBIOMAS)} categorias...")
df_mapbiomas_mun = bd.read_sql(query_mapbiomas, billing_project_id=PROJECT_ID)
print(f"‚úÖ {len(df_mapbiomas_mun):,} registros de cobertura")

# Pivotar para ter uma coluna por categoria
df_mapbiomas_mun['categoria'] = df_mapbiomas_mun['id_classe'].map(CATEGORIAS_MAPBIOMAS)
df_mapbiomas_pivot = df_mapbiomas_mun.pivot_table(
    index=['ano', 'id_municipio'],
    columns='categoria',
    values='area',
    fill_value=0
).reset_index()

# Adicionar prefixo √†s colunas
cols_mapbiomas = [col for col in df_mapbiomas_pivot.columns if col not in ['ano', 'id_municipio']]
for col in cols_mapbiomas:
    df_mapbiomas_pivot[f'area_{col}'] = df_mapbiomas_pivot[col]
    df_mapbiomas_pivot.drop(col, axis=1, inplace=True)

print(f"‚úÖ Dados pivotados: {len(df_mapbiomas_pivot):,} registros munic√≠pio-ano")


üõ∞Ô∏è Baixando dados MapBiomas para 7 categorias...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 214,548 registros de cobertura
‚úÖ Dados pivotados: 94,737 registros munic√≠pio-ano


## 3. Esta√ß√µes Meteorol√≥gicas

Identificar tratamento por esta√ß√µes autom√°ticas:


In [5]:
# PASSO 3: Esta√ß√µes meteorol√≥gicas
query_estacoes = """
SELECT
    e.id_municipio,
    e.id_estacao,
    e.estacao AS nome_estacao,
    EXTRACT(YEAR FROM e.data_fundacao) AS ano_fundacao
FROM
    `basedosdados.br_inmet_bdmep.estacao` e
WHERE
    e.data_fundacao IS NOT NULL
    AND e.id_municipio IS NOT NULL
"""

print("üå°Ô∏è Baixando dados de esta√ß√µes...")
df_estacoes_mun = bd.read_sql(query_estacoes, billing_project_id=PROJECT_ID)

# Adicionar informa√ß√£o geogr√°fica
df_estacoes_full = df_estacoes_mun.merge(
    df_municipios, 
    on='id_municipio', 
    how='left'
)

print(f"‚úÖ {df_estacoes_full['id_estacao'].nunique()} esta√ß√µes identificadas")


üå°Ô∏è Baixando dados de esta√ß√µes...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 610 esta√ß√µes identificadas


## 4. Popula√ß√£o e PIB

Dados socioecon√¥micos:


In [6]:
# PASSO 4.1: Popula√ß√£o
query_pop = f"""
SELECT
    ano,
    id_municipio,
    populacao
FROM
    `basedosdados.br_ibge_populacao.municipio`
WHERE
    ano BETWEEN {ANOS[0]} AND {ANOS[-1]}
"""

print("üë• Baixando dados de popula√ß√£o...")
df_pop_mun = bd.read_sql(query_pop, billing_project_id=PROJECT_ID)
print(f"‚úÖ {len(df_pop_mun):,} registros")

# PASSO 4.2: PIB
query_pib = f"""
SELECT
    ano,
    id_municipio,
    pib,
    va_agropecuaria
FROM
    `basedosdados.br_ibge_pib.municipio`
WHERE
    ano BETWEEN {ANOS[0]} AND {ANOS[-1]}
"""

print("\nüí∞ Baixando dados de PIB...")
df_pib_mun = bd.read_sql(query_pib, billing_project_id=PROJECT_ID)
print(f"‚úÖ {len(df_pib_mun):,} registros")


üë• Baixando dados de popula√ß√£o...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 105,776 registros

üí∞ Baixando dados de PIB...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 105,830 registros


## 5. Produ√ß√£o Agr√≠cola (PAM)

Dados de produ√ß√£o para o produto selecionado:


In [7]:
# PASSO 5: Dados PAM para produto espec√≠fico
query_pam = f"""
SELECT
    ano,
    id_municipio,
    area_plantada,
    area_colhida,
    quantidade_produzida,
    rendimento_medio_producao AS produtividade,
    valor_producao
FROM
    `basedosdados.br_ibge_pam.lavoura_temporaria`
WHERE
    ano BETWEEN {ANOS[0]} AND {ANOS[-1]}
    AND produto = '{PRODUTO_PAM}'
"""

print(f"üåæ Baixando dados PAM para: {PRODUTO_PAM}...")
df_pam_mun = bd.read_sql(query_pam, billing_project_id=PROJECT_ID)
print(f"‚úÖ {len(df_pam_mun):,} registros de produ√ß√£o")

# Renomear colunas para evitar conflitos
df_pam_mun.columns = [
    'ano', 'id_municipio',
    'pam_area_plantada', 'pam_area_colhida', 
    'pam_quantidade_produzida', 'pam_produtividade',
    'pam_valor_producao'
]


üåæ Baixando dados PAM para: Cana-de-a√ß√∫car...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 105,697 registros de produ√ß√£o


## 6. Agrega√ß√£o dos Dados

Agregar todos os dados conforme o n√≠vel escolhido:


In [8]:
# Definir fun√ß√£o de agrega√ß√£o baseada no n√≠vel escolhido
def get_id_column():
    if NIVEL_AGREGACAO == 'municipio':
        return 'id_municipio'
    elif NIVEL_AGREGACAO == 'microrregiao':
        return 'id_microrregiao'
    else:  # amc
        return 'id_amc'

id_col = get_id_column()
print(f"üéØ Agregando por: {id_col}")

# Combinar todos os dados municipais primeiro
df_base = df_municipios[['id_municipio', 'id_microrregiao', 'sigla_uf']].copy()
if NIVEL_AGREGACAO == 'amc':
    df_base = df_base[['id_municipio', 'id_microrregiao', 'sigla_uf', 'id_amc']]

# Criar lista de todos os anos e unidades
from itertools import product

if NIVEL_AGREGACAO == 'municipio':
    all_units = df_base['id_municipio'].unique()
elif NIVEL_AGREGACAO == 'microrregiao':
    all_units = df_base['id_microrregiao'].unique()
else:  # amc
    all_units = df_base['id_amc'].dropna().unique()

# Criar painel completo
painel = pd.DataFrame(
    list(product(all_units, ANOS)), 
    columns=[id_col, 'ano']
)

print(f"‚úÖ Painel criado: {len(painel):,} observa√ß√µes ({len(all_units)} unidades √ó {len(ANOS)} anos)")


üéØ Agregando por: id_microrregiao
‚úÖ Painel criado: 10,602 observa√ß√µes (558 unidades √ó 19 anos)


In [9]:
# AGREGAR MAPBIOMAS
print("\nüõ∞Ô∏è Agregando dados MapBiomas...")
df_mapbiomas_mapped = df_mapbiomas_pivot.merge(df_base, on='id_municipio', how='left')

# Colunas de √°rea para agregar
area_cols = [col for col in df_mapbiomas_mapped.columns if col.startswith('area_')]

if NIVEL_AGREGACAO == 'municipio':
    df_mapbiomas_agg = df_mapbiomas_mapped[['ano', 'id_municipio'] + area_cols]
else:
    # Agregar por microrregi√£o ou AMC
    agg_dict = {col: 'sum' for col in area_cols}
    df_mapbiomas_agg = df_mapbiomas_mapped.groupby(['ano', id_col]).agg(agg_dict).reset_index()

painel = painel.merge(df_mapbiomas_agg, on=['ano', id_col], how='left')

# Preencher zeros onde n√£o h√° dados
for col in area_cols:
    painel[col] = painel[col].fillna(0)

print(f"‚úÖ MapBiomas agregado: {len(area_cols)} categorias de uso da terra")



üõ∞Ô∏è Agregando dados MapBiomas...
‚úÖ MapBiomas agregado: 5 categorias de uso da terra


In [10]:
# AGREGAR ESTA√á√ïES
print("\nüå°Ô∏è Agregando esta√ß√µes meteorol√≥gicas...")

# Agregar esta√ß√µes por unidade geogr√°fica
if NIVEL_AGREGACAO == 'municipio':
    df_estacoes_agg = df_estacoes_full.groupby('id_municipio').agg({
        'ano_fundacao': 'min',
        'id_estacao': 'count'
    }).reset_index()
    df_estacoes_agg.columns = ['id_municipio', 'primeiro_ano_estacao', 'num_estacoes']
else:
    df_estacoes_agg = df_estacoes_full.groupby(id_col).agg({
        'ano_fundacao': 'min',
        'id_estacao': 'count'
    }).reset_index()
    df_estacoes_agg.columns = [id_col, 'primeiro_ano_estacao', 'num_estacoes']

# Adicionar ao painel
painel = painel.merge(df_estacoes_agg[[id_col, 'primeiro_ano_estacao']], on=id_col, how='left')

# Criar vari√°veis de tratamento
painel['primeiro_ano_tratamento'] = painel['primeiro_ano_estacao'].fillna(0).astype(int)
painel['tratado'] = (painel['primeiro_ano_tratamento'] != 0).astype(int)
painel['pos_tratamento'] = (
    (painel['ano'] >= painel['primeiro_ano_tratamento']) & 
    (painel['tratado'] == 1)
).astype(int)

print(f"‚úÖ Unidades tratadas: {painel[painel['tratado'] == 1][id_col].nunique()}")
print(f"‚úÖ Unidades controle: {painel[painel['tratado'] == 0][id_col].nunique()}")



üå°Ô∏è Agregando esta√ß√µes meteorol√≥gicas...
‚úÖ Unidades tratadas: 394
‚úÖ Unidades controle: 164


In [11]:
# AGREGAR POPULA√á√ÉO E PIB
print("\nüí∞ Agregando dados socioecon√¥micos...")

# Adicionar informa√ß√£o geogr√°fica aos dados
df_pop_mapped = df_pop_mun.merge(df_base, on='id_municipio', how='left')
df_pib_mapped = df_pib_mun.merge(df_base, on='id_municipio', how='left')

if NIVEL_AGREGACAO == 'municipio':
    df_pop_agg = df_pop_mapped[['ano', 'id_municipio', 'populacao']]
    df_pop_agg.columns = ['ano', 'id_municipio', 'populacao_total']
    
    df_pib_agg = df_pib_mapped[['ano', 'id_municipio', 'pib', 'va_agropecuaria']]
    df_pib_agg.columns = ['ano', 'id_municipio', 'pib_total', 'pib_agropecuario']
else:
    # Agregar
    df_pop_agg = df_pop_mapped.groupby(['ano', id_col])['populacao'].sum().reset_index()
    df_pop_agg.columns = ['ano', id_col, 'populacao_total']
    
    df_pib_agg = df_pib_mapped.groupby(['ano', id_col]).agg({
        'pib': 'sum',
        'va_agropecuaria': 'sum'
    }).reset_index()
    df_pib_agg.columns = ['ano', id_col, 'pib_total', 'pib_agropecuario']

# Adicionar ao painel
painel = painel.merge(df_pop_agg, on=['ano', id_col], how='left')
painel = painel.merge(df_pib_agg, on=['ano', id_col], how='left')

# Calcular PIB per capita
painel['pib_per_capita'] = np.where(
    painel['populacao_total'] > 0,
    painel['pib_total'] / painel['populacao_total'],
    np.nan
)

print(f"‚úÖ Dados socioecon√¥micos agregados")



üí∞ Agregando dados socioecon√¥micos...
‚úÖ Dados socioecon√¥micos agregados


In [12]:
# AGREGAR PAM
print("\nüåæ Agregando dados PAM...")

df_pam_mapped = df_pam_mun.merge(df_base, on='id_municipio', how='left')

if NIVEL_AGREGACAO == 'municipio':
    df_pam_agg = df_pam_mapped[[
        'ano', 'id_municipio',
        'pam_area_plantada', 'pam_area_colhida', 
        'pam_quantidade_produzida', 'pam_produtividade',
        'pam_valor_producao'
    ]]
else:
    # Para produtividade, fazer m√©dia ponderada pela √°rea
    df_pam_agg = df_pam_mapped.groupby(['ano', id_col]).agg({
        'pam_area_plantada': 'sum',
        'pam_area_colhida': 'sum',
        'pam_quantidade_produzida': 'sum',
        'pam_valor_producao': 'sum'
    }).reset_index()
    
    # Calcular produtividade m√©dia ponderada
    df_pam_agg['pam_produtividade'] = np.where(
        df_pam_agg['pam_area_colhida'] > 0,
        df_pam_agg['pam_quantidade_produzida'] / df_pam_agg['pam_area_colhida'],
        0
    )

# Adicionar ao painel
painel = painel.merge(df_pam_agg, on=['ano', id_col], how='left')

# Preencher zeros onde n√£o h√° produ√ß√£o
pam_cols = [col for col in painel.columns if col.startswith('pam_')]
for col in pam_cols:
    painel[col] = painel[col].fillna(0)

print(f"‚úÖ Dados PAM agregados para {PRODUTO_PAM}")



üåæ Agregando dados PAM...
‚úÖ Dados PAM agregados para Cana-de-a√ß√∫car


In [13]:
# Adicionar UF ao painel
if NIVEL_AGREGACAO == 'municipio':
    uf_info = df_base[['id_municipio', 'sigla_uf']].drop_duplicates()
    painel = painel.merge(uf_info, on='id_municipio', how='left')
elif NIVEL_AGREGACAO == 'microrregiao':
    uf_info = df_base.groupby('id_microrregiao')['sigla_uf'].first().reset_index()
    painel = painel.merge(uf_info, on='id_microrregiao', how='left')
else:  # amc
    # Para AMC, pegar a UF mais comum
    uf_info = df_base.groupby('id_amc')['sigla_uf'].agg(lambda x: x.mode()[0] if len(x) > 0 else np.nan).reset_index()
    painel = painel.merge(uf_info, on='id_amc', how='left')

# Remover observa√ß√µes com dados faltantes cr√≠ticos
print(f"\nüßπ Removendo observa√ß√µes com dados faltantes...")
print(f"   - Antes: {len(painel):,} observa√ß√µes")

# Remover onde n√£o temos popula√ß√£o ou PIB
painel_final = painel.dropna(subset=['populacao_total', 'pib_total'])

print(f"   - Ap√≥s remover NAs (popula√ß√£o/PIB): {len(painel_final):,} observa√ß√µes")
print(f"   - Removidas: {len(painel) - len(painel_final):,} observa√ß√µes ({(len(painel) - len(painel_final))/len(painel)*100:.1f}%)")



üßπ Removendo observa√ß√µes com dados faltantes...
   - Antes: 10,602 observa√ß√µes
   - Ap√≥s remover NAs (popula√ß√£o/PIB): 10,602 observa√ß√µes
   - Removidas: 0 observa√ß√µes (0.0%)


In [14]:
# Estat√≠sticas do dataset final
print("\nüìä ESTAT√çSTICAS DO DATASET FINAL")
print("=" * 50)
print(f"N√≠vel de agrega√ß√£o: {NIVEL_AGREGACAO.upper()}")
print(f"Per√≠odo: {ANOS[0]}-{ANOS[-1]}")
print(f"Produto PAM: {PRODUTO_PAM}")
print(f"\nDimens√µes: {len(painel_final):,} observa√ß√µes √ó {len(painel_final.columns)} vari√°veis")
print(f"Unidades geogr√°ficas: {painel_final[id_col].nunique():,}")
print(f"Estados: {painel_final['sigla_uf'].nunique()}")

print(f"\nüå°Ô∏è TRATAMENTO (Esta√ß√µes Meteorol√≥gicas):")
print(f"   - Unidades tratadas: {painel_final[painel_final['tratado'] == 1][id_col].nunique():,}")
print(f"   - Unidades controle: {painel_final[painel_final['tratado'] == 0][id_col].nunique():,}")
print(f"   - Observa√ß√µes p√≥s-tratamento: {painel_final['pos_tratamento'].sum():,}")

print(f"\nüõ∞Ô∏è USO DA TERRA (MapBiomas - hectares):")
for col in area_cols:
    area_total = painel_final[col].sum()
    if area_total > 0:
        nome_categoria = col.replace('area_', '').replace('_', ' ').title()
        print(f"   - {nome_categoria}: {area_total:,.0f} ha total")

print(f"\nüåæ PRODU√á√ÉO PAM ({PRODUTO_PAM}):")
print(f"   - Unidades produtoras: {(painel_final['pam_area_plantada'] > 0).sum():,}")
print(f"   - √Årea plantada total: {painel_final['pam_area_plantada'].sum():,.0f} ha")
print(f"   - Produ√ß√£o total: {painel_final['pam_quantidade_produzida'].sum():,.0f} ton")
print(f"   - Produtividade m√©dia: {painel_final[painel_final['pam_produtividade'] > 0]['pam_produtividade'].mean():,.1f} kg/ha")

print(f"\nüí∞ SOCIOECON√îMICO:")
print(f"   - Popula√ß√£o total: {painel_final.groupby('ano')['populacao_total'].sum().iloc[-1]:,.0f} (√∫ltimo ano)")
print(f"   - PIB per capita m√©dio: R$ {painel_final['pib_per_capita'].mean():,.2f}")
print(f"   - Participa√ß√£o agropecu√°ria no PIB: {(painel_final['pib_agropecuario'].sum() / painel_final['pib_total'].sum() * 100):.1f}%")



üìä ESTAT√çSTICAS DO DATASET FINAL
N√≠vel de agrega√ß√£o: MICRORREGIAO
Per√≠odo: 2003-2021
Produto PAM: Cana-de-a√ß√∫car

Dimens√µes: 10,602 observa√ß√µes √ó 21 vari√°veis
Unidades geogr√°ficas: 558
Estados: 27

üå°Ô∏è TRATAMENTO (Esta√ß√µes Meteorol√≥gicas):
   - Unidades tratadas: 394
   - Unidades controle: 164
   - Observa√ß√µes p√≥s-tratamento: 5,582

üõ∞Ô∏è USO DA TERRA (MapBiomas - hectares):
   - Cafe: 192,696 ha total
   - Cana: 1,386,254 ha total
   - Citricos: 47,513 ha total
   - Outras Lavouras Temporarias: 1,670,675 ha total
   - Soja: 6,099,569 ha total

üåæ PRODU√á√ÉO PAM (Cana-de-a√ß√∫car):
   - Unidades produtoras: 9,134
   - √Årea plantada total: 167,419,126 ha
   - Produ√ß√£o total: 12,527,286,398 ton
   - Produtividade m√©dia: 51.5 kg/ha

üí∞ SOCIOECON√îMICO:
   - Popula√ß√£o total: 213,317,639 (√∫ltimo ano)
   - PIB per capita m√©dio: R$ 17,857.00
   - Participa√ß√£o agropecu√°ria no PIB: 4.8%


## 8. Exportar Dataset Final


In [15]:
# Organizar colunas na ordem desejada
cols_base = ['ano', id_col, 'sigla_uf', 'primeiro_ano_tratamento', 'tratado', 'pos_tratamento']
cols_pam = [col for col in painel_final.columns if col.startswith('pam_')]
cols_socio = ['populacao_total', 'pib_total', 'pib_per_capita', 'pib_agropecuario']
cols_mapbiomas = [col for col in painel_final.columns if col.startswith('area_')]

# Remover coluna tempor√°ria se existir
if 'primeiro_ano_estacao' in painel_final.columns:
    painel_final = painel_final.drop('primeiro_ano_estacao', axis=1)

# Ordenar colunas
cols_order = cols_base + cols_pam + cols_socio + cols_mapbiomas
cols_final = [col for col in cols_order if col in painel_final.columns]
df_export = painel_final[cols_final].sort_values([id_col, 'ano'])

# Nome do arquivo
timestamp = datetime.now().strftime('%Y%m%d')
produto_safe = PRODUTO_PAM.replace(' ', '_').replace('(', '').replace(')', '')
filename = f'dataset_mapbiomas_{NIVEL_AGREGACAO}_{produto_safe}_{ANOS[0]}-{ANOS[-1]}_{timestamp}.csv'
filepath = f'data/{filename}'

# Salvar
df_export.to_csv(filepath, index=False)

print(f"\n‚úÖ DATASET EXPORTADO COM SUCESSO!")
print(f"üìÅ Arquivo: {filepath}")
print(f"üìè Tamanho: {os.path.getsize(filepath) / 1024 / 1024:.1f} MB")
print(f"üìä Dimens√µes: {len(df_export):,} √ó {len(df_export.columns)}")

# Mostrar amostra
print(f"\nüîç Amostra dos dados:")
df_export.head(10)



‚úÖ DATASET EXPORTADO COM SUCESSO!
üìÅ Arquivo: data/dataset_mapbiomas_microrregiao_Cana-de-a√ß√∫car_2003-2021_20250912.csv
üìè Tamanho: 1.6 MB
üìä Dimens√µes: 10,602 √ó 20

üîç Amostra dos dados:


Unnamed: 0,ano,id_microrregiao,sigla_uf,primeiro_ano_tratamento,tratado,pos_tratamento,pam_area_plantada,pam_area_colhida,pam_quantidade_produzida,pam_valor_producao,pam_produtividade,populacao_total,pib_total,pib_per_capita,pib_agropecuario,area_cafe,area_cana,area_citricos,area_outras_lavouras_temporarias,area_soja
0,2003,11001,RO,2007,1,0,82,82,5695.0,226.0,69.45122,448419,3173358000,7076.769718,170001000,0.0,0.0,0.0,2.514962,0.009672
1,2004,11001,RO,2007,1,0,99,99,6817.0,291.0,68.858586,497775,3885396000,7805.526593,175586000,0.0,0.0,0.0,4.568636,0.0
2,2005,11001,RO,2007,1,0,92,92,6111.0,271.0,66.423913,485002,4385122000,9041.451375,195425000,0.0,0.0,0.0,7.502846,0.791378
3,2006,11001,RO,2007,1,0,117,117,7645.0,440.0,65.34188,497936,4723308000,9485.773272,192598000,0.0,0.0,0.0,10.881466,0.806394
4,2007,11001,RO,2007,1,1,75,75,4657.0,318.0,62.093333,474532,5169521000,10893.935499,230175000,0.0,0.0,0.0,12.199082,0.086411
5,2008,11001,RO,2007,1,1,78,78,4576.0,327.0,58.666667,486884,6118513000,12566.675019,340318000,0.0,0.0,0.0,13.045108,0.036946
6,2009,11001,RO,2007,1,1,104,104,5827.0,233.0,56.028846,493445,7786946000,15780.778,367499000,0.0,0.0,0.0,18.187689,0.0
7,2010,11001,RO,2007,1,1,73,73,4088.0,163.0,56.0,540320,10298189000,19059.425896,426759000,0.0,0.0,0.0,20.663352,0.183904
8,2011,11001,RO,2007,1,1,47,47,2587.0,760.0,55.042553,550089,12509934000,22741.654532,508095000,0.0,0.0,0.0,22.798335,2.427921
9,2012,11001,RO,2007,1,1,0,0,0.0,0.0,0.0,559543,13425222000,23993.190872,633448000,0.0,0.0,0.0,22.28822,3.582765


In [None]:
# Salvar metadados
metadata = {
    'nivel_agregacao': NIVEL_AGREGACAO,
    'produto_pam': PRODUTO_PAM,
    'anos': f"{ANOS[0]}-{ANOS[-1]}",
    'n_observacoes': len(df_export),
    'n_unidades': df_export[id_col].nunique(),
    'n_tratadas': df_export[df_export['tratado'] == 1][id_col].nunique(),
    'n_controle': df_export[df_export['tratado'] == 0][id_col].nunique(),
    'categorias_mapbiomas': list(CATEGORIAS_MAPBIOMAS.values()),
    'data_extracao': datetime.now().strftime('%Y-%m-%d %H:%M:%S')
}

# Salvar metadados em JSON
import json
metadata_file = filepath.replace('.csv', '_metadata.json')
with open(metadata_file, 'w', encoding='utf-8') as f:
    json.dump(metadata, f, ensure_ascii=False, indent=2)

print(f"\nüìù Metadados salvos: {metadata_file}")

# Salvar tamb√©m o mapeamento geogr√°fico usado
if NIVEL_AGREGACAO == 'microrregiao':
    mapping_file = 'output/mapeamento_municipio_microrregiao.csv'
    df_municipios.to_csv(mapping_file, index=False)
    print(f"üó∫Ô∏è Mapeamento salvo: {mapping_file}")
elif NIVEL_AGREGACAO == 'amc':
    mapping_file = 'output/mapeamento_municipio_amc.csv'
    df_base[df_base['id_amc'].notna()].to_csv(mapping_file, index=False)
    print(f"üó∫Ô∏è Mapeamento salvo: {mapping_file}")


## 9. Dicion√°rio de Vari√°veis

Criar documenta√ß√£o detalhada de todas as vari√°veis do dataset:


In [16]:
# Criar dicion√°rio de vari√°veis do dataset
descricao_variaveis = pd.DataFrame([
    # Vari√°veis de identifica√ß√£o
    {'variavel': 'ano', 
     'descricao': 'Ano da observa√ß√£o', 
     'tipo': 'int', 
     'unidade': 'ano', 
     'fonte': 'Base dos Dados'},
    
    {'variavel': id_col, 
     'descricao': f'C√≥digo do(a) {NIVEL_AGREGACAO}', 
     'tipo': 'string', 
     'unidade': 'c√≥digo IBGE', 
     'fonte': 'IBGE/Base dos Dados'},
    
    {'variavel': 'sigla_uf', 
     'descricao': 'Sigla da Unidade Federativa (estado)', 
     'tipo': 'string', 
     'unidade': 'sigla', 
     'fonte': 'IBGE/Base dos Dados'},
    
    # Vari√°veis de tratamento
    {'variavel': 'primeiro_ano_tratamento', 
     'descricao': 'Ano de instala√ß√£o da primeira esta√ß√£o meteorol√≥gica autom√°tica (0 = sem esta√ß√£o)', 
     'tipo': 'int', 
     'unidade': 'ano', 
     'fonte': 'INMET/Base dos Dados'},
    
    {'variavel': 'tratado', 
     'descricao': 'Indicador se a unidade possui esta√ß√£o meteorol√≥gica (1 = sim, 0 = n√£o)', 
     'tipo': 'int', 
     'unidade': 'bin√°rio', 
     'fonte': 'INMET/Base dos Dados'},
    
    {'variavel': 'pos_tratamento', 
     'descricao': 'Indicador se a observa√ß√£o √© ap√≥s instala√ß√£o da esta√ß√£o (1 = sim, 0 = n√£o)', 
     'tipo': 'int', 
     'unidade': 'bin√°rio', 
     'fonte': 'INMET/Base dos Dados'},
    
    # Vari√°veis PAM
    {'variavel': 'pam_area_plantada', 
     'descricao': f'√Årea plantada de {PRODUTO_PAM} segundo PAM', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'IBGE PAM/Base dos Dados'},
    
    {'variavel': 'pam_area_colhida', 
     'descricao': f'√Årea colhida de {PRODUTO_PAM} segundo PAM', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'IBGE PAM/Base dos Dados'},
    
    {'variavel': 'pam_quantidade_produzida', 
     'descricao': f'Quantidade produzida de {PRODUTO_PAM} segundo PAM', 
     'tipo': 'float', 
     'unidade': 'toneladas', 
     'fonte': 'IBGE PAM/Base dos Dados'},
    
    {'variavel': 'pam_produtividade', 
     'descricao': f'Produtividade m√©dia de {PRODUTO_PAM} (quantidade/√°rea colhida)', 
     'tipo': 'float', 
     'unidade': 'kg/hectare', 
     'fonte': 'IBGE PAM/Base dos Dados'},
    
    {'variavel': 'pam_valor_producao', 
     'descricao': f'Valor da produ√ß√£o de {PRODUTO_PAM} segundo PAM', 
     'tipo': 'float', 
     'unidade': 'mil reais', 
     'fonte': 'IBGE PAM/Base dos Dados'},
    
    # Vari√°veis socioecon√¥micas
    {'variavel': 'populacao_total', 
     'descricao': f'Popula√ß√£o total do(a) {NIVEL_AGREGACAO}', 
     'tipo': 'float', 
     'unidade': 'habitantes', 
     'fonte': 'IBGE Popula√ß√£o/Base dos Dados'},
    
    {'variavel': 'pib_total', 
     'descricao': f'PIB total do(a) {NIVEL_AGREGACAO}', 
     'tipo': 'float', 
     'unidade': 'reais', 
     'fonte': 'IBGE PIB Municipal/Base dos Dados'},
    
    {'variavel': 'pib_per_capita', 
     'descricao': f'PIB per capita do(a) {NIVEL_AGREGACAO} (PIB/popula√ß√£o)', 
     'tipo': 'float', 
     'unidade': 'reais/habitante', 
     'fonte': 'IBGE PIB Municipal/Base dos Dados'},
    
    {'variavel': 'pib_agropecuario', 
     'descricao': f'Valor adicionado bruto da agropecu√°ria do(a) {NIVEL_AGREGACAO}', 
     'tipo': 'float', 
     'unidade': 'reais', 
     'fonte': 'IBGE PIB Municipal/Base dos Dados'},
    
    # Vari√°veis MapBiomas
    {'variavel': 'area_agricultura', 
     'descricao': '√Årea total dedicada √† agricultura (inclui todas as culturas)', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'MapBiomas/Base dos Dados'},
    
    {'variavel': 'area_lavoura_temporaria', 
     'descricao': '√Årea dedicada a lavouras tempor√°rias', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'MapBiomas/Base dos Dados'},
    
    {'variavel': 'area_soja', 
     'descricao': '√Årea dedicada ao cultivo de soja', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'MapBiomas/Base dos Dados'},
    
    {'variavel': 'area_cana', 
     'descricao': '√Årea dedicada ao cultivo de cana-de-a√ß√∫car', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'MapBiomas/Base dos Dados'},
    
    {'variavel': 'area_outras_lavouras_temporarias', 
     'descricao': '√Årea dedicada a outras lavouras tempor√°rias (exceto soja e cana)', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'MapBiomas/Base dos Dados'},
    
    {'variavel': 'area_cafe', 
     'descricao': '√Årea dedicada ao cultivo de caf√©', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'MapBiomas/Base dos Dados'},
    
    {'variavel': 'area_citricos', 
     'descricao': '√Årea dedicada ao cultivo de c√≠tricos (laranja, lim√£o, tangerina)', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'MapBiomas/Base dos Dados'}
])

# Salvar dicion√°rio de vari√°veis
dict_file = filepath.replace('.csv', '_dicionario_variaveis.csv')
descricao_variaveis.to_csv(dict_file, index=False, encoding='utf-8-sig')

print(f"\nüìö DICION√ÅRIO DE VARI√ÅVEIS EXPORTADO!")
print(f"üìÅ Arquivo: {dict_file}")
print(f"üìä Total de vari√°veis descritas: {len(descricao_variaveis)}")

# Mostrar preview
print(f"\nüîç Preview do dicion√°rio:")
descricao_variaveis.head(10)



üìö DICION√ÅRIO DE VARI√ÅVEIS EXPORTADO!
üìÅ Arquivo: data/dataset_mapbiomas_microrregiao_Cana-de-a√ß√∫car_2003-2021_20250912_dicionario_variaveis.csv
üìä Total de vari√°veis descritas: 22

üîç Preview do dicion√°rio:


Unnamed: 0,variavel,descricao,tipo,unidade,fonte
0,ano,Ano da observa√ß√£o,int,ano,Base dos Dados
1,id_microrregiao,C√≥digo do(a) microrregiao,string,c√≥digo IBGE,IBGE/Base dos Dados
2,sigla_uf,Sigla da Unidade Federativa (estado),string,sigla,IBGE/Base dos Dados
3,primeiro_ano_tratamento,Ano de instala√ß√£o da primeira esta√ß√£o meteorol...,int,ano,INMET/Base dos Dados
4,tratado,Indicador se a unidade possui esta√ß√£o meteorol...,int,bin√°rio,INMET/Base dos Dados
5,pos_tratamento,Indicador se a observa√ß√£o √© ap√≥s instala√ß√£o da...,int,bin√°rio,INMET/Base dos Dados
6,pam_area_plantada,√Årea plantada de Cana-de-a√ß√∫car segundo PAM,float,hectares,IBGE PAM/Base dos Dados
7,pam_area_colhida,√Årea colhida de Cana-de-a√ß√∫car segundo PAM,float,hectares,IBGE PAM/Base dos Dados
8,pam_quantidade_produzida,Quantidade produzida de Cana-de-a√ß√∫car segundo...,float,toneladas,IBGE PAM/Base dos Dados
9,pam_produtividade,Produtividade m√©dia de Cana-de-a√ß√∫car (quantid...,float,kg/hectare,IBGE PAM/Base dos Dados


In [None]:
# Criar vers√£o em Markdown do dicion√°rio
markdown_content = f"""# Dicion√°rio de Vari√°veis - Dataset MapBiomas

**Dataset**: {filename}  
**Per√≠odo**: {ANOS[0]}-{ANOS[-1]}  
**N√≠vel de agrega√ß√£o**: {NIVEL_AGREGACAO.title()}  
**Produto PAM**: {PRODUTO_PAM}  
**Data de gera√ß√£o**: {datetime.now().strftime('%d/%m/%Y')}

## Descri√ß√£o das Vari√°veis

### 1. Vari√°veis de Identifica√ß√£o

- **ano**: Ano da observa√ß√£o (2003-2021)
- **{id_col}**: C√≥digo IBGE do(a) {NIVEL_AGREGACAO}
- **sigla_uf**: Sigla da Unidade Federativa (estado)

### 2. Vari√°veis de Tratamento (Esta√ß√µes Meteorol√≥gicas)

- **primeiro_ano_tratamento**: Ano de instala√ß√£o da primeira esta√ß√£o meteorol√≥gica autom√°tica na unidade geogr√°fica. Valor 0 indica aus√™ncia de esta√ß√£o.
- **tratado**: Vari√°vel bin√°ria indicando se a unidade possui esta√ß√£o meteorol√≥gica (1 = sim, 0 = n√£o)
- **pos_tratamento**: Vari√°vel bin√°ria indicando se a observa√ß√£o ocorre ap√≥s a instala√ß√£o da esta√ß√£o (1 = sim, 0 = n√£o)

### 3. Vari√°veis de Produ√ß√£o Agr√≠cola (PAM - Produ√ß√£o Agr√≠cola Municipal)

- **pam_area_plantada**: √Årea plantada de {PRODUTO_PAM} em hectares (autodeclarada)
- **pam_area_colhida**: √Årea colhida de {PRODUTO_PAM} em hectares (autodeclarada)
- **pam_quantidade_produzida**: Quantidade produzida de {PRODUTO_PAM} em toneladas
- **pam_produtividade**: Produtividade m√©dia em kg/hectare (quantidade/√°rea colhida)
- **pam_valor_producao**: Valor da produ√ß√£o em mil reais

### 4. Vari√°veis Socioecon√¥micas

- **populacao_total**: Popula√ß√£o total do(a) {NIVEL_AGREGACAO} (habitantes)
- **pib_total**: PIB total em reais correntes
- **pib_per_capita**: PIB per capita em reais/habitante
- **pib_agropecuario**: Valor adicionado bruto da agropecu√°ria em reais

### 5. Vari√°veis de Uso da Terra (MapBiomas - Dados de Sat√©lite)

- **area_agricultura**: √Årea total dedicada √† agricultura, incluindo todas as culturas (hectares)
- **area_lavoura_temporaria**: √Årea dedicada a lavouras tempor√°rias (hectares)
- **area_soja**: √Årea espec√≠fica de cultivo de soja (hectares)
- **area_cana**: √Årea espec√≠fica de cultivo de cana-de-a√ß√∫car (hectares)
- **area_outras_lavouras_temporarias**: √Årea de outras lavouras tempor√°rias excluindo soja e cana (hectares)
- **area_cafe**: √Årea espec√≠fica de cultivo de caf√© (hectares)
- **area_citricos**: √Årea espec√≠fica de cultivo de c√≠tricos (hectares)

## Notas Metodol√≥gicas

1. **MapBiomas vs PAM**: Os dados do MapBiomas s√£o baseados em imagens de sat√©lite e tendem a ser mais precisos que os dados autodeclarados da PAM.

2. **Agrega√ß√£o**: Quando o n√≠vel de agrega√ß√£o √© superior ao munic√≠pio, os valores s√£o somados (exceto produtividade, que √© recalculada).

3. **Valores faltantes**: 
   - Zeros indicam aus√™ncia real do fen√¥meno (ex: sem produ√ß√£o)
   - NAs foram removidos apenas para popula√ß√£o e PIB

4. **Tratamento**: O tratamento refere-se √† presen√ßa de esta√ß√µes meteorol√≥gicas autom√°ticas do INMET, que fornecem dados clim√°ticos mais precisos e frequentes.

## Fontes dos Dados

- **IBGE**: Popula√ß√£o, PIB Municipal, Produ√ß√£o Agr√≠cola Municipal (PAM)
- **INMET**: Esta√ß√µes meteorol√≥gicas
- **MapBiomas**: Cobertura e uso da terra
- **Base dos Dados**: Plataforma de acesso integrado aos dados

---
*Documento gerado automaticamente pelo notebook de extra√ß√£o de dados*
"""

# Salvar arquivo Markdown
md_file = filepath.replace('.csv', '_dicionario_variaveis.md')
with open(md_file, 'w', encoding='utf-8') as f:
    f.write(markdown_content)

print(f"\nüìù DICION√ÅRIO EM MARKDOWN EXPORTADO!")
print(f"üìÅ Arquivo: {md_file}")
print(f"\n‚úÖ Arquivos de documenta√ß√£o criados com sucesso!")
print("   - CSV com tabela de vari√°veis")
print("   - Markdown com descri√ß√£o detalhada")
print("   - JSON com metadados do dataset")
