# Dataset Flex√≠vel com MapBiomas para An√°lise de Uso da Terra

## Extra√ß√£o com dados de sat√©lite e agrega√ß√£o flex√≠vel

Este notebook extrai dados da [Base dos Dados](https://basedosdados.org/) usando MapBiomas (dados de sat√©lite) para identificar √°reas dedicadas a diferentes culturas, com op√ß√£o de agrega√ß√£o por munic√≠pio, microrregi√£o ou AMC.

### Principais melhorias:
- ‚úÖ **MapBiomas**: Dados de sat√©lite mais precisos que autodeclara√ß√£o
- ‚úÖ **Agrega√ß√£o flex√≠vel**: Munic√≠pio, Microrregi√£o ou AMC
- ‚úÖ **Cobertura completa**: Todas as unidades geogr√°ficas inclu√≠das
- ‚úÖ **M√∫ltiplas culturas**: √Åreas de agricultura, cana, soja, caf√©, c√≠tricos e outras


## 0. Configura√ß√£o e Setup

Configure aqui os par√¢metros principais da extra√ß√£o:


In [17]:
# Importar bibliotecas
import basedosdados as bd
import pandas as pd
import numpy as np
import os
from datetime import datetime

# CONFIGURA√á√ïES PRINCIPAIS
PROJECT_ID = "bdsdasd"
ANOS = list(range(2003, 2022))

# CONFIGURA√á√ÉO DE AGREGA√á√ÉO
# Dataset mant√©m granularidade municipal mas inclui id_microrregiao para flexibilidade
NIVEL_AGREGACAO = 'municipio'  # Mant√©m id_municipio como menor unidade

# CULTURAS COM MAIOR USO DE IRRIGA√á√ÉO (Top 5 no Brasil)
CULTURAS_IRRIGADAS = {
    'Cana-de-a√ß√∫car': 'cana',
    'Arroz': 'arroz', 
    'Soja': 'soja',
    'Milho': 'milho',
    'Feij√£o': 'feijao'
}

# Criar diret√≥rios
os.makedirs("output", exist_ok=True)
os.makedirs("data", exist_ok=True)

print("‚úÖ Configura√ß√£o completa!")
print(f"üìÖ Per√≠odo: {ANOS[0]}-{ANOS[-1]}")
print(f"üéØ Granularidade: MUNICIPAL (com id_microrregiao para agrega√ß√£o flex√≠vel)")
print(f"üíß Culturas irrigadas a extrair: {', '.join(CULTURAS_IRRIGADAS.keys())}")
print(f"üõ∞Ô∏è Categorias MapBiomas: Agricultura, Cana, Soja, Caf√©, C√≠tricos, Outras Lavouras")


‚úÖ Configura√ß√£o completa!
üìÖ Per√≠odo: 2003-2021
üéØ Granularidade: MUNICIPAL (com id_microrregiao para agrega√ß√£o flex√≠vel)
üíß Culturas irrigadas a extrair: Cana-de-a√ß√∫car, Arroz, Soja, Milho, Feij√£o
üõ∞Ô∏è Categorias MapBiomas: Agricultura, Cana, Soja, Caf√©, C√≠tricos, Outras Lavouras


## 1. Mapeamentos Geogr√°ficos

Obter os mapeamentos necess√°rios para agrega√ß√£o:


In [18]:
# PASSO 1.1: Obter diret√≥rio de munic√≠pios
query_municipios = """
SELECT 
    id_municipio,
    id_microrregiao,
    nome AS nome_municipio,
    sigla_uf
FROM 
    `basedosdados.br_bd_diretorios_brasil.municipio`
"""

print("üó∫Ô∏è Baixando diret√≥rio de munic√≠pios...")
df_municipios = bd.read_sql(query_municipios, billing_project_id=PROJECT_ID)
print(f"‚úÖ {len(df_municipios):,} munic√≠pios mapeados")
print(f"‚úÖ {df_municipios['id_microrregiao'].nunique()} microrregi√µes identificadas")

# PASSO 1.2: Obter mapeamento AMC se necess√°rio
if NIVEL_AGREGACAO == 'amc':
    # Query AMC ajustada
    query_amc = f"""
    SELECT DISTINCT
        id_amc,
        id_municipio
    FROM 
        `basedosdados.br_ibge_amc.municipio_de_para`
    WHERE 
        ano_de <= {ANOS[0]} 
        AND ano_para >= {ANOS[-1]}
    """
    
    print("\nüó∫Ô∏è Baixando mapeamento AMC...")
    df_amc = bd.read_sql(query_amc, billing_project_id=PROJECT_ID)
    
    # Adicionar AMC ao dataframe de munic√≠pios
    df_municipios = df_municipios.merge(df_amc, on='id_municipio', how='left')
    print(f"‚úÖ {df_amc['id_amc'].nunique()} AMCs identificadas")


üó∫Ô∏è Baixando diret√≥rio de munic√≠pios...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 5,570 munic√≠pios mapeados
‚úÖ 558 microrregi√µes identificadas


## 2. Dados MapBiomas (Uso da Terra)

Extrair dados de cobertura da terra por sat√©lite:


In [None]:
# PASSO 2: Baixar dados MapBiomas
# IDs das categorias de interesse
CATEGORIAS_MAPBIOMAS = {
    '18': 'agricultura',
    '19': 'lavoura_temporaria',
    '39': 'soja',
    '20': 'cana',
    '41': 'outras_lavouras_temporarias',
    '46': 'cafe',
    '47': 'citricos'
}

ids_categorias = list(CATEGORIAS_MAPBIOMAS.keys())
ids_str = ', '.join([f"'{id}'" for id in ids_categorias])

query_mapbiomas = f"""
SELECT
    ano,
    id_municipio,
    id_classe,
    area
FROM 
    `basedosdados.br_mapbiomas_estatisticas.cobertura_municipio_classe`
WHERE 
    ano BETWEEN {ANOS[0]} AND {ANOS[-1]}
    AND id_classe IN ({ids_str})
"""

print(f"üõ∞Ô∏è Baixando dados MapBiomas para {len(CATEGORIAS_MAPBIOMAS)} categorias...")
print(f"   IDs solicitados: {ids_categorias}")
df_mapbiomas_mun = bd.read_sql(query_mapbiomas, billing_project_id=PROJECT_ID)
print(f"‚úÖ {len(df_mapbiomas_mun):,} registros de cobertura")

# Verificar quais classes foram realmente baixadas
print("\nüîç Classes √∫nicas encontradas nos dados:")
classes_baixadas = df_mapbiomas_mun['id_classe'].unique()
print(f"   Classes baixadas: {sorted(classes_baixadas)}")
print(f"   Total de classes diferentes: {len(classes_baixadas)}")

# Pivotar para ter uma coluna por categoria
# Converter id_classe para string se necess√°rio
df_mapbiomas_mun['id_classe_str'] = df_mapbiomas_mun['id_classe'].astype(str)
df_mapbiomas_mun['categoria'] = df_mapbiomas_mun['id_classe_str'].map(CATEGORIAS_MAPBIOMAS)

# Verificar se todas as categorias foram mapeadas
print("\nüìä Verificando mapeamento das categorias:")
print(f"   Categorias esperadas: {list(CATEGORIAS_MAPBIOMAS.values())}")
print(f"   Categorias encontradas: {df_mapbiomas_mun['categoria'].unique().tolist()}")
print(f"   Classes n√£o mapeadas: {df_mapbiomas_mun[df_mapbiomas_mun['categoria'].isna()]['id_classe'].unique().tolist()}")

df_mapbiomas_pivot = df_mapbiomas_mun.pivot_table(
    index=['ano', 'id_municipio'],
    columns='categoria',
    values='area',
    fill_value=0
).reset_index()

# Adicionar prefixo √†s colunas
cols_mapbiomas = [col for col in df_mapbiomas_pivot.columns if col not in ['ano', 'id_municipio']]
for col in cols_mapbiomas:
    df_mapbiomas_pivot[f'area_{col}'] = df_mapbiomas_pivot[col]
    df_mapbiomas_pivot.drop(col, axis=1, inplace=True)

print(f"\nüìã Colunas criadas no MapBiomas:")
print(f"   {[col for col in df_mapbiomas_pivot.columns if col.startswith('area_')]}")

print(f"‚úÖ Dados pivotados: {len(df_mapbiomas_pivot):,} registros munic√≠pio-ano")

# PASSO 2.1: Calcular √°rea total dos munic√≠pios a partir do MapBiomas
# A √°rea total √© a soma de todas as classes de cobertura
print("\nüìè Calculando √°rea total dos munic√≠pios...")

query_area_total = f"""
SELECT
    ano,
    id_municipio,
    SUM(area) as area_total_ha
FROM 
    `basedosdados.br_mapbiomas_estatisticas.cobertura_municipio_classe`
WHERE 
    ano BETWEEN {ANOS[0]} AND {ANOS[-1]}
GROUP BY 
    ano, id_municipio
"""

df_area_total = bd.read_sql(query_area_total, billing_project_id=PROJECT_ID)

print(f"‚úÖ √Årea total calculada para {df_area_total['id_municipio'].nunique():,} munic√≠pios")
print(f"   Registros munic√≠pio-ano: {len(df_area_total):,}")

# Adicionar √°rea total ao dataframe pivotado
df_mapbiomas_pivot = df_mapbiomas_pivot.merge(df_area_total, on=['ano', 'id_municipio'], how='left')


üõ∞Ô∏è Baixando dados MapBiomas para 7 categorias...
   IDs solicitados: ['18', '19', '39', '20', '41', '46', '47']
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 214,548 registros de cobertura

üîç Classes √∫nicas encontradas nos dados:
   Classes baixadas: ['20', '39', '41', '46', '47']
   Total de classes diferentes: 5

üìä Verificando mapeamento das categorias:
   Categorias esperadas: ['agricultura', 'lavoura_temporaria', 'soja', 'cana', 'outras_lavouras_temporarias', 'cafe', 'citricos']
   Categorias encontradas: ['cana', 'soja', 'outras_lavouras_temporarias', 'cafe', 'citricos']
   Classes n√£o mapeadas: []

üìã Colunas criadas no MapBiomas:
   ['area_cafe', 'area_cana', 'area_citricos', 'area_outras_lavouras_temporarias', 'area_soja']
‚úÖ Dados pivotados: 94,737 registros munic√≠pio-ano

üìè Calculando √°rea total dos munic√≠pios...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ √Årea total calculada para 5,566 munic√≠pios
   Registros munic

## 3. Esta√ß√µes Meteorol√≥gicas

Identificar tratamento por esta√ß√µes autom√°ticas:


In [20]:
# PASSO 3: Esta√ß√µes meteorol√≥gicas
query_estacoes = """
SELECT
    e.id_municipio,
    e.id_estacao,
    e.estacao AS nome_estacao,
    EXTRACT(YEAR FROM e.data_fundacao) AS ano_fundacao
FROM
    `basedosdados.br_inmet_bdmep.estacao` e
WHERE
    e.data_fundacao IS NOT NULL
    AND e.id_municipio IS NOT NULL
"""

print("üå°Ô∏è Baixando dados de esta√ß√µes...")
df_estacoes_mun = bd.read_sql(query_estacoes, billing_project_id=PROJECT_ID)

# Adicionar informa√ß√£o geogr√°fica
df_estacoes_full = df_estacoes_mun.merge(
    df_municipios, 
    on='id_municipio', 
    how='left'
)

print(f"‚úÖ {df_estacoes_full['id_estacao'].nunique()} esta√ß√µes identificadas")


üå°Ô∏è Baixando dados de esta√ß√µes...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 610 esta√ß√µes identificadas


## 4. Popula√ß√£o e PIB

Dados socioecon√¥micos:


In [21]:
# PASSO 4.1: Popula√ß√£o
query_pop = f"""
SELECT
    ano,
    id_municipio,
    populacao
FROM
    `basedosdados.br_ibge_populacao.municipio`
WHERE
    ano BETWEEN {ANOS[0]} AND {ANOS[-1]}
"""

print("üë• Baixando dados de popula√ß√£o...")
df_pop_mun = bd.read_sql(query_pop, billing_project_id=PROJECT_ID)
print(f"‚úÖ {len(df_pop_mun):,} registros")

# PASSO 4.2: PIB
query_pib = f"""
SELECT
    ano,
    id_municipio,
    pib,
    va_agropecuaria
FROM
    `basedosdados.br_ibge_pib.municipio`
WHERE
    ano BETWEEN {ANOS[0]} AND {ANOS[-1]}
"""

print("\nüí∞ Baixando dados de PIB...")
df_pib_mun = bd.read_sql(query_pib, billing_project_id=PROJECT_ID)
print(f"‚úÖ {len(df_pib_mun):,} registros")


üë• Baixando dados de popula√ß√£o...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 105,776 registros

üí∞ Baixando dados de PIB...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 105,830 registros


## 5. Produ√ß√£o Agr√≠cola (PAM)

Dados de produ√ß√£o para as 5 culturas com maior uso de irriga√ß√£o:


In [22]:
# PASSO 5: Dados PAM para as 5 culturas irrigadas
# Primeiro verificar os nomes exatos dos produtos dispon√≠veis
query_produtos = f"""
SELECT DISTINCT
    produto
FROM
    `basedosdados.br_ibge_pam.lavoura_temporaria`
WHERE
    ano = {ANOS[0]}
    AND produto IN ('Cana-de-a√ß√∫car', 'Arroz', 'Arroz (em casca)', 'Soja', 'Soja (em gr√£o)', 
                    'Milho', 'Milho (em gr√£o)', 'Feij√£o', 'Feij√£o (em gr√£o)')
ORDER BY produto
"""

print("üîç Verificando nomes de produtos dispon√≠veis...")
df_produtos = bd.read_sql(query_produtos, billing_project_id=PROJECT_ID)
print(f"   Produtos encontrados: {df_produtos['produto'].tolist()}")

# Ajustar nomes dos produtos baseado no que foi encontrado
CULTURAS_IRRIGADAS_CORRIGIDO = {
    'Cana-de-a√ß√∫car': 'cana',
    'Arroz (em casca)': 'arroz',  # Nome correto no PAM
    'Soja (em gr√£o)': 'soja',     # Nome correto no PAM
    'Milho (em gr√£o)': 'milho',   # Nome correto no PAM
    'Feij√£o (em gr√£o)': 'feijao'  # Nome correto no PAM
}

# Criar lista de produtos para query
produtos_list = list(CULTURAS_IRRIGADAS_CORRIGIDO.keys())
produtos_str = "', '".join(produtos_list)

query_pam = f"""
SELECT
    ano,
    id_municipio,
    produto,
    area_plantada,
    area_colhida,
    quantidade_produzida,
    rendimento_medio_producao AS produtividade,
    valor_producao
FROM
    `basedosdados.br_ibge_pam.lavoura_temporaria`
WHERE
    ano BETWEEN {ANOS[0]} AND {ANOS[-1]}
    AND produto IN ('{produtos_str}')
"""

print(f"\nüåæ Baixando dados PAM para {len(CULTURAS_IRRIGADAS_CORRIGIDO)} culturas irrigadas...")
df_pam_raw = bd.read_sql(query_pam, billing_project_id=PROJECT_ID)
print(f"‚úÖ {len(df_pam_raw):,} registros de produ√ß√£o")

# Criar identificador simplificado para cada cultura
df_pam_raw['cultura_id'] = df_pam_raw['produto'].map(CULTURAS_IRRIGADAS_CORRIGIDO)

# Pivotar para ter colunas separadas por cultura
df_pam_list = []
for cultura, cultura_id in CULTURAS_IRRIGADAS_CORRIGIDO.items():
    df_cultura = df_pam_raw[df_pam_raw['produto'] == cultura].copy()
    
    # Renomear colunas com prefixo da cultura
    df_cultura = df_cultura.rename(columns={
        'area_plantada': f'area_plantada_{cultura_id}',
        'area_colhida': f'area_colhida_{cultura_id}',
        'quantidade_produzida': f'quantidade_{cultura_id}',
        'produtividade': f'produtividade_{cultura_id}',
        'valor_producao': f'valor_{cultura_id}'
    })
    
    # Manter apenas colunas relevantes
    cols_keep = ['ano', 'id_municipio'] + [col for col in df_cultura.columns if cultura_id in col]
    df_cultura = df_cultura[cols_keep]
    
    df_pam_list.append(df_cultura)
    print(f"   - {cultura}: {len(df_cultura):,} registros")

# Fazer merge de todas as culturas
df_pam_mun = df_pam_list[0]
for df in df_pam_list[1:]:
    df_pam_mun = df_pam_mun.merge(df, on=['ano', 'id_municipio'], how='outer')

print(f"\n‚úÖ Dataset PAM consolidado: {len(df_pam_mun):,} registros munic√≠pio-ano")


üîç Verificando nomes de produtos dispon√≠veis...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
   Produtos encontrados: ['Arroz (em casca)', 'Cana-de-a√ß√∫car', 'Feij√£o (em gr√£o)', 'Milho (em gr√£o)', 'Soja (em gr√£o)']

üåæ Baixando dados PAM para 5 culturas irrigadas...
Downloading: 100%|[32m‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà[0m|
‚úÖ 528,485 registros de produ√ß√£o
   - Cana-de-a√ß√∫car: 105,697 registros
   - Arroz (em casca): 105,697 registros
   - Soja (em gr√£o): 105,697 registros
   - Milho (em gr√£o): 105,697 registros
   - Feij√£o (em gr√£o): 105,697 registros

‚úÖ Dataset PAM consolidado: 105,697 registros munic√≠pio-ano


## 6. Consolida√ß√£o dos Dados

Consolidar todos os dados mantendo granularidade municipal:


In [23]:
# Manter dados municipais com informa√ß√£o de microrregi√£o
print(f"üéØ Mantendo granularidade municipal com id_microrregiao")

# Base com todos os munic√≠pios e suas microrregi√µes
df_base = df_municipios[['id_municipio', 'id_microrregiao', 'sigla_uf']].copy()

# Criar painel completo munic√≠pio-ano
from itertools import product

all_municipios = df_base['id_municipio'].unique()

# Criar painel completo
painel = pd.DataFrame(
    list(product(all_municipios, ANOS)), 
    columns=['id_municipio', 'ano']
)

# Adicionar informa√ß√£o de microrregi√£o e UF
painel = painel.merge(df_base, on='id_municipio', how='left')

print(f"‚úÖ Painel criado: {len(painel):,} observa√ß√µes ({len(all_municipios)} munic√≠pios √ó {len(ANOS)} anos)")
print(f"‚úÖ Microrregi√µes inclu√≠das: {painel['id_microrregiao'].nunique()}")


üéØ Mantendo granularidade municipal com id_microrregiao
‚úÖ Painel criado: 105,830 observa√ß√µes (5570 munic√≠pios √ó 19 anos)
‚úÖ Microrregi√µes inclu√≠das: 558


In [24]:
# ADICIONAR MAPBIOMAS
print("\nüõ∞Ô∏è Adicionando dados MapBiomas...")

# Colunas de √°rea
area_cols = [col for col in df_mapbiomas_pivot.columns if col.startswith('area_')]

# Merge direto com painel
painel = painel.merge(df_mapbiomas_pivot, on=['ano', 'id_municipio'], how='left')

# Preencher zeros onde n√£o h√° dados
for col in area_cols:
    painel[col] = painel[col].fillna(0)

print(f"‚úÖ MapBiomas adicionado: {len(area_cols)} categorias de uso da terra")

# Listar todas as colunas de √°rea dispon√≠veis
print("\nüìã Colunas de √°rea dispon√≠veis no painel:")
area_cols_painel = [col for col in painel.columns if col.startswith('area_')]
print(f"   {area_cols_painel}")

# ADICIONAR √ÅREA TOTAL E CALCULAR INDICADORES DE URBANIZA√á√ÉO
print("\nüèôÔ∏è Calculando indicadores de urbaniza√ß√£o...")

# A √°rea total j√° est√° no dataframe ap√≥s o merge com MapBiomas
# Verificar se as colunas necess√°rias existem antes de calcular
if 'area_agropecuaria' in painel.columns and 'area_area_urbana' in painel.columns:
    # Calcular porcentagens usando agropecu√°ria total (classe 14) e √°rea urbana (classe 24)
    painel['pct_area_agropecuaria'] = (painel['area_agropecuaria'] / painel['area_total_ha'] * 100).round(2)
    painel['pct_area_urbana'] = (painel['area_area_urbana'] / painel['area_total_ha'] * 100).round(2)
else:
    print("‚ö†Ô∏è AVISO: Colunas area_agropecuaria ou area_area_urbana n√£o encontradas!")
    print(f"   Colunas dispon√≠veis: {[col for col in painel.columns if 'agropecuaria' in col or 'urbana' in col]}")
    
    # Criar colunas vazias temporariamente
    painel['pct_area_agropecuaria'] = 0
    painel['pct_area_urbana'] = 0

# Calcular raz√£o entre √°rea agropecu√°ria e urbana
if 'area_agropecuaria' in painel.columns and 'area_area_urbana' in painel.columns:
    painel['razao_agropecuaria_urbana'] = np.where(
        painel['area_area_urbana'] > 0,
        painel['area_agropecuaria'] / painel['area_area_urbana'],
        np.inf  # Se n√£o h√° √°rea urbana, a raz√£o √© infinita
    )
else:
    painel['razao_agropecuaria_urbana'] = np.inf

# Criar vari√°vel categ√≥rica de urbaniza√ß√£o
# Munic√≠pio √© considerado urbano se:
# 1) % √°rea urbana > 40% OU 
# 2) raz√£o agropecu√°ria/urbana < 1 (ou seja, √°rea urbana > √°rea agropecu√°ria)
painel['municipio_urbano'] = (
    (painel['pct_area_urbana'] > 40) | 
    (painel['razao_agropecuaria_urbana'] < 1)
).astype(int)

# Estat√≠sticas de urbaniza√ß√£o
print(f"‚úÖ Indicadores de urbaniza√ß√£o calculados")
print(f"   - Munic√≠pios urbanos: {painel[painel['municipio_urbano'] == 1]['id_municipio'].nunique():,}")
print(f"   - Munic√≠pios rurais: {painel[painel['municipio_urbano'] == 0]['id_municipio'].nunique():,}")
print(f"   - % √°rea urbana m√©dio: {painel['pct_area_urbana'].mean():.1f}%")
print(f"   - % √°rea agropecu√°ria m√©dio: {painel['pct_area_agropecuaria'].mean():.1f}%")



üõ∞Ô∏è Adicionando dados MapBiomas...
‚úÖ MapBiomas adicionado: 6 categorias de uso da terra

üìã Colunas de √°rea dispon√≠veis no painel:
   ['area_cafe', 'area_cana', 'area_citricos', 'area_outras_lavouras_temporarias', 'area_soja', 'area_total_ha']

üèôÔ∏è Calculando indicadores de urbaniza√ß√£o...
‚ö†Ô∏è AVISO: Colunas area_agropecuaria ou area_area_urbana n√£o encontradas!
   Colunas dispon√≠veis: []
‚úÖ Indicadores de urbaniza√ß√£o calculados
   - Munic√≠pios urbanos: 0
   - Munic√≠pios rurais: 5,570
   - % √°rea urbana m√©dio: 0.0%
   - % √°rea agropecu√°ria m√©dio: 0.0%


In [25]:
# ADICIONAR ESTA√á√ïES
print("\nüå°Ô∏è Adicionando dados de esta√ß√µes meteorol√≥gicas...")

# Agregar esta√ß√µes por munic√≠pio
df_estacoes_agg = df_estacoes_full.groupby('id_municipio').agg({
    'ano_fundacao': 'min',
    'id_estacao': 'count'
}).reset_index()
df_estacoes_agg.columns = ['id_municipio', 'primeiro_ano_estacao', 'num_estacoes']

# Adicionar ao painel
painel = painel.merge(df_estacoes_agg[['id_municipio', 'primeiro_ano_estacao']], on='id_municipio', how='left')

# Criar vari√°veis de tratamento
painel['primeiro_ano_tratamento'] = painel['primeiro_ano_estacao'].fillna(0).astype(int)
painel['tratado'] = (painel['primeiro_ano_tratamento'] != 0).astype(int)
painel['pos_tratamento'] = (
    (painel['ano'] >= painel['primeiro_ano_tratamento']) & 
    (painel['tratado'] == 1)
).astype(int)

print(f"‚úÖ Munic√≠pios tratados: {painel[painel['tratado'] == 1]['id_municipio'].nunique()}")
print(f"‚úÖ Munic√≠pios controle: {painel[painel['tratado'] == 0]['id_municipio'].nunique()}")



üå°Ô∏è Adicionando dados de esta√ß√µes meteorol√≥gicas...
‚úÖ Munic√≠pios tratados: 587
‚úÖ Munic√≠pios controle: 4983


In [None]:
# ADICIONAR POPULA√á√ÉO E PIB
print("\nüí∞ Adicionando dados socioecon√¥micos...")

# Renomear colunas de popula√ß√£o
df_pop_mun_renamed = df_pop_mun.rename(columns={'populacao': 'populacao_total'})

# Renomear colunas de PIB
df_pib_mun_renamed = df_pib_mun.rename(columns={
    'pib': 'pib_total',
    'va_agropecuaria': 'pib_agropecuario'
})

# Adicionar ao painel
painel = painel.merge(df_pop_mun_renamed, on=['ano', 'id_municipio'], how='left')
painel = painel.merge(df_pib_mun_renamed, on=['ano', 'id_municipio'], how='left')

# Calcular PIB per capita
# Usar .fillna(0) para tratar NAs na compara√ß√£o
mask_pop_valida = painel['populacao_total'].fillna(0) > 0
painel['pib_per_capita'] = np.where(
    mask_pop_valida,
    painel['pib_total'] / painel['populacao_total'],
    np.nan
)

print(f"‚úÖ Dados socioecon√¥micos adicionados")



üí∞ Adicionando dados socioecon√¥micos...


TypeError: boolean value of NA is ambiguous

In [29]:
# ADICIONAR PAM
print("\nüåæ Adicionando dados PAM das culturas irrigadas...")

# Adicionar ao painel
painel = painel.merge(df_pam_mun, on=['ano', 'id_municipio'], how='left')

# Preencher zeros onde n√£o h√° produ√ß√£o
pam_cols = [col for col in painel.columns if any(cultura in col for cultura in CULTURAS_IRRIGADAS_CORRIGIDO.values())]
for col in pam_cols:
    painel[col] = painel[col].fillna(0)

# Garantir que produtividade seja 0 onde n√£o h√° √°rea colhida
for cultura_id in CULTURAS_IRRIGADAS_CORRIGIDO.values():
    col_area = f'area_colhida_{cultura_id}'
    col_prod = f'produtividade_{cultura_id}'
    if col_area in painel.columns and col_prod in painel.columns:
        painel[col_prod] = np.where(painel[col_area] == 0, 0, painel[col_prod])

print(f"‚úÖ Dados PAM adicionados para {len(CULTURAS_IRRIGADAS_CORRIGIDO)} culturas irrigadas")
print(f"   Colunas de produtividade criadas:")
for cultura, cultura_id in CULTURAS_IRRIGADAS_CORRIGIDO.items():
    print(f"   - produtividade_{cultura_id}: {cultura}")



üåæ Adicionando dados PAM das culturas irrigadas...
‚úÖ Dados PAM adicionados para 5 culturas irrigadas
   Colunas de produtividade criadas:
   - produtividade_cana: Cana-de-a√ß√∫car
   - produtividade_arroz: Arroz (em casca)
   - produtividade_soja: Soja (em gr√£o)
   - produtividade_milho: Milho (em gr√£o)
   - produtividade_feijao: Feij√£o (em gr√£o)


In [30]:
# Remover observa√ß√µes com dados faltantes cr√≠ticos
print(f"\nüßπ Removendo observa√ß√µes com dados faltantes...")
print(f"   - Antes: {len(painel):,} observa√ß√µes")

# Remover onde n√£o temos popula√ß√£o ou PIB
painel_final = painel.dropna(subset=['populacao_total', 'pib_total'])

print(f"   - Ap√≥s remover NAs (popula√ß√£o/PIB): {len(painel_final):,} observa√ß√µes")
print(f"   - Removidas: {len(painel) - len(painel_final):,} observa√ß√µes ({(len(painel) - len(painel_final))/len(painel)*100:.1f}%)")



üßπ Removendo observa√ß√µes com dados faltantes...
   - Antes: 105,830 observa√ß√µes
   - Ap√≥s remover NAs (popula√ß√£o/PIB): 105,764 observa√ß√µes
   - Removidas: 66 observa√ß√µes (0.1%)


In [None]:
# Estat√≠sticas do dataset final
print("\nüìä ESTAT√çSTICAS DO DATASET FINAL")
print("=" * 50)
print(f"Granularidade: MUNICIPAL (com id_microrregiao)")
print(f"Per√≠odo: {ANOS[0]}-{ANOS[-1]}")
print(f"Culturas irrigadas inclu√≠das: {', '.join(CULTURAS_IRRIGADAS_CORRIGIDO.keys())}")
print(f"\nDimens√µes: {len(painel_final):,} observa√ß√µes √ó {len(painel_final.columns)} vari√°veis")
print(f"Munic√≠pios: {painel_final['id_municipio'].nunique():,}")
print(f"Microrregi√µes: {painel_final['id_microrregiao'].nunique():,}")
print(f"Estados: {painel_final['sigla_uf'].nunique()}")

print(f"\nüå°Ô∏è TRATAMENTO (Esta√ß√µes Meteorol√≥gicas):")
print(f"   - Munic√≠pios tratados: {painel_final[painel_final['tratado'] == 1]['id_municipio'].nunique():,}")
print(f"   - Munic√≠pios controle: {painel_final[painel_final['tratado'] == 0]['id_municipio'].nunique():,}")
print(f"   - Observa√ß√µes p√≥s-tratamento: {painel_final['pos_tratamento'].sum():,}")

print(f"\nüèôÔ∏è URBANIZA√á√ÉO:")
print(f"   - Munic√≠pios urbanos: {painel_final[painel_final['municipio_urbano'] == 1]['id_municipio'].nunique():,} ({painel_final[painel_final['municipio_urbano'] == 1]['id_municipio'].nunique() / painel_final['id_municipio'].nunique() * 100:.1f}%)")
print(f"   - Munic√≠pios rurais: {painel_final[painel_final['municipio_urbano'] == 0]['id_municipio'].nunique():,} ({painel_final[painel_final['municipio_urbano'] == 0]['id_municipio'].nunique() / painel_final['id_municipio'].nunique() * 100:.1f}%)")
print(f"   - % √°rea urbana m√©dio: {painel_final['pct_area_urbana'].mean():.1f}%")
print(f"   - % √°rea agropecu√°ria m√©dio: {painel_final['pct_area_agropecuaria'].mean():.1f}%")

print(f"\nüõ∞Ô∏è USO DA TERRA (MapBiomas - hectares):")
for col in area_cols:
    area_total = painel_final[col].sum()
    if area_total > 0:
        nome_categoria = col.replace('area_', '').replace('_', ' ').title()
        print(f"   - {nome_categoria}: {area_total:,.0f} ha total")

print(f"\nüíß PRODU√á√ÉO DAS CULTURAS IRRIGADAS (PAM):")
for cultura, cultura_id in CULTURAS_IRRIGADAS_CORRIGIDO.items():
    area_col = f'area_plantada_{cultura_id}'
    prod_col = f'quantidade_{cultura_id}'
    produtividade_col = f'produtividade_{cultura_id}'
    
    if area_col in painel_final.columns:
        produtores = (painel_final[area_col] > 0).sum()
        area_total = painel_final[area_col].sum()
        producao_total = painel_final[prod_col].sum()
        
        # Produtividade m√©dia apenas onde h√° produ√ß√£o
        mask_prod = painel_final[produtividade_col] > 0
        produtividade_media = painel_final[mask_prod][produtividade_col].mean() if mask_prod.any() else 0
        
        print(f"\n   üìå {cultura}:")
        print(f"      - Munic√≠pios produtores: {produtores:,}")
        print(f"      - √Årea plantada: {area_total:,.0f} ha")
        print(f"      - Produ√ß√£o: {producao_total:,.0f} ton")
        print(f"      - Produtividade m√©dia: {produtividade_media:,.1f} kg/ha")

print(f"\nüí∞ SOCIOECON√îMICO:")
print(f"   - Popula√ß√£o total: {painel_final.groupby('ano')['populacao_total'].sum().iloc[-1]:,.0f} (√∫ltimo ano)")
print(f"   - PIB per capita m√©dio: R$ {painel_final['pib_per_capita'].mean():,.2f}")
print(f"   - Participa√ß√£o agropecu√°ria no PIB: {(painel_final['pib_agropecuario'].sum() / painel_final['pib_total'].sum() * 100):.1f}%")



üìä ESTAT√çSTICAS DO DATASET FINAL
Granularidade: MUNICIPAL (com id_microrregiao)
Per√≠odo: 2003-2021
Culturas irrigadas inclu√≠das: Cana-de-a√ß√∫car, Arroz (em casca), Soja (em gr√£o), Milho (em gr√£o), Feij√£o (em gr√£o)

Dimens√µes: 105,764 observa√ß√µes √ó 52 vari√°veis
Munic√≠pios: 5,570
Microrregi√µes: 558
Estados: 27

üå°Ô∏è TRATAMENTO (Esta√ß√µes Meteorol√≥gicas):
   - Munic√≠pios tratados: 587
   - Munic√≠pios controle: 4,983
   - Observa√ß√µes p√≥s-tratamento: 7,601

üèôÔ∏è URBANIZA√á√ÉO:
   - Munic√≠pios urbanos: 0 (0.0%)
   - Munic√≠pios rurais: 5,570 (100.0%)
   - % √°rea urbana m√©dio: 0.0%
   - % √°rea agropecu√°ria m√©dio: 0.0%

üõ∞Ô∏è USO DA TERRA (MapBiomas - hectares):
   - Cafe: 192,696 ha total
   - Cana: 1,386,170 ha total
   - Citricos: 47,513 ha total
   - Outras Lavouras Temporarias: 1,664,227 ha total
   - Soja: 6,092,749 ha total
   - Total Ha: 135,134,243 ha total

üíß PRODU√á√ÉO DAS CULTURAS IRRIGADAS (PAM):

   üìå Cana-de-a√ß√∫car:
      - Munic√≠p

KeyError: 'pib_per_capita'

## 8. Exportar Dataset Final


In [None]:
# Organizar colunas na ordem desejada
cols_base = ['ano', 'id_municipio', 'id_microrregiao', 'sigla_uf', 'primeiro_ano_tratamento', 'tratado', 'pos_tratamento']
cols_socio = ['populacao_total', 'pib_total', 'pib_per_capita', 'pib_agropecuario']
cols_urbanizacao = ['area_total_ha', 'pct_area_agropecuaria', 'pct_area_urbana', 'razao_agropecuaria_urbana', 'municipio_urbano']
cols_mapbiomas = [col for col in painel_final.columns if col.startswith('area_') and col not in ['area_total_ha']]

# Colunas PAM organizadas por cultura
cols_pam = []
for cultura_id in CULTURAS_IRRIGADAS_CORRIGIDO.values():
    # Ordem: √°rea plantada, √°rea colhida, quantidade, produtividade, valor
    for prefixo in ['area_plantada', 'area_colhida', 'quantidade', 'produtividade', 'valor']:
        col = f'{prefixo}_{cultura_id}'
        if col in painel_final.columns:
            cols_pam.append(col)

# Remover coluna tempor√°ria se existir
if 'primeiro_ano_estacao' in painel_final.columns:
    painel_final = painel_final.drop('primeiro_ano_estacao', axis=1)

# Ordenar colunas
cols_order = cols_base + cols_socio + cols_urbanizacao + cols_pam + cols_mapbiomas
cols_final = [col for col in cols_order if col in painel_final.columns]
df_export = painel_final[cols_final].sort_values(['id_municipio', 'ano'])

# Nome do arquivo
timestamp = datetime.now().strftime('%Y%m%d')
filename = f'dataset_mapbiomas_municipio_culturas_irrigadas_{ANOS[0]}-{ANOS[-1]}_{timestamp}.csv'
filepath = f'data/{filename}'

# Salvar
df_export.to_csv(filepath, index=False)

print(f"\n‚úÖ DATASET EXPORTADO COM SUCESSO!")
print(f"üìÅ Arquivo: {filepath}")
print(f"üìè Tamanho: {os.path.getsize(filepath) / 1024 / 1024:.1f} MB")
print(f"üìä Dimens√µes: {len(df_export):,} √ó {len(df_export.columns)}")

# Mostrar amostra
print(f"\nüîç Amostra dos dados:")
df_export.head(10)



‚úÖ DATASET EXPORTADO COM SUCESSO!
üìÅ Arquivo: data/dataset_mapbiomas_microrregiao_Cana-de-a√ß√∫car_2003-2021_20250912.csv
üìè Tamanho: 1.6 MB
üìä Dimens√µes: 10,602 √ó 20

üîç Amostra dos dados:


Unnamed: 0,ano,id_microrregiao,sigla_uf,primeiro_ano_tratamento,tratado,pos_tratamento,pam_area_plantada,pam_area_colhida,pam_quantidade_produzida,pam_valor_producao,pam_produtividade,populacao_total,pib_total,pib_per_capita,pib_agropecuario,area_cafe,area_cana,area_citricos,area_outras_lavouras_temporarias,area_soja
0,2003,11001,RO,2007,1,0,82,82,5695.0,226.0,69.45122,448419,3173358000,7076.769718,170001000,0.0,0.0,0.0,2.514962,0.009672
1,2004,11001,RO,2007,1,0,99,99,6817.0,291.0,68.858586,497775,3885396000,7805.526593,175586000,0.0,0.0,0.0,4.568636,0.0
2,2005,11001,RO,2007,1,0,92,92,6111.0,271.0,66.423913,485002,4385122000,9041.451375,195425000,0.0,0.0,0.0,7.502846,0.791378
3,2006,11001,RO,2007,1,0,117,117,7645.0,440.0,65.34188,497936,4723308000,9485.773272,192598000,0.0,0.0,0.0,10.881466,0.806394
4,2007,11001,RO,2007,1,1,75,75,4657.0,318.0,62.093333,474532,5169521000,10893.935499,230175000,0.0,0.0,0.0,12.199082,0.086411
5,2008,11001,RO,2007,1,1,78,78,4576.0,327.0,58.666667,486884,6118513000,12566.675019,340318000,0.0,0.0,0.0,13.045108,0.036946
6,2009,11001,RO,2007,1,1,104,104,5827.0,233.0,56.028846,493445,7786946000,15780.778,367499000,0.0,0.0,0.0,18.187689,0.0
7,2010,11001,RO,2007,1,1,73,73,4088.0,163.0,56.0,540320,10298189000,19059.425896,426759000,0.0,0.0,0.0,20.663352,0.183904
8,2011,11001,RO,2007,1,1,47,47,2587.0,760.0,55.042553,550089,12509934000,22741.654532,508095000,0.0,0.0,0.0,22.798335,2.427921
9,2012,11001,RO,2007,1,1,0,0,0.0,0.0,0.0,559543,13425222000,23993.190872,633448000,0.0,0.0,0.0,22.28822,3.582765


In [None]:
# Salvar metadados
metadata = {
    'granularidade': 'municipal',
    'culturas_irrigadas': CULTURAS_IRRIGADAS_CORRIGIDO,
    'anos': f"{ANOS[0]}-{ANOS[-1]}",
    'n_observacoes': len(df_export),
    'n_municipios': df_export['id_municipio'].nunique(),
    'n_microrregions': df_export['id_microrregiao'].nunique(),
    'n_tratadas': df_export[df_export['tratado'] == 1]['id_municipio'].nunique(),
    'n_controle': df_export[df_export['tratado'] == 0]['id_municipio'].nunique(),
    'categorias_mapbiomas': list(CATEGORIAS_MAPBIOMAS.values()),
    'data_extracao': datetime.now().strftime('%Y-%m-%d %H:%M:%S')
}

# Salvar metadados em JSON
import json
metadata_file = filepath.replace('.csv', '_metadata.json')
with open(metadata_file, 'w', encoding='utf-8') as f:
    json.dump(metadata, f, ensure_ascii=False, indent=2)

print(f"\nüìù Metadados salvos: {metadata_file}")

# Salvar mapeamento geogr√°fico
mapping_file = 'output/mapeamento_municipio_microrregiao.csv'
df_municipios.to_csv(mapping_file, index=False)
print(f"üó∫Ô∏è Mapeamento salvo: {mapping_file}")


## 9. Dicion√°rio de Vari√°veis

Criar documenta√ß√£o detalhada de todas as vari√°veis do dataset:


In [None]:
# Criar dicion√°rio de vari√°veis do dataset
descricao_variaveis_list = [
    # Vari√°veis de identifica√ß√£o
    {'variavel': 'ano', 
     'descricao': 'Ano da observa√ß√£o', 
     'tipo': 'int', 
     'unidade': 'ano', 
     'fonte': 'Base dos Dados'},
    
    {'variavel': 'id_municipio', 
     'descricao': 'C√≥digo IBGE do munic√≠pio', 
     'tipo': 'string', 
     'unidade': 'c√≥digo IBGE', 
     'fonte': 'IBGE/Base dos Dados'},
    
    {'variavel': 'id_microrregiao', 
     'descricao': 'C√≥digo IBGE da microrregi√£o', 
     'tipo': 'string', 
     'unidade': 'c√≥digo IBGE', 
     'fonte': 'IBGE/Base dos Dados'},
    
    {'variavel': 'sigla_uf', 
     'descricao': 'Sigla da Unidade Federativa (estado)', 
     'tipo': 'string', 
     'unidade': 'sigla', 
     'fonte': 'IBGE/Base dos Dados'},
    
    # Vari√°veis de tratamento
    {'variavel': 'primeiro_ano_tratamento', 
     'descricao': 'Ano de instala√ß√£o da primeira esta√ß√£o meteorol√≥gica autom√°tica (0 = sem esta√ß√£o)', 
     'tipo': 'int', 
     'unidade': 'ano', 
     'fonte': 'INMET/Base dos Dados'},
    
    {'variavel': 'tratado', 
     'descricao': 'Indicador se o munic√≠pio possui esta√ß√£o meteorol√≥gica (1 = sim, 0 = n√£o)', 
     'tipo': 'int', 
     'unidade': 'bin√°rio', 
     'fonte': 'INMET/Base dos Dados'},
    
    {'variavel': 'pos_tratamento', 
     'descricao': 'Indicador se a observa√ß√£o √© ap√≥s instala√ß√£o da esta√ß√£o (1 = sim, 0 = n√£o)', 
     'tipo': 'int', 
     'unidade': 'bin√°rio', 
     'fonte': 'INMET/Base dos Dados'},
    
    # Vari√°veis socioecon√¥micas
    {'variavel': 'populacao_total', 
     'descricao': 'Popula√ß√£o total do munic√≠pio', 
     'tipo': 'float', 
     'unidade': 'habitantes', 
     'fonte': 'IBGE Popula√ß√£o/Base dos Dados'},
    
    {'variavel': 'pib_total', 
     'descricao': 'PIB total do munic√≠pio', 
     'tipo': 'float', 
     'unidade': 'reais', 
     'fonte': 'IBGE PIB Municipal/Base dos Dados'},
    
    {'variavel': 'pib_per_capita', 
     'descricao': 'PIB per capita do munic√≠pio (PIB/popula√ß√£o)', 
     'tipo': 'float', 
     'unidade': 'reais/habitante', 
     'fonte': 'IBGE PIB Municipal/Base dos Dados'},
    
    {'variavel': 'pib_agropecuario', 
     'descricao': 'Valor adicionado bruto da agropecu√°ria do munic√≠pio', 
     'tipo': 'float', 
     'unidade': 'reais', 
     'fonte': 'IBGE PIB Municipal/Base dos Dados'},
     
    # Vari√°veis de urbaniza√ß√£o
    {'variavel': 'area_total_ha', 
     'descricao': '√Årea total do munic√≠pio', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'IBGE/Base dos Dados'},
     
    {'variavel': 'pct_area_agropecuaria', 
     'descricao': 'Percentual da √°rea do munic√≠pio dedicado √† agropecu√°ria', 
     'tipo': 'float', 
     'unidade': 'percentual', 
     'fonte': 'MapBiomas/Base dos Dados (calculado)'},
     
    {'variavel': 'pct_area_urbana', 
     'descricao': 'Percentual da √°rea do munic√≠pio considerado urbano', 
     'tipo': 'float', 
     'unidade': 'percentual', 
     'fonte': 'MapBiomas/Base dos Dados (calculado)'},
     
    {'variavel': 'razao_agropecuaria_urbana', 
     'descricao': 'Raz√£o entre √°rea agropecu√°ria e √°rea urbana', 
     'tipo': 'float', 
     'unidade': 'raz√£o', 
     'fonte': 'MapBiomas/Base dos Dados (calculado)'},
     
    {'variavel': 'municipio_urbano', 
     'descricao': 'Indicador se munic√≠pio √© classificado como urbano (1 = urbano, 0 = rural)', 
     'tipo': 'int', 
     'unidade': 'bin√°rio', 
     'fonte': 'MapBiomas/Base dos Dados (calculado)'},
]

# Adicionar vari√°veis PAM para cada cultura irrigada
for cultura, cultura_id in CULTURAS_IRRIGADAS_CORRIGIDO.items():
    descricao_variaveis_list.extend([
        {'variavel': f'area_plantada_{cultura_id}', 
         'descricao': f'√Årea plantada de {cultura} segundo PAM', 
         'tipo': 'float', 
         'unidade': 'hectares', 
         'fonte': 'IBGE PAM/Base dos Dados'},
        
        {'variavel': f'area_colhida_{cultura_id}', 
         'descricao': f'√Årea colhida de {cultura} segundo PAM', 
         'tipo': 'float', 
         'unidade': 'hectares', 
         'fonte': 'IBGE PAM/Base dos Dados'},
        
        {'variavel': f'quantidade_{cultura_id}', 
         'descricao': f'Quantidade produzida de {cultura}', 
         'tipo': 'float', 
         'unidade': 'toneladas', 
         'fonte': 'IBGE PAM/Base dos Dados'},
        
        {'variavel': f'produtividade_{cultura_id}', 
         'descricao': f'Produtividade m√©dia de {cultura} (quantidade/√°rea colhida)', 
         'tipo': 'float', 
         'unidade': 'kg/hectare', 
         'fonte': 'IBGE PAM/Base dos Dados'},
        
        {'variavel': f'valor_{cultura_id}', 
         'descricao': f'Valor da produ√ß√£o de {cultura}', 
         'tipo': 'float', 
         'unidade': 'mil reais', 
         'fonte': 'IBGE PAM/Base dos Dados'},
    ])

# Adicionar vari√°veis MapBiomas
descricao_variaveis_list.extend([
    {'variavel': 'area_agropecuaria', 
     'descricao': '√Årea total dedicada √† agropecu√°ria (agricultura + pecu√°ria)', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'MapBiomas/Base dos Dados'},
     
    {'variavel': 'area_agricultura', 
     'descricao': '√Årea dedicada somente √† agricultura', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'MapBiomas/Base dos Dados'},
    
    {'variavel': 'area_lavoura_temporaria', 
     'descricao': '√Årea dedicada a lavouras tempor√°rias', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'MapBiomas/Base dos Dados'},
    
    {'variavel': 'area_soja', 
     'descricao': '√Årea dedicada ao cultivo de soja (MapBiomas)', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'MapBiomas/Base dos Dados'},
    
    {'variavel': 'area_cana', 
     'descricao': '√Årea dedicada ao cultivo de cana-de-a√ß√∫car (MapBiomas)', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'MapBiomas/Base dos Dados'},
    
    {'variavel': 'area_outras_lavouras_temporarias', 
     'descricao': '√Årea de outras lavouras tempor√°rias (exceto soja e cana)', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'MapBiomas/Base dos Dados'},
    
    {'variavel': 'area_cafe', 
     'descricao': '√Årea dedicada ao cultivo de caf√©', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'MapBiomas/Base dos Dados'},
    
    {'variavel': 'area_citricos', 
     'descricao': '√Årea dedicada ao cultivo de c√≠tricos', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'MapBiomas/Base dos Dados'},
     
    {'variavel': 'area_area_urbana', 
     'descricao': '√Årea urbana do munic√≠pio', 
     'tipo': 'float', 
     'unidade': 'hectares', 
     'fonte': 'MapBiomas/Base dos Dados'}
])

# Criar DataFrame
descricao_variaveis = pd.DataFrame(descricao_variaveis_list)

# Salvar dicion√°rio de vari√°veis
dict_file = filepath.replace('.csv', '_dicionario_variaveis.csv')
descricao_variaveis.to_csv(dict_file, index=False, encoding='utf-8-sig')

print(f"\nüìö DICION√ÅRIO DE VARI√ÅVEIS EXPORTADO!")
print(f"üìÅ Arquivo: {dict_file}")
print(f"üìä Total de vari√°veis descritas: {len(descricao_variaveis)}")

# Mostrar preview
print(f"\nüîç Preview do dicion√°rio:")
descricao_variaveis.head(15)



üìö DICION√ÅRIO DE VARI√ÅVEIS EXPORTADO!
üìÅ Arquivo: data/dataset_mapbiomas_microrregiao_Cana-de-a√ß√∫car_2003-2021_20250912_dicionario_variaveis.csv
üìä Total de vari√°veis descritas: 22

üîç Preview do dicion√°rio:


Unnamed: 0,variavel,descricao,tipo,unidade,fonte
0,ano,Ano da observa√ß√£o,int,ano,Base dos Dados
1,id_microrregiao,C√≥digo do(a) microrregiao,string,c√≥digo IBGE,IBGE/Base dos Dados
2,sigla_uf,Sigla da Unidade Federativa (estado),string,sigla,IBGE/Base dos Dados
3,primeiro_ano_tratamento,Ano de instala√ß√£o da primeira esta√ß√£o meteorol...,int,ano,INMET/Base dos Dados
4,tratado,Indicador se a unidade possui esta√ß√£o meteorol...,int,bin√°rio,INMET/Base dos Dados
5,pos_tratamento,Indicador se a observa√ß√£o √© ap√≥s instala√ß√£o da...,int,bin√°rio,INMET/Base dos Dados
6,pam_area_plantada,√Årea plantada de Cana-de-a√ß√∫car segundo PAM,float,hectares,IBGE PAM/Base dos Dados
7,pam_area_colhida,√Årea colhida de Cana-de-a√ß√∫car segundo PAM,float,hectares,IBGE PAM/Base dos Dados
8,pam_quantidade_produzida,Quantidade produzida de Cana-de-a√ß√∫car segundo...,float,toneladas,IBGE PAM/Base dos Dados
9,pam_produtividade,Produtividade m√©dia de Cana-de-a√ß√∫car (quantid...,float,kg/hectare,IBGE PAM/Base dos Dados


In [None]:
# Criar vers√£o em Markdown do dicion√°rio
culturas_str = ', '.join(CULTURAS_IRRIGADAS_CORRIGIDO.keys())

markdown_content = f"""# Dicion√°rio de Vari√°veis - Dataset MapBiomas com Culturas Irrigadas

**Dataset**: {filename}  
**Per√≠odo**: {ANOS[0]}-{ANOS[-1]}  
**Granularidade**: Municipal (com id_microrregiao para agrega√ß√£o flex√≠vel)  
**Culturas irrigadas**: {culturas_str}  
**Data de gera√ß√£o**: {datetime.now().strftime('%d/%m/%Y')}

## Descri√ß√£o das Vari√°veis

### 1. Vari√°veis de Identifica√ß√£o

- **ano**: Ano da observa√ß√£o (2003-2021)
- **id_municipio**: C√≥digo IBGE do munic√≠pio
- **id_microrregiao**: C√≥digo IBGE da microrregi√£o (para agrega√ß√£o flex√≠vel)
- **sigla_uf**: Sigla da Unidade Federativa (estado)

### 2. Vari√°veis de Tratamento (Esta√ß√µes Meteorol√≥gicas)

- **primeiro_ano_tratamento**: Ano de instala√ß√£o da primeira esta√ß√£o meteorol√≥gica autom√°tica no munic√≠pio. Valor 0 indica aus√™ncia de esta√ß√£o.
- **tratado**: Vari√°vel bin√°ria indicando se o munic√≠pio possui esta√ß√£o meteorol√≥gica (1 = sim, 0 = n√£o)
- **pos_tratamento**: Vari√°vel bin√°ria indicando se a observa√ß√£o ocorre ap√≥s a instala√ß√£o da esta√ß√£o (1 = sim, 0 = n√£o)

### 3. Vari√°veis Socioecon√¥micas

- **populacao_total**: Popula√ß√£o total do munic√≠pio (habitantes)
- **pib_total**: PIB total em reais correntes
- **pib_per_capita**: PIB per capita em reais/habitante
- **pib_agropecuario**: Valor adicionado bruto da agropecu√°ria em reais

### 4. Vari√°veis de Urbaniza√ß√£o

- **area_total_ha**: √Årea total do munic√≠pio em hectares
- **pct_area_agropecuaria**: Percentual da √°rea do munic√≠pio dedicado √† agropecu√°ria (%)
- **pct_area_urbana**: Percentual da √°rea do munic√≠pio considerado urbano (%)
- **razao_agropecuaria_urbana**: Raz√£o entre √°rea agropecu√°ria e √°rea urbana
- **municipio_urbano**: Classifica√ß√£o bin√°ria do munic√≠pio (1 = urbano, 0 = rural)
  - Munic√≠pio √© considerado urbano se: % √°rea urbana > 40% OU raz√£o agropecu√°ria/urbana < 1

### 5. Vari√°veis de Produ√ß√£o Agr√≠cola (PAM) - Culturas Irrigadas

Para cada uma das 5 culturas com maior uso de irriga√ß√£o no Brasil, s√£o inclu√≠das as seguintes vari√°veis:

"""

# Adicionar descri√ß√£o para cada cultura
for cultura, cultura_id in CULTURAS_IRRIGADAS_CORRIGIDO.items():
    markdown_content += f"""
#### {cultura}
- **area_plantada_{cultura_id}**: √Årea plantada em hectares
- **area_colhida_{cultura_id}**: √Årea colhida em hectares
- **quantidade_{cultura_id}**: Quantidade produzida em toneladas
- **produtividade_{cultura_id}**: Produtividade m√©dia em kg/hectare (quantidade/√°rea colhida)
- **valor_{cultura_id}**: Valor da produ√ß√£o em mil reais
"""

markdown_content += """
### 6. Vari√°veis de Uso da Terra (MapBiomas - Dados de Sat√©lite)

- **area_agropecuaria**: √Årea total dedicada √† agropecu√°ria (agricultura + pecu√°ria) (hectares)
- **area_agricultura**: √Årea dedicada somente √† agricultura (hectares)
- **area_lavoura_temporaria**: √Årea dedicada a lavouras tempor√°rias (hectares)
- **area_soja**: √Årea espec√≠fica de cultivo de soja (hectares)
- **area_cana**: √Årea espec√≠fica de cultivo de cana-de-a√ß√∫car (hectares)
- **area_outras_lavouras_temporarias**: √Årea de outras lavouras tempor√°rias excluindo soja e cana (hectares)
- **area_cafe**: √Årea espec√≠fica de cultivo de caf√© (hectares)
- **area_citricos**: √Årea espec√≠fica de cultivo de c√≠tricos (hectares)
- **area_area_urbana**: √Årea urbana do munic√≠pio (hectares)

## Notas Metodol√≥gicas

1. **Granularidade Municipal**: O dataset mant√©m o id_municipio como menor unidade de identifica√ß√£o, permitindo an√°lises detalhadas em n√≠vel municipal. O id_microrregiao √© inclu√≠do para permitir agrega√ß√µes flex√≠veis.

2. **Culturas Irrigadas**: As 5 culturas selecionadas representam as maiores √°reas irrigadas no Brasil:
   - Cana-de-a√ß√∫car: 1,7 milh√£o de hectares irrigados
   - Arroz: 1,1 milh√£o de hectares irrigados
   - Soja: 624 mil hectares irrigados
   - Milho: 559 mil hectares irrigados
   - Feij√£o: 195 mil hectares irrigados

3. **MapBiomas vs PAM**: Os dados do MapBiomas s√£o baseados em imagens de sat√©lite e tendem a ser mais precisos que os dados autodeclarados da PAM. Note que pode haver discrep√¢ncias entre √°reas reportadas pelo MapBiomas e pelo PAM.

4. **Produtividade**: A produtividade √© calculada como quantidade produzida dividida pela √°rea colhida. Valores zero indicam aus√™ncia de produ√ß√£o ou √°rea colhida.

5. **Valores faltantes**: 
   - Zeros indicam aus√™ncia real do fen√¥meno (ex: sem produ√ß√£o)
   - NAs foram removidos apenas para popula√ß√£o e PIB

6. **Tratamento**: O tratamento refere-se √† presen√ßa de esta√ß√µes meteorol√≥gicas autom√°ticas do INMET, que fornecem dados clim√°ticos mais precisos e frequentes.

7. **Classifica√ß√£o de Urbaniza√ß√£o**: A classifica√ß√£o de munic√≠pios como urbanos ou rurais √© baseada em dois crit√©rios:
   - √Årea urbana superior a 40% da √°rea total do munic√≠pio, OU
   - Raz√£o entre √°rea agropecu√°ria e √°rea urbana menor que 1 (√°rea urbana > √°rea agropecu√°ria)
   - Esta classifica√ß√£o usa dados de uso da terra do MapBiomas, que s√£o baseados em imagens de sat√©lite

## Fontes dos Dados

- **IBGE**: Popula√ß√£o, PIB Municipal, Produ√ß√£o Agr√≠cola Municipal (PAM)
- **INMET**: Esta√ß√µes meteorol√≥gicas
- **MapBiomas**: Cobertura e uso da terra
- **Base dos Dados**: Plataforma de acesso integrado aos dados

---
*Documento gerado automaticamente pelo notebook de extra√ß√£o de dados*
"""

# Salvar arquivo Markdown
md_file = filepath.replace('.csv', '_dicionario_variaveis.md')
with open(md_file, 'w', encoding='utf-8') as f:
    f.write(markdown_content)

print(f"\nüìù DICION√ÅRIO EM MARKDOWN EXPORTADO!")
print(f"üìÅ Arquivo: {md_file}")
print(f"\n‚úÖ Arquivos de documenta√ß√£o criados com sucesso!")
print("   - CSV com tabela de vari√°veis")
print("   - Markdown com descri√ß√£o detalhada")
print("   - JSON com metadados do dataset")
