## Análise e Previsão de Produtividade de Culturas com Base em Clima e Tendências Técnicas

Objetivo: Investigar como fatores climáticos (chuva, temperatura média, extremos) e eventos técnicos (ex: introdução de sementes transgênicas ou novas práticas) influenciaram a produtividade das grandes culturas no Brasil nas últimas décadas.

Perguntas de negócio:

- Há uma correlação clara entre clima e produtividade?
- Quais culturas são mais sensíveis a extremos climáticos?
- Quando os saltos de produtividade ocorreram, houve relação com tecnologia ou clima favorável?

Fontes de dados:

- Produção agrícola por cultura e estado: IBGE – PAM
- Clima histórico: INMET (ou NOAA/ERA5 para dados globais diários)
- Eventos técnicos: você pode simular ou anotar marcos com base em artigos ou estudos (ex: “adoção de soja transgênica em 2005”)

Entregáveis:

- Dashboard exploratório com visualizações interativas por cultura, região, ano
- Análise descritiva e gráfica de correlações
- Mapa de calor ou gráfico de dispersão mostrando padrões regionais

In [2]:
import requests
import pandas as pd
import time
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import geopandas as gpd
from ipywidgets import widgets
from IPython.display import display
import plotly.graph_objects as go


In [3]:
import geobr
# Gerar dados geograficos para mapas
#municipalities = geobr.read_municipality()
#municipalities=municipalities.rename({"name_muni": "Municipio",'abbrev_state':"Estado"}, axis=1)
#municipalities['Muni_Estado'] = municipalities['Municipio'] + ' - ' + municipalities['Estado']

# Load and prepare data
regions = geobr.read_meso_region()
regions['Mesorregião'] = regions['name_meso'] + ' - ' + regions['abbrev_state']
regions = gpd.GeoDataFrame(regions[['Mesorregião','geometry']])

# Better simplification
regions['geometry'] = regions.simplify(tolerance=0.01, preserve_topology=False)

# Round coordinates to reduce precision (fewer decimal places)
regions = regions.round(3)

# Remove small polygons
min_area = 0.001  # Adjust based on your data
regions['geometry'] = regions.geometry.apply(
    lambda geom: geom if geom.area > min_area else None
)

# Save with optimized settings
#regions.to_file("meso_region.geojson", driver='GeoJSON', encoding='utf-8')
# Para criar mapas no Power BI
'''
import topojson
regions_dissolved = regions.dissolve(by='Mesorregião').reset_index()
regions_topo = topojson.Topology(regions_dissolved, prequantize=False)
with open("regions.topojson", "w") as f:
    f.write(regions_topo.to_json())
'''

'\nimport topojson\nregions_dissolved = regions.dissolve(by=\'Mesorregião\').reset_index()\nregions_topo = topojson.Topology(regions_dissolved, prequantize=False)\nwith open("regions.topojson", "w") as f:\n    f.write(regions_topo.to_json())\n'

Coleta e processamento de dados a nível de mesorregião

In [10]:
# Configurações
BASE_URL = 'https://apisidra.ibge.gov.br/values'
TABELA = '1612'  # Tabela de produção agrícola municipal
NIVEL = '8'      # Nível 8 = Mesorregião

# Produtos desejados (códigos da classificação 81)
PRODUTOS = ['2713', '2711', '2702', '2716', '2692', '2696']
PRODUTOS_NOMES = {
    '2713': 'Soja (em grão)',
    '2711': 'Milho (em grão)',
    '2702': 'Feijão (em grão)',
    '2716': 'Trigo (em grão)',
    '2692': 'Arroz (em casca)',
    '2696': 'Cana-de-açúcar',
    
}

# Função para obter dados de uma variável e produto específico para todas as mesorregiões
def obter_dados(produto, ano):
    # Usando a mesma estrutura de URL que foi comprovada como funcional
    url = f"{BASE_URL}/t/{TABELA}/n{NIVEL}/all/p/{ano}/c81/{produto}/f/u"
    print(f"Obtendo dados: produto={produto}, ano={ano}")
    print(f"URL: {url}")
    
    try:
        response = requests.get(url)
        if response.status_code == 200:
            data = response.json()
            if len(data) <= 1:  # Só tem o cabeçalho
                print(f"Sem dados para: produto={produto}, ano={ano}")
                return None
            
            # Converte para DataFrame
            df = pd.DataFrame(data[1:])  # Pula o cabeçalho
            
            print(f"Obtidos {len(df)} registros")
            return df
        else:
            print(f"Erro na requisição: {response.status_code}, {response.text}")
            return None
    except Exception as e:
        print(f"Erro ao obter dados: {str(e)}")
        return None


print("Iniciando coleta de dados da API do SIDRA/IBGE...")
# Lista para armazenar todos os dataframes
dataframes = []

# Para cada combinação de parâmetros
total_combinacoes = len(PRODUTOS) * (2023-1994)
combinacoes_processadas = 0

for ano in range(1994, 2024):
    for produto in PRODUTOS:
        # Adiciona um pequeno delay para evitar sobrecarregar a API
        time.sleep(0.3)
        
        df = obter_dados(produto, ano)
        if df is not None:
            dataframes.append(df)
        
        # Atualiza o progresso
        combinacoes_processadas += 1
        progresso = (combinacoes_processadas / total_combinacoes) * 100
        print(f"Progresso: {progresso:.1f}% ({combinacoes_processadas}/{total_combinacoes})")

# Verifica se obteve algum dado
if not dataframes:
    print("Nenhum dado foi obtido. Saindo.")

# Concatena todos os dataframes
print("Unindo todos os dados...")
resultado = pd.concat(dataframes, ignore_index=True)

# Salva o resultado em CSV
arquivo_saida = 'producao_agricola_mesorregiao.parquet'
resultado.to_parquet(arquivo_saida, index=False)
print(f"Dados salvos em: {arquivo_saida}")

print("Processamento concluído!")

Iniciando coleta de dados da API do SIDRA/IBGE...
Obtendo dados: produto=2713, ano=1994
URL: https://apisidra.ibge.gov.br/values/t/1612/n8/all/p/1994/c81/2713/f/u
Obtidos 685 registros
Progresso: -0.6% (1/-174)
Obtendo dados: produto=2711, ano=1994
URL: https://apisidra.ibge.gov.br/values/t/1612/n8/all/p/1994/c81/2711/f/u
Obtidos 685 registros
Progresso: -1.1% (2/-174)
Obtendo dados: produto=2702, ano=1994
URL: https://apisidra.ibge.gov.br/values/t/1612/n8/all/p/1994/c81/2702/f/u
Obtidos 685 registros
Progresso: -1.7% (3/-174)
Obtendo dados: produto=2716, ano=1994
URL: https://apisidra.ibge.gov.br/values/t/1612/n8/all/p/1994/c81/2716/f/u
Obtidos 685 registros
Progresso: -2.3% (4/-174)
Obtendo dados: produto=2692, ano=1994
URL: https://apisidra.ibge.gov.br/values/t/1612/n8/all/p/1994/c81/2692/f/u
Obtidos 685 registros
Progresso: -2.9% (5/-174)
Obtendo dados: produto=2696, ano=1994
URL: https://apisidra.ibge.gov.br/values/t/1612/n8/all/p/1994/c81/2696/f/u
Obtidos 685 registros
Progresso:

In [14]:
resultado = pd.read_parquet('producao_agricola_mesorregiao.parquet')

In [11]:
def processar_dados_mesorregiao_unificado(resultado, regions):
    """
    Processa dados agrícolas em nível de mesorregião em um único DataFrame consolidado.
    Elimina 'Área colhida' (pois é idêntico a Área Plantada), mantendo apenas os dados essenciais.
    """
    # Tipos que serão processados (removendo Área colhida)
    tipos_a_processar = ['Área plantada', 'Quantidade produzida', 'Rendimento médio da produção', 'Valor da produção']
    
    # Inicializar um dicionário para armazenar os DataFrames temporários
    dfs_temp = {}
    
    # Processar cada tipo de dado em um DataFrame temporário
    for tipo in tipos_a_processar:
        # Filtrar resultado pelo tipo atual
        df_temp = resultado[resultado['D4N'] == tipo].copy()
        
        # Converter e limpar valores
        df_temp.loc[:, 'V'] = df_temp['V'].replace(['...', '-', np.nan], 0)
        df_temp.loc[:, 'V'] = pd.to_numeric(df_temp['V'])
        df_temp.loc[:, 'D2N'] = pd.to_numeric(df_temp['D2N'])
        
        # Renomear colunas básicas
        df_temp = df_temp.rename(columns={
            'D2N': 'Ano',
            'D3N': 'Produto',
            'D1N': 'Mesorregião'
        })
        
        # Limpar nomes de produtos (remover texto entre parênteses)
        df_temp['Produto'] = df_temp['Produto'].apply(
            lambda x: x.split(' (')[0] if isinstance(x, str) and ' (' in x else x
        )
        
        # Definir o nome da coluna de valor baseado no tipo
        if tipo == 'Área plantada':
            novo_nome_valor = 'Area_Plantada_Hectares'
        elif tipo == 'Quantidade produzida':
            novo_nome_valor = 'Producao_Toneladas'
        elif tipo == 'Rendimento médio da produção':
            novo_nome_valor = 'Rendimento_KgPorHectare'
        elif tipo == 'Valor da produção':
            novo_nome_valor = 'Valor_Produzido_Mil_Reais'
        
        # Selecionar apenas as colunas necessárias
        df_temp = df_temp[['Mesorregião', 'Ano', 'Produto', 'V']]
        
        # Renomear a coluna de valor para o nome específico
        df_temp = df_temp.rename(columns={'V': novo_nome_valor})
        
        # Armazenar no dicionário
        dfs_temp[tipo] = df_temp
    
    # Mesclar os DataFrames usando as colunas de identificação como chaves
    # Começar com o primeiro DataFrame
    df_consolidado = dfs_temp[tipos_a_processar[0]]
    
    # Mesclar com os outros DataFrames
    for tipo in tipos_a_processar[1:]:
        df_consolidado = pd.merge(
            df_consolidado,
            dfs_temp[tipo],
            on=['Mesorregião', 'Ano', 'Produto'],
            how='outer'
        )
    
    # Preencher valores ausentes resultantes da mesclagem
    df_consolidado = df_consolidado.fillna(0)
    
    # Filtrar para manter apenas anos >= 1990 e com dados diferentes de 0
    #df_consolidado = df_consolidado[df_consolidado['Ano'] >= 1990]
    #df_consolidado = df_consolidado[~((df_consolidado['Area_Plantada_Hectares'] == 0) & (df_consolidado['Producao_Toneladas'] == 0) & (df_consolidado['Rendimento_KgPorHectare'] == 0))]
    
    # Remover os dados de Valor_Produzido_Reais de antes de 1994, pré-Real
    #df_consolidado.loc[df_consolidado['Ano'] < 1994, 'Valor_Produzido_Mil_Reais'] = 0
    
    # Salvar o DataFrame consolidado
    df_consolidado.to_parquet('dados_agricolas_mesorregiao.parquet', index=False)
    
    return df_consolidado

# Exemplo de uso:
df_consolidado = processar_dados_mesorregiao_unificado(resultado, regions)

  df_consolidado = df_consolidado.fillna(0)


In [None]:
df_consolidado = pd.read_parquet('dados_agricolas_mesorregiao.parquet')
df_consolidado.head(20)

Unnamed: 0,Mesorregião,Ano,Produto,Area_Plantada_Hectares,Producao_Toneladas,Rendimento_KgPorHectare,Valor_Produzido_Mil_Reais
0,Agreste Alagoano - AL,1994,Arroz,370,874,2362,140
1,Agreste Alagoano - AL,1994,Cana-de-açúcar,11020,539299,48938,9132
2,Agreste Alagoano - AL,1994,Feijão,32866,18194,553,9604
3,Agreste Alagoano - AL,1994,Milho,24417,15088,618,1855
4,Agreste Alagoano - AL,1994,Soja,0,0,0,0
5,Agreste Alagoano - AL,1994,Trigo,0,0,0,0
6,Agreste Alagoano - AL,1995,Arroz,265,617,2328,145
7,Agreste Alagoano - AL,1995,Cana-de-açúcar,11279,541014,47966,9998
8,Agreste Alagoano - AL,1995,Feijão,31841,18420,578,5727
9,Agreste Alagoano - AL,1995,Milho,23183,14774,637,2049


In [7]:
rendimento = df_consolidado[['Produto', 'Ano', 'Mesorregião', 'Rendimento_KgPorHectare']].copy()

# Create dropdown widgets only once and store them as global variables
region_dropdown = widgets.Dropdown(
    options=sorted(rendimento['Mesorregião'].unique()),
    description='Região:',
    style={'description_width': 'initial'}
)

rendimento = df_consolidado[['Produto', 'Ano', 'Mesorregião', 'Rendimento_KgPorHectare']].copy()

# Dicionário com anos e tipo de fenômeno
fenomenos_climaticos = {
    1990: 'El Niño',
    1991: 'El Niño',
    1992: 'El Niño',
    1993: 'Neutro',
    1994: 'El Niño',
    1995: 'La Niña',
    1996: 'La Niña',
    1997: 'El Niño',
    1998: 'La Niña',
    1999: 'La Niña',
    2000: 'La Niña',
    2001: 'Neutro',
    2002: 'El Niño',
    2003: 'Neutro',
    2004: 'El Niño',
    2005: 'Neutro',
    2006: 'El Niño',
    2007: 'La Niña',
    2008: 'La Niña',
    2009: 'El Niño',
    2010: 'La Niña',
    2011: 'La Niña',
    2012: 'La Niña',
    2013: 'Neutro',
    2014: 'Neutro',
    2015: 'El Niño',
    2016: 'El Niño',
    2017: 'Neutro',
    2018: 'El Niño',
    2019: 'Neutro',
    2020: 'La Niña',
    2021: 'La Niña',
    2022: 'La Niña'
}

# Cores para cada fenômeno
cores_fenomenos = {
    'El Niño': 'rgba(255, 100, 100, 0.2)',  # vermelho claro
    'La Niña': 'rgba(100, 100, 255, 0.2)',  # azul claro
    'Neutro': 'rgba(200, 200, 200, 0.2)'    # cinza claro
}

def update_plot(region):
    filtered_data = rendimento[rendimento['Mesorregião'] == region]

    fig = go.Figure()

    for produto in filtered_data['Produto'].unique():
        df_produto = filtered_data[filtered_data['Produto'] == produto]
        fig.add_trace(go.Scatter(
            x=df_produto['Ano'],
            y=df_produto['Rendimento_KgPorHectare'],
            mode='lines+markers',
            name=produto
        ))

    # Adiciona faixas coloridas no fundo para El Niño / La Niña / Neutro
    for ano, fenomeno in fenomenos_climaticos.items():
        fig.add_shape(
            type='rect',
            x0=ano - 0.5,  # início do ano
            x1=ano + 0.5,  # fim do ano
            y0=0,
            y1=1,
            xref='x',
            yref='paper',
            fillcolor=cores_fenomenos.get(fenomeno, 'rgba(0,0,0,0)'),
            layer='below',
            line_width=0
        )

    fig.update_layout(
        title=f'Rendimento anual em {region}',
        xaxis_title='Ano',
        yaxis_title='Rendimento (Kg/ha)',
        yaxis=dict(rangemode='tozero'),
        legend_title='Produto'
    )

    fig.show()

# Create the interactive plot without creating new dropdowns
interactive_plot = widgets.interactive(update_plot, region=region_dropdown)

# Display the interactive plot
display(interactive_plot)


interactive(children=(Dropdown(description='Região:', options=('Agreste Alagoano - AL', 'Agreste Paraibano - P…

In [14]:
# Group by Year and Product first, then get top 5 producers for each combination
ranking = df_consolidado[['Produto', 'Ano', 'Mesorregião', 'Producao_Toneladas']].copy()
ranking = ranking.rename(columns={'Producao_Toneladas': 'Produção'})

# Sort within each group and get top 5
ranking = (ranking.groupby(['Ano', 'Produto'])
          .apply(lambda x: x.nlargest(5, 'Produção'))
          .reset_index(drop=True))

# Sort by Product, Year for better visualization
ranking = ranking.sort_values(['Produto', 'Ano', 'Produção'], ascending=[True, True, False])
ranking = ranking.reset_index(drop=True)
ranking


  .apply(lambda x: x.nlargest(5, 'Produção'))


Unnamed: 0,Produto,Ano,Mesorregião,Produção
0,Arroz,1994,Sudoeste Rio-grandense - RS,1603202
1,Arroz,1994,Sudeste Rio-grandense - RS,1090318
2,Arroz,1994,Metropolitana de Porto Alegre - RS,837786
3,Arroz,1994,Norte Mato-grossense - MT,482526
4,Arroz,1994,Centro Ocidental Rio-grandense - RS,399959
...,...,...,...,...
895,Trigo,2023,Noroeste Rio-grandense - RS,1822408
896,Trigo,2023,Norte Central Paranaense - PR,711425
897,Trigo,2023,Sudoeste Paranaense - PR,592971
898,Trigo,2023,Centro Oriental Paranaense - PR,491083


In [15]:
rendimento_medio = rendimento.groupby(['Produto', 'Ano']).agg({'Rendimento_KgPorHectare': 'mean'}).reset_index()

def update_plot():
    fig = go.Figure()

    # Add lines for each product
    for produto in rendimento_medio['Produto'].unique():
        df_produto = rendimento_medio[rendimento_medio['Produto'] == produto]
        fig.add_trace(go.Scatter(
            x=df_produto['Ano'],
            y=df_produto['Rendimento_KgPorHectare'],
            mode='lines+markers',
            name=produto,
            line=dict(width=2),
            marker=dict(size=6)
        ))

    # Update layout with better formatting
    fig.update_layout(
        title=dict(
            text='Rendimento Médio das Culturas (1990-2022)',
            x=0.5,
            font=dict(size=20)
        ),
        xaxis=dict(
            title='Ano',
            gridcolor='lightgray',
            showgrid=True
        ),
        yaxis=dict(
            title='Rendimento (Kg/ha)',
            gridcolor='lightgray',
            showgrid=True,
            rangemode='tozero'
        ),
        legend=dict(
            title='Culturas',
            yanchor="top",
            y=0.99,
            xanchor="left",
            x=1.02
        ),
        showlegend=True,
        plot_bgcolor='white',
        hovermode='x unified',
        width=1000,
        height=600
    )

    fig.show()

# Create and display the interactive plot
interactive_plot = widgets.interactive(update_plot)
display(interactive_plot)


NameError: name 'rendimento' is not defined

In [None]:
df_consolidado[['Area_Plantada_Hectares', 'Rendimento_KgPorHectare', 'Valor_Produzido_Mil_Reais']].corr()

Unnamed: 0,Area_Plantada_Hectares,Rendimento_KgPorHectare,Valor_Produzido_Mil_Reais
Area_Plantada_Hectares,1.0,0.158059,0.757416
Rendimento_KgPorHectare,0.158059,1.0,0.1619
Valor_Produzido_Mil_Reais,0.757416,0.1619,1.0


In [16]:
#   - Coeficiente de variação do rendimento por cultura e região
df_consolidado[['Produto', 'Mesorregião', 'Rendimento_KgPorHectare']].groupby(['Produto', 'Mesorregião']).agg(
    Rendimento_Medio=('Rendimento_KgPorHectare', 'mean'),
    Rendimento_Desvio=('Rendimento_KgPorHectare', 'std')
).reset_index().assign(
    Coeficiente_Variacao=lambda x: x['Rendimento_Desvio'] / x['Rendimento_Medio'] * 100
).sort_values(['Produto', 'Coeficiente_Variacao'], ascending=[True, False]).reset_index(drop=True)

Unnamed: 0,Produto,Mesorregião,Rendimento_Medio,Rendimento_Desvio,Coeficiente_Variacao
0,Arroz,Leste Potiguar - RN,173.333333,659.641142,380.562198
1,Arroz,Mata Paraibana - PB,425.133333,1302.852407,306.457364
2,Arroz,Sertão Alagoano - AL,333.333333,864.364759,259.309428
3,Arroz,Metropolitana de São Paulo - SP,236.766667,498.638538,210.603353
4,Arroz,Mata Pernambucana - PE,368.866667,745.600371,202.132759
...,...,...,...,...,...
817,Trigo,Vale do Acre - AC,0.000000,0.000000,
818,Trigo,Vale do Juruá - AC,0.000000,0.000000,
819,Trigo,Vale do Mucuri - MG,0.000000,0.000000,
820,Trigo,Vale do Rio Doce - MG,0.000000,0.000000,


In [17]:
meteo = pd.read_csv('meteo.csv.gz', compression='gzip')

cod_muni = pd.read_csv('cod_muni.csv.gz', compression='gzip')
cod_muni['Mesorregião'] = cod_muni['nome_mesorregiao'] + ' - ' + cod_muni['sigla_uf']
cod_muni=cod_muni[['id_municipio', 'Mesorregião']]

meteo=meteo.merge(cod_muni, on='id_municipio', how='left')
meteo = meteo[['id_estacao', "Mesorregião"]]

Dados meteorológicos baixados do BDMEP através do BigQuery com a seguinte query para já agregar os dados (originalmente em hora) e reduzir o tamanho do arquivo


    SELECT
    ano,
    id_estacao,
    SUM(precipitacao_total) AS precipitacao_total_anual,
    AVG(radiacao_global) AS radiacao_global_media,
    AVG(temperatura_bulbo_hora) AS temperatura_bulbo_media,
    AVG(vento_velocidade) AS vento_velocidade_media

    FROM
      basedosdados.br_inmet_bdmep.microdados

    GROUP BY
      ano, id_estacao

    ORDER BY
      ano, id_estacao


In [18]:
dados_meteo = pd.read_csv('dados_meteo.csv').rename(columns={'ano': 'Ano'})
dados_meteo = dados_meteo.merge(meteo, on='id_estacao', how='left').drop(columns=['id_estacao'])


In [19]:
df_meteo = df_consolidado.merge(dados_meteo, on=['Mesorregião', 'Ano'], how='left')

In [20]:
df_meteo.columns

Index(['Mesorregião', 'Ano', 'Produto', 'Area_Plantada_Hectares',
       'Producao_Toneladas', 'Rendimento_KgPorHectare',
       'Valor_Produzido_Mil_Reais', 'precipitacao_total_anual',
       'radiacao_global_media', 'temperatura_bulbo_media',
       'vento_velocidade_media'],
      dtype='object')

In [22]:
df_meteo.corr(numeric_only=True)
df_meteo.to_parquet('dados_meteo.parquet', index=False)

Análises a se incluir no dashboard:

1. **Análise de tendências temporais**:
   - Gráficos de linha mostrando a evolução do rendimento médio de cada cultura ao longo do tempo
   - Identificação de pontos de inflexão (anos com mudanças significativas)

2. **Comparativos regionais**:
   - Ranking das mesorregiões mais produtivas para cada cultura
   - Mapas de calor mostrando a distribuição espacial da produtividade

3. **Correlações entre variáveis**:
   - Relação entre área plantada e rendimento (verificar se há economias de escala)
   - Correlação entre valor da produção e rendimento

4. **Análise de volatilidade**:
   - Coeficiente de variação do rendimento por cultura e região
   - Identificação das regiões e culturas mais estáveis/instáveis

5. **Taxonomia de mesorregiões**:
   - Agrupamento de regiões com padrões similares de produtividade
   - Classificação por perfil de culturas predominantes

6. **Séries temporais avançadas**:
   - Decomposição das séries (tendência, sazonalidade, resíduos)
   - Detecção de outliers e eventos extremos

7. **Indicadores de especialização regional**:
   - Índice de concentração para identificar especialização por cultura
   - Evolução da diversificação agrícola nas mesorregiões

8. **Visualizações interativas**:
   - Filtros por cultura, período e região
   - Animações mostrando mudanças espaciais ao longo do tempo

Estas análises fornecerão uma base sólida para, posteriormente, integrar os dados climáticos e identificar correlações com os padrões de produtividade.

In [2]:
df = pd.read_parquet('dados_meteo.parquet')