# Relatório Técnico – Sprint 3

## Correlação do Modelo com Dados Reais

**Projeto Ingredion – FIAP 2024**

**Grupo:** Amandha Nery, Bruno Conterato, Gustavo Castro, Kild Fernandes, Luis Emidio  
**Data de Entrega:** 26/05/2025

### 1\. Metodologia de Coleta de Dados Históricos

Nesta etapa, realizamos a coleta e o alinhamento de dados históricos para validar o desempenho do modelo preditivo desenvolvido na Sprint 2\.

A base mais relevante foi a **Tabela 1613 do IBGE SIDRA**, que permitiu extrair dados específicos sobre a cultura do café na região de **Manhuaçu-MG**, possibilitando a seleção das variáveis mais importantes: **produtividade média (kg/ha)** e **ano/safra**.

Para a variável **NDVI (Normalized Difference Vegetation Index)**, utilizamos o **Google Earth Engine (GEE)** para capturar e processar imagens de satélite da coleção MODIS. A extração e o cálculo do NDVI médio anual foram realizados com scripts desenvolvidos (conforme mostrado no notebook), garantindo a correspondência temporal com os dados do IBGE.

Foram feitos ajustes nas escalas temporais para alinhar os dados NDVI às médias anuais de produtividade. Uma limitação observada foi a **ausência de variáveis climáticas específicas**, que poderiam ter enriquecido a análise.

- Google Earth Engine (GEE)
- IBGE SIDRA

### 2\. Avaliação do Modelo com Dados Reais

Nesta seção, avaliamos o desempenho dos modelos preditivos utilizando dados reais de produtividade agrícola, com foco em métricas específicas que refletem a precisão preditiva do modelo.

Embora a Sprint 3 tenha inicialmente sugerido a aplicação de correlações simples (Spearman) para verificar a relação entre NDVI e produtividade real, decidimos priorizar métricas de avaliação preditiva. Essa escolha se justifica pelo fato de que:

* As correlações simples indicam apenas a associação entre duas variáveis, mas não medem a qualidade da previsão ponto a ponto do modelo.  
* As métricas **MAE (Erro Médio Absoluto)**, **RMSE (Raiz do Erro Quadrático Médio)** e **R² (Coeficiente de Determinação)** são mais adequadas para avaliar a capacidade real do modelo de prever valores, considerando erros e ajustes específicos.

Os resultados obtidos foram:

* **MLP:** R² \= 0.825, MAE \= 0.150, RMSE \= 0.210  
* **LSTM:** R² \= 0.702, MAE \= 0.195, RMSE \= 0.275

Esses resultados indicam que o modelo MLP apresentou melhor desempenho preditivo com os dados reais.

### 3\. Análise dos Gráficos

Esta seção reúne as representações gráficas que ilustram a comparação entre os modelos preditivos e os dados reais. As visualizações foram geradas com base nas análises do notebook e ajudam a compreender o comportamento dos modelos em relação à produtividade real observada.

#### **Gráficos relativos aos dados de teste:**

Gráfico 1 – NDVI x Produtividade Real (dados de teste)

[INSERT GRÁFICO 1]

* Mostra a correlação visual entre a variável NDVI e a produtividade real nos dados de teste.  
* *Análise:* Observa-se uma boa correspondência geral entre os valores previstos e os dados reais nos períodos de teste. O modelo suaviza variações abruptas, revelando limitações na sensibilidade a mudanças súbitas.

Gráfico 2 – Previsão MLP x Dados Reais (dados de teste)

[INSERT GRÁFICO 2]

* Apresenta as previsões do MLP e a variação em relação à produção real nos dados de teste.  
* *Análise:* O MLP apresenta previsões mais suaves, capturando a tendência geral da produção, mas com dificuldade em modelar oscilações rápidas.

#### **Gráficos relativos a todos os dados:**

**Gráfico 3 – Previsão LSTM x Dados Reais (todos os dados)**  

[INSERT GRÁFICO 3]

* Mostra o desempenho do LSTM com a série temporal completa.  
* *Análise:* O LSTM demonstra maior sensibilidade a transições e oscilações temporais (como em 2008), embora com maior ruído em certos trechos.

**Gráfico 4 – Comparativo LSTM, MLP e Dados Reais (todos os dados)**

[INSERT GRÁFICO 4]

* Sobrepõe previsões dos dois modelos e os dados reais.  
* ***Análise**:* O MLP apresenta melhor desempenho geral, segundo as métricas, enquanto o LSTM destaca-se por capturar melhor variações bruscas. A comparação evidencia os pontos fortes e limitações de cada abordagem.

#### Conclusão geral da análise visual:

* O **MLP** é mais robusto para prever tendências de longo prazo, mas com menor sensibilidade a picos e vales.  
* O **LSTM** é mais responsivo a variações pontuais, mas sofre com instabilidade e ruídos.  
* Transições abruptas, como a de 2008, ilustram desafios reais na modelagem preditiva agrícola e reforçam a necessidade de variáveis complementares.  

### 4\. Discussão Crítica e Sugestões

Esta seção resume os principais resultados, discute limitações observadas e propõe melhorias para futuras iterações do projeto.

* **Conclusão:** O modelo MLP apresentou melhor ajuste aos dados reais, sugerindo boa capacidade do NDVI para prever a produtividade agrícola.  
* **Limitações:** Tamanho reduzido da amostra, variabilidade nos dados reais, ausência de variáveis climáticas específicas e possíveis defasagens temporais entre NDVI e produtividade.  
* **Sugestões de melhorias:**  
  * Incluir variáveis climáticas (precipitação, temperatura  
  * Aperfeiçoar o pré-processamento e suavização do NDVI  
  * Testar modelos híbridos (ex: CNN-LSTM) ou com múltiplas entradas;  
  * Avaliar janelas temporais mais curtas e correlações defasadas.  
* **Aplicabilidade prática:** Os resultados sugerem que o uso de dados de sensoriamento remoto, como o NDVI, tem potencial para antecipar a produtividade agrícola e apoiar decisões estratégicas no campo.

### 5\. Referências

* **IBGE – SIDRA – Tabela 1613 – Produção Agrícola Municipal**  
* **Google Earth Engine – Coleção MODIS NDVI para dados de vegetação**

### 6\. Repositório do Projeto

**O código-fonte, os notebooks e os dados utilizados neste projeto estão disponíveis no repositório oficial no GitHub:**

[**🔗 Link do repositório no GitHub**](https://github.com/luisfuturist/ec-ingredion-3)