# Relatório Técnico - Challenge Ingredion – SPRINT 3

## Correlação do Modelo de IA com Dados Reais de Produtividade Agrícola

**Projeto Ingredion – FIAP ON 2024 IA**

**Grupo:** Amandha Nery, Bruno Conterato, Gustavo Castro, Kild Fernandes, Luis Emidio  
**Data de Entrega:** 26/05/2025

---

### 1. Introdução

Este relatório documenta a SPRINT 3 do Challenge Ingredion, focada na validação do modelo de Inteligência Artificial (IA) desenvolvido na SPRINT 2. O objetivo principal é correlacionar as previsões de produtividade agrícola do modelo com dados reais históricos, avaliando sua confiabilidade e precisão. A cultura analisada foi a da produção agrícola em Manhuaçu (MG), buscando dados do IBGE.

### 2. Metodologia

A metodologia empregada envolveu as seguintes etapas:

#### 2.1. Coleta de Dados de Produtividade Histórica

A coleta de dados históricos de produtividade agrícola foi realizada através da pesquisa em bases de dados públicas, priorizando o **IBGE (Instituto Brasileiro de Geografia e Estatística)**, buscando os dados que representassem a mesma cultura (produção agrícola em Manhuaçu) e região analisada nas Sprints anteriores.

Os dados coletados incluíram:

*   Produtividade média (kg por hectare);
*   Área plantada (hectares);
*   Produção (kg);
*   Ano/safra dos dados (2000-2023);

#### 2.2. Tratamento e Preparação dos Dados

Os dados coletados foram organizados em tabelas comparáveis, utilizando a biblioteca Pandas do Python. Foram criadas colunas para a produtividade real, área plantada, produção total e o valor de NDVI médio correspondente (obtido nas Sprints anteriores). Os dados foram ajustados para a mesma escala temporal (safra anual) e inconsistências ou outliers foram corrigidos. Os datasets foram separados em amostras comparáveis, correspondentes aos anos de safra.

#### 2.3. Análise Estatística e Correlação

Para verificar a relação entre o NDVI médio e a produtividade real, foram aplicados os seguintes testes de correlação, utilizando as bibliotecas NumPy e SciPy do Python:

*   **Correlação de Spearman (não linear):** Devido à natureza não necessariamente linear da relação entre NDVI e produtividade, a correlação de Spearman foi utilizada.
*   **Regressão Linear:** Foi também realizada uma regressão linear simples, para melhor visualizar os dados e obter a equação de tendência e o coeficiente de determinação (R²).

Os resultados foram visualizados através de gráficos de dispersão (scatter plots) com linha de tendência e gráficos comparativos por safra.

### 3. Resultados e Discussão

#### 3.1. Análise Exploratória dos Dados

Antes da análise de correlação, realizamos uma análise exploratória dos dados (EDA) para identificar padrões, outliers e outras características relevantes. Essa análise incluiu a visualização da distribuição das variáveis, a identificação de valores faltantes e a análise de séries temporais.

#### 3.2. Correlação entre NDVI e Produtividade

Os resultados da correlação de Spearman indicaram uma **correlação moderada** entre o NDVI médio e a produtividade real.

Na análise da regressão linear, o coeficiente de determinação (R²) indicou que o modelo linear explica aproximadamente a variância da produtividade em função do NDVI.

#### 3.3. Fatores Externos Influenciadores

A análise revelou que fatores externos podem ter influenciado a produtividade, como eventos climáticos atípicos (secas, geadas, enchentes), a presença de pragas e doenças agrícolas, e a qualidade das imagens NDVI utilizadas.

### 4. Melhorias para o Modelo de IA

Com base nos resultados e na discussão, sugerimos as seguintes melhorias para o modelo de IA:

*   **Inclusão de novos tipos de dados:** Incorporar dados climáticos (precipitação, temperatura), dados de manejo (fertilização, irrigação) e dados de solo para aumentar a precisão do modelo.
*   **Ajuste do período de coleta de NDVI:** Realizar testes com diferentes períodos de coleta de NDVI para identificar o período mais relevante para a previsão da produtividade.
*   **Melhoria do tratamento de imagens:** Aplicar técnicas de pré-processamento mais robustas para remover ruídos e artefatos nas imagens NDVI, aumentando a qualidade dos dados de entrada.
*   **Aumento da granularidade dos dados:** A granularidade dos dados poderia ser melhorada através do aumento da área de cobertura da produção agrícola.

### 5. Limitações da Análise

A análise apresenta as seguintes limitações:

*   **Tamanho da amostra:** O tamanho da amostra de dados históricos pode ser considerado limitado, o que pode afetar a generalização dos resultados.
*   **Qualidade das bases de dados públicas:** A qualidade e a precisão das bases de dados públicas podem variar, o que pode introduzir erros na análise.
*   **Modelos estatísticos escolhidos:** Outros modelos estatísticos, como modelos não lineares ou modelos de séries temporais, podem ser mais adequados para analisar a relação entre NDVI e produtividade.

### 6. Conclusão

Este relatório apresentou a metodologia e os resultados da SPRINT 3 do Challenge Ingredion, focada na validação do modelo de IA para previsão de produtividade agrícola. A análise de correlação e regressão revelou uma correlação moderada entre o NDVI médio e a produtividade real, além de identificar fatores externos que podem influenciar a produtividade. As sugestões de melhorias para o modelo de IA visam aumentar sua precisão e robustez, permitindo a integração em sistemas de apoio à decisão agrícola.

### 7. Referências

*   IBGE (Instituto Brasileiro de Geografia e Estatística): [https://www.ibge.gov.br/](https://www.ibge.gov.br/)

### 8. Anexos

#### 8.1. Código-fonte no GitHub

O código-fonte utilizado para o tratamento dos dados, análise estatística e geração de gráficos está disponível no seguinte repositório GitHub:

[**🔗 Link do repositório no GitHub**](https://github.com/luisfuturist/ec-ingredion-3)

#### 8.2. Prints dos Principais Resultados

\[Inserir prints dos principais resultados obtidos nos notebooks Jupyter/Colab]
