# FIAP - Challenge ingredion – SPRINT 2 - Group 16

## 1 Introducao

### 1.1 Descricao

Este projeto desenvolve um modelo de aprendizado de máquina para previsão de produtividade agrícola na região de Manhuaçu (MG), substituindo métodos tradicionais de análise baseados em estimativas manuais e dados desconectados. Ao integrar imagens de satélite (índice de vegetação NDVI) e dados históricos de produção, o modelo identifica padrões sazonais e relações entre saúde vegetal e produtividade, gerando previsões precisas para auxiliar na tomada de decisões. A solução melhora a eficiência no planejamento agrícola, reduz perdas por fatores ambientais e otimiza a alocação de recursos, sendo adaptável a diferentes culturas e escalável para outras regiões.

### 1.2 Principais Benefícios
 - 🎯 Precisão: Combinação de dados espaciais e temporais para análises robustas
 - 💡 Decisão Informada: Alertas antecipados sobre variações de produtividade
 - 🌱 Sustentabilidade: Redução do uso insumos agrícolas através de previsões direcionadas
 - 📊 Acessível: Modelo leve e compatível com infraestrutura computacional limitada

### 1.3 Membros

 - Amandha Nery (RM560030) 
 - Bruno Conterato (RM561048)
 - Gustavo Castro (RM560831)
 - Kild Fernandes (RM560615)
 - Luis Emidio (RM559976)

# 2. Visão Geral do Projeto

### 2.1 Objetivos do Projeto

O objetivo principal deste projeto é desenvolver e validar um modelo de IA para previsão de produtividade agrícola na região de Manhuaçu (MG), integrando dados históricos de produção (IBGE) e séries temporais de NDVI (SATVEG/INPE). Busca-se:

### Alta Precisão Preditiva
 - Atingir um erro absoluto médio percentual (MAPE) inferior a 15% em dados de validação.
 - Identificar relações estatísticas entre variações do NDVI e produtividade agrícola.

### Automação de Análises:
 - Substituir análises manuais de séries temporais por um pipeline reprodutível.
 - Gerar alertas antecipados para anomalias sazonais.

### Comparação de Abordagens:
 - Avaliar o desempenho de algoritmos clássicos (Regressão Linear, Random Forest) e redes neurais.
 - Definir a arquitetura ideal para o contexto de dados agrícolas escassos.

### Base de Dados:
 - Dados de produção (1974–2023): IBGE/Tabela 1613
 - Série NDVI (2000–2023): SATVEG/INPE

# 2.2 Público-Alvo

### Beneficiários Diretos:
 - Cooperativas Agrícolas da Região de Manhuaçu (MG):
   - Planejamento de safras com base em previsões quantitativas.

   - Otimização de investimentos em insumos (fertilizantes, irrigação).

 - Produtores Rurais:
   - Acesso a métricas preditivas para tomada de decisão em cultivos perenes (café, frutíferas).

 - Beneficiários Indiretos:
   - Agências Governamentais (EMATER, CONAB):
   - Subsídios para políticas de segurança alimentar e gestão de riscos climáticos.
 - Pesquisadores em Agricultura Digital:
   - Framework replicável para estudos em outras culturas/regiões.

# 3. Metodologia

Este projeto adota uma metodologia baseada no CRISP-DM (Cross-Industry Standard Process for Data Mining), adaptada para problemas de séries temporais e aprendizado profundo. O fluxo abrange:

 - Definição do problema (previsão de produtividade agrícola) e identificação de requisitos com stakeholders.
 - Coleta de dados históricos (IBGE) e NDVI (SATVEG), análise exploratória e identificação de sazonalidades.
 - Normalização, codificação cíclica de datas e criação de janelas temporais (data_preprocessing.ipynb).
 - Treinamento comparativo de MLP e LSTM com PyTorch (prediction.ipynb).
 - Validação com métricas de erro (MSE) e análise qualitativa das previsões.
 - Futuro: Integração do modelo em sistemas de apoio à decisão para agricultores.

# 4 Sobre o Desenvolvimento

### 4.1 Tecnologias Utilizadas
 - Categoria	Ferramentas
 - Linguagem	Python 3.9+
 - Manipulação de Dados	Pandas, NumPy
 - Visualização	Matplotlib
 - Aprendizado Profundo	PyTorch
 - Pré-processamento	Scikit-learn (StandardScaler)
 - Ambiente	Jupyter Notebook, CUDA (GPU)

### 4.2 Modelagem e Algoritmos

Abordagens Implementadas

Foram desenvolvidas e comparadas duas arquiteturas de redes neurais profundas, cada uma com características específicas para o problema de previsão de produtividade agrícola:

MLP (Multilayer Perceptron)	Rede neural densa para capturar padrões não lineares.	- Camadas ocultas: 32 → 16 neurônios
 - Função de ativação: ReLU + Tanh amplificada
 - Janela temporal: 5 observações

LSTM (Long Short-Term Memory)	Rede recorrente para dependências temporais de longo prazo.	- Camadas LSTM: 2
 - Neurônios ocultos: 32
 - Janela temporal: 20 observações

Critério de Escolha:
 - MLP: Simplicidade e eficiência para padrões anuais.
 - LSTM: Capacidade de memorizar variações sazonais complexas.

# 5 Importando Bibliotecas

In [2]:
import pandas as pd

### 5.1 Explorando os dados e carregando o conjunto de dados

In [3]:
PRODUTIVITY_PATH = "../data/SIDRA/tabela1613.xlsx"
NDVI_PATH = "../data/SATVEG/satveg_planilha.xlsx"

### 5.2 Carregamento e Processamento de Dados de Produção Agrícola

Esta célula tem como objetivo processar dados brutos de produção agrícola (em toneladas) do município de Manhuaçu (MG), originalmente organizados em tabelas estáticas onde os anos aparecem como colunas e os municípios como linhas, transformando-os em uma série temporal padronizada. A conversão para quilogramas e a reorganização dos dados garantem um formato adequado para análises temporais integradas, além de tornar explícitas informações antes implícitas, como a relação entre colunas sem nomeação específica que representam anos. Essa padronização permite correlacionar os dados históricos de produção com séries de NDVI e outros indicadores agrícolas, o que é essencial para treinar modelos preditivos de produtividade com base em dados consistentes e normalizados.

In [4]:
prod_df = pd.read_excel(
    PRODUTIVITY_PATH,
    sheet_name="Quantidade produzida (Tonela..."
)
prod_df

prod_manhuacu = prod_df[prod_df["Tabela 1613 - Área destinada à colheita, área colhida, quantidade produzida, rendimento médio e valor da produção das lavouras permanentes"] == "Manhuaçu (MG)"]

year = 1974
rename_dict = {}
for i in range(50):
    col_num = i+1 
    rename_dict[f"Unnamed: {col_num}"] = year
    year += 1

prod_manhuacu = prod_manhuacu.rename(columns=rename_dict)
prod_manhuacu = prod_manhuacu.transpose()
prod_manhuacu = prod_manhuacu.reset_index()
prod_manhuacu = prod_manhuacu.iloc[1:, :]
prod_manhuacu.columns = ["Year", "Production (ton)"]
prod_manhuacu["Production (kg)"] = 1000 * prod_manhuacu["Production (ton)"]
prod_manhuacu = prod_manhuacu.drop(columns=["Production (ton)"])

prod_manhuacu.head()

Unnamed: 0,Year,Production (kg)
1,1974,4352000
2,1975,1308000
3,1976,2095000
4,1977,5250000
5,1978,5153000


### 5.3 Carregamento e Processamento de Dados de Produção Agrícola

Agora vamos processar os dados de área colhida em hectares do município de Manhuaçu (MG), convertendo uma tabela estática (com anos como colunas e municípios como linhas) em uma série temporal estruturada. A partir da planilha original do IBGE, são filtrados apenas os registros do município alvo, renomeadas as colunas não nomeadas (representando anos de 1974 a 2023) para valores explícitos, e reorganizada a estrutura dos dados por meio de transposição e ajustes de índice. O resultado final é um DataFrame limpo com as colunas "Year" e "Area (ha)", contendo a área cultivada anual em hectares, pronto para ser cruzado com os dados de produção e permitir o cálculo preciso da produtividade agrícola (kg/ha) ao longo do tempo.

In [5]:
area_df = pd.read_excel(
    PRODUTIVITY_PATH,
    sheet_name="Área colhida (Hectares)"
)

area_manhuacu = area_df[area_df["Tabela 1613 - Área destinada à colheita, área colhida, quantidade produzida, rendimento médio e valor da produção das lavouras permanentes"] == "Manhuaçu (MG)"]

year = 1974
rename_dict = {}
for i in range(50):
    col_num = i+1 
    rename_dict[f"Unnamed: {col_num}"] = year
    year += 1

area_manhuacu = area_manhuacu.rename(columns=rename_dict)
area_manhuacu = area_manhuacu.transpose()
area_manhuacu = area_manhuacu.reset_index()
area_manhuacu = area_manhuacu.iloc[1:, :]
area_manhuacu.columns = ["Year", "Area (ha)"]

area_manhuacu.head()

Unnamed: 0,Year,Area (ha)
1,1974,2176
2,1975,2180
3,1976,2538
4,1977,2625
5,1978,2931


### 5.4 Consolidação de Dados Agrícolas

Agora vamos criar um dataset unificado contendo produção agrícola (kg) e área cultivada (ha) por ano para Manhuaçu (MG), permitindo o cálculo da produtividade (kg/ha).

In [6]:
manhuacu_df = pd.merge(
    how="inner",
    left=prod_manhuacu,
    right=area_manhuacu,
    on="Year",
)
manhuacu_df.head()

Unnamed: 0,Year,Production (kg),Area (ha)
0,1974,4352000,2176
1,1975,1308000,2180
2,1976,2095000,2538
3,1977,5250000,2625
4,1978,5153000,2931


### 5.5 Cálculo de Produtividade Agrícola

Calcular a produtividade agrícola anual (kg/hectare) de Manhuaçu (MG) a partir dos dados consolidados de produção e área cultivada.

In [7]:
manhuacu_df["Productivity (kg/ha)"] = manhuacu_df["Production (kg)"] / manhuacu_df["Area (ha)"]
manhuacu_df.head()

Unnamed: 0,Year,Production (kg),Area (ha),Productivity (kg/ha)
0,1974,4352000,2176,2000.0
1,1975,1308000,2180,600.0
2,1976,2095000,2538,825.453113
3,1977,5250000,2625,2000.0
4,1978,5153000,2931,1758.103037


### 5.6 Exportação dos Dados Processados

Persistir o dataset consolidado de produtividade agrícola em formato CSV para uso em etapas posteriores do projeto.

In [8]:
manhuacu_df.to_csv(
    "../data/PROCESSED/manhuacu.csv",
    index=False,
)

### 5.7 Processamento de Dados de NDVI

Estruturar a série temporal de NDVI (Índice de Vegetação) para integração com os dados agrícolas, garantindo compatibilidade temporal e formato adequado para análise.

In [9]:
NDVI_df = pd.read_excel(
    NDVI_PATH,
    sheet_name="NDVI",
    skiprows=3
)

NDVI_df = NDVI_df.iloc[:, :2]
NDVI_df["Data"] = pd.to_datetime(NDVI_df["Data"], format="%d/%m/%Y")
NDVI_df = NDVI_df.sort_values(by="Data", ascending=True)
NDVI_df["Year"] = NDVI_df["Data"].dt.year

NDVI_df.to_csv(
    "../data/PROCESSED/ndvi.csv",
    index=False,
)

NDVI_df.head()

  warn("Workbook contains no default style, apply openpyxl's default")


Unnamed: 0,Data,NDVI,Year
0,2000-02-18,0.4925,2000
1,2000-03-05,0.7898,2000
2,2000-03-21,0.8125,2000
3,2000-04-06,0.7585,2000
4,2000-04-22,0.7437,2000
