# Análise Exploratória e Modelagem

Este notebook documenta o pipeline de análise de produtividade do milho em Sidrolândia-MS com integração de NDVI.

---

In [ ]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error
import numpy as np


## 1. Carregar os dados processados

In [ ]:
df = pd.read_csv('../dados_processados/dataset_integrado_ndvi_produtividade.csv')
df

## 2. Análise Exploratória
### Correlação NDVI x Produtividade

In [ ]:
sns.scatterplot(data=df, x='Savitzky-Golay', y='Produtividade (ton/ha)', s=100)
plt.title('NDVI médio anual x Produtividade do Milho (Sidrolândia-MS)')
plt.xlabel('NDVI médio anual (suavizado)')
plt.ylabel('Produtividade (ton/ha)')
plt.grid(True)
plt.show()
# Correlação
corr = df['Savitzky-Golay'].corr(df['Produtividade (ton/ha)'])
print(f'Correlação de Pearson: {corr:.2f}')

## 3. Modelagem Preditiva (Regressão Linear)

In [ ]:
X = df[['Savitzky-Golay']].values
y = df['Produtividade (ton/ha)'].values
model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X)
r2 = r2_score(y, y_pred)
rmse = mean_squared_error(y, y_pred, squared=False)
print(f'R²: {r2:.2f} | RMSE: {rmse:.2f}')
# Plotar ajuste
plt.scatter(X, y, color='blue', label='Real')
plt.plot(X, y_pred, color='red', label='Regressão Linear')
plt.xlabel('NDVI médio anual (suavizado)')
plt.ylabel('Produtividade (ton/ha)')
plt.title('Regressão Linear: NDVI x Produtividade')
plt.legend()
plt.grid(True)
plt.show()

## 4. Conclusão
- O NDVI médio anual tem correlação com a produtividade do milho em Sidrolândia-MS.
- O modelo linear é um ponto de partida, mas pode ser melhorado com mais dados e variáveis climáticas.
- Para relatórios e apresentações, inclua os gráficos salvos em `resultados/`.