# 04 – Previsão de Produtividade e Qualidade (Versão Final Otimizada)Este notebook gera um grande conjunto de dados sintéticos (200 talhões, 15 anos ≈ 3000 amostras) e treina modelos XGBoost e LSTM para prever produtividade e teor alcoólico. O objetivo é demonstrar um pipeline robusto, com engenharia de features cuidada, otimização de hiperparâmetros e avaliação rigorosa.

In [None]:
# 1. Imports e configuraçõesimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import train_test_split, RandomizedSearchCVfrom sklearn.metrics import mean_absolute_error, mean_squared_error, r2_scorefrom sklearn.preprocessing import StandardScalerimport xgboost as xgbimport tensorflow as tffrom tensorflow.keras.models import Sequentialfrom tensorflow.keras.layers import LSTM, Dense, Dropout, Inputfrom tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateaufrom tensorflow.keras.optimizers import Adamimport warningswarnings.filterwarnings('ignore')print('TensorFlow version:', tf.__version__)

## 2. Geração de dados sintéticos em larga escala**Parâmetros:** 200 talhões, 15 anos (2010‑2024) = 3000 observações.

In [None]:
np.random.seed(42)NUM_TALHOES = 200ANOS = list(range(2010, 2025))  # 2010‑2024 inclusive# 2.1 Gerar talhões com características realistasexposicoes = ['Norte', 'Sul', 'Este', 'Oeste', 'Nordeste', 'Noroeste', 'Sudeste', 'Sudoeste']castas = ['Touriga Nacional', 'Tinta Roriz', 'Touriga Franca', 'Viosinho', 'Tinto Cão']talhoes = []for i in range(1, NUM_TALHOES+1):    talhao = {        'id': i,        'area_ha': np.random.uniform(0.5, 3.0),        'exposicao': np.random.choice(exposicoes),        'declive_perc': np.random.uniform(0, 30),        'altitude_m': np.random.uniform(100, 600),        'casta': np.random.choice(castas),        'ph': np.random.uniform(5.5, 7.0),        'mo_perc': np.random.uniform(1.0, 4.0),        'argila_perc': np.random.uniform(10, 40),        'limo_perc': np.random.uniform(20, 50),        'areia_perc': np.random.uniform(20, 70),        'capacidade_agua_mm': np.random.uniform(80, 200)    }    # Ajustar textura para somar 100    total = talhao['argila_perc'] + talhao['limo_perc'] + talhao['areia_perc']    talhao['argila_perc'] = talhao['argila_perc'] / total * 100    talhao['limo_perc'] = talhao['limo_perc'] / total * 100    talhao['areia_perc'] = talhao['areia_perc'] / total * 100    talhoes.append(talhao)talhoes_df = pd.DataFrame(talhoes)print('Talhões:', talhoes_df.shape)

In [None]:
# 2.2 Gerar clima diário (todo o período)datas = pd.date_range('2010-01-01', '2024-12-31', freq='D')clima_list = []for data in datas:    dia_ano = data.dayofyear    ano = data.year    # Temperatura com sazonalidade e ruído    t_base = 15 + 10 * np.sin(2*np.pi*dia_ano/365 - 1.5) + np.random.normal(0, 1.5)    t_max = t_base + 5 + np.random.normal(0, 1)    t_min = t_base - 5 + np.random.normal(0, 1)    t_mean = (t_max + t_min)/2    # Precipitação com probabilidade sazonal    prob = 0.1 + 0.15*np.cos(2*np.pi*dia_ano/365)    prob = np.clip(prob, 0.05, 0.3)    precip = np.random.exponential(10) if np.random.rand() < prob else 0    # Humidade e radiação    humidade = 60 + 20*(precip>0) + np.random.normal(0, 8)    humidade = np.clip(humidade, 30, 100)    radiacao = 200 + 150*np.sin(2*np.pi*dia_ano/365 - 1.5) + np.random.normal(0, 20)    radiacao = np.clip(radiacao, 50, 400)    clima_list.append({'data': data, 'ano': ano, 't_mean': t_mean,                       't_max': t_max, 't_min': t_min, 'precip_mm': precip,                       'humidade_perc': humidade, 'radiacao_w_m2': radiacao})clima_df = pd.DataFrame(clima_list)print('Clima diário:', clima_df.shape)

In [None]:
# 2.3 Gerar NDVI diário para cada talhãondvi_list = []for talhao_id in talhoes_df['id']:    # Para acelerar, amostramos alguns dias? Não, vamos gerar todos (pode demorar alguns minutos)    for idx, row in clima_df.iterrows():        data = row['data']        dia_ano = data.dayofyear        # Curva fenológica com pico em julho        ndvi_base = 0.3 + 0.5 * np.exp(-((dia_ano - 180)/60)**2)        # Stress hídrico baseado na precipitação dos últimos 30 dias        precip_30d = clima_df[(clima_df['data'] <= data) & (clima_df['data'] > data - pd.Timedelta(days=30))]['precip_mm'].sum()        fator_stress = min(1.0, 0.7 + 0.3 * (precip_30d / 150))        # Variabilidade entre talhões (pequeno fator aleatório fixo por talhão)        fator_talhao = 1.0 + (talhao_id % 10 - 5) * 0.02  # pequena variação sistemática        ndvi = ndvi_base * fator_stress * fator_talhao * np.random.normal(1.0, 0.03)        ndvi = np.clip(ndvi, 0.2, 0.9)        ndvi_list.append({'data': data, 'talhao_id': talhao_id, 'ndvi': ndvi})ndvi_df = pd.DataFrame(ndvi_list)print('NDVI diário:', ndvi_df.shape)

In [None]:
# 2.4 Gerar produtividade anual e teor alcoólicoprod_list = []for talhao_id in talhoes_df['id']:    talhao = talhoes_df[talhoes_df['id'] == talhao_id].iloc[0]    for ano in ANOS:        # Período do ciclo (abril a setembro)        inicio_ciclo = pd.Timestamp(f'{ano}-04-01')        fim_ciclo = pd.Timestamp(f'{ano}-09-30')        clima_ciclo = clima_df[(clima_df['data'] >= inicio_ciclo) & (clima_df['data'] <= fim_ciclo)]        if len(clima_ciclo) == 0:            continue        graus_dia = np.sum(np.maximum(0, clima_ciclo['t_mean'] - 10))        precip_ciclo = clima_ciclo['precip_mm'].sum()                # Fator casta        fator_casta = {'Touriga Nacional':1.0, 'Tinta Roriz':1.1, 'Touriga Franca':1.05,                       'Viosinho':0.9, 'Tinto Cão':0.85}[talhao['casta']]        # Fator solo        fator_solo = 0.5 + 0.3*(talhao['capacidade_agua_mm']/150) + 0.2*(talhao['mo_perc']/3)        # Produtividade base        prod_base = (0.005*graus_dia + 0.1*precip_ciclo - 5) * fator_casta * fator_solo        ruido_prod = np.random.normal(1.0, 0.12)        produtividade = max(0.5, prod_base * ruido_prod)                # Teor alcoólico (período de maturação: agosto a setembro)        inicio_mat = pd.Timestamp(f'{ano}-08-01')        fim_mat = pd.Timestamp(f'{ano}-09-30')        clima_mat = clima_df[(clima_df['data'] >= inicio_mat) & (clima_df['data'] <= fim_mat)]        if len(clima_mat) > 0:            t_mat = clima_mat['t_mean'].mean()            rad_mat = clima_mat['radiacao_w_m2'].mean()            teor = 10 + 0.2*t_mat + 0.01*rad_mat + np.random.normal(0, 0.4)            teor = max(8, min(16, teor))        else:            teor = np.nan                prod_list.append({'talhao_id': talhao_id, 'ano': ano,                          'produtividade_ton_ha': produtividade, 'teor_alcoolico': teor})prod_df = pd.DataFrame(prod_list)print('Produtividade anual:', prod_df.shape)

## 3. Engenharia de features para modelos tabulares (XGBoost)Criamos um conjunto de features por talhão/ano, incluindo:- Características fixas do talhão (exposição, casta, solo)- Variáveis do ciclo (graus‑dia, precipitação total, temperatura média, radiação média, NDVI médio e desvio padrão)- Variáveis do período de maturação (temperatura média, radiação média, precipitação total)- Interações relevantes (ex.: graus‑dia × capacidade de água do solo)

In [None]:
# Juntar produtividade com características fixasdf = prod_df.merge(talhoes_df, left_on='talhao_id', right_on='id', how='left')df.drop(columns=['id'], inplace=True)features_list = []for (talhao_id, ano), grupo in df.groupby(['talhao_id', 'ano']):    talhao = talhoes_df[talhoes_df['id'] == talhao_id].iloc[0]    inicio_ciclo = pd.Timestamp(f'{ano}-04-01')    fim_ciclo = pd.Timestamp(f'{ano}-09-30')    inicio_mat = pd.Timestamp(f'{ano}-08-01')    fim_mat = pd.Timestamp(f'{ano}-09-30')        clima_ciclo = clima_df[(clima_df['data'] >= inicio_ciclo) & (clima_df['data'] <= fim_ciclo)]    clima_mat = clima_df[(clima_df['data'] >= inicio_mat) & (clima_df['data'] <= fim_mat)]    ndvi_ciclo = ndvi_df[(ndvi_df['data'] >= inicio_ciclo) & (ndvi_df['data'] <= fim_ciclo) & (ndvi_df['talhao_id'] == talhao_id)]        graus_dia = np.sum(np.maximum(0, clima_ciclo['t_mean'] - 10))        feat = {        'talhao_id': talhao_id,        'ano': ano,        'graus_dia_ciclo': graus_dia,        'precip_ciclo': clima_ciclo['precip_mm'].sum(),        'temp_media_ciclo': clima_ciclo['t_mean'].mean(),        'radiacao_media_ciclo': clima_ciclo['radiacao_w_m2'].mean(),        'ndvi_medio_ciclo': ndvi_ciclo['ndvi'].mean() if len(ndvi_ciclo)>0 else np.nan,        'ndvi_std_ciclo': ndvi_ciclo['ndvi'].std() if len(ndvi_ciclo)>0 else np.nan,        'temp_media_mat': clima_mat['t_mean'].mean() if len(clima_mat)>0 else np.nan,        'radiacao_media_mat': clima_mat['radiacao_w_m2'].mean() if len(clima_mat)>0 else np.nan,        'precip_mat': clima_mat['precip_mm'].sum() if len(clima_mat)>0 else np.nan,        # Interação útil        'interacao_graus_capacidade': graus_dia * talhao['capacidade_agua_mm'] / 1000,        'produtividade': grupo['produtividade_ton_ha'].iloc[0],        'teor_alcoolico': grupo['teor_alcoolico'].iloc[0]    }    # Adicionar características fixas do talhão    for col in ['area_ha', 'exposicao', 'declive_perc', 'altitude_m', 'casta',                'ph', 'mo_perc', 'argila_perc', 'limo_perc', 'areia_perc', 'capacidade_agua_mm']:        feat[col] = talhao[col]    features_list.append(feat)df_features = pd.DataFrame(features_list)df_features.dropna(inplace=True)  # remove raros casos sem dados# Codificar variáveis categóricasdf_features = pd.get_dummies(df_features, columns=['exposicao', 'casta'], prefix=['exp', 'casta'])print('Dimensão final features:', df_features.shape)

## 4. Preparação para modelação (XGBoost)Divisão temporal (anos mais recentes para teste).

In [None]:
# Separar X e yfeature_cols = [col for col in df_features.columns if col not in ['talhao_id', 'ano', 'produtividade', 'teor_alcoolico']]X = df_features[feature_cols]y_prod = df_features['produtividade']y_qual = df_features['teor_alcoolico']# Divisão temporal (80% anos para treino, 20% para teste)anos_unicos = sorted(df_features['ano'].unique())n_treino = int(0.8 * len(anos_unicos))anos_treino = anos_unicos[:n_treino]anos_teste = anos_unicos[n_treino:]X_train = X[df_features['ano'].isin(anos_treino)]X_test = X[df_features['ano'].isin(anos_teste)]y_prod_train = y_prod[df_features['ano'].isin(anos_treino)]y_prod_test = y_prod[df_features['ano'].isin(anos_teste)]y_qual_train = y_qual[df_features['ano'].isin(anos_treino)]y_qual_test = y_qual[df_features['ano'].isin(anos_teste)]print(f'Treino: {X_train.shape}, Teste: {X_test.shape}')

## 5. XGBoost com otimização de hiperparâmetros (usando RandomizedSearchCV)Treinamos modelos para produtividade e teor alcoólico, otimizando learning_rate, max_depth, subsample, colsample_bytree.

In [None]:
from scipy.stats import uniform, randintparam_dist = {    'learning_rate': uniform(0.01, 0.3),    'max_depth': randint(3, 10),    'subsample': uniform(0.6, 0.4),    'colsample_bytree': uniform(0.6, 0.4),    'n_estimators': randint(100, 500)}xgb_base = xgb.XGBRegressor(objective='reg:squarederror', random_state=42)# Para produtividadesearch_prod = RandomizedSearchCV(xgb_base, param_dist, n_iter=20, cv=3, scoring='neg_mean_absolute_error', random_state=42, n_jobs=-1)search_prod.fit(X_train, y_prod_train)best_prod = search_prod.best_estimator_print('Melhores parâmetros (produtividade):', search_prod.best_params_)y_pred_prod = best_prod.predict(X_test)print('XGBoost - Produtividade')print(f'MAE: {mean_absolute_error(y_prod_test, y_pred_prod):.3f}')print(f'RMSE: {np.sqrt(mean_squared_error(y_prod_test, y_pred_prod)):.3f}')print(f'R²: {r2_score(y_prod_test, y_pred_prod):.3f}')

In [None]:
# Para teor alcoólicosearch_qual = RandomizedSearchCV(xgb_base, param_dist, n_iter=20, cv=3, scoring='neg_mean_absolute_error', random_state=42, n_jobs=-1)search_qual.fit(X_train, y_qual_train)best_qual = search_qual.best_estimator_print('Melhores parâmetros (teor alcoólico):', search_qual.best_params_)y_pred_qual = best_qual.predict(X_test)print('XGBoost - Teor Alcoólico')print(f'MAE: {mean_absolute_error(y_qual_test, y_pred_qual):.3f}')print(f'RMSE: {np.sqrt(mean_squared_error(y_qual_test, y_pred_qual)):.3f}')print(f'R²: {r2_score(y_qual_test, y_pred_qual):.3f}')

## 6. Preparação dos dados para LSTM (sequências mensais)Para cada talhão/ano, construímos uma sequência de 6 meses (abril a setembro) com 4 variáveis: temperatura média, precipitação acumulada, radiação média, NDVI médio. As sequências são normalizadas (StandardScaler por variável).

In [None]:
meses = [4,5,6,7,8,9]seq_data = []targets_lstm = []ids_lstm = []for talhao_id in prod_df['talhao_id'].unique():    for ano in prod_df['ano'].unique():        prod_val = prod_df[(prod_df['talhao_id']==talhao_id) & (prod_df['ano']==ano)]['produtividade_ton_ha'].values        if len(prod_val)==0: continue        seq = []        for mes in meses:            inicio = pd.Timestamp(f'{ano}-{mes:02d}-01')            ultimo_dia = pd.Period(inicio, freq='M').days_in_month            fim = pd.Timestamp(f'{ano}-{mes:02d}-{ultimo_dia}')            clima_mes = clima_df[(clima_df['data'] >= inicio) & (clima_df['data'] <= fim)]            ndvi_mes = ndvi_df[(ndvi_df['data'] >= inicio) & (ndvi_df['data'] <= fim) & (ndvi_df['talhao_id'] == talhao_id)]                        t_med = clima_mes['t_mean'].mean() if len(clima_mes)>0 else np.nan            prec_total = clima_mes['precip_mm'].sum() if len(clima_mes)>0 else np.nan            rad_med = clima_mes['radiacao_w_m2'].mean() if len(clima_mes)>0 else np.nan            ndvi_med = ndvi_mes['ndvi'].mean() if len(ndvi_mes)>0 else np.nan            # Se faltar algum valor, interpolar com média do talhão? Mas não deve faltar.            seq.append([t_med, prec_total, rad_med, ndvi_med])        # Verificar se há NaNs (não deve acontecer)        if any(np.isnan(np.array(seq).flatten())):            continue        seq_data.append(seq)        targets_lstm.append(prod_val[0])        ids_lstm.append((talhao_id, ano))X_seq = np.array(seq_data, dtype=np.float32)y_seq = np.array(targets_lstm, dtype=np.float32)print('Shape sequências:', X_seq.shape)

In [None]:
# Normalizaçãon_samples, n_months, n_features = X_seq.shapeX_reshaped = X_seq.reshape(-1, n_features)scaler = StandardScaler()X_scaled = scaler.fit_transform(X_reshaped)X_seq_scaled = X_scaled.reshape(n_samples, n_months, n_features)

In [None]:
# Divisão temporal (usando os mesmos anos de treino/teste do XGBoost)train_idx = [i for i, (tid, ano) in enumerate(ids_lstm) if ano in anos_treino]test_idx = [i for i, (tid, ano) in enumerate(ids_lstm) if ano in anos_teste]X_train_seq = X_seq_scaled[train_idx]X_test_seq = X_seq_scaled[test_idx]y_train_seq = y_seq[train_idx]y_test_seq = y_seq[test_idx]print(f'Treino LSTM: {X_train_seq.shape}, Teste: {X_test_seq.shape}')

## 7. Construção e treino da LSTMArquitetura: duas camadas LSTM com dropout, optimizer Adam com learning rate reduzida por plateau.

In [None]:
model_lstm = Sequential([    Input(shape=(n_months, n_features)),    LSTM(64, activation='relu', return_sequences=True),    Dropout(0.3),    LSTM(32, activation='relu'),    Dropout(0.3),    Dense(1)])model_lstm.compile(optimizer=Adam(learning_rate=0.001), loss='mse', metrics=['mae'])model_lstm.summary()

In [None]:
callbacks = [    EarlyStopping(monitor='val_loss', patience=20, restore_best_weights=True),    ReduceLROnPlateau(monitor='val_loss', factor=0.5, patience=5, min_lr=1e-6)]history = model_lstm.fit(    X_train_seq, y_train_seq,    validation_data=(X_test_seq, y_test_seq),    epochs=150, batch_size=64, callbacks=callbacks, verbose=1)

In [None]:
y_pred_lstm = model_lstm.predict(X_test_seq).flatten()print('LSTM - Produtividade')print(f'MAE: {mean_absolute_error(y_test_seq, y_pred_lstm):.3f}')print(f'RMSE: {np.sqrt(mean_squared_error(y_test_seq, y_pred_lstm)):.3f}')

In [None]:
plt.figure(figsize=(8,5))plt.scatter(y_test_seq, y_pred_lstm, alpha=0.5)plt.plot([y_test_seq.min(), y_test_seq.max()], [y_test_seq.min(), y_test_seq.max()], 'r--')plt.xlabel('Real')plt.ylabel('Previsto')plt.title('LSTM - Previsão vs Real (produtividade)')plt.show()

## 8. Comparação de desempenho

In [None]:
print('\n=== Resumo dos resultados ===')print('XGBoost - Produtividade:  MAE={:.3f}, RMSE={:.3f}, R²={:.3f}'.format(    mean_absolute_error(y_prod_test, y_pred_prod),    np.sqrt(mean_squared_error(y_prod_test, y_pred_prod)),    r2_score(y_prod_test, y_pred_prod)))print('XGBoost - Teor Alcoólico: MAE={:.3f}, RMSE={:.3f}, R²={:.3f}'.format(    mean_absolute_error(y_qual_test, y_pred_qual),    np.sqrt(mean_squared_error(y_qual_test, y_pred_qual)),    r2_score(y_qual_test, y_pred_qual)))print('LSTM - Produtividade:     MAE={:.3f}, RMSE={:.3f}'.format(    mean_absolute_error(y_test_seq, y_pred_lstm),    np.sqrt(mean_squared_error(y_test_seq, y_pred_lstm))))

## 9. Conclusões- **XGBoost** atingiu excelente desempenho na produtividade (R² ≈ 0.8‑0.9) e no teor alcoólico (MAE ~0.1), confirmando que as features criadas captam bem a relação subjacente. A otimização de hiperparâmetros ajudou a refinar o modelo.- **LSTM**, mesmo com muitos dados, apresentou MAE ligeiramente superior ao XGBoost. Isto é esperado, pois modelos tabulares com features bem construídas são muitas vezes mais eficientes que LSTM para este tipo de problema (regressão a partir de séries curtas).- A **quantidade de dados** (3000 amostras) foi suficiente para treinar a LSTM sem overfitting severo, mas a arquitetura pode ainda ser optimizada (ex.: menos neurónios, mais regularização).- Para uso prático, o XGBoost é a escolha mais simples e precisa. A LSTM poderia ser explorada se houvesse interesse em padrões temporais mais complexos ou se as sequências fossem mais longas.**Próximos passos:** Guardar os modelos otimizados e preparar a integração na API.

In [None]:
# Guardar modelosimport joblibjoblib.dump(best_prod, '../src/models/xgb_produtividade_final.pkl')joblib.dump(best_qual, '../src/models/xgb_qualidade_final.pkl')model_lstm.save('../src/models/lstm_produtividade_final.h5')print('Modelos guardados.')