In [None]:
# =============================================================================
# 02_data_preparation.ipynb
# =============================================================================
# FarmTech Solutions - An√°lise de Rendimento de Safra
# EDA Completa: An√°lise Explorat√≥ria dos Dados
# Vers√£o: 1.0
# =============================================================================

## üìä Objetivo da Prepara√ß√£o de Dados

### Contexto Espec√≠fico do Projeto FarmTech Solutions

**Situa√ß√£o Atual:**
Este notebook realiza a **Prepara√ß√£o de Dados** como segunda etapa do projeto FarmTech Solutions, desenvolvido para a **Fase 5 do curso de Intelig√™ncia Artificial da FIAP**. Com base nas descobertas da EDA, preparamos os dados para as etapas subsequentes de clustering e modelagem preditiva.

**Descobertas da EDA que Orientam a Prepara√ß√£o:**
- **Yield bimodal por cultura**: Oil palm (~175k), Rice (~32k), Cocoa/Rubber (~8k)
- **Vari√°veis ambientais id√™nticas**: Mesmas condi√ß√µes clim√°ticas para todas as culturas
- **Correla√ß√µes ambientais**: Precipita√ß√£o ‚Üî Umidade (0.749), Temperatura ‚Üî Umidade espec√≠fica (0.699), Temperatura ‚Üî Umidade Relativa (-0.337)

- **Aus√™ncia de correla√ß√£o linear**: Vari√°veis ambientais n√£o se correlacionam linearmente com Yield
- **Dados de qualidade**: 0 valores faltantes, 0 duplicatas, tipos adequados

**Dataset Espec√≠fico:**
- **156 registros** de 4 culturas (Cocoa, Oil palm fruit, Rice paddy, Rubber)
- **6 vari√°veis**: Crop, Precipitation, Specific Humidity, Relative Humidity, Temperature, Yield
- **Vari√°vel alvo**: Yield (rendimento em toneladas/hectare)

### Metodologia e Objetivos

**Abordagem Metodol√≥gica:**
Seguimos uma progress√£o sistem√°tica baseada nas descobertas da EDA:

1. **An√°lise de Outliers**: Valida√ß√£o cr√≠tica dos valores extremos identificados na EDA
2. **Feature Engineering**: Cria√ß√£o de vari√°veis derivadas para capturar rela√ß√µes n√£o-lineares
3. **Encoding**: Transforma√ß√£o da vari√°vel categ√≥rica 'Crop' para algoritmos de ML
4. **Normaliza√ß√£o**: Padroniza√ß√£o para algoritmos sens√≠veis √† escala

**Justificativa das Decis√µes T√©cnicas:**
- **An√°lise de Outliers**: EDA identificou 12 outliers em Temperature e 35 em Yield - necess√°rio validar se s√£o reais ou falsos positivos
- **Feature Engineering**: Criar intera√ß√µes entre vari√°veis ambientais correlacionadas para capturar padr√µes n√£o-lineares
- **One-Hot Encoding**: Vari√°vel 'Crop' √© categ√≥rica e crucial para prever Yield
- **StandardScaler**: Necess√°rio para algoritmos como SVM, Neural Networks, K-means

**Processo de Descoberta:**
Abordagem baseada em evid√™ncias da EDA. Cada transforma√ß√£o √© justificada pelas descobertas da an√°lise explorat√≥ria anterior.

## 1. üöÄ Setup e Imports

### Bibliotecas e Configura√ß√µes

**Bibliotecas Essenciais:**
- **pandas & numpy**: Manipula√ß√£o e opera√ß√µes num√©ricas para dataset agr√≠cola (156 registros)
- **scikit-learn**: Transforma√ß√µes de dados (StandardScaler, LabelEncoder, SelectKBest)
- **matplotlib & seaborn**: Visualiza√ß√µes para valida√ß√£o das transforma√ß√µes

**Justificativa das Decis√µes:**
- **StandardScaler**: Normalizar features preditoras (Precipitation, Temperature, Humidity) para algoritmos sens√≠veis √† escala
- **Yield mantido original**: Vari√°vel alvo n√£o deve ser normalizada
- **LabelEncoder**: Alternativa ao One-Hot Encoding para vari√°vel 'Crop'
- **SelectKBest**: Sele√ß√£o de features baseada em testes estat√≠sticos

**Conex√£o com EDA:**
As bibliotecas selecionadas atendem √†s necessidades identificadas na an√°lise explorat√≥ria: normaliza√ß√£o para alta variabilidade, encoding para vari√°vel categ√≥rica crucial, e visualiza√ß√µes para validar transforma√ß√µes.

In [3]:
# =============================================================================
# SETUP E IMPORTS
# =============================================================================

# Importar bibliotecas essenciais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.feature_selection import SelectKBest, f_regression

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('default')
sns.set_palette("husl")

print("üîß Setup da prepara√ß√£o de dados conclu√≠do!")
print("‚úÖ Bibliotecas importadas com sucesso!")

üîß Setup da prepara√ß√£o de dados conclu√≠do!
‚úÖ Bibliotecas importadas com sucesso!


## 2.1 üì• Carregamento e Verifica√ß√£o Inicial

### Objetivo da Se√ß√£o
Realizar verifica√ß√£o sistem√°tica dos dados para identificar:
- **Integridade**: Valores faltantes, duplicatas e inconsist√™ncias
- **Qualidade**: Tipos de dados e ranges de valores
- **Consist√™ncia**: Valores dentro de limites esperados
- **Base**: Prepara√ß√£o para pr√≥ximas etapas de limpeza

### Estrat√©gia de Verifica√ß√£o:
- **An√°lise de valores faltantes**: Identificar e quantificar dados ausentes
- **Verifica√ß√£o de duplicatas**: Detectar observa√ß√µes repetidas
- **An√°lise de tipos**: Confirmar tipos corretos de dados
- **Verifica√ß√£o de ranges**: Validar limites m√≠nimos e m√°ximos

In [4]:
# =============================================================================
# CARREGAMENTO E VERIFICA√á√ÉO INICIAL DOS DADOS
# =============================================================================

print("üìä Carregando dados para prepara√ß√£o...")

# Carregar dados
df = pd.read_csv('../data/raw/crop_yield.csv')

print(f"‚úÖ Dataset carregado: {df.shape[0]} registros, {df.shape[1]} vari√°veis")

# Verifica√ß√£o de integridade
print("\nüîç VERIFICA√á√ÉO DE INTEGRIDADE:")
print(f"   ‚Üí Valores faltantes: {df.isnull().sum().sum()}")
print(f"   ‚Üí Duplicatas: {df.duplicated().sum()}")
print(f"   ‚Üí Tipos de dados: {df.dtypes.to_dict()}")

# Verifica√ß√£o de consist√™ncia
print("\nüìä VERIFICA√á√ÉO DE CONSIST√äNCIA:")
for col in df.select_dtypes(include=[np.number]).columns:
    print(f"   ‚Üí {col}: {df[col].min():.2f} a {df[col].max():.2f}")

print("‚úÖ Verifica√ß√£o inicial conclu√≠da!")

üìä Carregando dados para prepara√ß√£o...
‚úÖ Dataset carregado: 156 registros, 6 vari√°veis

üîç VERIFICA√á√ÉO DE INTEGRIDADE:
   ‚Üí Valores faltantes: 0
   ‚Üí Duplicatas: 0
   ‚Üí Tipos de dados: {'Crop': dtype('O'), 'Precipitation (mm day-1)': dtype('float64'), 'Specific Humidity at 2 Meters (g/kg)': dtype('float64'), 'Relative Humidity at 2 Meters (%)': dtype('float64'), 'Temperature at 2 Meters (C)': dtype('float64'), 'Yield': dtype('int64')}

üìä VERIFICA√á√ÉO DE CONSIST√äNCIA:
   ‚Üí Precipitation (mm day-1): 1934.62 a 3085.79
   ‚Üí Specific Humidity at 2 Meters (g/kg): 17.54 a 18.70
   ‚Üí Relative Humidity at 2 Meters (%): 82.11 a 86.10
   ‚Üí Temperature at 2 Meters (C): 25.56 a 26.81
   ‚Üí Yield: 5249.00 a 203399.00
‚úÖ Verifica√ß√£o inicial conclu√≠da!


## 2.2 üîç An√°lise de Outliers

### Contexto e Justificativa

**Descobertas da EDA que Orientam a An√°lise:**
A EDA identificou outliers potenciais em duas vari√°veis cr√≠ticas:
- **Temperature**: 12 outliers detectados pelo m√©todo IQR
- **Yield**: 35 outliers detectados pelo m√©todo IQR

**Problema Espec√≠fico:**
Necess√°rio validar se esses outliers s√£o:
- **Valores reais** representando condi√ß√µes clim√°ticas excepcionais
- **Falsos positivos** devido √† natureza bimodal do Yield por cultura
- **Erros de coleta** que podem comprometer a modelagem

**Impacto na Modelagem:**
Outliers podem distorcer algoritmos sens√≠veis (SVM, Neural Networks) e afetar a precis√£o preditiva do sistema FarmTech Solutions.

### Metodologia e Estrat√©gia

**Abordagem Metodol√≥gica:**
Seguimos uma estrat√©gia sistem√°tica para valida√ß√£o cr√≠tica:

1. **M√©todo IQR**: Detec√ß√£o baseada em quartis (Q1 - 1.5√óIQR, Q3 + 1.5√óIQR)
2. **M√©todo Z-Score**: Detec√ß√£o baseada em desvios padr√£o (|z| > 3)
3. **An√°lise contextual**: Considerar significado agr√≠cola dos valores extremos
4. **Decis√£o baseada em evid√™ncias**: N√£o remover automaticamente, analisar contexto

**Justificativa das Decis√µes T√©cnicas:**
- **Dois m√©todos diferentes**: Validar consist√™ncia entre abordagens estat√≠sticas
- **An√°lise contextual**: Yield bimodal pode gerar falsos positivos (Oil palm vs outras culturas)
- **Decis√£o inteligente**: Manter dados valiosos ao inv√©s de remo√ß√£o autom√°tica
- **Foco em agricultura**: Considerar se outliers representam condi√ß√µes clim√°ticas excepcionais

**Objetivos Espec√≠ficos:**
- Validar se outliers em Temperature representam condi√ß√µes clim√°ticas excepcionais
- Determinar se outliers em Yield s√£o resultado da distribui√ß√£o bimodal por cultura
- Decidir estrat√©gia de tratamento baseada em evid√™ncias estat√≠sticas e contexto agr√≠cola

In [5]:
# =============================================================================
# AN√ÅLISE DE OUTLIERS - DETEC√á√ÉO E AN√ÅLISE
# =============================================================================

print("üîç Iniciando an√°lise de outliers...")

# Selecionar vari√°veis num√©ricas
numeric_vars = ['Precipitation (mm day-1)', 'Specific Humidity at 2 Meters (g/kg)',
                'Relative Humidity at 2 Meters (%)', 'Temperature at 2 Meters (C)', 'Yield']

# M√©todo IQR para detec√ß√£o de outliers
outliers_iqr = {}
outliers_zscore = {}

for var in numeric_vars:
    # M√©todo IQR
    Q1 = df[var].quantile(0.25)
    Q3 = df[var].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers_iqr[var] = df[(df[var] < lower_bound) | (df[var] > upper_bound)]
    
    # M√©todo Z-Score
    z_scores = np.abs((df[var] - df[var].mean()) / df[var].std())
    outliers_zscore[var] = df[z_scores > 3]
    
    print(f"\nüìä {var}:")
    print(f"   ‚Üí Outliers (IQR): {len(outliers_iqr[var])} ({len(outliers_iqr[var])/len(df)*100:.1f}%)")
    print(f"   ‚Üí Outliers (Z-Score): {len(outliers_zscore[var])} ({len(outliers_zscore[var])/len(df)*100:.1f}%)")
    print(f"   ‚Üí Limites IQR: {lower_bound:.2f} a {upper_bound:.2f}")

print("‚úÖ An√°lise de outliers conclu√≠da!")

üîç Iniciando an√°lise de outliers...

üìä Precipitation (mm day-1):
   ‚Üí Outliers (IQR): 0 (0.0%)
   ‚Üí Outliers (Z-Score): 0 (0.0%)
   ‚Üí Limites IQR: 1680.35 a 3340.72

üìä Specific Humidity at 2 Meters (g/kg):
   ‚Üí Outliers (IQR): 0 (0.0%)
   ‚Üí Outliers (Z-Score): 0 (0.0%)
   ‚Üí Limites IQR: 17.48 a 18.95

üìä Relative Humidity at 2 Meters (%):
   ‚Üí Outliers (IQR): 0 (0.0%)
   ‚Üí Outliers (Z-Score): 0 (0.0%)
   ‚Üí Limites IQR: 82.03 a 87.59

üìä Temperature at 2 Meters (C):
   ‚Üí Outliers (IQR): 12 (7.7%)
   ‚Üí Outliers (Z-Score): 0 (0.0%)
   ‚Üí Limites IQR: 25.60 a 26.72

üìä Yield:
   ‚Üí Outliers (IQR): 35 (22.4%)
   ‚Üí Outliers (Z-Score): 0 (0.0%)
   ‚Üí Limites IQR: -80458.75 a 156305.25
‚úÖ An√°lise de outliers conclu√≠da!


In [8]:
# =============================================================================
# RESULTADOS DA AN√ÅLISE DE OUTLIERS
# =============================================================================

print("\n" + "="*60)
print("üìä RESULTADOS DA AN√ÅLISE DE OUTLIERS")
print("="*60)

print("üîç COMPARA√á√ÉO DOS M√âTODOS:")
print("   ‚Üí Precipitation: 0 outliers (ambos os m√©todos)")
print("   ‚Üí Specific Humidity: 0 outliers (ambos os m√©todos)")
print("   ‚Üí Relative Humidity: 0 outliers (ambos os m√©todos)")
print("   ‚Üí Temperature: 12 outliers (IQR) vs 0 outliers (Z-Score)")
print("   ‚Üí Yield: 35 outliers (IQR) vs 0 outliers (Z-Score)")

print("\nüìä AN√ÅLISE CR√çTICA:")
print("   ‚ö†Ô∏è Discord√¢ncia entre m√©todos para Temperature e Yield")
print("   ‚Üí IQR: Muito conservador, range muito estreito")
print("   ‚Üí Z-Score: Mais realista, baseado em distribui√ß√£o normal")
print("   ‚Üí Limite negativo em Yield: Matematicamente imposs√≠vel")

print("\nüåæ CONTEXTO AGR√çCOLA:")
print("   ‚úÖ Yield bimodal: Caracter√≠stica natural (Oil palm vs outros)")
print("   ‚úÖ Temperature: Varia√ß√£o normal para agricultura tropical")
print("   ‚úÖ Varia√ß√µes ambientais: Dentro de ranges esperados")

print("\nüí° DECIS√ÉO ESTRAT√âGICA:")
print("   ‚Üí N√ÉO remover outliers baseado em Z-Score (0 outliers)")
print("   ‚Üí Manter todos os dados como informa√ß√£o valiosa")
print("   ‚Üí Focar em feature engineering para capturar padr√µes")

print("‚úÖ Resultados da an√°lise de outliers conclu√≠dos!")


üìä RESULTADOS DA AN√ÅLISE DE OUTLIERS
üîç COMPARA√á√ÉO DOS M√âTODOS:
   ‚Üí Precipitation: 0 outliers (ambos os m√©todos)
   ‚Üí Specific Humidity: 0 outliers (ambos os m√©todos)
   ‚Üí Relative Humidity: 0 outliers (ambos os m√©todos)
   ‚Üí Temperature: 12 outliers (IQR) vs 0 outliers (Z-Score)
   ‚Üí Yield: 35 outliers (IQR) vs 0 outliers (Z-Score)

üìä AN√ÅLISE CR√çTICA:
   ‚ö†Ô∏è Discord√¢ncia entre m√©todos para Temperature e Yield
   ‚Üí IQR: Muito conservador, range muito estreito
   ‚Üí Z-Score: Mais realista, baseado em distribui√ß√£o normal
   ‚Üí Limite negativo em Yield: Matematicamente imposs√≠vel

üåæ CONTEXTO AGR√çCOLA:
   ‚úÖ Yield bimodal: Caracter√≠stica natural (Oil palm vs outros)
   ‚úÖ Temperature: Varia√ß√£o normal para agricultura tropical
   ‚úÖ Varia√ß√µes ambientais: Dentro de ranges esperados

üí° DECIS√ÉO ESTRAT√âGICA:
   ‚Üí N√ÉO remover outliers baseado em Z-Score (0 outliers)
   ‚Üí Manter todos os dados como informa√ß√£o valiosa
   ‚Üí Focar em 

## 2.3 üîß Feature Engineering

### Contexto e Justificativa

**Descobertas da EDA que Orientam o Feature Engineering:**
A an√°lise explorat√≥ria revelou padr√µes que justificam a cria√ß√£o de features derivadas:

1. **Correla√ß√µes ambientais identificadas**:
   - Precipita√ß√£o ‚Üî Umidade Relativa: 0.749 (forte correla√ß√£o)
   - Temperatura ‚Üî Umidade Espec√≠fica: 0.699 (forte correla√ß√£o)
   - Temperatura ‚Üî Umidade Relativa: -0.337 (correla√ß√£o fraca negativa)

2. **Aus√™ncia de correla√ß√£o linear com Yield**:
   - Vari√°veis ambientais individuais n√£o se correlacionam com rendimento
   - Necessidade de capturar rela√ß√µes n√£o-lineares e intera√ß√µes

3. **Distribui√ß√£o bimodal do Yield**:
   - Oil palm (~175k) vs outras culturas (~8-32k)
   - Poss√≠vel exist√™ncia de rela√ß√µes complexas entre vari√°veis ambientais

**Problema Espec√≠fico:**
Algoritmos de ML podem n√£o capturar automaticamente:
- Intera√ß√µes entre vari√°veis correlacionadas
- Rela√ß√µes n√£o-lineares entre vari√°veis ambientais e Yield
- Padr√µes complexos que n√£o s√£o √≥bvios nas vari√°veis originais

### Metodologia e Estrat√©gia

**Abordagem Metodol√≥gica:**
Seguimos uma estrat√©gia baseada em conhecimento do dom√≠nio agr√≠cola e evid√™ncias da EDA:

**1. Intera√ß√µes Ambientais:**
- **Temperature √ó Relative Humidity**: Capturar efeito combinado de calor e umidade
- **Precipitation √ó Temperature**: Relacionar chuva com condi√ß√µes t√©rmicas
- **Specific √ó Relative Humidity**: Combinar diferentes medidas de umidade

**2. √çndices Clim√°ticos:**
- **Thermal Comfort**: √çndice de conforto t√©rmico para culturas
- **Effective Humidity**: Umidade efetiva para crescimento vegetal
- **Growth Conditions**: Condi√ß√µes combinadas para desenvolvimento agr√≠cola

**3. Transforma√ß√µes:**
- **Log Precipitation**: Normalizar distribui√ß√£o assim√©trica da precipita√ß√£o
- **Temperature¬≤**: Capturar rela√ß√µes quadr√°ticas com temperatura
- **Humidity¬≤**: Capturar rela√ß√µes quadr√°ticas com umidade

**Justificativa das Decis√µes T√©cnicas:**
- **Intera√ß√µes**: Baseadas nas correla√ß√µes identificadas na EDA
- **√çndices**: Combinam vari√°veis correlacionadas em m√©tricas agr√≠colas significativas
- **Transforma√ß√µes**: Capturam rela√ß√µes n√£o-lineares sugeridas pela aus√™ncia de correla√ß√£o linear
- **Polin√¥mios**: Permitem algoritmos capturarem rela√ß√µes quadr√°ticas

**Objetivos Espec√≠ficos:**
- Criar features que capturem intera√ß√µes entre vari√°veis ambientais correlacionadas
- Desenvolver √≠ndices com significado agr√≠cola para melhorar interpretabilidade
- Transformar vari√°veis para capturar rela√ß√µes n√£o-lineares com Yield
- Preparar dataset com features derivadas para algoritmos de ML

In [9]:
# =============================================================================
# FEATURE ENGINEERING - CRIA√á√ÉO DE VARI√ÅVEIS DERIVADAS
# =============================================================================

print("üîß Iniciando Feature Engineering...")

# Backup dos dados originais
df_original = df.copy()

# 1. INTERA√á√ïES AMBIENTAIS
print("\nüìä 1. Criando intera√ß√µes ambientais...")

# Temperature √ó Relative Humidity (intera√ß√£o clim√°tica)
df['temp_humidity_interaction'] = df['Temperature at 2 Meters (C)'] * df['Relative Humidity at 2 Meters (%)']

# Precipitation √ó Temperature (condi√ß√µes de crescimento)
df['precip_temp_ratio'] = df['Precipitation (mm day-1)'] / (df['Temperature at 2 Meters (C)'] + 1)

# Specific √ó Relative Humidity (umidade combinada)
df['humidity_combined'] = df['Specific Humidity at 2 Meters (g/kg)'] * df['Relative Humidity at 2 Meters (%)'] / 100

print("   ‚úÖ Intera√ß√µes ambientais criadas")

# 2. √çNDICES CLIM√ÅTICOS
print("\nüå°Ô∏è 2. Criando √≠ndices clim√°ticos...")

# √çndice de conforto t√©rmico
df['thermal_comfort'] = 0.5 * (df['Temperature at 2 Meters (C)'] + df['Relative Humidity at 2 Meters (%)'])

# √çndice de umidade efetiva
df['effective_humidity'] = df['Specific Humidity at 2 Meters (g/kg)'] * df['Relative Humidity at 2 Meters (%)'] / 100

# √çndice de condi√ß√µes de crescimento
df['growth_conditions'] = (df['Precipitation (mm day-1)'] * df['Relative Humidity at 2 Meters (%)']) / (df['Temperature at 2 Meters (C)'] + 1)

print("   ‚úÖ √çndices clim√°ticos criados")

# 3. TRANSFORMA√á√ïES
print("\nüìà 3. Criando transforma√ß√µes...")

# Logaritmo para distribui√ß√µes assim√©tricas
df['log_precipitation'] = np.log(df['Precipitation (mm day-1)'] + 1)

# Polin√¥mios para rela√ß√µes n√£o lineares
df['temperature_squared'] = df['Temperature at 2 Meters (C)'] ** 2
df['humidity_squared'] = df['Relative Humidity at 2 Meters (%)'] ** 2

print("   ‚úÖ Transforma√ß√µes criadas")

# 4. RESUMO DAS FEATURES CRIADAS
print("\nüìã RESUMO DAS FEATURES:")
print(f"   ‚Üí Features originais: {len(df_original.columns)}")
print(f"   ‚Üí Features criadas: {len(df.columns) - len(df_original.columns)}")
print(f"   ‚Üí Total de features: {len(df.columns)}")

# Listar novas features
new_features = [col for col in df.columns if col not in df_original.columns]
print(f"\nüÜï Novas features criadas:")
for i, feature in enumerate(new_features, 1):
    print(f"   {i}. {feature}")

print("‚úÖ Feature Engineering conclu√≠do!")

üîß Iniciando Feature Engineering...

üìä 1. Criando intera√ß√µes ambientais...
   ‚úÖ Intera√ß√µes ambientais criadas

üå°Ô∏è 2. Criando √≠ndices clim√°ticos...
   ‚úÖ √çndices clim√°ticos criados

üìà 3. Criando transforma√ß√µes...
   ‚úÖ Transforma√ß√µes criadas

üìã RESUMO DAS FEATURES:
   ‚Üí Features originais: 6
   ‚Üí Features criadas: 9
   ‚Üí Total de features: 15

üÜï Novas features criadas:
   1. temp_humidity_interaction
   2. precip_temp_ratio
   3. humidity_combined
   4. thermal_comfort
   5. effective_humidity
   6. growth_conditions
   7. log_precipitation
   8. temperature_squared
   9. humidity_squared
‚úÖ Feature Engineering conclu√≠do!


In [10]:
# =============================================================================
# RESULTADOS DO FEATURE ENGINEERING
# =============================================================================

print("\n" + "="*60)
print("üîß RESULTADOS DO FEATURE ENGINEERING")
print("="*60)

print("üìä FEATURES CRIADAS:")
print(f"   ‚Üí Features originais: {len(df_original.columns)}")
print(f"   ‚Üí Features criadas: {len(df.columns) - len(df_original.columns)}")
print(f"   ‚Üí Total de features: {len(df.columns)}")

print("\nüÜï NOVAS FEATURES:")
new_features = [col for col in df.columns if col not in df_original.columns]
for i, feature in enumerate(new_features, 1):
    print(f"   {i}. {feature}")

print("\nüìà ESTAT√çSTICAS DAS NOVAS FEATURES:")
for feature in new_features:
    print(f"   ‚Üí {feature}:")
    print(f"     M√©dia: {df[feature].mean():.2f}")
    print(f"     Desvio: {df[feature].std():.2f}")
    print(f"     Min: {df[feature].min():.2f}")
    print(f"     Max: {df[feature].max():.2f}")

print("‚úÖ Resultados do Feature Engineering conclu√≠dos!")


üîß RESULTADOS DO FEATURE ENGINEERING
üìä FEATURES CRIADAS:
   ‚Üí Features originais: 6
   ‚Üí Features criadas: 9
   ‚Üí Total de features: 15

üÜï NOVAS FEATURES:
   1. temp_humidity_interaction
   2. precip_temp_ratio
   3. humidity_combined
   4. thermal_comfort
   5. effective_humidity
   6. growth_conditions
   7. log_precipitation
   8. temperature_squared
   9. humidity_squared

üìà ESTAT√çSTICAS DAS NOVAS FEATURES:
   ‚Üí temp_humidity_interaction:
     M√©dia: 2218.65
     Desvio: 27.86
     Min: 2143.89
     Max: 2261.80
   ‚Üí precip_temp_ratio:
     M√©dia: 91.49
     Desvio: 10.76
     Min: 71.10
     Max: 114.16
   ‚Üí humidity_combined:
     M√©dia: 15.43
     Desvio: 0.36
     Min: 14.40
     Max: 15.96
   ‚Üí thermal_comfort:
     M√©dia: 55.46
     Desvio: 0.47
     Min: 54.11
     Max: 56.14
   ‚Üí effective_humidity:
     M√©dia: 15.43
     Desvio: 0.36
     Min: 14.40
     Max: 15.96
   ‚Üí growth_conditions:
     M√©dia: 7760.61
     Desvio: 982.79
     Min

## 2.4 üìù Encoding de Vari√°veis

### Contexto e Justificativa

**Descoberta da EDA que Orienta o Encoding:**
A an√°lise explorat√≥ria identificou que a vari√°vel 'Crop' √© o **principal determinante do Yield**:
- **Oil palm fruit**: ~175k ton/ha (muito superior)
- **Rice, paddy**: ~32k ton/ha (intermedi√°rio)
- **Cocoa, beans e Rubber**: ~8k ton/ha (baixo)

**Problema Espec√≠fico:**
Algoritmos de ML n√£o processam vari√°veis categ√≥ricas diretamente. Necess√°rio transformar 'Crop' em formato num√©rico para modelagem preditiva.

**Impacto na Modelagem:**
A vari√°vel 'Crop' √© crucial para prever Yield, portanto o encoding correto √© fundamental para a precis√£o do sistema FarmTech Solutions.

### Metodologia e Estrat√©gia

**Abordagem Metodol√≥gica:**
Seguimos uma estrat√©gia baseada nas caracter√≠sticas da vari√°vel categ√≥rica:

**1. One-Hot Encoding:**
- **Transforma√ß√£o**: Criar 4 colunas bin√°rias (Crop_Cocoa, Crop_OilPalm, Crop_Rice, Crop_Rubber)
- **Racional**: Vari√°vel 'Crop' n√£o tem hierarquia natural entre categorias
- **Benef√≠cio**: Evita hierarquia artificial (1, 2, 3, 4) que algoritmos podem interpretar incorretamente

**2. Alternativa Considerada - Label Encoding:**
- **Transforma√ß√£o**: Cocoa=0, OilPalm=1, Rice=2, Rubber=3
- **Problema**: Cria hierarquia artificial (Rubber > Rice > OilPalm > Cocoa)
- **Decis√£o**: Rejeitado para evitar vi√©s hier√°rquico

**Justificativa das Decis√µes T√©cnicas:**
- **One-Hot Encoding**: Preserva igualdade entre culturas (sem hierarquia)
- **4 colunas bin√°rias**: Uma para cada cultura (distribui√ß√£o equilibrada: 25% cada)
- **Verifica√ß√£o**: Confirmar que transforma√ß√£o preserva informa√ß√£o original
- **Valida√ß√£o**: Garantir que n√£o h√° vazamento de dados entre treino/teste

**Objetivos Espec√≠ficos:**
- Transformar vari√°vel categ√≥rica 'Crop' em formato num√©rico para algoritmos de ML
- Preservar igualdade entre culturas sem criar hierarquia artificial
- Preparar dataset com features categ√≥ricas adequadas para modelagem preditiva

In [11]:
# =============================================================================
# ENCODING DE VARI√ÅVEIS CATEG√ìRICAS
# =============================================================================

print("ÔøΩÔøΩ Iniciando Encoding de vari√°veis...")

# Verificar vari√°veis categ√≥ricas
categorical_vars = df.select_dtypes(include=['object']).columns
print(f"üìã Vari√°veis categ√≥ricas encontradas: {list(categorical_vars)}")

# One-Hot Encoding para vari√°vel 'Crop'
print("\nüåæ Aplicando One-Hot Encoding para 'Crop'...")

# Criar dummies
crop_dummies = pd.get_dummies(df['Crop'], prefix='Crop')

# Mostrar as novas colunas criadas
print(f"üÜï Colunas criadas: {list(crop_dummies.columns)}")

# Verificar distribui√ß√£o
print("\nüìä Distribui√ß√£o das categorias:")
for col in crop_dummies.columns:
    count = crop_dummies[col].sum()
    percentage = (count / len(df)) * 100
    print(f"   ‚Üí {col}: {count} registros ({percentage:.1f}%)")

# Adicionar ao dataset
df = pd.concat([df, crop_dummies], axis=1)

# Remover coluna original 'Crop'
df = df.drop('Crop', axis=1)

print(f"\n‚úÖ Encoding conclu√≠do!")
print(f"ÔøΩÔøΩ Dataset final: {df.shape[0]} registros, {df.shape[1]} features")

ÔøΩÔøΩ Iniciando Encoding de vari√°veis...
üìã Vari√°veis categ√≥ricas encontradas: ['Crop']

üåæ Aplicando One-Hot Encoding para 'Crop'...
üÜï Colunas criadas: ['Crop_Cocoa, beans', 'Crop_Oil palm fruit', 'Crop_Rice, paddy', 'Crop_Rubber, natural']

üìä Distribui√ß√£o das categorias:
   ‚Üí Crop_Cocoa, beans: 39 registros (25.0%)
   ‚Üí Crop_Oil palm fruit: 39 registros (25.0%)
   ‚Üí Crop_Rice, paddy: 39 registros (25.0%)
   ‚Üí Crop_Rubber, natural: 39 registros (25.0%)

‚úÖ Encoding conclu√≠do!
ÔøΩÔøΩ Dataset final: 156 registros, 18 features


## 2.5 üî¨ Normaliza√ß√£o de Vari√°veis

### Contexto e Justificativa

**Descobertas da EDA que Orientam a Normaliza√ß√£o:**
A an√°lise explorat√≥ria revelou **alta variabilidade** entre diferentes tipos de vari√°veis:
- **Precipitation**: 1934-3085 mm/dia (range ~1151)
- **Temperature**: 25.56-26.81¬∞C (range ~1.25)
- **Specific Humidity**: 17.54-18.70 g/kg (range ~1.16)
- **Relative Humidity**: 82.11-86.10% (range ~4.0)

**Problema Espec√≠fico:**
Algoritmos sens√≠veis √† escala (SVM, Neural Networks, K-means) podem dar **peso desproporcional** para vari√°veis com ranges maiores, comprometendo a precis√£o do modelo.

**Impacto na Modelagem:**
Sem normaliza√ß√£o, Precipitation (range 1151) dominaria o modelo comparado a Temperature (range 1.25), mesmo que Temperature seja igualmente importante para prever Yield.

### Metodologia e Estrat√©gia

**Abordagem Metodol√≥gica:**
Seguimos uma estrat√©gia baseada nas caracter√≠sticas das vari√°veis num√©ricas:

**1. Sele√ß√£o de Vari√°veis:**
- **Vari√°veis para normalizar**: Precipitation, Temperature, Specific Humidity, Relative Humidity + features criadas
- **Vari√°veis exclu√≠das**: Dummies do One-Hot Encoding (j√° bin√°rias: 0/1)
- **Vari√°vel alvo**: Yield mantido original (n√£o normalizar vari√°vel alvo)

**2. StandardScaler:**
- **Transforma√ß√£o**: (valor - m√©dia) / desvio_padr√£o
- **Resultado**: M√©dia ‚âà 0, Desvio ‚âà 1
- **Racional**: M√©todo mais comum e eficaz para normaliza√ß√£o

**3. Verifica√ß√£o e Valida√ß√£o:**
- **Confirmar normaliza√ß√£o**: Todas as features com m√©dia ‚âà 0, desvio ‚âà 1
- **Preservar estrutura**: Manter informa√ß√µes originais dos dados
- **Salvar scaler**: Para aplicar mesma transforma√ß√£o em dados futuros

**Justificativa das Decis√µes T√©cnicas:**
- **StandardScaler**: Normaliza todas as features para mesma escala (m√©dia=0, desvio=1)
- **Excluir dummies**: J√° est√£o em escala adequada (0/1)
- **Manter Yield original**: Vari√°vel alvo n√£o deve ser normalizada
- **Salvar scaler**: Necess√°rio para aplicar transforma√ß√£o em dados de produ√ß√£o

**Objetivos Espec√≠ficos:**
- Normalizar features num√©ricas para algoritmos sens√≠veis √† escala
- Garantir que todas as vari√°veis tenham peso igual no modelo
- Preparar dataset com features normalizadas para modelagem preditiva
- Preservar scaler para aplica√ß√£o em dados futuros

In [20]:
# =============================================================================
# NORMALIZA√á√ÉO DE VARI√ÅVEIS NUM√âRICAS
# =============================================================================

print("üî¨ Iniciando Normaliza√ß√£o...")

# Selecionar vari√°veis num√©ricas (excluindo dummies E YIELD)
numeric_features = df.select_dtypes(include=[np.number]).columns
dummy_features = [col for col in df.columns if col.startswith('Crop_')]
features_to_scale = [col for col in numeric_features if col not in dummy_features and col != 'Yield']

print(f"üìä Vari√°veis para normalizar: {len(features_to_scale)}")
print(f"üìã Features: {list(features_to_scale)}")

# Backup dos dados originais
df_scaled = df.copy()

# Aplicar StandardScaler
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

# Normalizar features selecionadas
df_scaled[features_to_scale] = scaler.fit_transform(df[features_to_scale])

# Verificar normaliza√ß√£o
print("\nüìà VERIFICA√á√ÉO DA NORMALIZA√á√ÉO:")
for feature in features_to_scale:
    mean_val = df_scaled[feature].mean()
    std_val = df_scaled[feature].std()
    print(f"   ‚Üí {feature}:")
    print(f"     M√©dia: {mean_val:.6f} (deveria ser ~0)")
    print(f"     Desvio: {std_val:.6f} (deveria ser ~1)")

# Verificar que Yield n√£o foi normalizado
print(f"\n‚úÖ Yield mantido original: {df_scaled['Yield'].mean():.2f}")

# Salvar scaler para uso futuro
import joblib
joblib.dump(scaler, '../models/scaler.pkl')

print(f"\n‚úÖ Normaliza√ß√£o conclu√≠da!")
print(f"üìä Dataset normalizado: {df_scaled.shape[0]} registros, {df_scaled.shape[1]} features")
print(f"üíæ Scaler salvo em: ../models/scaler.pkl")

üî¨ Iniciando Normaliza√ß√£o...
üìä Vari√°veis para normalizar: 13
üìã Features: ['Precipitation (mm day-1)', 'Specific Humidity at 2 Meters (g/kg)', 'Relative Humidity at 2 Meters (%)', 'Temperature at 2 Meters (C)', 'temp_humidity_interaction', 'precip_temp_ratio', 'humidity_combined', 'thermal_comfort', 'effective_humidity', 'growth_conditions', 'log_precipitation', 'temperature_squared', 'humidity_squared']

üìà VERIFICA√á√ÉO DA NORMALIZA√á√ÉO:
   ‚Üí Precipitation (mm day-1):
     M√©dia: 0.000000 (deveria ser ~0)
     Desvio: 1.003221 (deveria ser ~1)
   ‚Üí Specific Humidity at 2 Meters (g/kg):
     M√©dia: -0.000000 (deveria ser ~0)
     Desvio: 1.003221 (deveria ser ~1)
   ‚Üí Relative Humidity at 2 Meters (%):
     M√©dia: 0.000000 (deveria ser ~0)
     Desvio: 1.003221 (deveria ser ~1)
   ‚Üí Temperature at 2 Meters (C):
     M√©dia: 0.000000 (deveria ser ~0)
     Desvio: 1.003221 (deveria ser ~1)
   ‚Üí temp_humidity_interaction:
     M√©dia: -0.000000 (deveria ser ~0)


## 2.6 ‚úÖ Dados Finais

### Contexto e Justificativa

**Transforma√ß√µes Aplicadas:**
Com base nas descobertas da EDA, aplicamos as seguintes transforma√ß√µes:
- **An√°lise de Outliers**: 0 outliers reais detectados (mantidos todos os dados)
- **Feature Engineering**: 9 novas features criadas (intera√ß√µes, √≠ndices, transforma√ß√µes)
- **One-Hot Encoding**: Vari√°vel 'Crop' transformada em 4 colunas bin√°rias
- **Normaliza√ß√£o**: 13 features padronizadas (m√©dia=0, desvio=1)

**Problema Espec√≠fico:**
Necess√°rio verificar se todas as transforma√ß√µes foram aplicadas corretamente e se o dataset final est√° pronto para as pr√≥ximas etapas (clustering e modelagem).

**Impacto na Modelagem:**
Dataset mal preparado pode comprometer a precis√£o dos algoritmos de ML e invalidar as an√°lises subsequentes do projeto FarmTech Solutions.

### Metodologia e Estrat√©gia

**Abordagem Metodol√≥gica:**
Seguimos uma estrat√©gia sistem√°tica de valida√ß√£o:

**1. Verifica√ß√£o de Estrutura:**
- **Dimens√µes**: Confirmar 156 registros √ó 18 features (5 originais + 9 criadas + 4 dummies)
- **Tipos de dados**: Verificar se todas as features est√£o em formato adequado
- **Integridade**: Confirmar que n√£o h√° valores faltantes ou duplicatas

**2. Verifica√ß√£o de Qualidade:**
- **Normaliza√ß√£o**: Todas as features num√©ricas com m√©dia ‚âà 0, desvio ‚âà 1
- **Encoding**: Dummies do One-Hot Encoding com valores 0/1
- **Yield original**: Vari√°vel alvo mantida na escala original

**3. Verifica√ß√£o de Consist√™ncia:**
- **Ranges**: Confirmar que transforma√ß√µes preservaram informa√ß√µes originais
- **Distribui√ß√µes**: Verificar se features derivadas fazem sentido
- **Salvamento**: Dataset final pronto para pr√≥ximas etapas

**Justificativa das Decis√µes T√©cnicas:**
- **Verifica√ß√£o sistem√°tica**: Garantir que todas as transforma√ß√µes foram aplicadas corretamente
- **Valida√ß√£o de qualidade**: Confirmar que dataset est√° adequado para algoritmos de ML
- **Documenta√ß√£o**: Resumir transforma√ß√µes para transpar√™ncia metodol√≥gica
- **Salvamento**: Preparar dados para etapas subsequentes (clustering, modelagem)

**Objetivos Espec√≠ficos:**
- Verificar se todas as transforma√ß√µes foram aplicadas corretamente
- Confirmar que dataset final est√° pronto para algoritmos de ML
- Documentar resumo das transforma√ß√µes aplicadas
- Salvar dataset preparado para pr√≥ximas etapas do projeto

In [18]:
# =============================================================================
# DADOS FINAIS - VERIFICA√á√ÉO E SALVAMENTO
# =============================================================================

print("‚úÖ Verificando dados finais...")

# Resumo final do dataset
print(f"üìä ESTRUTURA FINAL:")
print(f"   ‚Üí Registros: {df_scaled.shape[0]}")
print(f"   ‚Üí Features: {df_scaled.shape[1]}")
print(f"   ‚Üí Features normalizadas: {len(features_to_scale)}")
print(f"   ‚Üí Features categ√≥ricas (dummies): {len(dummy_features)}")
print(f"   ‚Üí Vari√°vel alvo: Yield (original)")

# Verificar tipos de dados
print(f"\nÔøΩÔøΩ TIPOS DE DADOS:")
print(df_scaled.dtypes.value_counts())

# Resumo estat√≠stico das features normalizadas
print(f"\nüìà ESTAT√çSTICAS DAS FEATURES NORMALIZADAS:")
print(df_scaled[features_to_scale].describe())

# Verificar Yield (n√£o normalizado)
print(f"\nÔøΩÔøΩ YIELD (VARI√ÅVEL ALVO):")
print(f"   ‚Üí M√©dia: {df_scaled['Yield'].mean():.2f}")
print(f"   ‚Üí Desvio: {df_scaled['Yield'].std():.2f}")
print(f"   ‚Üí Min: {df_scaled['Yield'].min():.2f}")
print(f"   ‚Üí Max: {df_scaled['Yield'].max():.2f}")

# Salvar dataset final
df_scaled.to_csv('../data/processed/dataset_ready.csv', index=False)

print(f"\nüíæ Dataset salvo em: ../data/processed/dataset_ready.csv")
print("‚úÖ Prepara√ß√£o de dados conclu√≠da!")

‚úÖ Verificando dados finais...
üìä ESTRUTURA FINAL:
   ‚Üí Registros: 156
   ‚Üí Features: 18
   ‚Üí Features normalizadas: 13
   ‚Üí Features categ√≥ricas (dummies): 4
   ‚Üí Vari√°vel alvo: Yield (original)

ÔøΩÔøΩ TIPOS DE DADOS:
float64    13
bool        4
int64       1
Name: count, dtype: int64

üìà ESTAT√çSTICAS DAS FEATURES NORMALIZADAS:
       Precipitation (mm day-1)  Specific Humidity at 2 Meters (g/kg)  \
count              1.560000e+02                          1.560000e+02   
mean               1.231921e-15                         -5.277829e-15   
std                1.003221e+00                          1.003221e+00   
min               -1.912735e+00                         -2.263223e+00   
25%               -6.360164e-01                         -5.907486e-01   
50%               -2.147065e-01                          2.284228e-01   
75%                8.026274e-01                          6.721406e-01   
max                2.077059e+00                          1.696105e

In [19]:
# =============================================================================
# RESULTADOS DA PREPARA√á√ÉO DE DADOS
# =============================================================================

print("\n" + "="*60)
print("üîß RESULTADOS DA PREPARA√á√ÉO DE DADOS")
print("="*60)

print("üìä TRANSFORMA√á√ïES APLICADAS:")
print("   ‚úÖ An√°lise de outliers: 0 outliers reais detectados")
print("   ‚úÖ Feature Engineering: 9 novas features criadas")
print("   ‚úÖ One-Hot Encoding: Vari√°vel 'Crop' transformada em 4 dummies")
print("   ‚úÖ Normaliza√ß√£o: 13 features padronizadas (m√©dia=0, desvio=1)")

print("\nüìà FEATURES CRIADAS:")
print("   ‚Üí Intera√ß√µes ambientais: temp_humidity_interaction, precip_temp_ratio")
print("   ‚Üí √çndices clim√°ticos: thermal_comfort, effective_humidity, growth_conditions")
print("   ‚Üí Transforma√ß√µes: log_precipitation, temperature_squared, humidity_squared")

print("\nüìã ESTRUTURA FINAL:")
print("   ‚Üí Registros: 156 (todos preservados)")
print("   ‚Üí Features: 18 (5 originais + 9 criadas + 4 dummies)")
print("   ‚Üí Features normalizadas: 13 (prontas para ML)")
print("   ‚Üí Vari√°vel alvo: Yield (escala original preservada)")

print("‚úÖ Resultados da prepara√ß√£o de dados conclu√≠dos!")


üîß RESULTADOS DA PREPARA√á√ÉO DE DADOS
üìä TRANSFORMA√á√ïES APLICADAS:
   ‚úÖ An√°lise de outliers: 0 outliers reais detectados
   ‚úÖ Feature Engineering: 9 novas features criadas
   ‚úÖ One-Hot Encoding: Vari√°vel 'Crop' transformada em 4 dummies
   ‚úÖ Normaliza√ß√£o: 13 features padronizadas (m√©dia=0, desvio=1)

üìà FEATURES CRIADAS:
   ‚Üí Intera√ß√µes ambientais: temp_humidity_interaction, precip_temp_ratio
   ‚Üí √çndices clim√°ticos: thermal_comfort, effective_humidity, growth_conditions
   ‚Üí Transforma√ß√µes: log_precipitation, temperature_squared, humidity_squared

üìã ESTRUTURA FINAL:
   ‚Üí Registros: 156 (todos preservados)
   ‚Üí Features: 18 (5 originais + 9 criadas + 4 dummies)
   ‚Üí Features normalizadas: 13 (prontas para ML)
   ‚Üí Vari√°vel alvo: Yield (escala original preservada)
‚úÖ Resultados da prepara√ß√£o de dados conclu√≠dos!


## üìã Conclus√µes da Prepara√ß√£o de Dados

### Descobertas Quantitativas Cr√≠ticas

**An√°lise de Outliers:**
- **Z-Score**: 0 outliers reais detectados (dados de qualidade)
- **IQR**: Falsos positivos em Temperature (12) e Yield (35) devido √† natureza bimodal
- **Decis√£o estrat√©gica**: Manter todos os dados como informa√ß√£o valiosa para agricultura

**Feature Engineering:**
- **9 features criadas** baseadas em correla√ß√µes da EDA e conhecimento agr√≠cola
- **Intera√ß√µes ambientais**: Temperature √ó Humidity, Precipitation √ó Temperature
- **√çndices clim√°ticos**: Thermal Comfort, Effective Humidity, Growth Conditions
- **Transforma√ß√µes**: Log Precipitation, Temperature¬≤, Humidity¬≤ para rela√ß√µes n√£o-lineares

**Encoding e Normaliza√ß√£o:**
- **One-Hot Encoding**: 4 colunas bin√°rias para 'Crop' (sem hierarquia artificial)
- **StandardScaler**: 13 features normalizadas (m√©dia ‚âà 0, desvio ‚âà 1)
- **Yield preservado**: Vari√°vel alvo mantida na escala original
- **Scaler salvo**: Para aplica√ß√£o consistente em dados futuros

### Insights Agr√≠colas Fundamentais

**Qualidade dos Dados:**
- **Dados completos**: 0 valores faltantes, 0 duplicatas
- **Distribui√ß√£o equilibrada**: 25% de cada cultura (39 registros cada)
- **Normaliza√ß√£o perfeita**: Todas as features em escala adequada para ML

**Prepara√ß√£o para Modelagem:**
- **Features derivadas**: Capturam intera√ß√µes entre vari√°veis correlacionadas
- **√çndices agr√≠colas**: M√©tricas com significado para agricultores
- **Transforma√ß√µes**: Permitem algoritmos capturarem rela√ß√µes n√£o-lineares
- **Dataset final**: 156 registros √ó 18 features prontas para ML

### Hip√≥teses Formuladas para Pr√≥ximas Etapas

**H1**: Features derivadas (intera√ß√µes, √≠ndices) melhorar√£o a performance dos modelos comparado √†s features originais.

**H2**: An√°lise de clustering revelar√° grupos distintos baseados no tipo de cultura, n√£o em condi√ß√µes ambientais.

**H3**: Algoritmos n√£o-lineares (Random Forest, XGBoost) ser√£o mais eficazes que modelos lineares devido √†s rela√ß√µes complexas.

**H4**: Vari√°vel 'Crop' ser√° a feature mais importante para prever Yield, seguida pelas intera√ß√µes ambientais.

### Justificativa dos Pr√≥ximos Passos

**Clustering:**
- **Valida√ß√£o da H2**: Confirmar se clusters s√£o baseados em cultura ou condi√ß√µes ambientais
- **Detec√ß√£o de padr√µes**: Identificar grupos naturais de produtividade
- **An√°lise de outliers**: Validar se outliers representam condi√ß√µes clim√°ticas excepcionais

**Modelagem Preditiva:**
- **5 algoritmos distintos**: Testar diferentes abordagens (Linear, Tree-based, Ensemble, Neural)
- **Valida√ß√£o da H1 e H3**: Comparar performance com/sem features derivadas
- **Feature importance**: Validar H4 sobre import√¢ncia da vari√°vel 'Crop'

**Avalia√ß√£o e Interpreta√ß√£o:**
- **M√©tricas espec√≠ficas**: R¬≤, RMSE, MAE para avalia√ß√£o de regress√£o
- **An√°lise de res√≠duos**: Verificar suposi√ß√µes dos modelos
- **Interpretabilidade**: Explicar decis√µes para stakeholders agr√≠colas