# Sistema de Recomendaci√≥n de Cultivos
## Parte 2: Modelado y Evaluaci√≥n (Fases 3-6 CRISP-DM)

**Machine Learning**

**Profesor:** Marco Ter√°n  
**Fecha:** 2025/10/22

**Integrantes**

- Daniel Alejandro Garcia Zuluaica
- Edward Alejandro Rayo Cort√©s
- Elizabeth Toro Chalarca

___

## üìã Tabla de Contenidos

1. **Resumen del EDA** (Referencia del Notebook 1)
2. **Fase 3: Preparaci√≥n de Datos**
3. **Fase 4: Modelado**
4. **Fase 5: Evaluaci√≥n**
5. **Fase 6: Despliegue**
6. **Conclusiones y Pr√≥ximos Pasos**

---

## üìö Resumen del EDA (Notebook 1)

Este notebook contin√∫a el trabajo realizado en [1_crops_eda.ipynb](1_crops_eda.ipynb). A continuaci√≥n, un resumen ejecutivo de los hallazgos clave:

### Calidad de Datos: ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê EXCELENTE

- **Completitud**: 100% (sin valores faltantes)
- **Balance**: Perfecto (100 muestras √ó 22 cultivos = 2,200 muestras)
- **Variables**: 7 num√©ricas (N, P, K, temperature, humidity, ph, rainfall)
- **Target**: 22 clases de cultivos

### Hallazgos Clave del EDA:

1. ‚úÖ **Outliers v√°lidos**: Representan requerimientos agron√≥micos espec√≠ficos (conservar)
2. ‚úÖ **Variables significativas**: Todas con F-statistic alto (p < 0.05)
3. ‚úÖ **Separabilidad confirmada**: Silhouette Score t-SNE = 0.528 (buena separaci√≥n)
4. ‚ö†Ô∏è **Distribuciones no normales**: Requiere transformaci√≥n para modelos param√©tricos
5. ‚ö†Ô∏è **Multicolinealidad P-K**: Correlaci√≥n 0.736 (manejable con regularizaci√≥n)

### Decisiones para Modelado:

| Decisi√≥n | Justificaci√≥n |
|----------|---------------|
| **Conservar outliers** | Agron√≥micamente v√°lidos |
| **Usar 7 variables** | Todas discriminan significativamente |
| **RobustScaler** | Resistente a outliers |
| **PowerTransformer** | Para modelos param√©tricos |
| **Modelos no-lineales** | PCA mostr√≥ que no hay separaci√≥n lineal |

### Expectativas de Performance:

- **Objetivo m√≠nimo**: 85% accuracy
- **Objetivo realista**: 90-93% accuracy
- **Objetivo √≥ptimo**: ‚â•95% accuracy

### Modelos Prioritarios:

1. ü•á **Random Forest**: Robusto, maneja outliers, captura interacciones
2. ü•á **XGBoost**: State-of-art para multiclase
3. ü•à **Logistic Regression**: Baseline interpretable
4. ü•à **SVM (RBF)**: Bueno para no-linealidad

---

## 1. Configuraci√≥n del Entorno

In [None]:
pip install -r ../requirements.txt

In [7]:
# Configuraci√≥n inicial
import sys
import warnings
warnings.filterwarnings('ignore')

# Verificar versi√≥n de Python
assert sys.version_info >= (3, 7), "Este notebook requiere Python 3.7 o superior"
print(f"‚úÖ Python {sys.version_info.major}.{sys.version_info.minor} instalado correctamente")

‚úÖ Python 3.12 instalado correctamente


In [8]:
# Importar librer√≠as para modelado
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Scikit-learn para modelado
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, RobustScaler, PowerTransformer, LabelEncoder
from sklearn.pipeline import Pipeline
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    confusion_matrix, classification_report, ConfusionMatrixDisplay
)

# Modelos de clasificaci√≥n
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

# XGBoost (si est√° instalado)
try:
    import xgboost as xgb
    print("‚úÖ XGBoost disponible")
except ImportError:
    print("‚ö†Ô∏è  XGBoost no instalado (opcional)")

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 11
sns.set_palette("husl")

# Configuraci√≥n de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.precision', 4)

# Random state para reproducibilidad
RANDOM_STATE = 42

print("\n‚úÖ Librer√≠as importadas correctamente")

‚úÖ XGBoost disponible

‚úÖ Librer√≠as importadas correctamente


In [9]:
# Importar funciones utilitarias
sys.path.append('../src')

# Recargar data_loader para obtener los datos
import importlib
import data_loader
importlib.reload(data_loader)

from data_loader import load_crop_data

---

## 2. Carga de Datos

Cargamos el dataset limpio (ya validado en el EDA):

In [10]:
# Cargar datos
crop_data = load_crop_data()

print("="*80)
print("RESUMEN DEL DATASET".center(80))
print("="*80)
print(f"Dimensiones: {crop_data.shape[0]} filas √ó {crop_data.shape[1]} columnas")
print(f"Cultivos √∫nicos: {crop_data['label'].nunique()}")
print(f"\nPrimeras filas:")
display(crop_data.head())

print(f"\nDistribuci√≥n de clases:")
print(crop_data['label'].value_counts().head(10))

üìÅ Cargando datos desde cach√© local: Crop_recommendation.csv
                              RESUMEN DEL DATASET                               
Dimensiones: 2200 filas √ó 8 columnas
Cultivos √∫nicos: 22

Primeras filas:


Unnamed: 0,N,P,K,temperature,humidity,ph,rainfall,label
0,90,42,43,20.8797,82.0027,6.503,202.9355,rice
1,85,58,41,21.7705,80.3196,7.0381,226.6555,rice
2,60,55,44,23.0045,82.3208,7.8402,263.9642,rice
3,74,35,40,26.4911,80.1584,6.9804,242.864,rice
4,78,42,42,20.1302,81.6049,7.6285,262.7173,rice



Distribuci√≥n de clases:
label
rice           100
maize          100
chickpea       100
kidneybeans    100
pigeonpeas     100
mothbeans      100
mungbean       100
blackgram      100
lentil         100
pomegranate    100
Name: count, dtype: int64


---

## üîß Fase 3: Preparaci√≥n de Datos

Bas√°ndonos en las conclusiones del EDA, implementaremos:

1. **Separaci√≥n de features y target**
2. **Encoding del target** (22 cultivos ‚Üí 0-21)
3. **Split estratificado** (80% train, 20% test)
4. **Pipelines de preprocesamiento** (seg√∫n tipo de modelo)
5. **Validaci√≥n de la preparaci√≥n**

### 3.1. Separaci√≥n de Features y Target

In [None]:
# Placeholder: C√≥digo de preparaci√≥n de datos
print("‚è≥ Secci√≥n en desarrollo...")

---

## ü§ñ Fase 4: Modelado

*Esta secci√≥n se desarrollar√° despu√©s de completar la Fase 3*

---

## üìä Fase 5: Evaluaci√≥n

*Esta secci√≥n se desarrollar√° despu√©s de completar la Fase 4*

---

## üöÄ Fase 6: Despliegue

*Esta secci√≥n se desarrollar√° despu√©s de completar la Fase 5*

---

## üìö Referencias

Ver referencias completas en `1_crops_eda.ipynb`