
# Ejercicio: **Clasificación** con Random Forest — Producción *Alta* vs *Baja*

Usando el mismo archivo de datos `1. datos_agricolas.xlsx` (hoja **Inicio**), transforma el problema en **clasificación binaria** y entrena un **RandomForestClassifier** para predecir si la producción de un registro será **Alta** (=1) o **Baja** (=0).  
Este notebook es **para alumnos**: contiene consignas y celdas para completar (no resuelto).



## Objetivos
1. Cargar y explorar los datos (EDA breve).  
2. Crear una **variable objetivo binaria** (Alta vs Baja producción).  
3. Preparar un **pipeline** de preprocesamiento (numéricas/categóricas) + **RandomForestClassifier**.  
4. Entrenar, evaluar y analizar métricas (accuracy, reporte de clasificación, matriz de confusión).  
5. (Opcional) Validación cruzada y curva ROC-AUC.


## 1) Importar librerías

In [1]:

# IMPORTA las librerías necesarias
# Sugeridas:
# - pandas, numpy
# - matplotlib.pyplot
# - sklearn.model_selection: train_test_split, StratifiedKFold, cross_val_score
# - sklearn.compose: ColumnTransformer
# - sklearn.preprocessing: OneHotEncoder, StandardScaler
# - sklearn.impute: SimpleImputer
# - sklearn.pipeline: Pipeline
# - sklearn.ensemble: RandomForestClassifier
# - sklearn.metrics: accuracy_score, classification_report, confusion_matrix, roc_auc_score, RocCurveDisplay


## 2) Cargar datos

In [None]:

# LEE el archivo Excel 'ejercicio_1_datos_regresion_lineal_agricola', hoja 'Inicio'
# Asigna el DataFrame a la variable df y muestra df.head()
# PISTA: usa pd.read_excel(ruta, sheet_name="Datos")


## 3) EDA breve

In [3]:

# MUESTRA tipos de datos y valores nulos con df.info()
# CALCULA estadísticas con df.describe(include='all').T


In [4]:

# (Opcional) CREA al menos un gráfico rápido (ej.: histograma de Producción_Ton)
# Recuerda usar matplotlib


## 4) Crear variable objetivo binaria: Producción **Alta** vs **Baja**

In [5]:

# CREA una nueva columna binaria 'Produccion_Alta' usando la MEDIANA de 'Producción_Ton' como umbral
# 1 = Producción_Ton mayor a la mediana, 0 = caso contrario
# MUESTRA el umbral calculado y la distribución de clases (value_counts())


## 5) Definir variables y separar en Train/Test

In [6]:

# DEFINE y = 'Produccion_Alta'
# DEFINE X con: Año, Mes, Región, Cultivo, Superficie_Ha, Precio_Ton, Costos_Insumos
# DIVIDE en entrenamiento y prueba con test_size=0.2, random_state=42, y estratificación por y


## 6) Preprocesamiento con ColumnTransformer

In [7]:

# DEFINE:
# - numeric_features = ["Año", "Mes", "Superficie_Ha", "Precio_Ton", "Costos_Insumos"]
# - categorical_features = ["Región", "Cultivo"]
# CREA pipelines:
#   num: SimpleImputer(strategy="median") + StandardScaler()
#   cat: SimpleImputer(strategy="most_frequent") + OneHotEncoder(handle_unknown="ignore")
# UNE ambos en un ColumnTransformer llamado 'preprocessor'


## 7) Entrenar **RandomForestClassifier** dentro de un Pipeline

In [8]:

# CREA un Pipeline: [("preprocessor", preprocessor), ("model", RandomForestClassifier(...))]
# SUGERENCIA de hiperparámetros iniciales: n_estimators=300, random_state=42, n_jobs=-1
# AJUSTA el pipeline con .fit(X_train, y_train)
# OBTÉN predicciones y_pred = pipeline.predict(X_test)


## 8) Evaluación del modelo

In [9]:

# CALCULA accuracy y muestra classification_report
# CONSTRUYE y grafica la matriz de confusión con matplotlib (valores, títulos y ejes claros)


In [10]:

# (Opcional) Calcula ROC-AUC (para binario) y muestra la curva ROC usando RocCurveDisplay.from_estimator


## 9) Importancia de variables

In [11]:

# RECUPERA las columnas finales después del One-Hot:
#   usa: ohe = pipeline.named_steps["preprocessor"].named_transformers_["cat"].named_steps["onehot"]
#   cat_feature_names = list(ohe.get_feature_names_out(categorical_features))
#   all_features = numeric_features + cat_feature_names
# EXTRAe importances = pipeline.named_steps["model"].feature_importances_
# CREA un DataFrame ordenado y grafica el Top 15 en barras horizontales


## 10) (Opcional) Validación cruzada

In [12]:

# USA StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
# EVALÚA con cross_val_score(pipeline, X, y, cv=skf, scoring="accuracy")
# REPORTA la media y desviación estándar



## 11) Conclusiones (texto libre)
- ¿Qué tan bien clasifica el modelo?  
- ¿Qué variables resultaron más importantes?  
- ¿Qué mejoras propones (nuevas features, tuning, balanceo de clases, etc.)?
