
# Ejercicio: Regresión Lineal con datos agrícolas

En este notebook aplicarás **Regresión Lineal** para predecir la variable `Producción_Ton` a partir de otras variables agrícolas y económicas.

📂 **Base de datos**: `datos_regresion_lineal_agricola.xlsx`  
- Hoja **Datos**: registros.  
- Hoja **Diccionario**: descripción de variables.

---

## Objetivo del ejercicio
- Construir un modelo de **Regresión Lineal** con scikit-learn.  
- Aplicar buenas prácticas de preprocesamiento, entrenamiento, evaluación y visualización.  
- Interpretar resultados en el contexto agrícola.

**Nota**: este notebook contiene consignas y celdas vacías para que los alumnos lo completen.


## 1) Preparación de entorno

In [18]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

## 2) Cargar y explorar los datos

In [19]:
# Ruta al archivo Excel generado previamente
file_path = "ejercicio_1_datos_regresion_lineal_agricola.xlsx"

# Cargar datos de la hoja 'Datos'
df = pd.read_excel(file_path, sheet_name="Datos")

# Mostrar primeras filas
df.head()

Unnamed: 0,Año,Mes,Región,Cultivo,Superficie_Ha,Producción_Ton,Precio_Ton,Costos_Insumos,Ingresos,Utilidad
0,2023,1,Norte,Maíz,122,749,316.95,12541,237319.7,224778.7
1,2023,1,Norte,Soja,141,422,273.4,2574,115405.98,112831.98
2,2023,1,Norte,Trigo,107,328,311.12,2543,101962.95,99419.95
3,2023,1,Norte,Manzana,363,2874,274.87,5428,789881.63,784453.63
4,2023,1,Norte,Tomate,211,1446,131.99,2363,190802.69,188439.69


In [20]:
# Información general de las columnas
df.info()

# Estadísticas descriptivas
df.describe(include="all").T

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 480 entries, 0 to 479
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Año             480 non-null    int64  
 1   Mes             480 non-null    int64  
 2   Región          480 non-null    object 
 3   Cultivo         480 non-null    object 
 4   Superficie_Ha   480 non-null    int64  
 5   Producción_Ton  480 non-null    int64  
 6   Precio_Ton      480 non-null    float64
 7   Costos_Insumos  480 non-null    int64  
 8   Ingresos        480 non-null    float64
 9   Utilidad        480 non-null    float64
dtypes: float64(3), int64(5), object(2)
memory usage: 37.6+ KB


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
Año,480.0,,,,2023.5,0.500522,2023.0,2023.0,2023.5,2024.0,2024.0
Mes,480.0,,,,6.5,3.455654,1.0,3.75,6.5,9.25,12.0
Región,480.0,4.0,Norte,120.0,,,,,,,
Cultivo,480.0,5.0,Maíz,96.0,,,,,,,
Superficie_Ha,480.0,,,,253.041667,141.376776,20.0,137.0,245.0,378.25,499.0
Producción_Ton,480.0,,,,1613.71875,1157.53085,48.0,677.25,1314.5,2412.5,5403.0
Precio_Ton,480.0,,,,254.586896,74.45154,100.09,193.8125,265.365,312.11,397.48
Costos_Insumos,480.0,,,,10438.29375,5545.255615,1543.0,5399.5,10356.5,15137.25,19957.0
Ingresos,480.0,,,,379991.904521,263489.847762,17546.34,179413.99,334503.955,515130.73,1451367.44
Utilidad,480.0,,,,369553.610771,263795.833364,240.34,167052.425,322863.2,504072.8175,1442403.44


## 3) Análisis exploratorio (EDA)

In [21]:

# Calcula estadísticas agrupadas por 'Cultivo' y 'Región' (ejemplo: media de Producción_Ton)


In [22]:

# Realiza al menos un gráfico exploratorio (ej: Producción_Ton vs Superficie_Ha)


## 4) Definición de variables para el modelo

In [23]:

# Define X con variables: Año, Mes, Región, Cultivo, Superficie_Ha, Precio_Ton, Costos_Insumos
# Define y como Producción_Ton


## 5) División de datos en Train/Test

In [24]:

# Separa en entrenamiento y prueba (80/20)


## 6) Preprocesamiento

In [25]:

# Crea transformadores para variables numéricas (imputer + scaler) y categóricas (imputer + onehot)
# Une ambos en un ColumnTransformer


## 7) Entrenamiento del modelo

In [26]:

# Construye un Pipeline con preprocesamiento + LinearRegression
# Ajusta el modelo con .fit()


## 8) Evaluación

In [27]:

# Calcula métricas: MAE, RMSE, R2


In [28]:

# Imprime las métricas con formato legible


## 9) Gráfico Predicho vs Real

In [29]:

# Genera gráfico de dispersión de y_test vs y_pred y añade línea diagonal


## 10) Diagnóstico de residuos (opcional)

In [30]:

# Calcula residuos (y_test - y_pred) y grafícalos contra y_pred


## 11) Interpretación de coeficientes (opcional)

In [31]:

# Extrae coeficientes del modelo lineal y relaciónalos con las variables


## 12) Conclusiones


Escribe una interpretación en 5–8 líneas sobre:
- Qué tan bien funciona el modelo (según métricas y gráficos).
- Limitaciones observadas.
- Posibles mejoras (variables derivadas, otros algoritmos).
