1. Importar librerías

In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

2. Cargar el dataset de entrenamiento de ML y de prueba

In [4]:
df_train = pd.read_csv("Dataset/agricultural_yield_train.csv")
df_test = pd.read_csv("Dataset/agricultural_yield_test.csv")

3. Explorar los datos

In [None]:
df_train.head()
df_train.info()
df_train.describe()

In [None]:
df_test.head()
df_test.info()
df_test.describe()

4. Visualizar correlaciones entre variables:

In [None]:
plt.figure(figsize=(10,6))
sns.heatmap(df_train.corr(), annot=True, cmap='coolwarm')
plt.title("Matriz de correlación")
plt.show()

Análisis de la matriz de correlación

La matriz de correlación muestra que Seed_Variety (0.68) y Irrigation_Schedule (0.56) tienen una fuerte relación positiva con el rendimiento (Yield_kg_per_hectare), mientras que Fertilizer_Amount_kg_per_hectare (0.28) también presenta cierta influencia.
Por eso, estas tres variables se seleccionan como predictoras para construir un modelo que estime el rendimiento del cultivo con base en los factores más relevantes del dataset.

Selección de variables

In [6]:
X_train = df_train[['Seed_Variety', 'Irrigation_Schedule', 'Fertilizer_Amount_kg_per_hectare']]
y_train = df_train['Yield_kg_per_hectare']

Entrenamiento de modelo de regresión lineal

In [None]:
from sklearn.linear_model import LinearRegression

modelo = LinearRegression()
modelo.fit(X_train, y_train)

Preparar las variables de prueba

In [None]:
X_test = df_test[['Seed_Variety', 'Irrigation_Schedule', 'Fertilizer_Amount_kg_per_hectare']]
y_test = df_test['Yield_kg_per_hectare']

Predicciones con el conjunto de prueba

In [9]:
y_pred = modelo.predict(X_test)

Evaluar el modelo

Ver qué tan cerca estuvieron las predicciones de los valores reales

In [None]:
print("Score del modelo con test.csv:", modelo.score(X_test, y_test))

Score del modelo con test.csv: 0.8564467848900175


El modelo de regresión lineal alcanzó un coeficiente de determinación de 0.85, lo que indica que un 85% de la variación del rendimiento agrícola puede explicarse por las variables utilizadas. Es un buen coeficiente para utilizar.

Mostrar visualmente el rendimiento del modelo

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(8,6))
plt.scatter(y_test, y_pred, alpha=0.6, color='teal')  # puntos reales vs predichos
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')  # línea ideal
plt.xlabel('Valores reales')
plt.ylabel('Predicciones del modelo')
plt.title('Valores reales vs. Predicciones')
plt.grid(True)
plt.show()

Ahora que creamos nuestro modelo y comprobamos que tiene un buen coeficiente de determinación, podemos mostrarlo en pantalla.

In [None]:
import joblib

# Guardar el modelo en un archivo
joblib.dump(modelo, 'modelo_entrenado.joblib')