# Siembra Éxito: Cómo el Aprendizaje Automático Ayuda a los Agricultores a Seleccionar los Mejores Cultivos

![Farmer in a field](images/farmer_in_a_field.jpg)

Medir parámetros esenciales del suelo, como nitrógeno, fósforo, potasio y pH, es un aspecto importante para evaluar su estado. Sin embargo, puede ser un proceso costoso y lento, lo que puede obligar a los agricultores a priorizar qué parámetros medir según sus limitaciones presupuestarias.

Los agricultores tienen varias opciones a la hora de decidir qué cultivo plantar cada temporada. Su objetivo principal es maximizar el rendimiento de sus cultivos, considerando diferentes factores. Un factor crucial que afecta el crecimiento de los cultivos es el estado del suelo, que se puede evaluar midiendo elementos básicos como el nitrógeno y el potasio. Cada cultivo tiene una condición de suelo ideal que garantiza un crecimiento óptimo y el máximo rendimiento.

Un agricultor contactó con usted como experto en aprendizaje automático para solicitar ayuda para seleccionar el mejor cultivo para su campo. Se le ha proporcionado un conjunto de datos llamado `soil_measures.csv`, que contiene:

- `"N"`: Índice de contenido de nitrógeno en el suelo
- `"P"`: Índice de contenido de fósforo en el suelo
- `"K"`: Índice de contenido de potasio en el suelo
- `"pH"` del suelo
- `"crop"`: Valores categóricos que contienen varios cultivos (variable objetivo).

Cada fila de este conjunto de datos representa diversas medidas del suelo en un campo en particular. Con base en estas mediciones, el cultivo especificado en la columna `"crop"` es la opción óptima para ese campo.

En este proyecto, creará modelos de clasificación multiclase para predecir el tipo de `"cultivo"` e identificar la característica más importante para el rendimiento predictivo.

### Siembra Éxito: Cómo el Aprendizaje Automático Ayuda a los Agricultores a Seleccionar los Mejores Cultivos

Identifique la característica única que tiene el mayor desempeño predictivo para clasificar los tipos de cultivos.

Encuentre la característica en el conjunto de datos que produce la mejor puntuación para predecir `"crop"`.
A partir de esta información, crea una variable llamada `best_predictive_feature`, que:
Debe `dictionary` contener el nombre de la mejor función predictiva como clave y el puntaje de evaluación (para la métrica que eligió) como valor.

### Solución 1

In [13]:
# Importar bibliotecas necesarias
import pandas as pd  # Para manipulación de datos
from sklearn.linear_model import LogisticRegression  # Para el modelo de regresión logística
from sklearn.model_selection import train_test_split  # Para dividir los datos en entrenamiento y prueba
from sklearn import metrics  # Para evaluar el modelo
from sklearn.preprocessing import StandardScaler  # Para escalar los datos

# Cargar el archivo CSV con los datos de cultivos
crops = pd.read_csv("../data/soil_measures.csv")

# Imprimir los nombres de las columnas del dataframe
print(f"Columnas: {crops.columns}")

# Contar e imprimir cuántos valores faltantes hay en la columna objetivo 'crop'
isNa = crops["crop"].isna().sum()
print(f"Missing values: {isNa}")

# Imprimir los distintos valores únicos (tipos de cultivos) en la columna 'crop'
uniqueData = crops["crop"].unique()
print(f"Unique crops: {uniqueData}")

# Separar las variables predictoras (X) de la variable objetivo (y)
X = crops.drop("crop", axis=1).values  # Todas las columnas excepto 'crop'
y = crops["crop"].values  # Solo la columna 'crop'

# Normalizar las características para mejorar el rendimiento del modelo
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Dividir los datos en entrenamiento (70%) y prueba (30%)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

# Crear el modelo de regresión logística con mayor número de iteraciones permitidas
logreg = LogisticRegression(max_iter=500)
logreg.fit(X_train, y_train)  # Entrenar el modelo con los datos de entrenamiento

# Realizar predicciones con los datos de prueba
y_pred = logreg.predict(X_test)

# Evaluar el modelo: precisión, matriz de confusión, recall y F1-score
accuracy = metrics.accuracy_score(y_test, y_pred)
confusion = metrics.confusion_matrix(y_test, y_pred)
recall = metrics.recall_score(y_test, y_pred, average="macro")  # Promedio macro para clasificación multiclase
f1 = metrics.f1_score(y_test, y_pred, average="macro")  # F1-score macro

# Imprimir las métricas de evaluación
print(f"Accuracy: {accuracy:.3f}")
print("Confusion matrix:\n", confusion)
print(f"Recall (macro avg): {recall:.3f}")
print(f"F1 Score (macro avg): {f1:.3f}")

# Obtener los nombres de las características
feature_names = crops.drop("crop", axis=1).columns
print(f"feature_names: {feature_names}")

# Analizar cuáles características tienen mayor peso en la predicción
coefficients = abs(logreg.coef_).mean(axis=0)  # Obtener el valor absoluto medio de los coeficientes
print(f"coefficients: {coefficients}")

# Determinar la característica más influyente (con mayor coeficiente)
best_predictive_feature = feature_names[coefficients.argmax()]
print(f"Most predictive feature: {best_predictive_feature}")

Columnas: Index(['N', 'P', 'K', 'ph', 'crop'], dtype='object')
Missing values: 0
Unique crops: ['rice' 'maize' 'chickpea' 'kidneybeans' 'pigeonpeas' 'mothbeans'
 'mungbean' 'blackgram' 'lentil' 'pomegranate' 'banana' 'mango' 'grapes'
 'watermelon' 'muskmelon' 'apple' 'orange' 'papaya' 'coconut' 'cotton'
 'jute' 'coffee']
Accuracy: 0.650
Confusion matrix:
 [[ 9  0  0  0  0  0  0 25  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0 26  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0 14  0  0  0  0  0  0  0 12  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0 29  0  0  0  0  0  0  0  0  0  0  0  0  0  5  0  0  0  0]
 [ 0  0  0  0 19  0  0  0  0  0  0  0  8  0  0  0  0  0  0  6  0  0]
 [ 0  0  0  0  0 22  4  0  2  0  0  1  0  0  0  0  0  0  0  0  1  0]
 [ 0  0  0  0  0  1 25  0  0  0  0  2  0  0  0  0  0  0  0  0  0  0]
 [ 2  0  0  0  0  0  0 21  0  0  0  0  0  0  0  0  0  0  0  0  0  0]
 [ 0  0  0  0  0  2  1  0 16  0  0  0  0  0  0  0  0  1  0  0 14  0]
 [ 0  0  0  0  0  0  

### Solución 2

In [26]:
# Importar bibliotecas necesarias
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.preprocessing import StandardScaler

# Cargar el archivo CSV con los datos de cultivos
crops = pd.read_csv("../data/soil_measures.csv")

# Imprimir los nombres de las columnas del dataframe
print(f"Columnas: {crops.columns}")

# Contar e imprimir cuántos valores faltantes hay en la columna objetivo 'crop'
isNa = crops["crop"].isna().sum()
print(f"Missing values: {isNa}")

# Imprimir los distintos valores únicos (tipos de cultivos) en la columna 'crop'
uniqueData = crops["crop"].unique()
print(f"Unique crops: {uniqueData}")

# Separar las variables predictoras (X) de la variable objetivo (y)
X = crops.drop("crop", axis=1)  # ✅ Mantener X como DataFrame
y = crops["crop"]  # También como Serie de pandas

# Normalizar las características
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Convertir a DataFrame escalado con nombres de columnas
X_scaled_df = pd.DataFrame(X_scaled, columns=X.columns)

# Dividir los datos
X_train, X_test, y_train, y_test = train_test_split(X_scaled_df, y, test_size=0.3, random_state=42)

traits = []

# Probar cada característica individualmente
for feature in X.columns:
    print(f"\nProbando con la característica: {feature}")

    # Crear modelo
    logreg = LogisticRegression(max_iter=500, solver='lbfgs')

    # Entrenar con una sola característica
    logreg.fit(X_train[[feature]], y_train)

    # Predecir con la misma característica
    y_pred = logreg.predict(X_test[[feature]])

    # Calcular precisión
    accuracy = metrics.accuracy_score(y_test, y_pred)
    traits.append({"caracteristica" : feature, "precision" : accuracy})
    print(f"Precisión usando solo {feature}: {accuracy:.3f}")

df = pd.DataFrame(traits)

mejor = df.loc[df["precision"].idxmax()]
print(f"\nMost predictive feature {mejor['caracteristica']} with accuracy: {mejor['precision']:.3f}")

Columnas: Index(['N', 'P', 'K', 'ph', 'crop'], dtype='object')
Missing values: 0
Unique crops: ['rice' 'maize' 'chickpea' 'kidneybeans' 'pigeonpeas' 'mothbeans'
 'mungbean' 'blackgram' 'lentil' 'pomegranate' 'banana' 'mango' 'grapes'
 'watermelon' 'muskmelon' 'apple' 'orange' 'papaya' 'coconut' 'cotton'
 'jute' 'coffee']

Probando con la característica: N
Precisión usando solo N: 0.148

Probando con la característica: P
Precisión usando solo P: 0.168

Probando con la característica: K
Precisión usando solo K: 0.241

Probando con la característica: ph
Precisión usando solo ph: 0.112

Most predictive feature K with accuracy: 0.241
