# Sembrando éxito: cómo el aprendizaje automático ayuda a los agricultores a seleccionar los mejores cultivos

Medir métricas esenciales del suelo, como los niveles de nitrógeno, fósforo, potasio y el valor del pH, es un aspecto importante de la evaluación del estado del suelo. Sin embargo, puede ser un proceso costoso y que requiere mucho tiempo, lo que puede hacer que los agricultores prioricen qué métricas medir en función de sus limitaciones presupuestarias.

Los agricultores tienen varias opciones a la hora de decidir qué cultivo plantar en cada temporada. Su principal objetivo es maximizar el rendimiento de sus cultivos, teniendo en cuenta diferentes factores. Un factor crucial que afecta el crecimiento de los cultivos es la condición del suelo en el campo, que puede evaluarse midiendo elementos básicos como los niveles de nitrógeno y potasio. Cada cultivo tiene una condición de suelo ideal que garantiza un crecimiento óptimo y un rendimiento máximo.

La idea es seleccionar el mejor cultivo para su campo. Se proporcionó un conjunto de datos llamado `soil_measures.csv`, que contiene:

- `"N"`: Relación de contenido de nitrógeno en el suelo
- `"P"`: Relación de contenido de fósforo en el suelo
- `"K"`: Relación de contenido de potasio en el suelo
- `"pH"`: Valor del suelo
- `"crop"`: valores categóricos que contienen varios cultivos (variable objetivo).

Cada fila de este conjunto de datos representa varias medidas del suelo en un campo en particular. Según estas mediciones, el cultivo especificado en la columna `"crop"` es la opción óptima para ese campo.

En este proyecto, creará modelos de clasificación de clases múltiples para predecir el tipo de `"crop"` e identificar la característica más importante para el rendimiento predictivo.

--------------------------

Identifique la característica única que tiene el mayor rendimiento predictivo para clasificar los tipos de cultivos. 

- Encuentre la característica en el conjunto de datos que produce la mejor puntuación para predecir `"crop"`.
- A partir de esta información, cree una variable llamada `"best_predictive_feature"`, que:
    - Debe ser un `"dictionary"` que contenga el mejor nombre de característica predictiva como clave y la puntuación de evaluación (para la métrica que eligió) como valor.

In [2]:
# LIBRERIAS
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics

# DATA
ruta_archivo = '/home/jovyan/notebooks/data/soil_measures.csv'
crops = pd.read_csv(ruta_archivo,index_col = None)
crops.head()

Unnamed: 0,N,P,K,ph,crop
0,90,42,43,6.502985,rice
1,85,58,41,7.038096,rice
2,60,55,44,7.840207,rice
3,74,35,40,6.980401,rice
4,78,42,42,7.628473,rice


## Análisis exploratorio de datos

In [None]:
# Ver los valores faltantes.
crops.isna().sum()

In [21]:
# Veamos los valores categoricos únicos de crop
crops["crop"].unique()

array(['rice', 'maize', 'chickpea', 'kidneybeans', 'pigeonpeas',
       'mothbeans', 'mungbean', 'blackgram', 'lentil', 'pomegranate',
       'banana', 'mango', 'grapes', 'watermelon', 'muskmelon', 'apple',
       'orange', 'papaya', 'coconut', 'cotton', 'jute', 'coffee'],
      dtype=object)

## Dividir datos

In [26]:
# Dividir datos 
X = crops.drop(columns="crop")
y = crops["crop"]

# Dividir en datos de entranamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size = 0.2,
                                                   random_state = 42)

## Evaluar el rendimiento de las funciones

In [37]:
# Crear un diccionario para almacenar el rendimiento del modelo para cada característica.
feature_performance = {}

# Entrenar un modelo de regresión logística para cada característica
for feature in ["N", "P", "K", "ph"]:
    # se utiliza multinomial dado que se tiene más de dos categorías
    log_reg = LogisticRegression(multi_class="multinomial", max_iter = 3900) 
    log_reg.fit(X_train[[feature]], y_train)
    y_pred = log_reg.predict(X_test[[feature]])
    
    # Calcular la puntuación F1, la media armónica de precisión y recuperación 
    # También podría usar balance_accuracy_score
    f1 = metrics.f1_score(y_test, y_pred, average="weighted")
    
    # Agregar pares de puntuación característica-f1 al diccionario
    feature_performance[feature] = f1
    print(f"F1-score for {feature}: {f1}")

# K obtuvo la mejor puntuación en F1 
# Almacenar en el diccionario best_predictive_feature
best_predictive_feature = {"K": feature_performance["K"]}
best_predictive_feature

F1-score for N: 0.10350482196004852
F1-score for P: 0.12002525220652878
F1-score for K: 0.20353265184616823
F1-score for ph: 0.04532731061152114


{'K': 0.20353265184616823}