#Título del proyecto:

#Sembrando éxito: Cómo el aprendizaje automático ayuda a los agricultores a seleccionar los mejores cultivos.


Medir métricas esenciales del suelo, como los niveles de nitrógeno, fósforo, potasio y el valor del pH, es un aspecto importante de la evaluación del estado del suelo. Sin embargo, puede ser un proceso costoso y que requiere mucho tiempo, lo que puede hacer que los agricultores prioricen qué métricas medir en función de sus limitaciones presupuestarias.

Los agricultores tienen varias opciones a la hora de decidir qué cultivo plantar en cada temporada. Su principal objetivo es maximizar el rendimiento de sus cultivos, teniendo en cuenta diferentes factores. Un factor crucial que afecta el crecimiento de los cultivos es la condición del suelo en el campo, que puede evaluarse midiendo elementos básicos como los niveles de nitrógeno y potasio. Cada cultivo tiene una condición de suelo ideal que garantiza un crecimiento óptimo y un rendimiento máximo.

Un agricultor se acercó a usted como experto en aprendizaje automático para pedirle ayuda para seleccionar el mejor cultivo para su campo. Le proporcionaron un conjunto de datos llamado suelo_measures.csv, que contiene:

"N": Relación de contenido de nitrógeno en el suelo.
"P": Relación de contenido de fósforo en el suelo.
"K": Relación de contenido de potasio en el suelo.
Valor "pH" del suelo
"cultivo": valores categóricos que contienen varios cultivos (variable objetivo).
Cada fila de este conjunto de datos representa varias medidas del suelo en un campo en particular. Según estas mediciones, el cultivo especificado en la columna "cultivo" es la opción óptima para ese campo.

En este proyecto, creará modelos de clasificación de clases múltiples para predecir el tipo de "cultivo" e identificar la característica más importante para el rendimiento predictivo.

In [1]:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics

In [2]:
crops = pd.read_csv("soil_measures.csv")
crops.head()

Unnamed: 0,N,P,K,ph,crop
0,90,42,43,6.502985,rice
1,85,58,41,7.038096,rice
2,60,55,44,7.840207,rice
3,74,35,40,6.980401,rice
4,78,42,42,7.628473,rice


##Análisis exploratorio:

Verifico la presencia de valores faltantes:

In [3]:
crops.isna().sum()

Unnamed: 0,0
N,0
P,0
K,0
ph,0
crop,0


In [4]:
#Para confirmar si "crop" es una característica binaria o de multiples valores usamos unique
#para mostrar todos los valores unicos de esa colummna
serie = pd.Series(crops["crop"])
print(serie)

0         rice
1         rice
2         rice
3         rice
4         rice
         ...  
2195    coffee
2196    coffee
2197    coffee
2198    coffee
2199    coffee
Name: crop, Length: 2200, dtype: object


In [5]:
#Otra opcion para verificar esto, se puede hacer usando:
crops.crop.unique()

array(['rice', 'maize', 'chickpea', 'kidneybeans', 'pigeonpeas',
       'mothbeans', 'mungbean', 'blackgram', 'lentil', 'pomegranate',
       'banana', 'mango', 'grapes', 'watermelon', 'muskmelon', 'apple',
       'orange', 'papaya', 'coconut', 'cotton', 'jute', 'coffee'],
      dtype=object)

Por lo tanto, "crop" es una característica de multiples valores.

#Separación de datos:


In [6]:
#Dividimos el conjunto de datos en características (features) y la variable objetivo (target)
X = crops.drop(columns=["crop"])
y = crops["crop"]

In [7]:
#Separamos los datos en sets de entrenamientos y sets de prueba
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3,random_state=42)

#Evaluacion de rendimiento:

In [8]:
from sklearn.metrics import f1_score
#Creamos un diccionario para almacenar el rendimiento predictivo de cada característica
features_dict = {}

#Entrenamos y evaluamos el rendimiento de cada característica
for feature in ["N","P","K","ph"]:
  log_reg = LogisticRegression(multi_class = "multinomial")
  log_reg.fit(X_train[[feature]],y_train)
  y_pred = log_reg.predict(X_test[[feature]])
  feature_importance = f1_score(y_test, y_pred, average='weighted')
  #Lo almacenamos en el diccionario
  features_dict[feature] = feature_importance
  print(f"F1-score for {feature}: {features_dict}")

# Mostrar el diccionario con los resultados
print("Feature performance dictionary:", features_dict)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


F1-score for N: {'N': 0.09583448929297336}
F1-score for P: {'N': 0.09583448929297336, 'P': 0.12412171549213567}
F1-score for K: {'N': 0.09583448929297336, 'P': 0.12412171549213567, 'K': 0.2260865212294035}
F1-score for ph: {'N': 0.09583448929297336, 'P': 0.12412171549213567, 'K': 0.2260865212294035, 'ph': 0.06787631271947597}
Feature performance dictionary: {'N': 0.09583448929297336, 'P': 0.12412171549213567, 'K': 0.2260865212294035, 'ph': 0.06787631271947597}


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


#Creamos la variable best_predictive_feature:

In [9]:
# Encontrar la característica con el mejor rendimiento
best_feature = max(features_dict, key=features_dict.get)
best_score = features_dict[best_feature]

# Crear la variable best_predictive_feature
best_predictive_feature = {best_feature: best_score}

# Mostrar el diccionario con los resultados
print("Diccionario de rendimiento de features:", features_dict)
print("Mejor caracteristica predictiva:", best_predictive_feature)

Diccionario de rendimiento de features: {'N': 0.09583448929297336, 'P': 0.12412171549213567, 'K': 0.2260865212294035, 'ph': 0.06787631271947597}
Mejor caracteristica predictiva: {'K': 0.2260865212294035}


Con esto quiere decir, que la característica que produce la mejor puntuación para predecir "cultivos" la tiene el Potasio (K). Basicamente, K produce el mejor valor de f1 score