![Farmer in a field](farmer_in_a_field.jpg)

Medir métricas essenciais do solo, como níveis de nitrogênio, fósforo, potássio e valor de pH, é um aspecto importante da avaliação da condição do solo. No entanto, pode ser um processo caro e demorado, o que pode fazer com que os agricultores priorizem quais as métricas a medir com base nas suas restrições orçamentais.

Os agricultores têm várias opções quando se trata de decidir qual cultura plantar em cada estação. O seu objetivo principal é maximizar o rendimento das suas culturas, tendo em conta diversos fatores. Um factor crucial que afecta o crescimento das culturas é a condição do solo no campo, que pode ser avaliada medindo elementos básicos como os níveis de azoto e potássio. Cada cultura possui uma condição de solo ideal que garante crescimento ideal e rendimento máximo.

Um agricultor entrou em contato com você como especialista em aprendizado de máquina para obter assistência na seleção da melhor cultura para seu campo. Eles forneceram um conjunto de dados chamado `soil_measures.csv`, que contém:

- `"N"`: Razão do teor de nitrogênio no solo
- `"P"`: Relação do teor de fósforo no solo
- `"K"`: Relação do teor de potássio no solo
- `"pH"`: medida do pH no solo
- `"crop"`: valores categóricos que contêm vários cultivos (variável alvo).

Cada linha neste conjunto de dados representa várias medidas do solo em um campo específico. Com base nessas medições, a cultura especificada na coluna `"crop"` é a escolha ideal para esse campo.

In [1]:
# All required libraries are imported here

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics

# Load the dataset
crops = pd.read_csv("soil_measures.csv")

# Display ten smaples
crops.sample(10)

Unnamed: 0,N,P,K,ph,crop
2080,65,54,39,7.124572,jute
501,22,59,23,4.371746,mothbeans
1331,92,21,48,6.377427,watermelon
1120,4,20,25,5.664587,mango
2070,61,41,35,6.842966,jute
746,20,68,23,7.707332,blackgram
216,50,56,76,7.966605,chickpea
2073,90,59,35,7.098228,jute
1599,10,140,197,6.229499,apple
436,26,72,22,4.674942,pigeonpeas


In [2]:
crops.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2200 entries, 0 to 2199
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   N       2200 non-null   int64  
 1   P       2200 non-null   int64  
 2   K       2200 non-null   int64  
 3   ph      2200 non-null   float64
 4   crop    2200 non-null   object 
dtypes: float64(1), int64(3), object(1)
memory usage: 86.1+ KB


In [3]:
# Get predictor columns
X= crops.drop("crop", axis= "columns")

# Get the output column
y= crops["crop"]

# Split the data in train and test data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.3, random_state= 69)

In [4]:
# Empty dict to record features and a corresponding F1-score
feature_scores = {}

# Loop through column names
for feature in X.columns.values:
    # Instantiating the Model
    log_reg = LogisticRegression(multi_class= "multinomial")
    # Fitting the data
    log_reg.fit(X_train[[feature]], y_train)
    # Predicting the values
    y_pred = log_reg.predict(X_test[[feature]])
    # Calculating the performance
    feature_performance = metrics.f1_score(y_test, y_pred, average= "weighted")
    # Add score to the dictionary
    feature_scores[feature] = feature_performance
    print(f"F1-score for {feature}: {feature_performance}")

F1-score for N: 0.09462877215497714
F1-score for P: 0.1227785136720772
F1-score for K: 0.219471625595087
F1-score for ph: 0.048718124652300604


In [5]:
# Get key with biggest value
best_pred_key = max(feature_scores, key= feature_scores.get)

best_pred_key

'K'