# Bestimmung der geeignetsten Pflanzenart nach Bodenmerkmalen

In [67]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score
from sklearn.preprocessing import LabelEncoder
import pandas as pd

In [68]:
# Datensatz einlesen
soil_data= pd.read_csv('soil_measures.csv')

In [69]:
# Zielvariable (crop) wird in numerische Werte umgewandelt
label_encoder = LabelEncoder()
soil_data['pflanze_kodiert'] = label_encoder.fit_transform(soil_data['crop'])
soil_data

Unnamed: 0,N,P,K,ph,crop,pflanze_kodiert
0,90,42,43,6.502985,rice,20
1,85,58,41,7.038096,rice,20
2,60,55,44,7.840207,rice,20
3,74,35,40,6.980401,rice,20
4,78,42,42,7.628473,rice,20
...,...,...,...,...,...,...
2195,107,34,32,6.780064,coffee,5
2196,99,15,27,6.086922,coffee,5
2197,118,33,30,6.362608,coffee,5
2198,117,32,34,6.758793,coffee,5


In [70]:
# Merkmale und Zielvariable festlegen
X = soil_data[['N', 'P', 'K', 'ph']]
y = soil_data['pflanze_kodiert']     

In [71]:
# Daten in Trainings- und Testdaten aufteilen
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [72]:
# Modell initialisieren und trainieren
log_regression = LogisticRegression(multi_class='multinomial', solver='lbfgs', max_iter=50000)
log_regression.fit(X_train, y_train)

STOP: TOTAL NO. of f AND g EVALUATIONS EXCEEDS LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [73]:
# Vorhersagen treffen
y_pred = log_regression.predict(X_test)

In [74]:
# Klassifikationsgenauigkeit und Bericht erstellen
genauigkeit = accuracy_score(y_test, y_pred)
klassifikationsbericht = classification_report(y_test, y_pred, target_names=label_encoder.classes_)

print(f"Genauigkeit des Modells: {genauigkeit * 100:.2f}%\n")

print("Klassifikationsbericht:\n")

print(klassifikationsbericht)

Genauigkeit des Modells: 68.86%

Klassifikationsbericht:

              precision    recall  f1-score   support

       apple       0.78      0.30      0.44        23
      banana       1.00      1.00      1.00        21
   blackgram       0.77      0.50      0.61        20
    chickpea       1.00      1.00      1.00        26
     coconut       0.78      0.67      0.72        27
      coffee       0.83      0.88      0.86        17
      cotton       0.94      1.00      0.97        17
      grapes       0.43      0.86      0.57        14
        jute       0.52      0.61      0.56        23
 kidneybeans       0.50      0.60      0.55        20
      lentil       0.28      0.64      0.39        11
       maize       1.00      1.00      1.00        21
       mango       0.56      0.74      0.64        19
   mothbeans       0.62      0.33      0.43        24
    mungbean       0.40      0.63      0.49        19
   muskmelon       0.60      0.71      0.65        17
      orange       1.00

# jetzt das gleiche nochmal mit datenvorverarbeitung und Iterationserhöhung

In [75]:
from sklearn.preprocessing import LabelEncoder, StandardScaler
# Datensatz einlesen
soil_data= pd.read_csv('soil_measures.csv')
label_encoder = LabelEncoder()
soil_data['pflanze_kodiert'] = label_encoder.fit_transform(soil_data['crop'])

In [76]:
# Merkmale und Zielvariable festlegen
merkmale = soil_data[['N', 'P', 'K', 'ph']]
zielvariable = soil_data['pflanze_kodiert']

In [77]:
# Merkmale standardisieren
scaler = StandardScaler()
merkmale_skaliert = scaler.fit_transform(merkmale)

In [78]:
# Daten in Trainings- und Testdaten aufteilen
merkmale_train, merkmale_test, ziel_train, ziel_test = train_test_split(
    merkmale_skaliert, zielvariable, test_size=0.2, random_state=42
)

In [79]:
# Modell initialisieren und trainieren 
log_regression = LogisticRegression(multi_class='multinomial', solver='lbfgs', max_iter=1000)
log_regression.fit(merkmale_train, ziel_train)

In [80]:
# Vorhersagen treffen
vorhersagen = log_regression.predict(merkmale_test)

In [81]:
# Genauigkeit und Klassifikationsbericht berechnen
genauigkeit = accuracy_score(ziel_test, vorhersagen)
klassifikationsbericht = classification_report(ziel_test, vorhersagen, target_names=label_encoder.classes_)

In [82]:
# Ergebnis ausgeben
print(f"Verbesserte Genauigkeit des Modells: {genauigkeit * 100:.2f}%\n")
print("Verbesserter Klassifikationsbericht:\n")
print(klassifikationsbericht)

Verbesserte Genauigkeit des Modells: 65.91%

Verbesserter Klassifikationsbericht:

              precision    recall  f1-score   support

       apple       0.88      0.30      0.45        23
      banana       1.00      1.00      1.00        21
   blackgram       0.76      0.65      0.70        20
    chickpea       1.00      0.77      0.87        26
     coconut       0.81      0.63      0.71        27
      coffee       0.76      0.76      0.76        17
      cotton       0.88      0.88      0.88        17
      grapes       0.45      0.93      0.60        14
        jute       0.50      0.48      0.49        23
 kidneybeans       0.45      0.65      0.53        20
      lentil       0.30      0.64      0.41        11
       maize       0.91      1.00      0.95        21
       mango       0.40      0.53      0.45        19
   mothbeans       0.60      0.25      0.35        24
    mungbean       0.67      0.74      0.70        19
   muskmelon       0.62      0.76      0.68        1