# **Crop Recommendation using Random Forest Algorithm**

##### Project ini saya buat untuk memprediksi jenis tanaman apa yang cocok ditanaman berdasarkan beberapa indikator.

In [25]:
# import library
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.preprocessing import MinMaxScaler

In [7]:
# import dataset
data = pd.read_csv('Crop_recommendation.csv')
print('data yang akan digunakan adalah \n', data.head())

data yang akan digunakan adalah 
     N   P   K  temperature   humidity        ph    rainfall label
0  90  42  43    20.879744  82.002744  6.502985  202.935536  rice
1  85  58  41    21.770462  80.319644  7.038096  226.655537  rice
2  60  55  44    23.004459  82.320763  7.840207  263.964248  rice
3  74  35  40    26.491096  80.158363  6.980401  242.864034  rice
4  78  42  42    20.130175  81.604873  7.628473  262.717340  rice


In [14]:
# melihat statistik deskripsi dari data
print('statistik deskriprif dari data adalah: \n', data.describe().T)

statistik deskriprif dari data adalah: 
               count        mean        std        min        25%        50%  \
N            2200.0   50.551818  36.917334   0.000000  21.000000  37.000000   
P            2200.0   53.362727  32.985883   5.000000  28.000000  51.000000   
K            2200.0   48.149091  50.647931   5.000000  20.000000  32.000000   
temperature  2200.0   25.616244   5.063749   8.825675  22.769375  25.598693   
humidity     2200.0   71.481779  22.263812  14.258040  60.261953  80.473146   
ph           2200.0    6.469480   0.773938   3.504752   5.971693   6.425045   
rainfall     2200.0  103.463655  54.958389  20.211267  64.551686  94.867624   

                    75%         max  
N             84.250000  140.000000  
P             68.000000  145.000000  
K             49.000000  205.000000  
temperature   28.561654   43.675493  
humidity      89.948771   99.981876  
ph             6.923643    9.935091  
rainfall     124.267508  298.560117  


In [15]:
# melihat statistik deskriptif dari kolom label
print('statistik deskriptif dari kolom label adalah: \n', data['label'].describe().T)

statistik deskriptif dari kolom label adalah: 
 count     2200
unique      22
top       rice
freq       100
Name: label, dtype: object


In [21]:
# melihat missing value
print('jumlah missing value di dalam data adalah:\n', data.isna().sum())

jumlah missing value di dalam data adalah:
 N              0
P              0
K              0
temperature    0
humidity       0
ph             0
rainfall       0
label          0
dtype: int64


In [24]:
# melihat tipe data kolom
print('tipe data dari masing-masing kolom adalah: \n', data.dtypes)

tipe data dari masing-masing kolom adalah: 
 N                int64
P                int64
K                int64
temperature    float64
humidity       float64
ph             float64
rainfall       float64
label           object
dtype: object


In [31]:
# menormalisasi data
scaler = MinMaxScaler()

data_numerik = data.select_dtypes(include=['number']).columns

data[data_numerik] = scaler.fit_transform(data[data_numerik])

print('data yang sudah di normalisasi adalah: \n', data)

data yang sudah di normalisasi adalah: 
              N         P      K  temperature  humidity        ph  rainfall  \
0     0.642857  0.264286  0.190     0.345886  0.790267  0.466264  0.656458   
1     0.607143  0.378571  0.180     0.371445  0.770633  0.549480  0.741675   
2     0.428571  0.357143  0.195     0.406854  0.793977  0.674219  0.875710   
3     0.528571  0.214286  0.175     0.506901  0.768751  0.540508  0.799905   
4     0.557143  0.264286  0.185     0.324378  0.785626  0.641291  0.871231   
...        ...       ...    ...          ...       ...       ...       ...   
2195  0.764286  0.207143  0.135     0.515037  0.608410  0.509353  0.566064   
2196  0.707143  0.071429  0.110     0.533473  0.494359  0.401561  0.386972   
2197  0.842857  0.200000  0.125     0.439202  0.617880  0.444433  0.550071   
2198  0.835714  0.192857  0.145     0.500627  0.441760  0.506045  0.384280   
2199  0.742857  0.092857  0.125     0.424029  0.538222  0.509317  0.433721   

       label  
0      

In [49]:
# membagi dataset menjadi x dan y
x = data[data_numerik]
y = data['label']

print(x.count())
print(y.count())

#  membagi dataset menjadi training dan testing
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

# define model
model = RandomForestClassifier()

# melatih model
model.fit(x_train, y_train)

# prediksi model
ypred = model.predict(x_test)

# akurasi
akurasi = accuracy_score(y_test, ypred)
print('akurasi dari model ini adalah:', akurasi)

N              2200
P              2200
K              2200
temperature    2200
humidity       2200
ph             2200
rainfall       2200
dtype: int64
2200
akurasi dari model ini adalah: 0.9931818181818182
