# Load Model

In [1]:
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, MinMaxScaler,OneHotEncoder
from sklearn.metrics import classification_report
from sklearn import metrics

from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import pickle

In [2]:
df=pd.read_csv("water_potability.csv")

X=df.drop(['Potability'],axis=1)
y=df.filter(['Potability'])

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)
X_train,X_val,y_train,y_val=train_test_split(X_train,y_train,test_size=0.25,random_state=42)

### Predict Data

In [3]:
def UbahAngka(mode, preddata):
    x = 0
    print(mode)
    print('===============')
    for i in preddata:
        x = x + 1
        if i == 0:
            print('data :', x, ' ( tidak layak minum )')
        else:
            print('data :', x,' ( layak minum )')
    print("")

In [4]:
data = [
    [8.62830107406666,185.9267231,31548.00646,7.079462297,333.6395113,342.3556975,18.24836789,62.18868705,5.100857854], #harusnya 0
    [9.808258179, 220.0495744, 34132.06798, 9.752750872, 233.8703275, 367.0443791, 13.49866451, 62.95426002, 4.48126124] #harusnya 1
]

data_test = pd.DataFrame(data,columns = X.columns)

## Load 1

Model adalah 
1. simple model yang di training dengan model hyper tuning dan prepocesor standard scaler
2. missing data diisi dengan nilai median

In [4]:
filenameRF = 'model/model_RF.sav'
modelRF = pickle.load(open(filenameRF, 'rb'))

filenameDT = 'model/model_DT.sav'
modelDT = pickle.load(open(filenameDT, 'rb'))

filenameKNN = 'model/model_KNN.sav'
modelKNN = pickle.load(open(filenameKNN, 'rb'))



In [5]:
tuning_terbaikRF=modelRF.best_params_
latihan_akurasiRF=modelRF.score(X_train,y_train)
ujian_akurasiRF=modelRF.score(X_test,y_test)
predRF=modelRF.predict(X_test)
reportRF = classification_report(y_test,predRF)

# ================================

tuning_terbaikDT=modelDT.best_params_
latihan_akurasiDT=modelDT.score(X_train,y_train)
ujian_akurasiDT=modelDT.score(X_test,y_test)
predDT=modelDT.predict(X_test)
reportDT = classification_report(y_test,predDT)

# ================================

tuning_terbaikKNN=modelKNN.best_params_
latihan_akurasiKNN=modelKNN.score(X_train,y_train)
ujian_akurasiKNN=modelKNN.score(X_test,y_test)
predKNN=modelKNN.predict(X_test)
reportKNN = classification_report(y_test,predKNN)

In [6]:
print("Random Forest")
print("")
print('ini adalah tuning terbaik :', tuning_terbaikRF)
print('ini adalah hasil testing',ujian_akurasiRF)
print('ini adalah hasil training', latihan_akurasiRF)
print(reportRF)
print('==============================================')
print("")

print("Decision Tree")
print("")
print('ini adalah tuning terbaik :', tuning_terbaikDT)
print('ini adalah hasil testing',ujian_akurasiDT)
print('ini adalah hasil training', latihan_akurasiDT)
print(reportDT)
print('==============================================')
print("")

print("K-Narest Neigbhour")
print("")
print('ini adalah tuning terbaik :', tuning_terbaikKNN)
print('ini adalah hasil testing',ujian_akurasiKNN)
print('ini adalah hasil training', latihan_akurasiKNN)
print(reportKNN)
print('==============================================')
print("")

Random Forest

ini adalah tuning terbaik : {'rf__criterion': 'gini', 'rf__max_depth': 48, 'rf__max_features': 'auto', 'rf__min_samples_leaf': 2, 'rf__n_estimators': 500}
ini adalah hasil testing 0.7145038167938931
ini adalah hasil training 1.0
              precision    recall  f1-score   support

           0       0.74      0.88      0.80       429
           1       0.63      0.41      0.50       226

    accuracy                           0.71       655
   macro avg       0.69      0.64      0.65       655
weighted avg       0.70      0.71      0.70       655


Decision Tree

ini adalah tuning terbaik : {'dt__criterion': 'gini', 'dt__max_depth': 5, 'dt__min_samples_leaf': 2}
ini adalah hasil testing 0.6778625954198473
ini adalah hasil training 0.6653082017320427
              precision    recall  f1-score   support

           0       0.69      0.92      0.79       429
           1       0.59      0.22      0.32       226

    accuracy                           0.68       655
   ma

In [8]:
preddataRF = modelRF.predict(data_test)
preddataDT = modelDT.predict(data_test)
preddataKNN = modelKNN.predict(data_test)

UbahAngka("Random Forest", preddataRF)
UbahAngka("Decision Tree", preddataDT)
UbahAngka("K-Narest Neigbhour", preddataKNN)

Random Forest
data : 1  ( tidak layak minum )
data : 2  ( tidak layak minum )
data : 3  ( layak minum )
data : 4  ( layak minum )
data : 5  ( tidak layak minum )
data : 6  ( tidak layak minum )
data : 7  ( tidak layak minum )
data : 8  ( tidak layak minum )
data : 9  ( tidak layak minum )
data : 10  ( tidak layak minum )
data : 11  ( tidak layak minum )
data : 12  ( tidak layak minum )
data : 13  ( tidak layak minum )
data : 14  ( tidak layak minum )
data : 15  ( tidak layak minum )
data : 16  ( tidak layak minum )
data : 17  ( tidak layak minum )
data : 18  ( layak minum )
data : 19  ( tidak layak minum )
data : 20  ( tidak layak minum )
data : 21  ( tidak layak minum )
data : 22  ( tidak layak minum )
data : 23  ( layak minum )
data : 24  ( tidak layak minum )
data : 25  ( tidak layak minum )
data : 26  ( tidak layak minum )
data : 27  ( tidak layak minum )
data : 28  ( tidak layak minum )
data : 29  ( tidak layak minum )
data : 30  ( layak minum )
data : 31  ( tidak layak minum )
da

data : 591  ( tidak layak minum )
data : 592  ( tidak layak minum )
data : 593  ( tidak layak minum )
data : 594  ( tidak layak minum )
data : 595  ( tidak layak minum )
data : 596  ( tidak layak minum )
data : 597  ( tidak layak minum )
data : 598  ( tidak layak minum )
data : 599  ( tidak layak minum )
data : 600  ( tidak layak minum )
data : 601  ( layak minum )
data : 602  ( tidak layak minum )
data : 603  ( layak minum )
data : 604  ( layak minum )
data : 605  ( tidak layak minum )
data : 606  ( layak minum )
data : 607  ( tidak layak minum )
data : 608  ( tidak layak minum )
data : 609  ( tidak layak minum )
data : 610  ( tidak layak minum )
data : 611  ( tidak layak minum )
data : 612  ( layak minum )
data : 613  ( layak minum )
data : 614  ( tidak layak minum )
data : 615  ( tidak layak minum )
data : 616  ( tidak layak minum )
data : 617  ( tidak layak minum )
data : 618  ( layak minum )
data : 619  ( tidak layak minum )
data : 620  ( layak minum )
data : 621  ( tidak layak mi

data : 436  ( tidak layak minum )
data : 437  ( layak minum )
data : 438  ( layak minum )
data : 439  ( tidak layak minum )
data : 440  ( tidak layak minum )
data : 441  ( tidak layak minum )
data : 442  ( layak minum )
data : 443  ( tidak layak minum )
data : 444  ( tidak layak minum )
data : 445  ( tidak layak minum )
data : 446  ( tidak layak minum )
data : 447  ( tidak layak minum )
data : 448  ( tidak layak minum )
data : 449  ( tidak layak minum )
data : 450  ( tidak layak minum )
data : 451  ( layak minum )
data : 452  ( tidak layak minum )
data : 453  ( tidak layak minum )
data : 454  ( layak minum )
data : 455  ( tidak layak minum )
data : 456  ( tidak layak minum )
data : 457  ( tidak layak minum )
data : 458  ( tidak layak minum )
data : 459  ( tidak layak minum )
data : 460  ( tidak layak minum )
data : 461  ( tidak layak minum )
data : 462  ( tidak layak minum )
data : 463  ( tidak layak minum )
data : 464  ( tidak layak minum )
data : 465  ( tidak layak minum )
data : 466

data : 324  ( tidak layak minum )
data : 325  ( tidak layak minum )
data : 326  ( tidak layak minum )
data : 327  ( tidak layak minum )
data : 328  ( tidak layak minum )
data : 329  ( tidak layak minum )
data : 330  ( tidak layak minum )
data : 331  ( tidak layak minum )
data : 332  ( tidak layak minum )
data : 333  ( tidak layak minum )
data : 334  ( layak minum )
data : 335  ( tidak layak minum )
data : 336  ( tidak layak minum )
data : 337  ( tidak layak minum )
data : 338  ( tidak layak minum )
data : 339  ( tidak layak minum )
data : 340  ( tidak layak minum )
data : 341  ( tidak layak minum )
data : 342  ( tidak layak minum )
data : 343  ( tidak layak minum )
data : 344  ( tidak layak minum )
data : 345  ( tidak layak minum )
data : 346  ( tidak layak minum )
data : 347  ( tidak layak minum )
data : 348  ( tidak layak minum )
data : 349  ( tidak layak minum )
data : 350  ( tidak layak minum )
data : 351  ( tidak layak minum )
data : 352  ( tidak layak minum )
data : 353  ( tidak 

## Load 2

Model adalah 
1. simple model yang di training dengan model hyper tuning dan prepocesor standard scaler
2. data sudah di drop missing value

In [9]:
filenameRF2 = 'model/model_RF2.sav'
modelRF2 = pickle.load(open(filenameRF2, 'rb'))

filenameDT2 = 'model/model_DT2.sav'
modelDT2 = pickle.load(open(filenameDT2, 'rb'))

filenameKNN2 = 'model/model_KNN2.sav'
modelKNN2 = pickle.load(open(filenameKNN2, 'rb'))

In [10]:
tuning_terbaikRF2=modelRF2.best_params_
latihan_akurasiRF2=modelRF2.score(X_train,y_train)
ujian_akurasiRF2=modelRF2.score(X_test,y_test)
predRF2=modelRF2.predict(X_test)
reportRF2 = classification_report(y_test,predRF2)

# ================================

tuning_terbaikDT2=modelDT2.best_params_
latihan_akurasiDT2=modelDT2.score(X_train,y_train)
ujian_akurasiDT2=modelDT2.score(X_test,y_test)
predDT2=modelDT2.predict(X_test)
reportDT2 = classification_report(y_test,predDT2)

# ================================

tuning_terbaikKNN2=modelKNN2.best_params_
latihan_akurasiKNN2=modelKNN2.score(X_train,y_train)
ujian_akurasiKNN2=modelKNN2.score(X_test,y_test)
predKNN2=modelKNN2.predict(X_test)
reportKNN2 = classification_report(y_test,predKNN2)

In [11]:
print("Random Forest")
print("")
print('ini adalah tuning terbaik :', tuning_terbaikRF2)
print('ini adalah hasil testing',ujian_akurasiRF2)
print('ini adalah hasil training', latihan_akurasiRF2)
print(reportRF2)
print('==============================================')
print("")

print("Decision Tree")
print("")
print('ini adalah tuning terbaik :', tuning_terbaikDT2)
print('ini adalah hasil testing',ujian_akurasiDT2)
print('ini adalah hasil training', latihan_akurasiDT2)
print(reportDT2)
print('==============================================')
print("")

print("K-Narest Neigbhour")
print("")
print('ini adalah tuning terbaik :', tuning_terbaikKNN2)
print('ini adalah hasil testing',ujian_akurasiKNN2)
print('ini adalah hasil training', latihan_akurasiKNN2)
print(reportKNN2)
print('==============================================')
print("")

Random Forest

ini adalah tuning terbaik : {'rf__criterion': 'gini', 'rf__max_depth': 49, 'rf__max_features': 'auto', 'rf__min_samples_leaf': 2, 'rf__n_estimators': 500}
ini adalah hasil testing 0.7847328244274809
ini adalah hasil training 0.7778909831889964
              precision    recall  f1-score   support

           0       0.79      0.91      0.85       429
           1       0.76      0.55      0.64       226

    accuracy                           0.78       655
   macro avg       0.78      0.73      0.74       655
weighted avg       0.78      0.78      0.77       655


Decision Tree

ini adalah tuning terbaik : {'dt__criterion': 'gini', 'dt__max_depth': 3, 'dt__min_samples_leaf': 2}
ini adalah hasil testing 0.6549618320610687
ini adalah hasil training 0.6209882832399388
              precision    recall  f1-score   support

           0       0.68      0.90      0.77       429
           1       0.50      0.18      0.27       226

    accuracy                           0.65 

In [12]:
preddataRF2 = modelRF2.predict(data_test)
preddataDT2 = modelDT2.predict(data_test)
preddataKNN2 = modelKNN2.predict(data_test)

UbahAngka("Random Forest", preddataRF2)
UbahAngka("Decision Tree", preddataDT2)
UbahAngka("K-Narest Neigbhour", preddataKNN2)

Random Forest
data : 1  ( tidak layak minum )
data : 2  ( layak minum )

Decision Tree
data : 1  ( tidak layak minum )
data : 2  ( layak minum )

K-Narest Neigbhour
data : 1  ( tidak layak minum )
data : 2  ( layak minum )



## Load 3

Model adalah 
1. simple model yang di training dengan model hyper tuning dan prepocesor standard scaler
2. missing data diisi dengan nilai median
3. menggunakan metode shuffle

In [13]:
filenameRF3 = 'model/model_RF3.sav'
modelRF3 = pickle.load(open(filenameRF3, 'rb'))

filenameDT3 = 'model/model_DT3.sav'
modelDT3 = pickle.load(open(filenameDT3, 'rb'))

filenameKNN3 = 'model/model_KNN3.sav'
modelKNN3 = pickle.load(open(filenameKNN3, 'rb'))

In [14]:
tuning_terbaikRF3=modelRF3.best_params_
latihan_akurasiRF3=modelRF3.score(X_train,y_train)
ujian_akurasiRF3=modelRF3.score(X_test,y_test)
predRF3=modelRF3.predict(X_test)
reportRF3 = classification_report(y_test,predRF3)

# ================================

tuning_terbaikDT3=modelDT3.best_params_
latihan_akurasiDT3=modelDT3.score(X_train,y_train)
ujian_akurasiDT3=modelDT3.score(X_test,y_test)
predDT3=modelDT3.predict(X_test)
reportDT3 = classification_report(y_test,predDT3)

# ================================

tuning_terbaikKNN3=modelKNN3.best_params_
latihan_akurasiKNN3=modelKNN3.score(X_train,y_train)
ujian_akurasiKNN3=modelKNN3.score(X_test,y_test)
predKNN3=modelKNN3.predict(X_test)
reportKNN3 = classification_report(y_test,predKNN3)

In [15]:
print("Random Forest")
print("")
print('ini adalah tuning terbaik :', tuning_terbaikRF3)
print('ini adalah hasil testing',ujian_akurasiRF3)
print('ini adalah hasil training', latihan_akurasiRF3)
print(reportRF3)
print('==============================================')
print("")

print("Decision Tree")
print("")
print('ini adalah tuning terbaik :', tuning_terbaikDT3)
print('ini adalah hasil testing',ujian_akurasiDT3)
print('ini adalah hasil training', latihan_akurasiDT3)
print(reportDT3)
print('==============================================')
print("")

print("K-Narest Neigbhour")
print("")
print('ini adalah tuning terbaik :', tuning_terbaikKNN3)
print('ini adalah hasil testing',ujian_akurasiKNN3)
print('ini adalah hasil training', latihan_akurasiKNN3)
print(reportKNN3)
print('==============================================')
print("")

Random Forest

ini adalah tuning terbaik : {'rf__criterion': 'gini', 'rf__max_depth': 38, 'rf__max_features': 'sqrt', 'rf__min_samples_leaf': 2, 'rf__n_estimators': 500}
ini adalah hasil testing 0.8916030534351145
ini adalah hasil training 0.8604177279673968
              precision    recall  f1-score   support

           0       0.89      0.95      0.92       429
           1       0.89      0.78      0.83       226

    accuracy                           0.89       655
   macro avg       0.89      0.86      0.88       655
weighted avg       0.89      0.89      0.89       655


Decision Tree

ini adalah tuning terbaik : {'dt__criterion': 'gini', 'dt__max_depth': 6, 'dt__min_samples_leaf': 2}
ini adalah hasil testing 0.7251908396946565
ini adalah hasil training 0.6749872643912379
              precision    recall  f1-score   support

           0       0.72      0.96      0.82       429
           1       0.79      0.28      0.41       226

    accuracy                           0.73 

In [16]:
preddataRF3 = modelRF3.predict(data_test)
preddataDT3 = modelDT3.predict(data_test)
preddataKNN3 = modelKNN3.predict(data_test)

UbahAngka("Random Forest", preddataRF3)
UbahAngka("Decision Tree", preddataDT3)
UbahAngka("K-Narest Neigbhour", preddataKNN3)

Random Forest
data : 1  ( tidak layak minum )
data : 2  ( layak minum )

Decision Tree
data : 1  ( tidak layak minum )
data : 2  ( layak minum )

K-Narest Neigbhour
data : 1  ( tidak layak minum )
data : 2  ( layak minum )



## Load 4

Model adalah 
1. simple model yang di training dengan model hyper tuning dan onehot encoder
2. nilai kosong diisi dengan most frequent
3. data sudah di buat menjadi catagorical

In [17]:
filenameRF4 = 'model/model_RF4.sav'
modelRF4 = pickle.load(open(filenameRF4, 'rb'))

filenameDT4 = 'model/model_DT4.sav'
modelDT4 = pickle.load(open(filenameDT4, 'rb'))

filenameKNN4 = 'model/model_KNN4.sav'
modelKNN4 = pickle.load(open(filenameKNN4, 'rb'))



In [18]:
# df.Turbidity = pd.cut(df.Turbidity,[1,5,7], labels = ['layak','tinggi'])
# df.Trihalomethanes = pd.cut(df.Trihalomethanes,[0,80,125], labels = ['layak','tinggi'])
# df.Organic_carbon = pd.cut(df.Organic_carbon,[2,24,29], labels = ['layak','tinggi'])
# df.Conductivity = pd.cut(df.Conductivity,[181,400,754], labels = ['layak','tinggi'])
# df.Sulfate = pd.cut(df.Sulfate,[128,250,482], labels = ['layak','tinggi'])
# df.Chloramines = pd.cut(df.Chloramines,[0,5,14], labels = ['layak','tinggi'])
# df.Hardness = pd.cut(df.Hardness,[47,500], labels = ['layak'])
# df.ph = pd.cut(df.ph,[0,6.5,8.5,15], labels = ['basa','netral','asam'])

X=df.drop(['Solids','Potability'],axis=1)
y=df.filter(['Potability'])

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)
X_train,X_val,y_train,y_val=train_test_split(X_train,y_train,test_size=0.25,random_state=42)

In [19]:
tuning_terbaikRF4=modelRF4.best_params_
# latihan_akurasiRF4=modelRF4.score(X_train,y_train)
# ujian_akurasiRF4=modelRF4.score(X_test,y_test)
predRF4=modelRF4.predict(X_test)
reportRF4 = classification_report(y_test,predRF4)


RuntimeError: The reset parameter is False but there is no n_features_in_ attribute. Is this estimator fitted?

In [None]:
print("Random Forest")
print("")
print('ini adalah tuning terbaik :', tuning_terbaikRF4)
print('ini adalah hasil testing',ujian_akurasiRF4)
print('ini adalah hasil training', latihan_akurasiRF4)
print(reportRF4)
print('==============================================')
print("")

print("Decision Tree")
print("")
print('ini adalah tuning terbaik :', tuning_terbaikDT4)
print('ini adalah hasil testing',ujian_akurasiDT4)
print('ini adalah hasil training', latihan_akurasiDT4)
print(reportDT4)
print('==============================================')
print("")

print("K-Narest Neigbhour")
print("")
print('ini adalah tuning terbaik :', tuning_terbaikKNN4)
print('ini adalah hasil testing',ujian_akurasiKNN4)
print('ini adalah hasil training', latihan_akurasiKNN4)
print(reportKNN4)
print('==============================================')
print("")

In [None]:
preddataRF4 = modelRF4.predict(data_test)
preddataDT4 = modelDT4.predict(data_test)
preddataKNN4 = modelKNN4.predict(data_test)

UbahAngka("Random Forest", preddataRF4)
UbahAngka("Decision Tree", preddataDT4)
UbahAngka("K-Narest Neigbhour", preddataKNN4)