In [1]:
from sklearn.datasets import load_breast_cancer

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import f1_score
from sklearn.metrics import accuracy_score

from sklearn import tree
import six
import sys
sys.modules['sklearn.externals.six'] = six
#pip install decision-tree-id3
from id3 import Id3Estimator
from sklearn.linear_model import LogisticRegression
from sklearn.neural_network import MLPClassifier
from sklearn.svm import SVC

import matplotlib.pyplot as plt

import pandas as pd

In [2]:
# Set random state for project
RD_STATE = 1

# Load breast cancer dataset
bc_data = load_breast_cancer()

# Pisahkan menjadi training set (80%) dan testing set (20%)
bc_X_train, bc_X_test, bc_y_train, bc_y_test = train_test_split(bc_data.data, bc_data.target, test_size=0.2, random_state=RD_STATE)

In [3]:
# Load play tennis dataset
pt_df_raw = pd.read_csv("play_tennis.csv")
pt_df = pt_df_raw.copy()

# Label encoding
le = LabelEncoder()
pt_classes = {}
for column in pt_df.columns:
    le.fit(pt_df[column])
    pt_df[column] = le.transform(pt_df[column])
    pt_classes[column] = le.classes_
pt_X_train, pt_X_test, pt_y_train, pt_y_test = train_test_split(pt_df[['outlook', 'temp', 'humidity', 'wind']], pt_df[['play']], test_size=0.2, random_state=RD_STATE)


In [4]:
from sklearn.tree import export_text as ex_t

# DecisionTreeClassifier

# Fit classifier
bc_dtc_clf = tree.DecisionTreeClassifier().fit(bc_X_train, bc_y_train)

pt_dtc_clf = tree.DecisionTreeClassifier().fit(pt_X_train, pt_y_train)

# Print accuracy dan nilai f1
bc_fn = bc_data.feature_names
bc_t = ex_t(bc_dtc_clf, feature_names=list(bc_fn))
pt_t = ex_t(pt_dtc_clf, feature_names=list(['Outlook','Temprature','Humidity','Wind'] ))

print("DecisionTreeClassifier:")
print("• Breast cancer dataset")
print("\tAccuracy: ", bc_dtc_clf.score(bc_X_test, bc_y_test))
print("\tf1_score: ", f1_score(bc_y_test, bc_dtc_clf.predict(bc_X_test)))
print()
print(bc_t)
print("• Play tennis dataset")
print("\tAccuracy: ", pt_dtc_clf.score(pt_X_test, pt_y_test['play']))
print("\tf1_score: ", f1_score(pt_y_test['play'], pt_dtc_clf.predict(pt_X_test)))
print()
print(pt_t)

DecisionTreeClassifier:
• Breast cancer dataset
	Accuracy:  0.9385964912280702
	f1_score:  0.9523809523809524

|--- worst perimeter <= 106.05
|   |--- worst concave points <= 0.16
|   |   |--- worst concave points <= 0.14
|   |   |   |--- radius error <= 0.64
|   |   |   |   |--- class: 1
|   |   |   |--- radius error >  0.64
|   |   |   |   |--- concave points error <= 0.02
|   |   |   |   |   |--- class: 0
|   |   |   |   |--- concave points error >  0.02
|   |   |   |   |   |--- class: 1
|   |   |--- worst concave points >  0.14
|   |   |   |--- mean texture <= 20.84
|   |   |   |   |--- class: 1
|   |   |   |--- mean texture >  20.84
|   |   |   |   |--- class: 0
|   |--- worst concave points >  0.16
|   |   |--- worst texture <= 24.78
|   |   |   |--- class: 1
|   |   |--- worst texture >  24.78
|   |   |   |--- class: 0
|--- worst perimeter >  106.05
|   |--- worst texture <= 20.65
|   |   |--- worst radius <= 17.74
|   |   |   |--- class: 1
|   |   |--- worst radius >  17.74
|  

Decision Tree adalah salah satu metode untuk memprediksi target data dengan membuat model pohon yang dibuat berdasarkan pembelajaran nilai pada data training. Sckit menggunakan algoritma CART (Classification and Regression Trees) untuk DecisionTreeClassifier. Algoritma ini mengelompokan setiap pola atau data dalam sebuah kelas-kelas tertentu dan memodelkannya dalam bentuk pohon.

• Breast cancer dataset  
    • Accuracy:  0.9473684210526315  
    Hasil penilaian berdasarkan accuracy menunjukkan 94% ketepatan prediksi. Hasil ini merupakan hasil yang cukup tinggi.   
    • f1_score:  0.9589041095890412  
    Hasil penilaian berdasarkan F1 menunjukkan 95% ketepatan prediksi. Hasil ini merupakan hasil yang cukup tinggi.  
    Berdasarkan hasil, penilaian berdasarkan F1 memiliki nilai yang lebih besar dibandingkan dengan accuracy.  
 
• Play tennis dataset  
    • Accuracy:  0.6666666666666666  
    Hasil penilaian berdasarkan accuracy menunjukkan 66% ketepatan prediksi. Hasil ini merupakan hasil yang cukup rendah.   
    • f1_score:  0.6666666666666666  
    Hasil penilaian berdasarkan F1 menunjukkan 66% ketepatan prediksi. Hasil ini merupakan hasil yang cukup rendah.  
    Salah satu penyebab dari penilaian rendah untuk accuracy dan F1 adalah data test untuk dataset Play-Tennis yang berjumlah sedikit.

In [5]:
from id3 import export_text
# Id3Estimator

# Fit classifier
bc_id3_clf = Id3Estimator().fit(bc_X_train, bc_y_train)

pt_id3_clf = Id3Estimator().fit(pt_X_train, pt_y_train['play'])

# Print accuracy dan nilai f1
print("DecisionTreeClassifier:")
print("• Breast cancer dataset")
print("\tAccuracy: ", accuracy_score(bc_y_test, bc_id3_clf.predict(bc_X_test)))
print("\tf1_score: ", f1_score(bc_y_test, bc_id3_clf.predict(bc_X_test)))
print(export_text(bc_id3_clf.tree_, bc_fn))
print("• Play tennis dataset")
print("\tAccuracy: ", accuracy_score(pt_y_test['play'], pt_id3_clf.predict(pt_X_test)))
print("\tf1_score: ", f1_score(pt_y_test['play'], pt_id3_clf.predict(pt_X_test)))
print(export_text(pt_id3_clf.tree_, feature_names=['Outlook','Temprature','Humidity','Wind'] ))

DecisionTreeClassifier:
• Breast cancer dataset
	Accuracy:  0.9385964912280702
	f1_score:  0.953020134228188

worst perimeter <=105.15
|   worst concave points <=0.14
|   |   radius error <=0.64: 1 (249) 
|   |   radius error >0.64
|   |   |   mean radius <=12.27: 0 (1) 
|   |   |   mean radius >12.27: 1 (2) 
|   worst concave points >0.14
|   |   worst texture <=25.94: 1 (6) 
|   |   worst texture >25.94
|   |   |   mean compactness <=0.12
|   |   |   |   mean radius <=14.06: 1 (2) 
|   |   |   |   mean radius >14.06: 0 (1) 
|   |   |   mean compactness >0.12: 0 (5) 
worst perimeter >105.15
|   worst concave points <=0.15
|   |   worst texture <=19.91: 1 (13) 
|   |   worst texture >19.91
|   |   |   worst radius <=16.80
|   |   |   |   mean smoothness <=0.09: 1 (8) 
|   |   |   |   mean smoothness >0.09
|   |   |   |   |   smoothness error <=0.00: 1 (2) 
|   |   |   |   |   smoothness error >0.00: 0 (5) 
|   |   |   worst radius >16.80
|   |   |   |   worst concavity <=0.21
|   |   |

Id3Estimator adalah salah satu algoritma decision tree. Algoritma ini melakukan pencarian secara menyeluruh (greedy) pada semua kemungkinan pohon keputusan  
  
• Breast cancer dataset    
    • Accuracy:  0.9385964912280702  
    Hasil penilaian berdasarkan accuracy menunjukkan 93% ketepatan prediksi. Hasil ini merupakan hasil yang cukup tinggi.  
    • f1_score:  0.953020134228188    
    Hasil penilaian berdasarkan F1 menunjukkan 95% ketepatan prediksi. Hasil ini merupakan hasil yang cukup tinggi.  
    Berdasarkan hasil, penilaian berdasarkan F1 memiliki nilai yang lebih besar dibandingkan dengan accuracy.  
      
• Play tennis dataset  
    • Accuracy:  0.6666666666666666  
    Hasil penilaian berdasarkan accuracy menunjukkan 66% ketepatan prediksi. Hasil ini merupakan hasil yang cukup rendah.   
    • f1_score:  0.6666666666666666  
    Hasil penilaian berdasarkan F1 menunjukkan 66% ketepatan prediksi. Hasil ini merupakan hasil yang cukup rendah.  
    Salah satu penyebab dari penilaian rendah untuk accuracy dan F1 adalah data test untuk dataset Play-Tennis yang berjumlah sedikit.  

In [6]:
# K Means
from sklearn.cluster import KMeans
# Fit classifier
bc_km_clf = KMeans(random_state=RD_STATE,n_clusters=2, max_iter=5).fit(bc_X_train, bc_y_train)

pt_km_clf = KMeans(random_state=RD_STATE,n_clusters=2, max_iter=300).fit(pt_X_train, pt_y_train)

# Print accuracy dan nilai f1

print("DecisionTreeClassifier:")
print("• Breast cancer dataset")
print("\tAccuracy: ", accuracy_score(bc_y_test, bc_km_clf.predict(bc_X_test)))
print("\tAccuracy: ", bc_km_clf.score(bc_X_test, bc_y_test))
print("\tf1_score: ", f1_score(bc_y_test, bc_km_clf.predict(bc_X_test)))

print("• Play tennis dataset")
print("\tAccuracy: ", accuracy_score(pt_y_test['play'], pt_km_clf.predict(pt_X_test)))
# print("\tAccuracy: ", pt_km_clf.score(pt_X_test, pt_y_test['play']))
print("\tf1_score: ", f1_score(pt_y_test['play'], pt_km_clf.predict(pt_X_test)))


DecisionTreeClassifier:
• Breast cancer dataset
	Accuracy:  0.8070175438596491
	Accuracy:  -14164291.677321233
	f1_score:  0.8674698795180723
• Play tennis dataset
	Accuracy:  0.0
	f1_score:  0.0


K Means adalah algoritma dengan mempartisi data yang ada kedalam satu atau lebih cluster atau kelompok data berdasarkan karakteristiknya. Data yang memiliki karakteristik berbeda akan dikelompokan kedalam cluster yang lain. Pada setiap cluster terdapat titik pusat (centroid) yang merepresentasikan cluster tersebut.

• Breast cancer dataset  
    • Accuracy: 0.8070175438596491  
    Hasil penilaian berdasarkan accuracy menunjukkan 80% ketepatan prediksi. Hasil ini merupakan hasil yang cukup tinggi.  
    • f1_score: 0.8674698795180723  
    Hasil penilaian berdasarkan F1 menunjukkan 86% ketepatan prediksi. Hasil ini merupakan hasil yang cukup tinggi.  
    Berdasarkan hasil, penilaian berdasarkan F1 memiliki nilai yang lebih besar dibandingkan dengan accuracy.  
    
• Play tennis dataset  
    • Accuracy:  0.0  
    Hasil penilaian berdasarkan accuracy menunjukkan 0% ketepatan prediksi. Hasil ini merupakan hasil yang  rendah.   
    • f1_score:  0.0  
    Hasil penilaian berdasarkan F1 menunjukkan 0% ketepatan prediksi. Hasil ini merupakan hasil yang rendah.  
    Salah satu penyebab dari penilaian rendah untuk accuracy dan F1 adalah data test untuk dataset Play-Tennis yang berjumlah sedikit.  