#Mlxtend (Machine Learning Extensions) 

is a Python library of useful tools for the day-to-day data science tasks

Source: http://rasbt.github.io/mlxtend/user_guide/classifier/EnsembleVoteClassifier/

## Data Understanding

In [None]:
# load ข้อมูลดอก iris จาก sklearn.datasets
from sklearn.datasets import load_iris

iris = load_iris()                    

iris

In [2]:
# ตรวจสอบชนิดของตัวแปร iris
type(iris)

sklearn.utils.Bunch

In [3]:
# ตรวจสอบดูว่ามี key ที่จัดเก็บข้อมูลอะไรบ้าง?
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [6]:
# แสดงผลคำอธิบาย ('DESCR') ของ iris
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [7]:
# แสดงชื่อของคุณลักษณะ iris
iris['feature_names']

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [8]:
# แสดงค่าเป้าหมาย (target) ของดอกทั้ง 3 ชนิด
iris['target']

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [13]:
# เตรียมข้อมูลคุณลักษณะ 2 ตัว คือ sepal width (cm), petal length (cm)
# จัดเก็บไว้ใน X กับ y
# [sepal width (cm), petal length (cm)]

X, y = iris.data[:, 1:3], iris['target']


## Create Model

In [15]:
# นำเข้า Library sklearn.model_selection
# นำเข้า LogisticRegression จาก sklearn.linear_model
# นำเข้า GaussianNB จาก sklearn.naive_bayes
# นำเข้า RandomForestClassifier จาก sklearn.ensemble

# สร้างแบบจำลอง Logistic Regression
# สร้างแบบจำลอง Gaussian Naive Bayes
# สร้างแบบจำลอง Random Forest

from sklearn import model_selection
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier

clf1 = LogisticRegression(random_state=1)
clf2 = GaussianNB()
clf3 = RandomForestClassifier(random_state=1)



### K-Fold Cross Validation

In [17]:
# วนรอบ เพื่อให้แต่ละ Classifier ได้ทำการเรียนรู้ ด้วยการแบ่งข้อมูลออกเป็น 5 ส่วน
print('5-Fold cross validation')

labels =['Logistic', 'Bayes', 'Random Forest']

for clf, label in zip([clf1,clf2,clf3],labels):
  scores = model_selection.cross_val_score(clf, X, y, cv=5, scoring='accuracy')
  print('Accuracy: %0.2f (+/- %0.2f) [%s]' %(scores.mean(), scores.std(), label))

5-Fold cross validation
Accuracy: 0.95 (+/- 0.04) [Logistic]
Accuracy: 0.91 (+/- 0.04) [Bayes]
Accuracy: 0.94 (+/- 0.04) [Random Forest]


### Ensemble Voting

In [19]:
#------------------------------------------------------------------------------------------------------
# แก้ปัญหา Dependency ที่มีการอ้างอิง from sklearn.externals import six is deprecated, use import six instead
#------------------------------------------------------------------------------------------------------
import six
import sys
sys.modules['sklearn.externals.six'] = six
#------------------------------------------------------------------------------------------------------

# นำเข้า Library สำหรับการ Vote ของ Classifier
from mlxtend.classifier import EnsembleVoteClassifier

# ทำการรวมเอาแต่ละ Classifier มา Vote โดยกำหนดค่าน้ำหนักเท่ากันอย่างละ 1
eclf = EnsembleVoteClassifier(clfs=[clf1,clf2,clf3], weights=[1,1,1])

labels = ['Logistic', 'Bayes', 'Random Forest', 'Ensemble']

# วนรอบ เพื่อให้แต่ละ Classifier ได้ทำการเรียนรู้ ด้วยการแบ่งข้อมูลออกเป็น 5 ส่วน
for clf, label in zip([clf1,clf2,clf3,eclf], labels):
  scores = model_selection.cross_val_score(clf, X, y, cv=5, scoring='accuracy')
  print('Accuracy: %0.2f (+/- %0.2f) [%s]' %(scores.mean(), scores.std(), label))

Accuracy: 0.95 (+/- 0.04) [Logistic]
Accuracy: 0.91 (+/- 0.04) [Bayes]
Accuracy: 0.94 (+/- 0.04) [Random Forest]
Accuracy: 0.95 (+/- 0.04) [Ensemble]


In [21]:
import pickle

file_name = 'eclf.save'
pickle.dump(eclf, open(file_name, 'wb'))

## Data Visualization

In [None]:
# แสดงกราฟที่ได้จากแต่ละ Classifier

# วนรอบ เพื่อให้แต่ละ Classifier ได้นำข้อมูลไปสร้างกราฟ
