# Tree Models
___

In [8]:
%config Completer.use_jedi = False

In [10]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

In [4]:
iris = load_iris()

In [6]:
iris.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [7]:
X = iris.data[:,2:]

In [9]:
y = iris.target

In [11]:
tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X,y)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=2,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [12]:
tree_clf.predict_proba([[5,1.5]])

array([[0.        , 0.90740741, 0.09259259]])

In [13]:
#versicolor
tree_clf.predict([[5,1.5]])

array([1])

### Scikit - Learn은 결정트리를 훈련시키기 위해 CART알고리즘을 사용한다.
___
__CART__알고리즘은 가장 순수한 서브셋으로 나눌 수 있는 특성과 임계값을 찾고 임계값에 맞게 둘로 나눈다. 그리고 중지 조건까지 이 방식을 반복한다.  
최적의 트리를 찾는 문제는 NP-Complete문제이기 때문에, 우리는 납득할 만한 좋은 솔루션을 얻는 정도로 만족해야한다.  

하지만 결정트리를 사용하면 전처리가 필요없기 때문에 스케일링을 하거나 정규화 작업 없이 빠르게 좋은 솔루션을 얻을 수 있다는 장점이 존재한다.


### Gini impurity Or Entropy?
___
엔트로피는 지니 불순도와 거의 비슷한 개념이라고 생각하면 된다. 분자의 무질서함을 측정하는 것이며, 분자가 안정되고 질서 정연하면 엔트로피는 0에 수렴한다.  
섀넌의 정보이론도 엔트로피에 포함되며, 감소되는 엔트로피의 양을 측정해서 __Information Gain__이라고 부른다.  
일반적으로 머신러닝에서 Information Gain을 말할 때는 __Kullback Leibler__ 발산을 뜻한다.  
엔트로피 식 : $H[x] = - \sum_x p(x)\log_2 p(x) $

지니 불순도가 계산이 좀 더 빠르기 때문에 기본값으로는 좋지만, 다른 트리가 만들어질 때는 지니 불순도가 가장 빈도 높은 클래스를 고립시키는 경향이 있어,  
엔트로피 트리 모델이 선호된다. 엔트로피는 좀 더 균형 잡힌 트리를 만든다.


### Nonparametric model VS Parametric model
___
비파라미터 모델(비모수) 과 파리미터 모델(모수)을 비교해보자.  
* Nonparametric model
    * 보통 제한이나 제약사항이 없어서 과대적합되기 쉽다.
    * 훈련되기 전에 파리미터 수가 결정되지 않는다.
    * 모델 구조가 데이터에 맞춰져서 고정되어 있지 않고 자유롭다.
    
* Parametric model
    * 미리 정의된 모델 파라미터 수를 가진다.(선형모델)
    * 자유도가 제한되고 과대적합될 위험이 줄어든다.(과소적합 가능성)


## Practice

In [20]:
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
X, y = make_moons(n_samples=10000, noise=0.4, random_state=42)

In [21]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 42)

In [22]:
from sklearn.model_selection import GridSearchCV

In [34]:
tree_clf = DecisionTreeClassifier

In [25]:
params = {'max_leaf_nodes': list(range(2, 100)), 'min_samples_split': [2, 3, 4]}

In [35]:
grid_cv = GridSearchCV(tree_clf(random_state = 77), param_grid=params, cv=5, n_jobs=-1)

In [36]:
grid_cv.fit(X_train, y_train)

GridSearchCV(cv=5, error_score='raise-deprecating',
       estimator=DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=77,
            splitter='best'),
       fit_params=None, iid='warn', n_jobs=-1,
       param_grid={'max_leaf_nodes': [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99], 'min_samples_split': [2, 3, 4]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       s

In [38]:
grid_cv.best_estimator_

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=29,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=77,
            splitter='best')

In [37]:
grid_cv.best_params_

{'max_leaf_nodes': 29, 'min_samples_split': 2}

In [39]:
from sklearn.metrics import accuracy_score

In [41]:
pred = grid_cv.predict(X_test)

In [42]:
accuracy_score(pred, y_test)

0.864

#### Randomforest 만들어보기

In [43]:
from sklearn.model_selection import ShuffleSplit
n_trees = 1000
n_instances = 100

mini_sets = []

In [44]:
rs = ShuffleSplit(n_splits=n_trees, test_size = len(X_train) - n_instances, random_state = 77)
for mini_train_index, mini_test_index in rs.split(X_train):
    X_mini_train = X_train[mini_train_index]
    y_mini_train = y_train[mini_train_index]
    mini_sets.append((X_mini_train, y_mini_train))

In [48]:
from sklearn.base import clone
import numpy as np

In [49]:
forest = [clone(grid_cv.best_estimator_) for _ in range(n_trees)]

accuracy_scores = []

for tree, (X_mini_train, y_mini_train) in zip(forest, mini_sets):
    tree.fit(X_mini_train, y_mini_train)
    
    y_pred = tree.predict(X_test)
    accuracy_scores.append(accuracy_score(y_test, y_pred))
np.mean(accuracy_scores)

0.7923235999999999

In [50]:
Y_pred = np.empty([n_trees, len(X_test)], dtype=np.uint8)
for tree_index, tree in enumerate(forest):
    Y_pred[tree_index] = tree.predict(X_test)

2500

In [52]:
from scipy.stats import mode
y_pred_majority_votes, n_votes = mode(Y_pred, axis=0)

In [80]:
y_pred_majority_votes

array([[1, 1, 0, ..., 1, 0, 0]], dtype=uint8)

In [62]:
mode(Y_pred, axis=0)

ModeResult(mode=array([[1, 1, 0, ..., 1, 0, 0]], dtype=uint8), count=array([[946, 916, 959, ..., 951, 797, 958]]))

In [59]:
y_pred_majority_votes

array([[1, 1, 0, ..., 1, 0, 0]], dtype=uint8)

In [61]:
y_pred_majority_votes.reshape([-1]).shape

(2500,)

In [81]:
len(y_test)

2500

In [56]:
accuracy_score(y_test, y_pred_majority_votes.reshape([-1]))

0.8648