In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

iris = load_iris(as_frame=True)
X_iris = iris.data[["petal length (cm)", "petal width (cm)"]].values
y_iris = iris.target

tree_clf = DecisionTreeClassifier(max_depth=2, random_state=42)
tree_clf.fit(X_iris, y_iris)

In [4]:
import numpy as np

In [None]:
import numpy as np
import matplotlib.pyplot as plt

from matplotlib.colors import ListedColormap
custom_cmap = ListedColormap(['#fafab0', '#9898ff', '#a0faa0'])
plt.figure(figsize=(8, 4))

lengths, widths = np.meshgrid(np.linspace(0, 7.2, 100), np.linspace(0, 3, 100))
X_iris_all = np.c_[lengths.ravel(), widths.ravel()]

In [6]:
tree_clf.predict_proba([[5,1.5]]).round(3)

array([[0.   , 0.907, 0.093]])

In [8]:
from sklearn.tree import DecisionTreeRegressor
np.random.seed(42)
X_quad = np.random.rand(200,1) - 0.5
y_quad = X_quad ** 2 + 0.025 * np.random.randn(200,1)

tree_reg = DecisionTreeRegressor(max_depth=2, random_state=42)
tree_reg.fit(X_quad,y_quad)

In [9]:
from sklearn.decomposition import PCA
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

pca_pipeline = make_pipeline(StandardScaler(), PCA())
X_iris_rotated = pca_pipeline.fit_transform(X_iris)
tree_clf_pca = DecisionTreeClassifier(max_depth=2, random_state=42)
tree_clf_pca.fit(X_iris_rotated,y_iris)

```
tree = tree_clf.tree_
tree
트리에 있는 총 노드 수를 얻을 수 있습니다:
tree.node_count
그 외 설명이 필요 없는 다른 속성이 있습니다:
tree.max_depth
tree.max_n_classes
tree.n_features
tree.n_outputs
tree.n_leaves
노드에 대한 모든 정보는 넘파이 배열에 저장됩니다. 예를 들어, 각 노드의 불순도는 다음과 같습니다:
tree.impurity
루트 노드의 인덱스는 0입니다. 노드 _i_의 왼쪽 및 오른쪽 자식 노드는 `tree.children_left[i]` 및 `tree.children_right[i]`입니다. 예를 들어 루트 노드의 자식 노드는 다음과 같습니다:
tree.children_left[0], tree.children_right[0]
왼쪽 노드와 오른쪽 노드가 같으면 이것이 리프 노드임을 의미합니다(자식 노드 ID는 임의적임):
tree.children_left[3], tree.children_right[3]
따라서 다음과 같이 리프 노드 ID를 얻을 수 있습니다:
is_leaf = (tree.children_left == tree.children_right)
np.arange(tree.node_count)[is_leaf]
리프 노드가 아닌 노드를 _분할 노드_라고 합니다. 분할 특성은 `feature` 배열을 통해 참조할 수 있습니다. 리프 노드에 대한 값은 무시해야 합니다:
tree.feature
그리고 해당 임계값은 다음과 같습니다:
tree.threshold
또한 각 노드에 도달한 클래스당 인스턴스 수도 확인할 수 있습니다:
tree.value
tree.n_node_samples
np.all(tree.value.sum(axis=(1, 2)) == tree.n_node_samples)
각 노드의 깊이를 계산하는 방법은 다음과 같습니다:
def compute_depth(tree_clf):
    tree = tree_clf.tree_
    depth = np.zeros(tree.node_count)
    stack = [(0, 0)]
    while stack:
        node, node_depth = stack.pop()
        depth[node] = node_depth
        if tree.children_left[node] != tree.children_right[node]:
            stack.append((tree.children_left[node], node_depth + 1))
            stack.append((tree.children_right[node], node_depth + 1))
    return depth

depth = compute_depth(tree_clf)
depth
다음은 깊이 1에서 모든 분할 노드의 임계값을 구하는 방법입니다:
tree_clf.tree_.feature[(depth == 1) & (~is_leaf)]
tree_clf.tree_.threshold[(depth == 1) & (~is_leaf)]
```