In [1]:
# Чем больше данных, сложность модели и число её параметров, тем дольше будет вестись поиск GridSearchCV. 
# Однако бывают случаи, когда модель нужна здесь и сейчас, и для этого есть RandomizedSearchCV! 
# Пробегаясь по рандомной подвыборке параметров, он ищет наиболее хорошую модель 
# и делает это быстрее полного перебора параметров, хотя и может пропустить оптимальные параметры.

# Здесь можно посмотреть на сравнение этих поисков.

# Осуществим поиск по тем же параметрам что и в предыдущем задании с помощью RandomizedSearchCV
# - максимальная глубина - от 1 до 10 уровней
# - минимальное число проб для разделения - от 2 до 10
# - минимальное число проб в листе - от 1 до 10
# Cохраните в переменную best_tree лучшее дерево. Переменную с RandomizedSearchCV назовите search

In [2]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import RandomizedSearchCV
from sklearn.datasets import load_iris

In [3]:
iris = load_iris()
X = iris.data
y = iris.target

In [4]:
clf = DecisionTreeClassifier()

In [5]:
r_from_1 = range(1, 11)
r_from_2 = range(2, 11)
search = RandomizedSearchCV(
    clf, param_distributions={"max_depth": r_from_1, "min_samples_leaf": r_from_1, "min_samples_split": r_from_2},
    cv=5
)

In [6]:
search

RandomizedSearchCV(cv=5, error_score=nan,
                   estimator=DecisionTreeClassifier(ccp_alpha=0.0,
                                                    class_weight=None,
                                                    criterion='gini',
                                                    max_depth=None,
                                                    max_features=None,
                                                    max_leaf_nodes=None,
                                                    min_impurity_decrease=0.0,
                                                    min_impurity_split=None,
                                                    min_samples_leaf=1,
                                                    min_samples_split=2,
                                                    min_weight_fraction_leaf=0.0,
                                                    presort='deprecated',
                                                    random_state=None,
          

In [7]:
search.fit(X, y)

RandomizedSearchCV(cv=5, error_score=nan,
                   estimator=DecisionTreeClassifier(ccp_alpha=0.0,
                                                    class_weight=None,
                                                    criterion='gini',
                                                    max_depth=None,
                                                    max_features=None,
                                                    max_leaf_nodes=None,
                                                    min_impurity_decrease=0.0,
                                                    min_impurity_split=None,
                                                    min_samples_leaf=1,
                                                    min_samples_split=2,
                                                    min_weight_fraction_leaf=0.0,
                                                    presort='deprecated',
                                                    random_state=None,
          

In [8]:
best_tree = search.best_estimator_

In [9]:
best_tree

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=6, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=4,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')