In [53]:
import numpy as np

from sklearn.datasets import make_classification, make_blobs
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

from ipywidgets import interact

import matplotlib.pyplot as plt
%matplotlib inline

In [54]:
# Масив с цветове, който използвам за обозначаване на екземплярите от различните класове
# light-blue, purple, yellow, pink, dark blue

colors = ['#1a75ff', '#9966ff', '#ffcc66', '#ff5050', '#264d73']

In [55]:
# Първо идеята ми е да ползвам интеракт за да генерирам няколко datasets с двата метода make_classification и make_blobs,
# визуализирайки каква се случва с данните като подавам различен брой екземпляри и съответно различен брой класове и
# различен брой центрове на клъстърите

# Функция, която генерира и чертае dataset с make_classification
def plot_make_classification_data_set(samples_count, classes_count):
    X, y = make_classification(n_samples= samples_count, 
                               n_features=2,
                               n_redundant=0,
                               n_classes= classes_count,
                               n_clusters_per_class=1,
                               random_state=123)
    plt.figure(figsize=(10, 6))
    for i in range(classes_count):
        array = X[y == i]
        plt.scatter(array[:, 0],  array[:, 1],  color= colors[i], alpha=0.9, s=60)

In [58]:
interact(plot_make_classification_data_set, samples_count=(50,400,10), classes_count= (1,4,1))                                     

interactive(children=(IntSlider(value=220, description='samples_count', max=400, min=50, step=10), IntSlider(v…

<function __main__.plot_make_classification_data_set(samples_count, classes_count)>

In [61]:
# Функция, която генерира и чертае dataset с make_blobs
def plot_make_blobs_data_set(samples_count, centers_count, features_count):
    X, y = make_blobs(n_samples= samples_count,
                               n_features= features_count,
                               centers= centers_count,
                               random_state=42)
    plt.figure(figsize=(10, 6))
    for i in range(centers_count):
        array = X[y == i]
        plt.scatter(array[:, 0],  array[:, 1],  color= colors[i], alpha=0.9, s=60)

In [62]:
interact(plot_make_blobs_data_set, samples_count=(50,400,10), features_count= (2,10,1), centers_count= (1,4,1))    

interactive(children=(IntSlider(value=220, description='samples_count', max=400, min=50, step=10), IntSlider(v…

<function __main__.plot_make_blobs_data_set(samples_count, centers_count, features_count)>

In [63]:
# След като сме експериментирали с различните параметри на функциите, генериращи datasets, можем да си направим dataset, 
# който ни се струва подходящ и върху който бихме искали да тренираме класификационно дърво.

# Генериране на датасет
x, y = make_classification(n_samples=100, 
                            n_features=2,
                            hypercube=True,  
                            n_classes=3, 
                            n_redundant=0,
                            n_clusters_per_class=1,
                            random_state=123)   

In [52]:
#Функция, написана от един доктор на лекциите, която преизползвам за чертане 
def plot_boundary(clf, X, y):
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1),
                         np.arange(y_min, y_max, 0.1))

    f, ax = plt.subplots(figsize=(10, 8))

    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)

    ax.contourf(xx, yy, Z, alpha=0.4)
    ax.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor='k')
    
    plt.show()

In [5]:
# Функция, която чертае DT класификатор
def make_decision_tree_classifier(samples_split_count, depth, min_samples_leaf_count):
    clf = DecisionTreeClassifier(min_samples_split= samples_split_count, 
                                 max_depth= depth,
                                 min_samples_leaf= min_samples_leaf_count).fit(x, y)
    return plot_boundary(clf, x, y)

In [6]:
interact(make_decision_tree_classifier, samples_split_count=(5,45,5), 
                                        depth= (1,5,1),
                                        min_samples_leaf_count=(1,50,5))

interactive(children=(IntSlider(value=25, description='samples_split_count', max=45, min=5, step=5), IntSlider…

<function __main__.make_decision_tree_classifier(samples_split_count, depth, min_samples_leaf_count)>

In [7]:
# Функция, която чертае RF класификатор с определени брой и дълбочина на дърветата и мин. брой екземпляри за разделяне на възел
def make_random_forest_classifier(tree_max_depth, trees_count, min_samples_split_count):
    clf = RandomForestClassifier(random_state=23, 
                                 max_depth= tree_max_depth, 
                                 n_estimators= trees_count,
                                 min_samples_split= min_samples_split_count).fit(x,y)
    return plot_boundary(clf, x, y)

In [8]:
interact(make_random_forest_classifier, tree_max_depth= (1,20,2), 
                                        trees_count=(2,20,2),
                                        min_samples_split_count=(2,20,2))

interactive(children=(IntSlider(value=9, description='tree_max_depth', max=20, min=1, step=2), IntSlider(value…

<function __main__.make_random_forest_classifier(tree_max_depth, trees_count, min_samples_split_count)>