## Задача 1

Обучить любую модель классификации на датасете IRIS до применения PCA и после него. Сравнить качество классификации по отложенной выборке.

In [3]:
import matplotlib.pyplot as plt
import matplotlib
%matplotlib inline
import random


from matplotlib.colors import ListedColormap
from sklearn import datasets
from sklearn import model_selection
from sklearn import datasets

import numpy as np

In [2]:
"""
Полжим сюда семечко 
"""
random.seed(42)

In [4]:
"""
Загружаем датасет ирис 
"""
iris = datasets.load_iris()

In [5]:
X = iris.data
y = iris.target

In [71]:
# Реализуем класс узла

class Node:
    
    def __init__(self, index, t, true_branch, false_branch):
        self.index = index  # индекс признака, по которому ведется сравнение с порогом в этом узле
        self.t = t  # значение порога
        self.true_branch = true_branch  # поддерево, удовлетворяющее условию в узле
        self.false_branch = false_branch  # поддерево, не удовлетворяющее условию в узле
        
    def get_index(self):
        return self.index

In [7]:
# И класс терминального узла (листа)

class Leaf:
    
    def __init__(self, data, labels, index):
        self.index = index
        self.data = data
        self.labels = labels
        self.prediction = self.predict()
        
    def predict(self):
        # подсчет количества объектов разных классов
        classes = {}  # сформируем словарь "класс: количество объектов"
        for label in self.labels:
            if label not in classes:
                classes[label] = 0
            classes[label] += 1
        #  найдем класс, количество объектов которого будет максимальным в этом листе и вернем его    
        prediction = max(classes, key=classes.get)
        return prediction   

In [93]:
class Criteriy:
    # Расчет критерия Джини
    def __init__(self, labels):
        self.labels = labels
        
    def count_gini(labels):
        #  подсчет количества объектов разных классов
        classes = {}
        for label in labels:
            if label not in classes:
                classes[label] = 0
            classes[label] += 1

        #  расчет критерия
        impurity = 1
        for label in classes:
            p = classes[label] / len(labels)
            impurity -= p ** 2

        return impurity
    
    # Расчет качества

    def count_quality(left_labels, right_labels, current_gini):

        # доля выбоки, ушедшая в левое поддерево
        p = float(left_labels.shape[0]) / (left_labels.shape[0] + right_labels.shape[0])

        return current_gini - p *Criteriy.count_gini(left_labels) - (1 - p) * Criteriy.count_gini(right_labels)

In [39]:
class Split:
    
    def __init__(self, data, labels):
        self.data = data
        self.labels = labels
        
    def split(data, labels, index, t):
    
        left = np.where(data[:, index] <= t)
        right = np.where(data[:, index] > t)

        true_data = data[left]
        false_data = data[right]
        true_labels = labels[left]
        false_labels = labels[right]

        return true_data, false_data, true_labels, false_labels
    
    # Нахождение наилучшего разбиения

    def find_best_split(data, labels):

        #  обозначим минимальное количество объектов в узле
        min_leaf = 5

        current_gini = Criteriy.count_gini(labels)

        best_quality = 0
        best_t = None
        best_index = None

        n_features = data.shape[1]

        # выбор индекса из подвыборки длиной sqrt(n_features)
        subsample = Oob.get_subsample(n_features)

        for index in subsample:
            t_values = [row[index] for row in data]

            for t in t_values:
                true_data, false_data, true_labels, false_labels = Split.split(data, labels, index, t)
                #  пропускаем разбиения, в которых в узле остается менее 5 объектов
                if len(true_data) < min_leaf or len(false_data) < min_leaf:
                    continue

                current_quality = Criteriy.count_quality(true_labels, false_labels, current_gini)

                #  выбираем порог, на котором получается максимальный прирост качества
                if current_quality > best_quality:
                    best_quality, best_t, best_index = current_quality, t, index

        return best_quality, best_t, best_index

In [43]:
class Forest:
    
    def __init__(self, data, labels, n_trees):
        self.data = data
        self.labels = labels
        self.n_trees = n_trees
        self.forest = self.random_forest(self.data, self.labels, self.n_trees)
    
    # Построение дерева с помощью рекурсивной функции

    def build_tree(self, data, labels):

        quality, t, index = Split.find_best_split(data, labels)

        #  Базовый случай - прекращаем рекурсию, когда нет прироста в качества
        if quality == 0:
            return Leaf(data, labels, index)

        true_data, false_data, true_labels, false_labels = Split.split(data, labels, index, t)

        # Рекурсивно строим два поддерева
        true_branch = self.build_tree(true_data, true_labels)
        false_branch = self.build_tree(false_data, false_labels)

        # Возвращаем класс узла со всеми поддеревьями, то есть целого дерева
        return Node(index, t, true_branch, false_branch)
    
    def random_forest(self, data, labels, n_trees):
        forest = []
        bootstrap, out_of_bag = Oob.get_bootstrap(data, labels, n_trees)

        for b_data, b_labels in bootstrap:
            forest.append(self.build_tree(b_data, b_labels))

        return forest, out_of_bag

In [95]:
class Classification:
    
    def __init__(self, forest, data):
        self.forest = forest
        self.data = data
        self.tree_vote = self.tree_vote(self.forest, self.data)
    
    # Функция классификации отдельного объекта

    def classify_object(self, obj, node):

        #  Останавливаем рекурсию, если достигли листа
        if isinstance(node, Leaf):
            answer = node.prediction
            return answer
        
        print(node[0].index)
        if obj[node.index] <= node.t:
            return self.classify_object(obj, node.true_branch)
        else:
            return self.classify_object(obj, node.false_branch)
        
    # функция формирования предсказания по выборке на одном дереве

    def predict(self, data, tree):

        classes = []
        for obj in data:
            prediction = self.classify_object(obj, tree)
            classes.append(prediction)
        return classes
    
    # предсказание голосованием деревьев

    def tree_vote(self, forest, data):

        # добавим предсказания всех деревьев в список
        predictions = []
        for tree in forest:
            print(tree.__class__)
            predictions.append(self.predict(data, tree))

        # сформируем список с предсказаниями для каждого объекта
        predictions_per_object = list(zip(*predictions))

        # выберем в качестве итогового предсказания для каждого объекта то,
        # за которое проголосовало большинство деревьев
        voted_predictions = []
        for obj in predictions_per_object:
            voted_predictions.append(max(set(obj), key=obj.count))


            return voted_predictions

In [69]:
class Oob:

    # Расчет OOB
    def oob(forest, out_of_bag, data, labels):
        res = 0
        for idx, item in enumerate(out_of_bag):
            # для каждого индекса в out_of_bag строим лес из деревьев, не использовавших индекс
            tmp_forest = [forest[j] for j in item]
            tmp_data = np.array([data[idx]])
            tmp_label = labels[idx]

            if tmp_forest:
                predictions = tree_vote(tmp_forest, tmp_data)
                for j in predictions:
                    if j != tmp_label:
                        res += 1 / len(tmp_forest)

        return res

    def get_bootstrap(data, labels, N) -> (list, list):
        n_samples = data.shape[0]
        bootstrap = []

        # Для каждого наблюдения будем хранить множество индексов - номеров деревьев, в обучении которых он не участвовал
        out_of_bag = [set(np.arange(N)) for _ in range(data.shape[0])]
        for i in range(N):
            b_data = np.zeros(data.shape)
            b_labels = np.zeros(labels.shape)

            for j in range(n_samples):
                sample_index = random.randint(0, n_samples-1)
                b_data[j] = data[sample_index]
                b_labels[j] = labels[sample_index]
                out_of_bag[sample_index].discard(i)
            bootstrap.append((b_data, b_labels))

        return bootstrap, out_of_bag
    
    def get_subsample(len_sample):
        # будем сохранять не сами признаки, а их индексы
        sample_indexes = [i for i in range(len_sample)]

        len_subsample = int(np.sqrt(len_sample))
        subsample = []

        random.shuffle(sample_indexes)
        subsample = sample_indexes[0:len_subsample].copy()
    #     for _ in range(len_subsample):
    #         subsample.append(sample_indexes.pop())

        return subsample

In [44]:
n_trees = 10

forest = Forest(X, y, n_trees)

In [92]:
train_answers = Classification(forest.forest, X)

<class 'list'>
0


IndexError: only integers, slices (`:`), ellipsis (`...`), numpy.newaxis (`None`) and integer or boolean arrays are valid indices