In [421]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline
import warnings
warnings.filterwarnings('ignore')

In [440]:
df = pd.read_csv('train.csv')
df

Unnamed: 0,Id,age,years_of_experience,lesson_price,qualification,physics,chemistry,biology,english,geography,history,mean_exam_points,choose
0,0,35.0,0.0,2150.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,74.0,0
1,1,52.0,2.0,1250.0,2.0,1.0,0.0,1.0,0.0,0.0,1.0,57.0,1
2,2,29.0,3.0,1750.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,66.0,0
3,3,33.0,3.0,1050.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,66.0,1
4,4,46.0,3.0,2250.0,2.0,1.0,0.0,0.0,0.0,0.0,0.0,73.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9995,55.0,2.0,2150.0,2.0,1.0,0.0,0.0,0.0,0.0,0.0,79.0,0
9996,9996,53.0,2.0,1350.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,59.0,0
9997,9997,44.0,5.0,1750.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,59.0,0
9998,9998,41.0,0.0,1700.0,2.0,1.0,0.0,0.0,0.0,0.0,0.0,72.0,0


In [449]:
features = ['age', 'years_of_experience', 'lesson_price', 'qualification',
            'physics', 'chemistry', 'biology', 'english', 'geography', 'history', 'mean_exam_points']
target = ['choose']

X = np.array(df[features], dtype=np.float64)
y = np.array(df[target], dtype=np.float64)

In [451]:
def standard_scale(x):
    res = (x - x.mean()) / x.std()
    return res

In [455]:
X[:, 2] = standard_scale(X[:, 2])
X

array([[ 3.50000000e+01,  0.00000000e+00,  8.54508832e-01, ...,
         0.00000000e+00,  0.00000000e+00,  7.40000000e+01],
       [ 5.20000000e+01,  2.00000000e+00, -8.63826025e-01, ...,
         0.00000000e+00,  1.00000000e+00,  5.70000000e+01],
       [ 2.90000000e+01,  3.00000000e+00,  9.08044509e-02, ...,
         0.00000000e+00,  0.00000000e+00,  6.60000000e+01],
       ...,
       [ 4.40000000e+01,  5.00000000e+00,  9.08044509e-02, ...,
         0.00000000e+00,  1.00000000e+00,  5.90000000e+01],
       [ 4.10000000e+01,  0.00000000e+00, -4.65859672e-03, ...,
         0.00000000e+00,  0.00000000e+00,  7.20000000e+01],
       [ 4.10000000e+01,  5.00000000e+00, -9.59289073e-01, ...,
         0.00000000e+00,  0.00000000e+00,  4.00000000e+01]])

In [456]:
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.25,random_state=42)

In [457]:
X_train.shape, y_train.shape

((7500, 11), (7500, 1))

In [458]:
def sigmoid(z):
    res = 1 / (1 + np.exp(-z))
    return res

In [461]:
def calc_logloss(y, y_pred):
    err = - np.mean(y * np.log(y_pred) + (1.0 - y) * np.log(1.0 - y_pred))
    return err

In [488]:
def eval_model(X, y, iterations, eta=1e-4):
    np.random.seed(42)
    W = np.random.randn(X.shape[1])
    n = X.shape[0]
    
    for i in range(iterations):
        z = np.dot(X, W.reshape(11, -1))
        y_pred = sigmoid(z)
        err = calc_logloss(y, y_pred)
        
        dQ = 1/n * X.T @ (y_pred - y)
        W -= (eta * dQ).reshape(W.shape)
        if i % (iterations / 10) == 0:
            print(f' iter: {i}\n, weight: {W}\n, error: {err}')
    return W

In [493]:
W = eval_model(X_train, y_train, iterations=5000, eta=1e-4) #eta=1e-4

 iter: 0
, weight: [ 0.4959468  -0.13828403  0.64769641  1.52301777 -0.23415281 -0.2341372
  1.5792118   0.76743385 -0.46947458  0.54255976 -0.46393523]
, error: 1.692391817139874
 iter: 500
, weight: [ 0.38836201 -0.13865062  0.64900725  1.52447594 -0.23229096 -0.23360518
  1.57929642  0.76736214 -0.46947501  0.54253565 -0.41937091]
, error: 1.275179044550917
 iter: 1000
, weight: [ 0.31181185 -0.13789475  0.64990575  1.52655077 -0.23026255 -0.2330045
  1.57938972  0.76731756 -0.46946278  0.54252309 -0.34566374]
, error: 1.049080552431102
 iter: 1500
, weight: [ 0.23801452 -0.1369681   0.65057819  1.52835691 -0.22822324 -0.23239991
  1.57939947  0.76725426 -0.46944674  0.54250829 -0.27588869]
, error: 0.842497402756061
 iter: 2000
, weight: [ 0.16968799 -0.13585006  0.65077929  1.52969477 -0.22616813 -0.23178937
  1.57928001  0.76716543 -0.46942541  0.54249035 -0.21347641]
, error: 0.6707422933738735
 iter: 2500
, weight: [ 0.11191464 -0.13460332  0.65008234  1.53026582 -0.22409838 -0

In [495]:
W

array([ 0.01119893, -0.12952769,  0.63249653,  1.52304356, -0.21398336,
       -0.2279326 ,  1.57609787,  0.76633916, -0.46923083,  0.54233999,
       -0.08712076])

In [444]:
def log_loss(w, X, y):
    m = X.shape[0]
    # используем функцию сигмоиды, написанную ранее
    A = sigmoid(np.dot(X, w))
        
    # labels 0, 1
    loss = -1.0 / m * np.sum(y * np.log(A) + (1 - y) * np.log(1 - A))
    
    # labels -1, 1
#     temp_y = np.where(y == 1, 1, -1)
#     loss = 1.0 / m * np.sum(np.log(1 + np.exp(-temp_y * np.dot(X, w))))

    grad = 1.0 / m * X.T @ (A - y)

    return loss, grad

In [447]:
def optimize(w, X, y, n_iterations, eta):
    # потери будем записывать в список для отображения в виде графика
    losses = []
    
    for i in range(n_iterations):        
        loss, grad = log_loss(w, X, y)
        w = w.reshape(11, -1) - eta * grad

        losses.append(loss)
        
    return w, losses

In [448]:
# иницилизируем начальный вектор весов
w0 = np.zeros(X_train.shape[1])

n_iterations = 400
eta = 0.1

w, losses = optimize(w0, X_train, y_train, n_iterations, eta)

y_predicted_test = predict(w, X_test)
y_predicted_train = predict(w, X_train)

# В качестве меры точности возьмем долю правильных ответов
train_accuracy = np.mean(y_predicted_train == y_train) * 100.0
test_accuracy = np.mean(y_predicted_test == y_test) * 100.0

print(f"Итоговый вектор весов w: {w}")
print(f"Точность на обучающей выборке: {train_accuracy:.3f}")
print(f"Точность на тестовой выборке: {test_accuracy:.3f}")

KeyboardInterrupt: 

In [511]:
def predict(w, X):
    
    m = X.shape[0]
    
    y_predicted = np.zeros(m)

    A = np.squeeze(sigmoid(np.dot(X, w)))

    # За порог отнесения к тому или иному классу примем вероятность 0.8
    for i in range(A.shape[0]):
        if (A[i] > 0.8): 
            y_predicted[i] = 1
        elif (A[i] <= 0.8):
            y_predicted[i] = 0

    return A  #y_predicted

In [512]:
y_p = predict(W, X_train)
y_p

array([0.05008728, 0.09236508, 0.15090705, ..., 0.27392466, 0.15024878,
       0.27838169])

In [400]:
def gb_predict(X, trees_list, eta):
    # Реализуемый алгоритм градиентного бустинга будет инициализироваться нулевыми значениями,
    # поэтому все деревья из списка trees_list уже являются дополнительными и при предсказании
    # прибавляются с шагом eta
    
#     predictions = np.zeros(X.shape[0])
#     for i, x in enumerate(X):
#         prediction = 0
#         for alg in trees_list:
#             prediction += eta * alg.predict([x])[0]
#         predictions[i] = prediction
        
    predictions = np.array(
        [sum([eta * alg.predict([x])[0] for alg in trees_list]) for x in X]
    )

    return predictions

In [401]:
def mean_squared_error(y_real, prediction):
    return (sum((y_real - prediction)**2)) / len(y_real)

In [403]:
def residual(y, z):
    return - (z - y)

In [404]:
# Реализуем класс узла

class Node:
    
    def __init__(self, index, t, true_branch, false_branch):
        self.index = index  # индекс признака, по которому ведется сравнение с порогом в этом узле
        self.t = t  # значение порога
        self.true_branch = true_branch  # поддерево, удовлетворяющее условию в узле
        self.false_branch = false_branch  # поддерево, не удовлетворяющее условию в узле

In [405]:
# И класс терминального узла (листа)

class Leaf:
    
    def __init__(self, data, labels):
        self.data = data
        self.labels = labels
        self.prediction = self.predict()
        
    def predict(self):
        # подсчет количества объектов разных классов
        classes = {}  # сформируем словарь "класс: количество объектов"
        for label in self.labels:
            if label not in classes:
                classes[label] = 0
            classes[label] += 1
            
        # найдем класс, количество объектов которого будет максимальным в этом листе и вернем его    
        prediction = max(classes, key=classes.get)
        return prediction        

In [406]:
# Расчет критерия Джини

def gini(labels):
    #  подсчет количества объектов разных классов
    classes = {}
    for label in labels:
        if label not in classes:
            classes[label] = 0
        classes[label] += 1
    
    #  расчет критерия
    impurity = 1
    for label in classes:
        p = classes[label] / len(labels)
        impurity -= p ** 2
        
    return impurity

In [407]:
# Расчет прироста

def gain(left_labels, right_labels, root_gini):

    # доля выборки, ушедшая в левое поддерево
    p = float(left_labels.shape[0]) / (left_labels.shape[0] + right_labels.shape[0])
    
    return root_gini - p * gini(left_labels) - (1 - p) * gini(right_labels)

In [408]:
# Разбиение датасета в узле

def split(data, labels, column_index, t):
    
    left = np.where(data[:, column_index] <= t)
    right = np.where(data[:, column_index] > t)
        
    true_data = data[left]
    false_data = data[right]
    
    true_labels = labels[left]
    false_labels = labels[right]
        
    return true_data, false_data, true_labels, false_labels

In [409]:
# Нахождение наилучшего разбиения

def find_best_split(data, labels):
    
    #  обозначим минимальное количество объектов в узле
    min_leaf_samples = 5

    root_gini = gini(labels)

    best_gain = 0
    best_t = None
    best_index = None
    
    n_features = data.shape[1]
    
    feature_subsample_indices = get_subsample(n_features) # выбираем случайные признаки
    
    for index in feature_subsample_indices:
        # будем проверять только уникальные значения признака, исключая повторения
        t_values = np.unique(data[:, index])
        
        for t in t_values:
            true_data, false_data, true_labels, false_labels = split(data, labels, index, t)
            #  пропускаем разбиения, в которых в узле остается менее 5 объектов
#             if len(true_data) < min_leaf_samples or len(false_data) < min_leaf_samples:
#                 continue
            
            current_gain = gain(true_labels, false_labels, root_gini)
            
            #  выбираем порог, на котором получается максимальный прирост качества
            if current_gain > best_gain:
                best_gain, best_t, best_index = current_gain, t, index

    return best_gain, best_t, best_index

In [None]:
def gb_fit(n_trees, max_depth, X_train, X_test, y_train, y_test, eta):
    
    # Деревья будем записывать в список
    trees = []
    
    # Будем записывать ошибки на обучающей и тестовой выборке на каждой итерации в список
    train_errors = []
    test_errors = []
    
    
    for i in range(n_trees):
        tree = DecisionTreeRegressor(max_depth=max_depth, random_state=42)

        # первый алгоритм просто обучаем на выборке и добавляем в список
        if len(trees) == 0:
            # обучаем первое дерево на обучающей выборке
            tree.fit(X_train, y_train)
            
            train_errors.append(mean_squared_error(y_train, gb_predict(X_train, trees, eta)))
            test_errors.append(mean_squared_error(y_test, gb_predict(X_test, trees, eta)))
        else:
            # Получим ответы на текущей композиции
            target = gb_predict(X_train, trees, eta)
            
            # алгоритмы начиная со второго обучаем на сдвиг
            tree.fit(X_train, residual(y_train, target))
            
            train_errors.append(mean_squared_error(y_train, gb_predict(X_train, trees, eta)))
            test_errors.append(mean_squared_error(y_test, gb_predict(X_test, trees, eta)))

        trees.append(tree)
        
    return trees, train_errors, test_errors

In [410]:
# Построение дерева с помощью рекурсивной функции

def build_tree(data, labels):

    gain, t, index = find_best_split(data, labels)

    #  Базовый случай - прекращаем рекурсию, когда нет прироста в качества
    if gain == 0:
        return Leaf(data, labels)

    true_data, false_data, true_labels, false_labels = split(data, labels, index, t)

    # Рекурсивно строим два поддерева
    true_branch = build_tree(true_data, true_labels)
    false_branch = build_tree(false_data, false_labels)

    # Возвращаем класс узла со всеми поддеревьями, то есть целого дерева
    return Node(index, t, true_branch, false_branch)

In [411]:
def random_forest(data, labels, n_trees):
    forest = []
    bootstrap = get_bootstrap(data, labels, n_trees)
    
    for b_data, b_labels in bootstrap:
        forest.append(build_tree(b_data, b_labels))
        
    return forest

In [412]:
# Функция классификации отдельного объекта

def classify_object(obj, node):

    #  Останавливаем рекурсию, если достигли листа
    if isinstance(node, Leaf):
        answer = node.prediction
        return answer

    if obj[node.index] <= node.t:
        return classify_object(obj, node.true_branch)
    else:
        return classify_object(obj, node.false_branch)

In [413]:
n_trees = 1
my_forest_1 = random_forest(X_train, y_train, n_trees)

TypeError: unhashable type: 'numpy.ndarray'

In [371]:
np.random.seed(42)

def get_bootstrap(data, labels, N):
    n_samples = data.shape[0] # размер совпадает с исходной выборкой
    bootstrap = []
    
    for i in range(N):
        
        sample_index = np.random.randint(0, n_samples, size=n_samples)
        b_data = data[sample_index]
        b_labels = labels[sample_index]
        
        bootstrap.append((b_data, b_labels))
        
    return bootstrap

In [372]:
get_bootstrap(train_data, train_labels, 2)

[(array([[5.00e+01, 5.00e+00, 1.25e+03, ..., 0.00e+00, 0.00e+00, 6.80e+01],
         [6.60e+01, 5.00e+00, 1.40e+03, ..., 0.00e+00, 0.00e+00, 6.10e+01],
         [4.20e+01, 0.00e+00, 1.30e+03, ..., 0.00e+00, 0.00e+00, 6.40e+01],
         ...,
         [4.80e+01, 1.00e+00, 1.15e+03, ..., 0.00e+00, 0.00e+00, 4.40e+01],
         [3.90e+01, 1.00e+00, 1.35e+03, ..., 0.00e+00, 0.00e+00, 6.10e+01],
         [5.70e+01, 2.00e+00, 2.05e+03, ..., 0.00e+00, 0.00e+00, 7.70e+01]]),
  array([[0],
         [0],
         [0],
         ...,
         [0],
         [1],
         [0]])),
 (array([[6.00e+01, 0.00e+00, 1.15e+03, ..., 0.00e+00, 0.00e+00, 5.40e+01],
         [3.70e+01, 5.00e+00, 2.00e+03, ..., 0.00e+00, 0.00e+00, 6.80e+01],
         [6.20e+01, 3.00e+00, 2.10e+03, ..., 0.00e+00, 0.00e+00, 6.60e+01],
         ...,
         [5.60e+01, 0.00e+00, 1.35e+03, ..., 0.00e+00, 0.00e+00, 7.50e+01],
         [4.90e+01, 0.00e+00, 1.45e+03, ..., 0.00e+00, 0.00e+00, 6.30e+01],
         [4.30e+01, 1.00e+00, 1.3

In [373]:
def get_subsample(len_sample):
    # будем сохранять не сами признаки, а их индексы
    sample_indexes = list(range(len_sample))

    len_subsample = int(np.sqrt(len_sample))
    
    subsample = np.random.choice(sample_indexes, size=len_subsample, replace=False)

    return subsample

In [374]:
# Реализуем класс узла

class Node:
    
    def __init__(self, index, t, true_branch, false_branch):
        self.index = index  # индекс признака, по которому ведется сравнение с порогом в этом узле
        self.t = t  # значение порога
        self.true_branch = true_branch  # поддерево, удовлетворяющее условию в узле
        self.false_branch = false_branch  # поддерево, не удовлетворяющее условию в узле

In [375]:
# И класс терминального узла (листа)

class Leaf:
    
    def __init__(self, data, labels):
        self.data = data
        self.labels = labels
        self.prediction = self.predict()
        
    def predict(self):
        # подсчет количества объектов разных классов
        classes = {}  # сформируем словарь "класс: количество объектов"
        for label in self.labels:
            if label not in classes:
                classes[label] = 0
            classes[label] += 1
            
        # найдем класс, количество объектов которого будет максимальным в этом листе и вернем его    
        prediction = max(classes, key=classes.get)
        return prediction        

In [376]:
# Расчет критерия Джини

def gini(labels):
    #  подсчет количества объектов разных классов
    classes = {}
    for label in labels:
        if label not in classes:
            classes[label] = 0
        classes[label] += 1
    
    #  расчет критерия
    impurity = 1
    for label in classes:
        p = classes[label] / len(labels)
        impurity -= p ** 2
        
    return impurity

In [377]:
# Расчет прироста

def gain(left_labels, right_labels, root_gini):

    # доля выборки, ушедшая в левое поддерево
    p = float(left_labels.shape[0]) / (left_labels.shape[0] + right_labels.shape[0])
    
    return root_gini - p * gini(left_labels) - (1 - p) * gini(right_labels)

In [378]:
# Разбиение датасета в узле

def split(data, labels, column_index, t):
    
    left = np.where(data[:, column_index] <= t)
    right = np.where(data[:, column_index] > t)
        
    true_data = data[left]
    false_data = data[right]
    
    true_labels = labels[left]
    false_labels = labels[right]
        
    return true_data, false_data, true_labels, false_labels

In [379]:
# Нахождение наилучшего разбиения

def find_best_split(data, labels):
    
    #  обозначим минимальное количество объектов в узле
    min_leaf_samples = 3

    root_gini = gini(labels)

    best_gain = 0
    best_t = None
    best_index = None
    
    n_features = data.shape[1]
    
    feature_subsample_indices = get_subsample(n_features) # выбираем случайные признаки
    
    for index in feature_subsample_indices:
        # будем проверять только уникальные значения признака, исключая повторения
        t_values = np.unique(data[:, index])
        
        for t in t_values:
            true_data, false_data, true_labels, false_labels = split(data, labels, index, t)
            #  пропускаем разбиения, в которых в узле остается менее 5 объектов
            if len(true_data) < min_leaf_samples or len(false_data) < min_leaf_samples:
                continue
            
            current_gain = gain(true_labels, false_labels, root_gini)
            
            #  выбираем порог, на котором получается максимальный прирост качества
            if current_gain > best_gain:
                best_gain, best_t, best_index = current_gain, t, index

    return best_gain, best_t, best_index

In [380]:
# Построение дерева с помощью рекурсивной функции

def build_tree(data, labels):

    gain, t, index = find_best_split(data, labels)

    #  Базовый случай - прекращаем рекурсию, когда нет прироста в качества
    if gain == 0:
        return Leaf(data, labels)

    true_data, false_data, true_labels, false_labels = split(data, labels, index, t)

    # Рекурсивно строим два поддерева
    true_branch = build_tree(true_data, true_labels)
    false_branch = build_tree(false_data, false_labels)

    # Возвращаем класс узла со всеми поддеревьями, то есть целого дерева
    return Node(index, t, true_branch, false_branch)

In [381]:
def random_forest(data, labels, n_trees):
    forest = []
    bootstrap = get_bootstrap(data, labels, n_trees)
    
    for b_data, b_labels in bootstrap:
        forest.append(build_tree(b_data, b_labels))
        
    return forest

In [382]:
# Функция классификации отдельного объекта

def classify_object(obj, node):

    #  Останавливаем рекурсию, если достигли листа
    if isinstance(node, Leaf):
        answer = node.prediction
        return answer

    if obj[node.index] <= node.t:
        return classify_object(obj, node.true_branch)
    else:
        return classify_object(obj, node.false_branch)

In [383]:
# функция формирования предсказания по выборке на одном дереве

def predict(data, tree):
    
    classes = []
    for obj in data:
        prediction = classify_object(obj, tree)
        classes.append(prediction)
    return classes

In [384]:
# предсказание голосованием деревьев

def tree_vote(forest, data, y):

    # добавим предсказания всех деревьев в список
    predictions = []
    for tree in forest:
        predictions.append(predict(data, tree))
#     print(predictions)

    # сформируем список с предсказаниями для каждого объекта
    predictions_per_object = list(zip(*predictions))
#     print(predictions_per_object)

    # выберем в качестве итогового предсказания для каждого объекта то,
    # за которое проголосовало большинство деревьев
    voted_predictions = []
    for obj in predictions_per_object:
        
        voted_predictions.append(obj.count(1) / len(obj) * 100)
        #voted_predictions.append(np.mean(obj == y))
        #voted_predictions.append(max(set(obj), key=obj.count))
        #voted_predictions.append(max(set(obj)))
    return voted_predictions #predictions_per_object #voted_predictions

In [385]:
# Введем функцию подсчета точности как доли правильных ответов

def accuracy_metric(actual, predicted):
    correct = 0
    for i in range(len(actual)):
        if actual[i] == predicted[i]:
            correct += 1
    return correct / float(len(actual)) * 100.0

In [386]:
n_trees = 50
my_forest_50 = random_forest(train_data, train_labels, n_trees)

TypeError: unhashable type: 'numpy.ndarray'

In [326]:
train_answers = tree_vote(my_forest_50, train_data, train_labels)
train_answers

[0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0,
 0.0

In [314]:
test_answers = tree_vote(my_forest_50, test_data)

In [284]:
# Точность на обучающей выборке
train_accuracy = accuracy_metric(train_labels, train_answers)
print(f'Точность случайного леса из {n_trees} деревьев на обучающей выборке: {train_accuracy:.3f}')

# Точность на тестовой выборке
test_accuracy = accuracy_metric(test_labels, test_answers)
print(f'Точность случайного леса из {n_trees} деревьев на тестовой выборке: {test_accuracy:.3f}')

Точность случайного леса из 50 деревьев на обучающей выборке: 91.559
Точность случайного леса из 50 деревьев на тестовой выборке: 100.000


In [502]:
df_test = pd.read_csv('test.csv')
df_test.drop(['Id'], axis=1, inplace=True)

In [505]:
data_test = np.array(df_test, dtype=np.float64)
data_test

array([[3.20e+01, 2.00e+00, 2.70e+03, ..., 0.00e+00, 0.00e+00, 9.00e+01],
       [3.50e+01, 6.00e+00, 1.80e+03, ..., 0.00e+00, 0.00e+00, 7.10e+01],
       [4.40e+01, 2.00e+00, 1.20e+03, ..., 0.00e+00, 0.00e+00, 4.50e+01],
       ...,
       [4.40e+01, 2.00e+00, 1.25e+03, ..., 0.00e+00, 0.00e+00, 6.30e+01],
       [5.10e+01, 5.00e+00, 1.00e+03, ..., 0.00e+00, 0.00e+00, 6.40e+01],
       [4.30e+01, 0.00e+00, 1.50e+03, ..., 0.00e+00, 0.00e+00, 4.10e+01]])

In [506]:
data_test[:, 2] = standard_scale(data_test[:, 2])
data_test

array([[32.        ,  2.        ,  1.90046712, ...,  0.        ,
         0.        , 90.        ],
       [35.        ,  6.        ,  0.19020064, ...,  0.        ,
         0.        , 71.        ],
       [44.        ,  2.        , -0.94997702, ...,  0.        ,
         0.        , 45.        ],
       ...,
       [44.        ,  2.        , -0.85496222, ...,  0.        ,
         0.        , 63.        ],
       [51.        ,  5.        , -1.33003624, ...,  0.        ,
         0.        , 64.        ],
       [43.        ,  0.        , -0.37988819, ...,  0.        ,
         0.        , 41.        ]])

In [507]:
test_answers = predict(W, data_test)
test_answers

array([0., 0., 0., ..., 0., 0., 0.])

In [287]:
test_answers = tree_vote(my_forest_50, data_test)

In [508]:
df_pred = pd.read_csv('sample_submission.csv')

In [509]:
df_pred['choose'] = test_answers
df_pred

Unnamed: 0,Id,choose
0,10000,0.0
1,10001,0.0
2,10002,0.0
3,10003,0.0
4,10004,0.0
...,...,...
9995,19995,0.0
9996,19996,0.0
9997,19997,0.0
9998,19998,0.0


In [510]:
df_pred.to_csv('to_kaggle.csv', index=False)