In [1]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split

In [2]:
def multiply(data:pd.DataFrame, categories:tuple, to_multiply:str)-> pd.DataFrame:
    """     
    Creates new features, by multiplying features from categories on 'to_multiply', create new feature name
        like concat of features names.
    categories: tuple categories for multiply
    to_multiply: str feature name to multiply
    """
    for category in categories:
        data[category+ '_' + to_multiply] = data[category] * data[to_multiply]
    return data

def pop(data:pd.DataFrame, categories:tuple)-> pd.DataFrame:
    """
    Pop columns from data with names from categories tuple. 
    """
    for i in categories:
        data.pop(i)
    return data

Загружаем данные.

In [3]:
df = pd.read_csv('train.csv')
df_test = pd.read_csv('test.csv')

In [4]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Id,10000.0,4999.5,2886.89568,0.0,2499.75,4999.5,7499.25,9999.0
age,10000.0,45.8009,8.030274,23.0,40.0,46.0,51.0,68.0
years_of_experience,10000.0,1.9748,1.766883,0.0,0.0,2.0,3.0,9.0
lesson_price,10000.0,1702.44,523.789062,200.0,1300.0,1550.0,2150.0,3950.0
qualification,10000.0,1.7243,0.798845,1.0,1.0,2.0,2.0,4.0
physics,10000.0,0.3706,0.48299,0.0,0.0,0.0,1.0,1.0
chemistry,10000.0,0.1215,0.326724,0.0,0.0,0.0,0.0,1.0
biology,10000.0,0.1172,0.321675,0.0,0.0,0.0,0.0,1.0
english,10000.0,0.0591,0.235824,0.0,0.0,0.0,0.0,1.0
geography,10000.0,0.0277,0.16412,0.0,0.0,0.0,0.0,1.0


In [5]:
df_test.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Id,10000.0,14999.5,2886.89568,10000.0,12499.75,14999.5,17499.25,19999.0
age,10000.0,45.9245,8.031977,23.0,41.0,46.0,51.0,68.0
years_of_experience,10000.0,1.9857,1.771217,0.0,0.0,2.0,3.0,9.0
lesson_price,10000.0,1699.91,526.260094,300.0,1300.0,1550.0,2150.0,3950.0
qualification,10000.0,1.7023,0.789644,1.0,1.0,1.5,2.0,4.0
physics,10000.0,0.3721,0.483389,0.0,0.0,0.0,1.0,1.0
chemistry,10000.0,0.1281,0.334218,0.0,0.0,0.0,0.0,1.0
biology,10000.0,0.1158,0.320001,0.0,0.0,0.0,0.0,1.0
english,10000.0,0.049,0.215879,0.0,0.0,0.0,0.0,1.0
geography,10000.0,0.0292,0.168375,0.0,0.0,0.0,0.0,1.0


Мы видим что данные без пропусков и выбросов.

In [6]:
df[df['choose'] == 1].describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Id,1109.0,5097.932372,2822.530435,1.0,2694.0,5138.0,7531.0,9968.0
age,1109.0,46.191163,8.0629,23.0,41.0,46.0,52.0,68.0
years_of_experience,1109.0,2.119928,1.845829,0.0,0.0,2.0,3.0,8.0
lesson_price,1109.0,1503.697024,476.524574,200.0,1200.0,1400.0,1800.0,3000.0
qualification,1109.0,1.819657,0.851804,1.0,1.0,2.0,3.0,4.0
physics,1109.0,0.637511,0.480936,0.0,0.0,1.0,1.0,1.0
chemistry,1109.0,0.206492,0.404971,0.0,0.0,0.0,0.0,1.0
biology,1109.0,0.182146,0.386139,0.0,0.0,0.0,0.0,1.0
english,1109.0,0.07394,0.261792,0.0,0.0,0.0,0.0,1.0
geography,1109.0,0.030658,0.172468,0.0,0.0,0.0,0.0,1.0


In [7]:
df[df['choose'] == 0].describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Id,8891.0,4987.222247,2894.744626,0.0,2471.5,4976.0,7495.5,9999.0
age,8891.0,45.752221,8.025319,23.0,40.0,46.0,51.0,68.0
years_of_experience,8891.0,1.956698,1.756054,0.0,0.0,2.0,3.0,9.0
lesson_price,8891.0,1727.229783,524.153146,200.0,1350.0,1550.0,2150.0,3950.0
qualification,8891.0,1.712406,0.791236,1.0,1.0,2.0,2.0,4.0
physics,8891.0,0.337307,0.472817,0.0,0.0,0.0,1.0,1.0
chemistry,8891.0,0.110899,0.314024,0.0,0.0,0.0,0.0,1.0
biology,8891.0,0.109099,0.311781,0.0,0.0,0.0,0.0,1.0
english,8891.0,0.057249,0.232331,0.0,0.0,0.0,0.0,1.0
geography,8891.0,0.027331,0.163055,0.0,0.0,0.0,0.0,1.0


Данные серьезно не сбалансированы. класс = 1 представлен в гораздо меньшем числе примеров. Как я понял, есть 2 способа с этим бороться.

1. Добавить примеров с недостающим классом(что я и сделал)

2. Уменьшить класс которого много(но тут есть проблема с тем что может оказаться слишком мало данных.)

Я попробовал оба варианта. В первом случае максимум добился 0.76, во втором 0.73(так же я уменьшил количество признаков оставив только самые важные так как, оказалось слишком мало примеров.)

Так же видно, что  сердние значения physics, lesson_price, mean_exam_points cильно меняются в зависимости от класса.

Я создавал кучу новых признаков, ни один из них не дал особого прироста в оценке, это только часть того что было проверено. Причем, пытался создавать новые удаляя старые, так и оставляя старые, результаты были примерно одинаковые. Новые признаки просто отбирали часть информации у старых.

Так же построил очень красивый график, того как окрелируют между собой признаки, но он весил 80 мегобайт, так что решил его не выкладывать на гитхаб. В нем была видна примерно таже информация что и в describe-ах первого и нулевого классов. ниже код для графика.

In [8]:
# g = sns.PairGrid(df, hue='choose')
# g.map_diag(sns.histplot)
# g.map_offdiag(sns.scatterplot)
# g.add_legend()

In [9]:
df['subject'] = df['history'] + df['english'] + df['biology'] + df['geography']
df_test['subject'] = df_test['history'] + df_test['english'] + df_test['biology'] + df_test['geography']

df.loc[df['subject'] > 0, 'subject'] = 1
df_test.loc[df_test['subject'] > 0, 'subject'] = 1

# # categories = ('english', 'chemistry','biology', 'geography')
# categories = ('chemistry','biology','physics')
# to_mult = 'mean_exam_points'
# df = multiply(df, categories, to_mult)
# df_test = multiply(df_test, categories, to_mult)


# categories = ('chemistry','biology','physics')
# to_mult = 'lesson_price'
# df = multiply(df, categories, to_mult)
# df_test = multiply(df_test, categories, to_mult)

# categories = ('chemistry','biology','physics')
# to_mult = 'years_of_experience'
# df = multiply(df, categories, to_mult)
# df_test = multiply(df_test, categories, to_mult)

# categories = ('chemistry','biology','physics')
# to_mult = 'qualification'
# df = multiply(df, categories, to_mult)
# df_test = multiply(df_test, categories, to_mult)



# df['age1'] = df['age'] // 10 * 10
# df_test['age1'] = df_test['age'] // 10 * 10

# df['lesson_price1'] = df['lesson_price'] // 1000 * 1000
# df_test['lesson_price1'] = df_test['lesson_price'] // 1000 * 1000



Нам не нужно стандартизовывать, или нормализовывать признаки так как Random Forest не зависит от этого.

Избавляемся от признаков которые в процессе оказались бесполезными в этой модели. Можно избавиться практически от всего оставив только physics, lesson_price, mean_exam_points. Это практически не повлияет на результат.

In [10]:
to_pop = ('Id','english', 'geography','history','biology')
df = pop(df, to_pop)
df_test = pop(df_test, to_pop)

Как выяснилось в процессе, если у нас несбалансированные данные, то деревья обучаются очень плохо, так как большой шанс что в выборку бутсрепа попадет очень мало примеров с редким классом. Поэтому я воспользовался добавлением примеров недостающего класса. Как я понимаю это приводит к тому что деревья слишком сильно подстраиваются к определенным значениям класса один так как они продублированы 7 раз. И даже большое количество деревьев не позваляет справиться с такой переобученостью.

In [11]:
df_class_one = df[df['choose'] == 1]
for i in range(7):
    df=pd.concat((df, df_class_one), ignore_index=True)

формируем numpy массивы из dataframe для использования в нашем алгоритме.

In [12]:
y = np.array(df.pop('choose'))
X = np.array(df)
for_predict = np.array(df_test)

In [13]:
y.shape, X.shape, for_predict.shape

((17763,), (17763, 8), (10000, 8))

In [14]:
class Node:
    
    def __init__(self, index, t, true_branch, false_branch):
        self.index = index  # индекс признака, по которому ведется сравнение с порогом в этом узле
        self.t = t  # значение порога
        self.true_branch = true_branch  # поддерево, удовлетворяющее условию в узле
        self.false_branch = false_branch  # поддерево, не удовлетворяющее условию в узле

In [15]:
def get_bootstrap(data, labels, N):
    n_samples = data.shape[0]
    bootstrap = []
    oob = []
    
    
    for i in range(N):
        b_data = np.zeros(data.shape)
        b_labels = np.zeros(labels.shape)
        # oob_data = []
        # oob_labels = []
        b_index = set()
        for j in range(n_samples):
            sample_index = np.random.randint(0, n_samples-1)
            b_index.add(sample_index)
            b_data[j] = data[sample_index]
            b_labels[j] = labels[sample_index]

        bootstrap.append((b_data, b_labels))

        oob.append(set(range(data.shape[0])).difference(b_index))


    return bootstrap, oob

In [16]:
def get_subsample(len_sample):
    # будем сохранять не сами признаки, а их индексы
    sample_indexes = [i for i in range(len_sample)]
    
    len_subsample = int(np.sqrt(len_sample))
    subsample = []
    
    np.random.shuffle(sample_indexes)
    for _ in range(len_subsample):
        subsample.append(sample_indexes.pop())
        
    return subsample

In [17]:
class Leaf:
    
    def __init__(self, data, labels):
        self.data = data
        self.labels = labels
        self.prediction = self.predict()
        
    def predict(self):
        # подсчет количества объектов разных классов
        classes = {}  # сформируем словарь "класс: количество объектов"
        for label in self.labels:
            if label not in classes:
                classes[label] = 0
            classes[label] += 1
        #  найдем класс, количество объектов которого будет максимальным в этом листе и вернем его    
        prediction = max(classes, key=classes.get)
        return prediction        

In [18]:
def gini(labels):
    #  подсчет количества объектов разных классов
    classes = {}
    for label in labels:
        if label not in classes:
            classes[label] = 0
        classes[label] += 1
    
    #  расчет критерия
    impurity = 1
    for label in classes:
        p = classes[label] / len(labels)
        impurity -= p ** 2
        
    return impurity

In [19]:
def quality(left_labels, right_labels, current_gini):

    # доля выбоки, ушедшая в левое поддерево
    p = float(left_labels.shape[0]) / (left_labels.shape[0] + right_labels.shape[0])
    
    return current_gini - p * gini(left_labels) - (1 - p) * gini(right_labels)

In [20]:
def split(data, labels, index, t):
    
    left = np.where(data[:, index] <= t)
    right = np.where(data[:, index] > t)
        
    true_data = data[left]
    false_data = data[right]
    true_labels = labels[left]
    false_labels = labels[right]
        
    return true_data, false_data, true_labels, false_labels

Лучший способ борьбы который помогает но совсем немного, я нашел в увеличении минимального количество обьектов в листе до 35, таким образом мы уменьшаем переобученность нашего леса. К сожалению код оставляю примерно как в методичке, так как все время ушло на то что бы понять почему  меня такой маленький скор. и поработат над приведением кода в нормальное состояние не получилось. 

In [21]:
def find_best_split(data, labels):
    
    #  обозначим минимальное количество объектов в узле
    min_leaf = 35

    current_gini = gini(labels)

    best_quality = 0
    best_t = None
    best_index = None
    
    n_features = data.shape[1]
    
    # выбор индекса из подвыборки длиной sqrt(n_features)
    subsample = get_subsample(n_features)
    
    for index in subsample:
        # будем проверять только уникальные значения признака, исключая повторения
        t_values = np.unique([row[index] for row in data])
        
        for t in t_values:
            true_data, false_data, true_labels, false_labels = split(data, labels, index, t)
            #  пропускаем разбиения, в которых в узле остается менее 5 объектов
            if len(true_data) < min_leaf or len(false_data) < min_leaf:
                continue
            
            current_quality = quality(true_labels, false_labels, current_gini)
            
            #  выбираем порог, на котором получается максимальный прирост качества
            if current_quality > best_quality:
                best_quality, best_t, best_index = current_quality, t, index

    return best_quality, best_t, best_index

In [22]:
def build_tree(data, labels):

    quality, t, index = find_best_split(data, labels)

    #  Базовый случай - прекращаем рекурсию, когда нет прироста в качества
    if quality == 0:
        return Leaf(data, labels)

    true_data, false_data, true_labels, false_labels = split(data, labels, index, t)

    # Рекурсивно строим два поддерева
    true_branch = build_tree(true_data, true_labels)
    false_branch = build_tree(false_data, false_labels)

    # Возвращаем класс узла со всеми поддеревьями, то есть целого дерева
    # print(index)
    return Node(index, t, true_branch, false_branch)

In [23]:
def rework_oob(oob):
    """
    Recive list of sets_oob_indexes.
    Return dict of lists, where key is number from sets_oob_indexes, and list contain lines index from oob_list where this number was.
    """
    d = dict()
    for i, s in enumerate(oob):
        for j in s:
            if j not in d:
                d[j] = [i]
            else:
                d[j].append(i)
    return d

In [24]:
def random_forest(data, labels, n_trees):
    forest = []
    bootstrap, oob_sets = get_bootstrap(data, labels, n_trees)

    reworked_oob_dict = rework_oob(oob_sets)

    for b_data, b_labels in bootstrap:
        forest.append(build_tree(b_data, b_labels))

    oob = 0
    pred = []
    # for i in reworked_oob_dict:
    #     predictions = np.array([predict([data[i]], forest[model_index]) for model_index in reworked_oob_dict[i]])
    #     oob += (labels[i] - predictions.mean()) ** 2
     

    return forest, oob / len(reworked_oob_dict)

In [25]:
def classify_object(obj, node):
    #  Останавливаем рекурсию, если достигли листа
    if isinstance(node, Leaf):
        answer = node.prediction
        return answer
    if obj[node.index] <= node.t:

        return classify_object(obj, node.true_branch)
    else:
        return classify_object(obj, node.false_branch)

In [26]:
def predict(data, tree):
    
    classes = []
    # if isinstance(data[0], list):
    for obj in data:
        prediction = classify_object(obj, tree)
        classes.append(prediction)
    # else:
    #     classes = [[classify_object(data, tree)]]
    return classes

In [27]:
def tree_vote(forest, data):

    # добавим предсказания всех деревьев в список
    predictions = []
    for tree in forest:
        predictions.append(predict(data, tree))
    
    # сформируем список с предсказаниями для каждого объекта
    predictions_per_object = list(zip(*predictions))
    
    # выберем в качестве итогового предсказания для каждого объекта то,
    # за которое проголосовало большинство деревьев
    voted_predictions = []
    for obj in predictions_per_object:
        voted_predictions.append(max(set(obj), key=obj.count))
        
    return voted_predictions

accuracy_metric оказалось крайне бесполезной метрикой для несбалансированных классов.

In [28]:
def accuracy_metric(actual, predicted):
    correct = 0
    for i in range(len(actual)):
        if actual[i] == predicted[i]:
            correct += 1
    return correct / float(len(actual)) * 100.0

Запускаем наш лес, в процессе стало понятно что 300 деревьев достаточно. У нас получается 2 параметра количество деревьев в лесе, и минимальное количество объектов в листе.

In [29]:
%%time
forest, oob = random_forest(X, y, n_trees=300)

Wall time: 10min 19s


Дальше предсказываем наши результаты и записываем их в файл.

In [30]:
for_predict = np.array(df_test)

In [31]:
for_predict = np.array(df_test)
answers_kaggle = tree_vote(forest, for_predict)

In [32]:
df_answers = pd.DataFrame(list(range(10000,20000)), columns=('Id',))
df_answers['Choose']= np.round(answers_kaggle)
df_answers.to_csv('hello.csv',sep=',', index=False)

В итоге получаем 0.75437, что грустно.