Классификация - одна из классических задач машинного обучения. Суть задачи состоит в том, чтобы научиться предсказывать класс объекта на основе его признаков.

In [1]:
%matplotlib inline
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv('../data/youtube_data.csv', sep = '\t',dtype={'tags': 'list'})

TypeError: data type 'list' not understood

In [3]:
data.info()

NameError: name 'data' is not defined

МОжно заметить, что некоторые данные у нас отсутствуют. для числовых значений заменим их средними

In [None]:
for column in ["commentCount","dislikeCount","likeCount","viewCount","comment_max_len_symbol",
               "comment_max_len_word","comment_mean_len_symbol","comment_mean_len_word",
               "comment_negative_mean_prob","comment_negative_share","commentators_uniq","comments_emoji_max",
               "comments_emoji_mean","comments_emoji_share","comments_obscene_cnt","words_obscene_cnt"]:
    data[column] = data[column].fillna(data[column].mean())

In [None]:
data.info()

Первое что надо сделать - разделить выборку на обучающую выборку, в которой мы будем находить закономерности, и тестовую выборку, на которой мы будем проверять выявленные закономерности

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
train, test = train_test_split(data, test_size = 0.2, random_state=201905)

In [None]:
print("Размер обучающей выборки:", len(train))
print("Размер тестовой выборки:", len(test))

убедимся, что мы не нарушили пропорции жанров

In [None]:
value_counts = data.music_style.value_counts()
for k,v in value_counts.iteritems():
    print(k, float(v) / len(data))

In [None]:
value_counts = train.music_style.value_counts()
for k,v in value_counts.iteritems():
    print(k, float(v) / len(train))

In [None]:
value_counts = test.music_style.value_counts()
for k,v in value_counts.iteritems():
    print(k, float(v) / len(test))

# k Nearest Neighbours
**KNN** - один из базовых и максимально наглядных алгоритмов. Среди уже известных нам объектов находятся k максимально похожих на наш неизвестный объект (соседей). Неизвестному объекту проставляется тот класс, который наиболее широко представлен среди его соседей

для начала возьмем все числовые данные типа float64 из нашего набора

In [None]:
X_train = train[["commentCount","dislikeCount","likeCount","viewCount","comment_max_len_symbol",
                 "comment_max_len_word","comment_mean_len_symbol","comment_mean_len_word",
                 "comment_negative_mean_prob","comment_negative_share","commentators_uniq","comments_emoji_max",
                 "comments_emoji_mean","comments_emoji_share","comments_obscene_cnt","words_obscene_cnt"]]
X_test = test[["commentCount","dislikeCount","likeCount","viewCount","comment_max_len_symbol",
               "comment_max_len_word","comment_mean_len_symbol","comment_mean_len_word",
               "comment_negative_mean_prob","comment_negative_share","commentators_uniq","comments_emoji_max",
               "comments_emoji_mean","comments_emoji_share","comments_obscene_cnt","words_obscene_cnt"]]

Похожесть объектов определяется расстоянием между объектами в какой-то метрике. Обратим внимание, что порядок измерений ввеличин может быть разным, а значит вносить вклад в расстояние они должны по разному, но стандартные метрики нам не предоставляют такой возможности. Значит нам надо как-то преобразовать данные. воспользуемся преобразованием к нормальному распределению

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
scaler = StandardScaler()
scaler.fit(X_train) # запоминаем какое преобразование нам нужно соверщать над данными
X_train_normalized = scaler.transform(X_train, copy = True) # преобразовываем обучающие данные
X_test_normalized = scaler.transform(X_test, copy = True)  # преобразовываем тестовые данные

а еще нам надо будет представить жанры видео в бинарном виде. ДЛя этого будем использовать one hot encoding

In [None]:
from sklearn.preprocessing import OneHotEncoder

In [None]:
encoder = OneHotEncoder()
encoder.fit(train.music_style.values.reshape((len(train), 1)))
Y_train = encoder.transform(train.music_style.values.reshape((len(train), 1))).toarray()
Y_test = encoder.transform(test.music_style.values.reshape((len(test), 1))).toarray()

In [None]:
Y_train[:10]

In [None]:
train.music_style.values[:10]

Теперь наконец-то мы можем перейти к обучению моделей

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
knn = KNeighborsClassifier(n_neighbors = 9)
knn.fit(X_train_normalized, Y_train)
Y_predicted = knn.predict(X_test_normalized)

In [None]:
Y_predicted = encoder.inverse_transform(Y_predicted)

посмотрим скольким видео мы правильно предсказали жанр

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
accuracy_score(test.music_style.values, Y_predicted)

Негусто. Возможно нам стоит попробовать по разному учитывать соседей: более близкие соседи должны давать больший вклад, чем удаленные

In [None]:
knn = KNeighborsClassifier(n_neighbors = 9, weights='distance')
knn.fit(X_train_normalized, Y_train)
Y_predicted = knn.predict(X_test_normalized)
Y_predicted = encoder.inverse_transform(Y_predicted)
accuracy_score(test.music_style.values, Y_predicted)

Чуточку лучше. Для того, чтобы построить хорошую модель иногда нужно перебрать множесмтво значений для множества параметров. Для поиска по решетке параметров уже тоже есть готовое решение

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
# параметры, которые мы перибираем, и перебираемые значения
parameters = {'n_neighbors':range(5, 16, 5), 'weights':['uniform', 'distance']}
knn = KNeighborsClassifier()
clf = GridSearchCV(knn, parameters, cv=3, scoring="accuracy")
clf.fit(X_train_normalized, Y_train)

In [None]:
print(clf.best_estimator_)
print(clf.best_score_)

In [None]:
knn = clf.best_estimator_
Y_predicted = knn.predict(X_test_normalized)
Y_predicted = encoder.inverse_transform(Y_predicted)
accuracy_score(test.music_style.values, Y_predicted)

Попробуйте перебрать больше параметров и построить более качественную knn-модель

In [None]:
 # your code here

# Decision trees
**Решающие деревья** - еще один наглядный алгоритм
<img src = "http://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1528907338/classification-tree_ygvats.png">

В листьях дерево - конечные принимаемые решения, в разветвлениях функции от отдельного признака.

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
parameters = {'max_depth':range(5, 101, 5), 'min_samples_leaf':[10, 100, 1000]}
tree = DecisionTreeClassifier()
clf = GridSearchCV(tree, parameters, cv=3, scoring="accuracy")
clf.fit(X_train, Y_train)
print(clf.best_estimator_)
print(clf.best_score_)

In [None]:
tree = clf.best_estimator_
Y_predicted = tree.predict(X_test)
Y_predicted = encoder.inverse_transform(Y_predicted)
accuracy_score(test.music_style.values, Y_predicted)

Дерево хорошо своей простотой, но по факту, чем выше наше дерево, тем более оно склонно к переобучению.
Как быть? Построить много невысоких деревьев. Много деревьев - это лес, алгоритм, принимающий решение на основе множества деревьев, так и называется.


In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
forest = RandomForestClassifier(max_depth=13, n_estimators=5000)
forest.fit(X_train, Y_train)

In [None]:
Y_predicted = forest.predict(X_test)
Y_predicted = encoder.inverse_transform(Y_predicted)
accuracy_score(test.music_style.values, Y_predicted)

# Feature Engineering
в реальной жизни очевидных признаков всегда не хватает. Тогда приходится самостоятельно придумывать и извлекать новые признаки из сырых данных. Попробуем что-то придумать 

первое на что можно обратить внимание столбец categoryId. в нем числовой идентификатор категории. Попробуем для начала преобразовать его используя OHE

In [None]:
catEncoder = OneHotEncoder()
catEncoder.fit(train.categoryId.values.reshape((len(train), 1)))
cat_train = catEncoder.transform(train.categoryId.values.reshape((len(train), 1))).toarray()
cat_test = catEncoder.transform(test.categoryId.values.reshape((len(test), 1))).toarray()

кроме того мы можем использовать наиболее часто употребляемые теги

In [None]:
from ast import literal_eval


In [None]:
#для начала уберем пустые значения
train.tags = train.tags.apply(lambda tags: [] if pd.isnull(tags) else literal_eval(tags))
test.tags = test.tags.apply(lambda tags: [] if pd.isnull(tags) else literal_eval(tags))

In [None]:
from collections import defaultdict

import operator

In [None]:
tags_frequency = defaultdict(int)
for tags in train.tags:
    for tag in tags:
        tags_frequency[tag.lower()] += 1
tags_frequency = sorted(tags_frequency.items(), key=operator.itemgetter(1),reverse=True)


возьмем 50 наиболее популярных тегов, и бинаризуем их

In [None]:
tag_index = {tag[0]: index for index, tag in enumerate(tags_frequency[:50])}

In [None]:
def tagsToFeatures(tags):
    features = np.zeros(51)
    for tag in tags:
        index = tag_index.get(tag.lower(), -1)
        features[index] = 1
    return features[:50] 

In [None]:
tags_train = train.tags.apply(tagsToFeatures)
tags_train = np.array(tags_train.to_list())
tags_test = test.tags.apply(tagsToFeatures)
tags_test = np.array(tags_test.to_list())

Теперь обучим новый лес

In [None]:
X_train = np.hstack((X_train.values, cat_train, tags_train))
X_test = np.hstack((X_test.values, cat_test, tags_test))

In [None]:
X_train.shape, X_test.shape

In [None]:
forest = RandomForestClassifier(max_depth=13, n_estimators=5000)
forest.fit(X_train, Y_train)

In [None]:
Y_predicted = forest.predict(X_test)
Y_predicted = encoder.inverse_transform(Y_predicted)
accuracy_score(test.music_style.values, Y_predicted)

Попробуйте перебрать параметры и добиться более высокой точности для леса