# Peer-graded Assignment: Эксперименты с моделью

На прошлой неделе вы поучаствовали в соревновании на kaggle и, наверняка, большинство успешно справилось с прохождением baseline, а значит пора двигаться дальше - заняться оптимизацией модели, провести серию экспериментов и построить сильное финальное решения.

В этом задании вам нужно провести ряд эскпериментов, оценить качество полученных в процессе экспериментирования моделей и выбрать лучшее решение. 

Задание будет оцениваться на основании загруженного jupyther notebook и развернутых ответов на поставленные вопросы.

## Инструкции

1\. Начнем с простого. Давайте оценим как много объектов действительно нужно для построения качественной модели. Для обучения доступна достаточно большая выборка и может так оказаться, что начиная с некоторого момента рост размера обучающей выборки перестает влиять на качество модели. Постройте кривые обучения, обучая модель на выборках разного размера начиная с небольшого количество объектов в обучающей выборке и постепенно наращивая её размер с некоторым шагом. Обратите внимание на `sklearn.model_selection.learning_curve`

In [4]:
#загрузка данных
import pandas as pd
data = pd.read_csv('../Data/orange_small_churn_data.txt')
labels = pd.read_csv('../Data/orange_small_churn_labels.txt', header=None)
data['label'] = labels

In [6]:
# произведем преобразование и фильтрацию признаков (на основе прошлых недель)

from sklearn.preprocessing import StandardScaler
import numpy as np

def preprocess(data):
    #Отбросим признаки, у которых больше половины значений незаполнены
    bad_features = data.columns[data.isnull().mean(axis=0)>0.5]
    data = data.drop(bad_features, axis=1)
    
    #Рассмотрим отдельно вещественные и категориальные признаки
    all_real_features = ["Var"+str(i) for i in xrange(1, 191)]
    real_features = data.columns[data.columns.isin(all_real_features)]
    cat_features = data.columns[~data.columns.isin(all_real_features+['label'])]
    
    #В вещественных признаках заменим пропуски на средние значения признаков и произведем стандартизацию признаков
    means = data[real_features].mean(axis=0, skipna=True)
    data[real_features] = data[real_features].fillna(means)
    sc = StandardScaler()
    data[real_features] = sc.fit_transform(data[real_features])
    
    #В категориальных признаках отбросим те из них, которые имеют слишком много категорий
    num_cat = np.array([np.unique(data[feat]).shape[0] for feat in cat_features])
    bad_cat_features = cat_features[num_cat>100]
    data = data.drop(bad_cat_features, axis=1)
    cat_features = cat_features[~cat_features.isin(bad_cat_features)]
    
    #В категориальных признаках произведем dummy кодирование, при этом пропуск будем расценивать как еще одну категорию
    data = pd.get_dummies(data, dummy_na=True, columns = cat_features, drop_first=True)
    
    return data

data = preprocess(data)

In [11]:
X = data.drop('label', axis = 1)
y = data.label
X.shape

(40000, 385)

In [None]:
#построим кривую обучения
from sklearn.model_selection import learning_curve

train_sizes = np.arange(0.05, 1.05, 0.05)

#в качестве классификатора возьмем LogisticRegression
from sklearn.metrics import average_precision_score, make_scorer
from sklearn.linear_model import LogisticRegression
from sklearn.cross_validation import cross_val_score, StratifiedKFold

lr = LogisticRegression()

#сначала оценим качество модели на всей выборке
scores = cross_val_score(lr, X, y, scoring='roc_auc', cv=StratifiedKFold(y, n_folds=5))
print "ROC AUC for logistic regression: {}".format(np.mean(scores))

scorer = make_scorer(average_precision_score, needs_threshold=True)

t_scores = learning_curve(lr, X, y, train_sizes=train_sizes, scoring='roc_auc', cv=5)

ROC AUC for logistic regression: 0.639068338406


In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

plt.figure(figsize=(12,8))
plt.plot(t_scores[0], t_scores[1].mean(axis=1))
plt.plot(t_scores[0], t_scores[2].mean(axis=1))

Вывод: по данным кривым нельзя с уверенностью сказать, что можно обучаться по меньшему размеру выборки. Кривые до конца продолжают сближение, а значит будем использовать для обучения всю выборку.

2\. Часто несбалансированные по классам выборки приводят к различным проблемам при обучении моделей. Давайте попробуем по-разному обработать выборку, поиграть с распределением объектов по классам и сделать выводы о том, как соотношение классов влияет на качество модели.

2.1\. Задайте веса объектам так, чтобы соотношение классов с учетом весов объектов изменилось. Попробуйте не менее трёх различных вариантов весов. Меняются ли результаты классификации? Как это сказывается на качестве модели? Какой вариант выглядит наиболее оптимальным с точки зрения качества?

2.2\. Примените к выборке технологию undersampling: для этого нужно убрать из обучения некоторое количество объектов большего класса таким образом, чтобы соотношение классов изменилось. Попробуйте не менее трёх различных вариантов undersampling (варианты могут отличаться как по количество отфильтрованных объектов, так и по принципу выборка объектов для отсеивания из выборки). Меняются ли результаты классификации? Как это сказывается на качестве модели? Какой вариант выглядит наиболее оптимальным с точки зрения качества?

3\. Теперь перейдем к работе с признаками. Ранее вы реализовали несколько стратегий для обработки пропущенных значений. Сравните эти стратегии между собой с помощью оценки качества моделей кросс-валидации, построенных на датасетах с использованием различных стратегий. Как обработка пропущенных значений сказывается на качестве модели? Какой вариант выглядит наиболее оптимальным с точки зрения качества?

4\. Также вы уже реализовали несколько стратегий для обработки категориальных признаков. Сравните эти стратегии между собой с помощью оценки качества моделей по кросс-валидации, построенных на датасетах с использованием различных стратегий. Как обработка категориальных признаков сказывается на качестве модели? Какой вариант выглядит наиболее оптимальным с точки зрения качества?

5\. Все ли признаки оказались полезными для построения моделей? Проведите процедуру отбора признаков, попробуйте разные варианты отбора (обратите внимание на модуль `sklearn.feature_selection`). Например, можно выбрасывать случайные признаки или строить отбор на основе l1-регуляризации - отфильтровать из обучения признаки, которые получат нулевой вес при построении регрессии с l1-регуляризацией (`sklearn.linear_model.Lasso`). И всегда можно придумать что-то своё=) Попробуйте как минимум 2 различные стратегии, сравните результаты. Помог ли отбор признаков улучшить качество модели? Поясните свой ответ.

6\. Подберите оптимальные параметры модели. Обратите внимание, что в зависимости от того, как вы обработали исходные данные, сделали ли балансировку классов, сколько объектов оставили в обучающей выборке и др. оптимальные значения параметров могут меняться. Возьмите наилучшее из ваших решений на текущий момент и проведите процедуру подбора параметров модели (обратите внимание на `sklearn.model_selection.GridSearchCV`) Как подбор параметров повлиял на качество модели?

7\. Предложите методику оценки того, какие признаки внесли наибольший вклад в модель (например, это могут быть веса в случае регрессии, а также большое количество моделей реализуют метод `feature_importances_` - оценка важности признаков). На основе предложенной методики проанализируйте, какие признаки внесли больший вклад в модель, а какие меньший?

8\. Напоследок давайте посмотрим на объекты. На каких объектах достигается наибольшая ошибка классификации? Есть ли межу этими объектами что-то общее? Видны ли какие-либо закономерности? Предположите, почему наибольшая ошибка достигается именно на этих объектах. В данном случае "наибольшую" ошибку можно понимать как отнесение объекта с чужому классу с большой долей уверенности (с высокой вероятностью).

9\. По итогам проведенных экспериментов постройте финальную решение - модель с наилучшим качеством. Укажите, какие преобразования данных, параметры и пр. вы выбрали для построения финальной модели.

10\. Подумайте, можно ли еще улучшить модель? Что для этого можно сделать? 