В этом задании нужно подготовиться к последующему процессу построения модели и оценки её качества. Это важный шаг в процессе построения и оптимизации модели, а также выбора и оценки финального решения. До того, как вы непосредственно начнете что-то обучать, важно понять, а как, вообще говоря, это оценивать? Как лучше грамотно организовать процедуру оценки, какие узкие места могут быть? Часто, адекватная оценка качества бывает не менее важной, чем непосредственно разработка признаков, обучение модели и оптимизация её параметров.

In [11]:
from sklearn import model_selection, datasets
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder

import numpy as np
import pandas as pd

In [3]:
data = pd.read_csv('orange_small_churn_data.train', sep = ',', header = 0)
labels = pd.read_csv('orange_small_churn_labels.train', sep = ',', header = None, names = ['label'])
print data.shape, labels.shape
data.head()

(40000, 230) (40000, 1)


Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var8,Var9,Var10,...,Var221,Var222,Var223,Var224,Var225,Var226,Var227,Var228,Var229,Var230
0,,,,,,3052.0,,,,,...,Al6ZaUT,vr93T2a,LM8l689qOp,,,fKCe,02N6s8f,xwM2aC7IdeMC0,,
1,,,,,,1813.0,7.0,,,,...,oslk,6hQ9lNX,LM8l689qOp,,ELof,xb3V,RAYp,55YFVY9,mj86,
2,,,,,,1953.0,7.0,,,,...,zCkv,catzS2D,LM8l689qOp,,,FSa2,ZI9m,ib5G6X1eUxUn6,mj86,
3,,,,,,1533.0,7.0,,,,...,oslk,e4lqvY0,LM8l689qOp,,,xb3V,RAYp,F2FyR07IdsN7I,,
4,,,,,,686.0,7.0,,,,...,oslk,MAz3HNj,LM8l689qOp,,,WqMG,RAYp,F2FyR07IdsN7I,,


### **1.** Начнем с простого, но важного шага. Отделите небольшую выборку от существующих данных. Назовем её hold-out dataset. Эта выборка нужна для контроля качества решения: она не должна использоваться вплоть до контроля качества решения. Наличие такой выборки поможет убедиться, что в процессе моделирования не было допущено ошибок, не произошло переобучение.

In [4]:
# мешаем, выделяем тестовую и тренировочную выборку
train_data, test_data, train_labels, test_labels = model_selection.train_test_split(data, labels,
                                                                                     shuffle = True,
                                                                                     test_size = 0.2)

In [8]:
# сохраняем в файл
test_data.to_csv('w2_test_data', sep=';', header=True)
test_labels.to_csv('w2_test_labels', sep=';', header=True)

### **2.** Подумайте и предложите несколько способов (не менее 3х) обработки **категориальных признаков**, для того, чтобы их можно было использовать при построении модели. Обратите внимание на модуль sklearn.preprocessing. Начать поиски можно с sklearn.preprocessing.OneHotEncoder.

In [9]:
data_categ = data.iloc[:,190:].dropna(axis=1, how='all')

#### **a.** Прямое кодирование (кодирование с 1 горячим состоянием one-hot-encoding). 
Идея, лежащая в основе прямого кодирования, заключается в том, чтобы заменить категориальную переменную одной или несколькими новыми признаками, которые могут принимать значения 0 и 1.

Для каждого значения признака - новая колонка.

In [13]:
# также можно использовать метод  OneHotEncoder из sklearn.preprocessing
data_dummies = pd.get_dummies(data_categ)

In [15]:
data_dummies.head()

Unnamed: 0,Var191_r__I,Var192_0G9vyxdMWg,Var192_0kQTmBU3gb,Var192_0kQqrQsiZt,Var192_0vimfo8zhV,Var192_1GdOj17ejg,Var192_1GdOj1KXzC,Var192_1JGTmBQZiT,Var192_1JGqrQKzJV,Var192_1JGr4RKzJV,...,Var228_d0LtHjWeaXyArdN4sxU_saXqH,Var228_ib5G6X1eUxUn6,Var228_iyHGyLCEkQ,Var228_n1OBWGkV3fbsHR75taC,Var228_r_7E,Var228_xwM2aC7IdeMC0,Var229_am7c,Var229_mj86,Var229_oJmt,Var229_sk2h
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,1,0,0,0,0,0,1,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


#### **b.** Кодирование категориальных признаков в виде целочисленного массива.
Идея, заключается в том что мы присваиваем каждому значению в признаке значение от 0 до n-1.

Не увеличивает признаковое описание (количество колонок).

In [None]:
enc = OrdinalEncoder()
enc.fit(data_categ)
# enc.categories_
enc.transform(data_categ)

#### **c.** Кодирование категориальных признаков с помощью замены на количество вхождений в неё объектов.
Самый примитивный способ замены.

In [None]:
data_categ[newfeature] = data_categ[feature].map(data_categ.groupby(feature).size())

**d.** Также существуют более сложные способы кодирования, например, замена на среднее значение признака (не применимо в нашем случае, у нас много строковых значений) или кодировка категориального признака по значениям других категориальных признаков (pandas.crosstab)

### **3.** Подумайте, с помощью какой метрики качества лучше всего оценивать качество будущей модели, какой будет ключевая метрика качества? Поясните свой выбор.

В данной модели важна точность (precision) и полнота(recall). Нам важно не пропустить ложный пропуск (FN), т.к. тогда мы упустим клиента, но также мы не можем позволить себе большую долю ложных срабатываний (FP), т.к. это ведёт к увеличению расходов на удержанию каждого пользователя (хотя пользователь и не собирался от нас уходить).

Поэтому будем использовать метриду **AUC-ROC.**

### 4. Какие вспомогательные метрики качества имеет смысл считать, чтобы более полно оценить качество модели, понять, где её слабые стороны и что нужно улучшать?

в качестве вспомогательных метрик будет использоваться точность и полноту.

### 5. Подберите оптимальную стратегию проведения кросс-валидации: решите, на сколько фолдов вы будете делить выборку? Выберите тип разбиения данных (k-fold, stratified k-fold, shuffle split, leave one out). Поясните ваш выбор.

skf = model_selection.StratifiedKFold(n_splits = 5, shuffle = True, random_state = 0)

- Будем делать 5 проходов (n_splits=5). Нет чёткой рекомендации по количеству фолдов, т.к. у нас выборка относительно небольшая, то ставить 3 смысла нету, а 5 вполне хватит.
- Будем использовать **метод стратификации** который делит соотношение классов в обучающей выборке на равное количество, это то что нужно в нашем случае так как количество примеров оттока у нас в разы меньше(так мы избежим в ситуации что в каком-то из разбиений у нас может не оказаться класса с меткой отток).