## Построение baseline-решений

В этом задании вам предстоит построить несколько моделей и оценить их качество. Эти модели будут служить нам в качестве baseline-решений и пригодятся сразу для нескольких задач:

   1) Во-первых, на разработку baseline-модели не должно уходить много времени (это требование исходит из оценок затрат на проект в целом - большую часть времени все же нужно потратить на основное решение), процесс должен быть простым, на подавляющем  большинстве этапов должны использоваться готовые протестированные инструменты. Все это приводит к тому, что baseline-модели - это дешевый способ сделать грубую оценку потенциально возможного качества модели, при построении которого вероятность допущения ошибок относительно невелика.

   2) Во-вторых, использование моделей разного типа при построении baseline'ов позволяет на раннем этапе сделать предположения о том, какие подходы являются наиболее перспективными и приоритизировать дальнейшие эксперименты.

   3) Наличие baseline-моделей позволяет оценить, какой прирост качества дают различные преобразования, усложнения, оптимизации и прочие активности, которые вы предпринимаете для построения финального решения.

   4) Наконец, если после построение сложного решения оценка его качества будет очень сильно отличаться от оценки качества baseline-моделей, то это будет хорошим поводом поискать в решении ошибки.

Обучите 3 разные baseline-модели на полученных наборах данных и оцените их качество. На прошлой неделе вы выбрали методику оценки качества моделей на основе кросс-валидации, а также основную и вспомогательные метрики. Оцените с их помощью получившуюся модель. Обратите внимание, что под разными моделями понимаются именно разные алгоритмы классификации. Например, 2 модели, реализующие метод k ближайших соседей с разными k, будут считаться одним baseline-решением (хотя и с разными параметрами). Напоминаем, что отложенная выборка (hold-out dataset) не должна использоваться для построения и оценки baseline-моделей!

Можно (но не обязательно) рассмотреть следующий набор алгоритмов:

    Линейная модель (например, реализация sklearn.linear_model.RidgeClassifier)
    Случайный лес (например, реализация sklearn.ensemble.RandomForestClassifier)
    Градиентный бустинг (например, реализация sklearn.ensemble.GradientBoostingClassifier)

### Week 2. Разбиение dataset на train и test.
Отбор признаков еще не осуществлен.

In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [5]:
data = pd.read_csv('orange_small_churn_data.train', sep=',')
label = pd.read_csv('orange_small_churn_labels.train', header=None)

In [6]:
full_data = data
full_data['label'] = label
full_data.to_csv('Train_full.csv')

In [11]:
count = full_data.label.value_counts()
print (f' Отток: {count[1]/full_data.label.shape[0]} \n Не отток: {count[-1]/full_data.label.shape[0]}')

 Отток: 0.0744 
 Не отток: 0.9256


In [10]:
x_train, x_test, y_train, y_test = train_test_split(data, label, test_size=0.25) 

In [12]:
train = x_train
train['label'] = y_train
test = x_test
test['label'] = y_test

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


In [13]:
train.to_csv('Train.csv', index=False)
test.to_csv('Hold-out dataset.csv', index=False)

### Week 3. Построение baseline модели

In [3]:
train = pd.read_csv('Train.csv')
train

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var8,Var9,Var10,...,Var222,Var223,Var224,Var225,Var226,Var227,Var228,Var229,Var230,label
0,,,,,,,0.0,,,,...,Pk67qqc,LM8l689qOp,,,xb3V,RAYp,F2FyR07IdsN7I,,,-1
1,,,,0.0,,,,,,,...,Kn26Kfh,LM8l689qOp,,,me1d,RAYp,F2FyR07IdsN7I,,,-1
2,,,,,,819.0,7.0,,,,...,1E9D3Yd,LM8l689qOp,,,5Acm,RAYp,F2FyR07IdsN7I,,,-1
3,,,,,,749.0,7.0,,,,...,gv2w01M,LM8l689qOp,,xG3x,Qu4f,RAYp,F2FyR07IdsN7I,am7c,,-1
4,,,,,,826.0,7.0,,,,...,Exf7DIf,LM8l689qOp,,,uWr3,RAYp,F2FyR07IdsN7I,,,-1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29995,,,,,,966.0,7.0,,,,...,3B1QowC,LM8l689qOp,,,Qu4f,RAYp,F2FyR07IdsN7I,,,-1
29996,,,,,,1176.0,14.0,,,,...,PXpQv5o,jySVZNlOJy,,kG3k,WqMG,RAYp,55YFVY9,mj86,,-1
29997,,,,,,798.0,21.0,,,,...,DenTzYj,LM8l689qOp,,ELof,Xa3G,RAYp,F2FyR07IdsN7I,mj86,,-1
29998,,,,,,707.0,7.0,,,,...,KHTqvY0,LM8l689qOp,,kG3k,FSa2,RAYp,F2FyR07IdsN7I,am7c,,1
