# Рекомендация тарифов

В данном проекте используются данные о поведении клиентов, которые уже перешли на эти тарифы. Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Данные предобработаны.

Необходимо построить модель с значением *accuracy* больше 0.75.

## Откройте и изучите файл

In [1]:
import pandas as pd
import numpy as np
import random
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.ensemble import GradientBoostingClassifier
from xgboost import XGBClassifier
import matplotlib.pyplot as plt
from sklearn.dummy import DummyClassifier

In [2]:
df = pd.read_csv('users_behavior.csv')

In [3]:
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [4]:
len(df.query('is_ultra == 0'))

2229

In [5]:
len(df.query('is_ultra == 1'))

985

In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


### Вывод

В данном случае у нас предикторы: `'calls'`, `'minutes'`, `'messages'`, `'mb_used'`, а целевой показатель в столбце `'is_ultra'`. Предсказать необходимо категориальные данные -  выбрать между двумя тарифами, поэтому перед нами задача классификации. 

В нашем распоряжении только один датасет, поэтому его необходимо разделить на несколько частей - учебную выборку, выборку валидации и тестовую выборку.

## Разбейте данные на выборки

Разделим таблицу на предикторы и целевые значения:

In [6]:
features = df.drop('is_ultra', axis=1) # предикторы
target = df['is_ultra'] # цель

Нам необходимо получить 3 выборки, будем использовать соотношение `3:1:1` - обучающая, валидации и тестовая соответственно.

Для этого выделим сперва тестовую, то есть пятую часть изначального датасета:

In [7]:

train_valid_features, test_features, train_valid_target, test_target  = train_test_split(features,
                                                                                        target,
                                                                                        test_size=.2,
                                                                                        random_state=12345
                                                                                        )

In [8]:
test_target

1415    1
916     0
1670    0
686     1
2951    0
       ..
2061    0
1510    0
2215    0
664     1
1196    0
Name: is_ultra, Length: 643, dtype: int64

In [9]:
test_features

Unnamed: 0,calls,minutes,messages,mb_used
1415,82.0,507.89,88.0,17543.37
916,50.0,375.91,35.0,12388.40
1670,83.0,540.49,41.0,9127.74
686,79.0,562.99,19.0,25508.19
2951,78.0,531.29,20.0,9217.25
...,...,...,...,...
2061,66.0,478.48,0.0,16962.58
1510,40.0,334.24,91.0,11304.14
2215,62.0,436.68,52.0,12311.24
664,117.0,739.27,124.0,22818.56


Теперь разделим большую часть ещё на 2 части - обучающую и валидации:

In [10]:
train_features, valid_features, train_target, valid_target = train_test_split(train_valid_features,
                                                                             train_valid_target,
                                                                             test_size=.25,
                                                                             random_state=12345
                                                                             )

In [11]:
train_features

Unnamed: 0,calls,minutes,messages,mb_used
2656,30.0,185.07,34.0,17166.53
823,42.0,290.69,77.0,21507.03
2566,41.0,289.83,15.0,22151.73
1451,45.0,333.49,50.0,17275.47
2953,43.0,300.39,69.0,17277.83
...,...,...,...,...
1043,106.0,796.79,23.0,42250.70
2132,18.0,117.80,0.0,10006.79
1642,87.0,583.02,1.0,11213.97
1495,63.0,408.68,63.0,24970.26


In [12]:
train_target

2656    0
823     0
2566    0
1451    0
2953    0
       ..
1043    1
2132    1
1642    0
1495    0
510     0
Name: is_ultra, Length: 1928, dtype: int64

In [13]:
valid_features.head()

Unnamed: 0,calls,minutes,messages,mb_used
2699,71.0,512.53,27.0,15772.68
242,183.0,1247.04,150.0,29186.41
2854,34.0,246.06,31.0,8448.76
1638,63.0,468.66,0.0,11794.34
1632,4.0,19.85,28.0,13107.42


In [14]:
valid_target.head()

2699    0
242     1
2854    0
1638    0
1632    0
Name: is_ultra, dtype: int64

In [15]:
print('Размер обучающей выборки:', len(train_target))
print('Размер выборки валидации:', len(valid_target))
print('Размер тестовой выборки:', len(test_target))


Размер обучающей выборки: 1928
Размер выборки валидации: 643
Размер тестовой выборки: 643


### Вывод

Мы получили 3 выборки - обущающую, валидации и тестовую.

## Исследуйте модели

В этой главе мы рассмотрим как себя показывают разные модели в нашей задаче и сравним их.

### DecisionTree

Основной гиперпараметр модели, который отвечает за размер дерева - `max_depth`, его и будем менять:

In [16]:
%%time
depths = list(range(1, 20))
max_accuracy = 0
best_depth = 0
best_tree_model = None
for depth in depths:
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(train_features, train_target)
    accuracy = model.score(valid_features, valid_target)
    print(f'max_depth = {depth}, accuracy =:', accuracy)
    if accuracy > max_accuracy:
        max_accuracy = accuracy
        best_depth = depth
        best_tree_model = model
print(f'Лучшая точность {max_accuracy} при глубине дерева depth {best_depth}')        

max_depth = 1, accuracy =: 0.7387247278382582
max_depth = 2, accuracy =: 0.7573872472783826
max_depth = 3, accuracy =: 0.7651632970451011
max_depth = 4, accuracy =: 0.7636080870917574
max_depth = 5, accuracy =: 0.7589424572317263
max_depth = 6, accuracy =: 0.7573872472783826
max_depth = 7, accuracy =: 0.7744945567651633
max_depth = 8, accuracy =: 0.7667185069984448
max_depth = 9, accuracy =: 0.7620528771384136
max_depth = 10, accuracy =: 0.7713841368584758
max_depth = 11, accuracy =: 0.7589424572317263
max_depth = 12, accuracy =: 0.7558320373250389
max_depth = 13, accuracy =: 0.749611197511664
max_depth = 14, accuracy =: 0.7573872472783826
max_depth = 15, accuracy =: 0.7527216174183515
max_depth = 16, accuracy =: 0.749611197511664
max_depth = 17, accuracy =: 0.7387247278382582
max_depth = 18, accuracy =: 0.7418351477449455
max_depth = 19, accuracy =: 0.7356143079315708
Лучшая точность 0.7744945567651633 при глубине дерева depth 7
CPU times: total: 203 ms
Wall time: 187 ms


Дополнительно воспользуемся `GridSearchCv`, для поиска наилучших параметров, будем перебирать ещё и по критерию, `cv` оставим равным 3:

In [17]:
%%time
params = {'max_depth' : depths}
model_tree_grid = GridSearchCV(DecisionTreeClassifier(random_state=12345), params, cv=3)
model_tree_grid.fit(train_valid_features, train_valid_target)


CPU times: total: 578 ms
Wall time: 570 ms


GridSearchCV(cv=3, estimator=DecisionTreeClassifier(random_state=12345),
             param_grid={'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,
                                       13, 14, 15, 16, 17, 18, 19]})

In [18]:
model_tree_grid.best_params_

{'max_depth': 8}

Лучшие параметры отличаются от тех, которые были найдены ручным перебором, это связано, по видимому с использованием кросс-валидации в `GridSearchCv`.

#### Вывод

С помощью решающего дерева в ручном переборе удалось получить `accuracy` на валидационной выборке - 0.77

Так же была получена модель с помощью `GridSearchCv`, с помощью которой осуществлялся перебор тех же параметров, но с использованием кросс-валидации, при это заняло в 3 раза больше времени, ручной поиск без кросс-валидации, логично, если учесть, что параметр `cv=3`, то есть то, что считал я, повторилось 3 раза, если я всё правильно понял.


### RandomForest

Будем перебирать следующие гиперпараметры модели:
* Количество деревьев;
* максимальная глубина дерева.

In [19]:
%%time
ests = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
depths = list(range(1, 10))

accuraces_forest = []
best_accuracy_forest = 0
best_depth = 0
best_est = 0
best_forest_model = None

for est in ests:
    for depth in depths:
        model_forest = RandomForestClassifier(random_state=12345,
                                              n_estimators=est,
                                              max_depth=depth,
                                              criterion='gini')
        model_forest.fit(train_features, train_target)
        accuracy = model_forest.score(valid_features, valid_target)
        accuraces_forest.append(accuracy)
        if accuracy > best_accuracy_forest:
            best_accuracy_forest = accuracy
            best_depth = depth
            best_est = est
            best_forest_model = model_forest
            
print(f'Лучшая точность {best_accuracy_forest} при глубине дерева depth {best_depth} и количестве деревьев {best_est}')            
        

Лучшая точность 0.7947122861586314 при глубине дерева depth 9 и количестве деревьев 10
CPU times: total: 13.5 s
Wall time: 13.5 s


In [20]:
%%time
params = {'max_depth' : depths, 'n_estimators' : ests}
model_forest_grid = GridSearchCV(RandomForestClassifier(random_state=12345), params, cv=3)
# берём эти выборки, так как CV подразумевает разбиение внутри себя
model_forest_grid.fit(train_valid_features, train_valid_target)
model_forest_grid.best_params_

CPU times: total: 40.7 s
Wall time: 41.6 s


{'max_depth': 8, 'n_estimators': 40}

Результаты поиска гиперпараметров снова отличаются от ручного поиска.

Попробуем с помощью `RandomizedSearchCV`:

In [21]:
%%time
random_search_forest = RandomizedSearchCV(RandomForestClassifier(random_state=12345),
                                   param_distributions=params,
                                   n_iter=10,
                                   cv=3,
                                   )

random_search_forest.fit(train_valid_features, train_valid_target)

random_search_forest.best_params_


CPU times: total: 4.06 s
Wall time: 4.26 s


{'n_estimators': 10, 'max_depth': 8}

Найденные параметры похожи на `GridSearchCV`, но время выполнения намного меньше.

#### Вывод

С помощью модели "Случайный лес" при ручном переборе гиперпараметров - глубины дерева и количества деревьев в лесу, удалось получить `accuracy` на валидацонной выборке `> 0.79`.

Также был выполнен подбор модели с помощью `GridSearchCV`, при этом время выполнения в 3 раза выше, что связано, по всей видимости, с кросс-валидацией. Модель будет протестирована на тестовой выборке.

Также был опробован поиск модели с помощью `RandomizedSearchCV`. Гиперпараметры модели похожи на `GridSearchCV`, но время поиска существенно меньше, в 9 раз в данном случае, с параметром `n_inter=10`. Модель будет протестирована на тестовой выборке.

### Логистическая регрессия

In [22]:
%%time
log_model = LogisticRegression(random_state=12345)
log_model.fit(train_features, train_target)
print('Accuracy =', log_model.score(valid_features, valid_target))

Accuracy = 0.7262830482115086
CPU times: total: 46.9 ms
Wall time: 47.1 ms


#### Вывод

Логистическая регресси показала наихудший результат среди всех на выборке валидации, `accuracy` всего 0.73.

### Дополнительные модели

#### GB

Попробуем модель сделать модель с помощью `GradientBoostingClassifier` с случайными гиперпараметрами:

In [23]:
%%time
model_boosting = GradientBoostingClassifier(random_state=12345,
                                           n_estimators=500,
                                           max_depth=2,
                                           learning_rate=.1)

model_boosting.fit(train_features, train_target)

print('Accuracy =', model_boosting.score(valid_features, valid_target))



Accuracy = 0.7978227060653188
CPU times: total: 875 ms
Wall time: 921 ms


In [24]:
%%time
grid_search_boosting = GridSearchCV(GradientBoostingClassifier(random_state=12345), params, cv=3)

grid_search_boosting.fit(train_valid_features, train_valid_target)
grid_search_boosting.best_params_

CPU times: total: 1min 14s
Wall time: 1min 17s


{'max_depth': 4, 'n_estimators': 70}

In [25]:
%%time
random_search_boosting = RandomizedSearchCV(GradientBoostingClassifier(random_state=12345),
                                   param_distributions=params,
                                   n_iter=10,
                                   cv=3,
                                   )

random_search_boosting.fit(train_valid_features, train_valid_target)

random_search_boosting.best_params_

CPU times: total: 8.28 s
Wall time: 8.57 s


{'n_estimators': 70, 'max_depth': 4}

Время подбора параметров с помощью `GridSearchCV` и `RandomSearchCV` выше чем подбор у `Random Forest`. 

#### XGboost

Попробуем `XGBClassifier` со случайными гиперпараметрами:

In [26]:
%%time
model_xboost = XGBClassifier(random_state=12345,
                            n_estimators=1000,
                            max_depth=2,
                            learning_rate=0.1,
                            use_label_encoder=False,
                             eval_metric='error',
                            )
model_xboost.fit(train_features, train_target)

print(model_xboost.score(valid_features, valid_target))

0.7931570762052877
CPU times: total: 7.62 s
Wall time: 860 ms


Подберем модель с помощью `GridSearchCV`:

In [27]:
%%time
grid_search_xboosting = GridSearchCV(XGBClassifier(random_state=12345,
                                                  use_label_encoder=False,
                                             eval_metric='error'),
                                                     params,cv=3)

grid_search_xboosting.fit(train_valid_features, train_valid_target)
grid_search_xboosting.best_params_

CPU times: total: 4min 13s
Wall time: 26.1 s


{'max_depth': 7, 'n_estimators': 10}

Подберём модель с помощью `RandomizedSearchCV`:

In [28]:
%%time
random_search_xboosting = RandomizedSearchCV(XGBClassifier(random_state=12345,
                                                          use_label_encoder=False,
                                                          eval_metric='error'),
                                   param_distributions=params,
                                   n_iter=10,
                                   cv=3,
                                   )

random_search_xboosting.fit(train_valid_features, train_valid_target)
random_search_xboosting.best_params_

CPU times: total: 31.6 s
Wall time: 3.74 s


{'n_estimators': 60, 'max_depth': 2}

### Вывод

* С помощью решающего дерева в ручном переборе удалось получить `accuracy` на валидационной выборке - 0.77

* Так же была получена модель с помощью `GridSearchCv`, с помощью которой осуществлялся перебор тех же параметров, но с использованием кросс-валидации

* С помощью модели "Случайный лес" при ручном переборе гиперпараметров - глубины дерева и количества деревьев в лесу, удалось получить `accuracy` на валидацонной выборке `> 0.79`.

* Также был выполнен подбор модели с помощью `GridSearchCV`, при этом время выполнения в 3 раза выше, что связано, по всей видимости, с кросс-валидацией. Модель будет протестирована на тестовой выборке.

* Также был опробован поиск модели с помощью `RandomizedSearchCV`. Гиперпараметры модели похожи на `GridSearchCV`, но время поиска существенно меньше, в 9 раз в данном случае, с параметром `n_inter=10`. Модель будет протестирована на тестовой выборке.
* Логистическая регрессия показала наихудший результат среди всех на выборке валидации, `accuracy` всего 0.73.
* Были исследованы дополнительные модели:
    * GradientBoosting - подобраны 2 модели с помощью методов GridSearchCV и RandomSearchCV, при этом следует отметить, что RandomSearchCV работает намного быстрее.
    * Xgboost - подобраны 2 модели  с помощью методов GridSearchCV и RandomSearchCV, RandomSearchCV намного быстрее, а также поиск параметров для XGBoost значительно быстрее, чем GradientBoosting.


## Проверьте модель на тестовой выборке

В этой главе мы проверим на тестовой выборке лучшие из моделей, найденные вручную и модели найденные с помощью методов `GridSearchCV` и `RandomizedSearchCV`.

### Решающее дерево

Лучшее дерево, найденное вручную:

In [29]:
print('Accuracy =', best_tree_model.score(test_features, test_target))

Accuracy = 0.7884914463452566


`GridSearchCV` дерево:

In [30]:
print('Accuracy =', model_tree_grid.score(test_features, test_target))

Accuracy = 0.7729393468118196


Полученные `accuracy` удовлетворяет требованиям и равно. Лучшее - `0.79`.

### RandomForest

Модель найденная вручную:

In [31]:
print('Accuracy =', best_forest_model.score(test_features, test_target))

Accuracy = 0.7947122861586314


Модель найденная с помощью `GridSearchCV`:

In [32]:
print('Accuracy =', model_forest_grid.score(test_features, test_target))

Accuracy = 0.8009331259720062


Модель найденная с помощью `RandomSearchCV`:

In [33]:
print('Accuracy =', random_search_forest.score(test_features, test_target))

Accuracy = 0.7931570762052877


Полученные `accuracy` удовлетворяет требованиям и равно. Лучшее - `0.8`.

### Логистическая регрессия

In [34]:
print('Accuracy =', log_model.score(test_features, test_target))

Accuracy = 0.7589424572317263


Удовлетворяет требованиям.

### Дополнительные модели

In [35]:
print('Accuracy GBM grid =', grid_search_boosting.score(test_features, test_target))
print('Accuracy GBM random =', random_search_boosting.score(test_features, test_target))
print('Accuracy XGB grid =', grid_search_xboosting.score(test_features, test_target))
print('Accuracy XGB random =', random_search_xboosting.score(test_features, test_target))

Accuracy GBM grid = 0.7947122861586314
Accuracy GBM random = 0.7947122861586314
Accuracy XGB grid = 0.7916018662519441
Accuracy XGB random = 0.807153965785381


### Вывод

Наилучший показатель `accuracy = 0.8` на тестовой выборке у модели `RandomForest` (`'random_search_forest'`) подобранной с помощью `RandomSearchCV`. Худший результат показала логистическая регрессия `accuracy = 0.76`. Остальные модели дают `accuracy` хуже всего лишь на `1-2%`.

## Проверка моделей на адекватность

Для того, чтобы проверить на адекватность, будем сравнивать их со случайной моделью, а также со стационарной моделью, которая всегда будет выдавать `0`, так как `0` в наших данных больше:

### Стационарная модель

In [36]:
dummy_model = DummyClassifier(strategy='most_frequent')
dummy_model.fit(test_features, test_target)
dummy_model.predict(test_features)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

In [37]:
dummy_model.score(test_features, test_target)

0.6951788491446346

#### Вывод

Наша лучшая модель показывает себя лучше, чем стационарный предсказатель `0.8` против `0.7`.

## Вывод

* В данном случае у нас предикторы: `'calls'`, `'minutes'`, `'messages'`, `'mb_used'`, а целевой показатель в столбце `'is_ultra'`. Предсказать необходимо категориальные данные -  выбрать между двумя тарифами, поэтому перед нами задача классификации. 

* В нашем распоряжении только один датасет, поэтому его необходимо разделить на несколько частей - учебную выборку, выборку валидации и тестовую выборку.
* С помощью решающего дерева в ручном переборе удалось получить `accuracy` на валидационной выборке - 0.77

    * Так же была получена модель с помощью `GridSearchCv`, с помощью которой осуществлялся перебор тех же параметров, но с использованием кросс-валидации

* С помощью модели "Случайный лес" при ручном переборе гиперпараметров - глубины дерева и количества деревьев в лесу, удалось получить `accuracy` на валидацонной выборке `> 0.79`.

    * Также был выполнен подбор модели с помощью `GridSearchCV`, при этом время выполнения в 3 раза выше, что связано, по всей видимости, с кросс-валидацией.

    * Также был опробован поиск модели с помощью `RandomizedSearchCV`. Гиперпараметры модели похожи на `GridSearchCV`, но время поиска существенно меньше, в 9 раз в данном случае, с параметром `n_inter=10`.
* Логистическая регрессия показала наихудший результат среди всех на выборке валидации, `accuracy` всего 0.73.
* Были исследованы дополнительные модели:
    * GradientBoosting - подобраны 2 модели с помощью методов GridSearchCV и RandomSearchCV, при этом следует отметить, что RandomSearchCV работает намного быстрее.
    * Xgboost - подобраны 2 модели  с помощью методов GridSearchCV и RandomSearchCV, RandomSearchCV намного быстрее, а также поиск параметров для XGBoost значительно быстрее, чем GradientBoosting.
* Наилучший показатель `accuracy = 0.8` на тестовой выборке у модели `RandomForest` (`'random_search_forest'`) подобранной с помощью `RandomSearchCV`. Худший результат показала логистическая регрессия `accuracy = 0.76`. Остальные модели дают `accuracy` хуже всего лишь на `1-2%`. 
* Наша модель показывает себя значительно лучше, чем "случайный предсказатель" `0.8` против `0.5`.
* Наша лучшая модель показывает себя лучше, чем стационарный предсказатель `0.8` против `0.7`.