# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## 1. Откройте и изучите файл

In [1]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [2]:
df = pd.read_csv('/datasets/users_behavior.csv')
df

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.90,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
...,...,...,...,...,...
3209,122.0,910.98,20.0,35124.90,1
3210,25.0,190.36,0.0,3275.61,0
3211,97.0,634.44,70.0,13974.06,0
3212,64.0,462.32,90.0,31239.78,0


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
calls       3214 non-null float64
minutes     3214 non-null float64
messages    3214 non-null float64
mb_used     3214 non-null float64
is_ultra    3214 non-null int64
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


## Вывод

Датасет содержит информацию о 3214 пользователях, столбец is_ultra содержит информацию о пользователе - 0 - абонент "Смарт", 1 - "Ультра" 

## 2. Разбейте данные на выборки

Используя возможности библиотеки numpy, разделим датасет на 3 выборки в соотношении 3:1:1

In [3]:
train, valid, test = np.split(df.sample(frac=1), [int(.6*len(df)), int(.8*len(df))])
train

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
2230,76.0,564.01,15.0,22740.62,0
1984,43.0,311.88,65.0,13085.46,0
3015,42.0,285.25,34.0,11348.42,0
2473,17.0,82.78,17.0,5577.55,0
2734,42.0,365.00,34.0,11265.49,0
...,...,...,...,...,...
1574,83.0,561.05,0.0,16539.03,0
3084,34.0,244.71,7.0,10529.97,0
570,30.0,192.86,0.0,22310.46,0
1836,47.0,369.40,11.0,10523.88,0


In [4]:
train.shape, valid.shape, test.shape

((1928, 5), (643, 5), (643, 5))

## Вывод

Датасет был разбит на 3 выборки

## 3. Исследуйте модели

**При Decision Tree Classifier**

Выделим целевой признак (target_train) и остальные  (features_train) для тренировочной и валидационной выборки

In [5]:
features_train = train.drop('is_ultra', axis=1)
target_train = train['is_ultra']

features_valid = valid.drop('is_ultra', axis=1)
target_valid = valid['is_ultra']


In [6]:
for max_depth in range(1, 50, 3):
    model_tree = DecisionTreeClassifier(random_state=12345, max_depth=max_depth)
    model_tree.fit(features_train, target_train)
    predict_tree = model_tree.predict(features_valid)
    print('max_depth =', max_depth, 'accuracy =', np.round(accuracy_score(predict_tree, target_valid), 2))

max_depth = 1 accuracy = 0.72
max_depth = 4 accuracy = 0.77
max_depth = 7 accuracy = 0.75
max_depth = 10 accuracy = 0.77
max_depth = 13 accuracy = 0.74
max_depth = 16 accuracy = 0.72
max_depth = 19 accuracy = 0.72
max_depth = 22 accuracy = 0.7
max_depth = 25 accuracy = 0.71
max_depth = 28 accuracy = 0.71
max_depth = 31 accuracy = 0.71
max_depth = 34 accuracy = 0.71
max_depth = 37 accuracy = 0.71
max_depth = 40 accuracy = 0.71
max_depth = 43 accuracy = 0.71
max_depth = 46 accuracy = 0.71
max_depth = 49 accuracy = 0.71


С увеличением max_depth значение accuracy падает. Заметим, что наибольшее accuracy получается при max_depth = 7

**При RandomForestClassifier**

In [7]:
for n_estimators in range(1, 152, 10):
    model_forest = RandomForestClassifier(n_estimators=n_estimators, max_depth=10)
    model_forest.fit(features_train, target_train)
    predict_forest = model_forest.predict(features_valid)
    print('n_estimators =', n_estimators, 'accuracy =', np.round(accuracy_score(predict_forest, target_valid), 2))

n_estimators = 1 accuracy = 0.75
n_estimators = 11 accuracy = 0.8
n_estimators = 21 accuracy = 0.81
n_estimators = 31 accuracy = 0.8
n_estimators = 41 accuracy = 0.81
n_estimators = 51 accuracy = 0.81
n_estimators = 61 accuracy = 0.81
n_estimators = 71 accuracy = 0.81
n_estimators = 81 accuracy = 0.8
n_estimators = 91 accuracy = 0.8
n_estimators = 101 accuracy = 0.81
n_estimators = 111 accuracy = 0.81
n_estimators = 121 accuracy = 0.81
n_estimators = 131 accuracy = 0.81
n_estimators = 141 accuracy = 0.8
n_estimators = 151 accuracy = 0.8


Сравнивая с DecisionTreeClassifier, новая модель работает заметно дольше, но она же и точнее. Используя новую модель, получаем значение accuracy около 0.81

Скажем, что при n_estimators = 21 модель удовлетворяет нас. Она показывает удовлетворяющую скорость и хороший результат.

**При LogisticRegression**

In [8]:
model_logistic = LogisticRegression()
model_logistic.fit(features_train, target_train)
predict_logistic = model_logistic.predict(features_valid)
print('accuracy = ', np.round(accuracy_score(predict_logistic, target_valid), 2))

accuracy =  0.67




LogisticRegression на 2-м месте по метрике accuracy

## Вывод

В результате получили следующий рейтинг по метрике accuracy: 
1. RandomTreeRegression
2. LogisticRegression
3. DecisionTreeRegression

RandomTreeRegression работает долго, но по условию задачи нет какого-либо ограничения по времени, поэтому воспользоуемся данной моделью для проверки на тестовой выборке.

## 4. Проверьте модель на тестовой выборке

Разобьем выборку test на целевой признак и остальные

In [9]:
test_features = test.drop('is_ultra', axis=1)
test_target = test['is_ultra']

Обучим такую же модель (с n_estimators=21), но уже вне цикла

In [10]:
model_forest = RandomForestClassifier(n_estimators=21, max_depth=10)
model_forest.fit(features_train, target_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=10, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=21,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

Узнаем значение accuracy на тестовой выборке

In [11]:
predict_forest_test = model_forest.predict(test_features)
accuracy_score(predict_forest_test, test_target)

0.8055987558320373

## Вывод

Полученное значение больше 0.75

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x] Jupyter Notebook открыт
- [x] Весь код исполняется без ошибок
- [x] Ячейки с кодом расположены в порядке исполнения
- [x] Выполнено задание 1: данные загружены и изучены
- [x] Выполнено задание 2: данные разбиты на три выборки
- [x] Выполнено задание 3: проведено исследование моделей
    - [x] Рассмотрено больше одной модели
    - [x] Рассмотрено хотя бы 3 значения гипепараметров для какой-нибудь модели
    - [x] Написаны выводы по результатам исследования
- [x] Выполнено задание 3: Проведено тестирование
- [x] Удалось достичь accuracy не меньше 0.75
