# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## 1. Общая информация


In [226]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LogisticRegression

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import math
users_df = pd.read_csv('users_behavior.csv')

In [227]:
users_df

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.90,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
...,...,...,...,...,...
3209,122.0,910.98,20.0,35124.90,1
3210,25.0,190.36,0.0,3275.61,0
3211,97.0,634.44,70.0,13974.06,0
3212,64.0,462.32,90.0,31239.78,0


## 2. Разбить данные на выборки

In [228]:
#разобьем выборку на три части: обучающую (60% от первоначального), валилидационную и тестовую (по 20% от первоначального)
users_df_train, users_df_interim = train_test_split(users_df, test_size=0.40, random_state=12345)
users_df_valid, users_df_test = train_test_split(users_df_interim, test_size=0.50, random_state=12345)
#выделим признаки для обучающей выборки и целевые классы
features_train = users_df_train.drop(['is_ultra',], axis=1)
target_train = users_df_train['is_ultra']
#выделим признаки для валидационной выборки и целевые классы
features_valid = users_df_valid.drop(['is_ultra'], axis=1)
target_valid = users_df_valid['is_ultra']

users_df_test_valid = users_df_test['is_ultra']
users_df_test = users_df_test.drop(['is_ultra'], axis=1)


## 3. Исследовать модели

In [229]:
#проведем классификацию по модели DecisionTree
print('Decision Tree')
for depth in range(1, 50, 5):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth, criterion='entropy', min_samples_split=5, min_samples_leaf=5)
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)
    print("max_depth =", depth, ": ", end='')
    print(accuracy_score(target_valid, predictions_valid))

Decision Tree
max_depth = 1 : 0.7542768273716952
max_depth = 6 : 0.7900466562986003
max_depth = 11 : 0.7527216174183515
max_depth = 16 : 0.7325038880248833
max_depth = 21 : 0.7340590979782271
max_depth = 26 : 0.7340590979782271
max_depth = 31 : 0.7340590979782271
max_depth = 36 : 0.7340590979782271
max_depth = 41 : 0.7340590979782271
max_depth = 46 : 0.7340590979782271


In [230]:
#проведем классификацию по модели RandomForest
print('Random Forest')
for estim in range(1, 151, 5):
    model_forest = RandomForestClassifier(random_state=12345, max_depth=6, n_estimators=estim, criterion='entropy')
    model_forest.fit(features_train, target_train)
    predictions_valid = model_forest.predict(features_valid)
    print("n_estimators =", estim, ": ", end='')
    print(accuracy_score(target_valid, predictions_valid))

Random Forest
n_estimators = 1 : 0.7853810264385692
n_estimators = 6 : 0.7869362363919129
n_estimators = 11 : 0.7978227060653188
n_estimators = 16 : 0.7978227060653188
n_estimators = 21 : 0.807153965785381
n_estimators = 26 : 0.8009331259720062
n_estimators = 31 : 0.80248833592535
n_estimators = 36 : 0.8055987558320373
n_estimators = 41 : 0.80248833592535
n_estimators = 46 : 0.8040435458786936
n_estimators = 51 : 0.80248833592535
n_estimators = 56 : 0.7993779160186625
n_estimators = 61 : 0.8009331259720062
n_estimators = 66 : 0.80248833592535
n_estimators = 71 : 0.80248833592535
n_estimators = 76 : 0.8009331259720062
n_estimators = 81 : 0.80248833592535
n_estimators = 86 : 0.8009331259720062
n_estimators = 91 : 0.8009331259720062
n_estimators = 96 : 0.80248833592535
n_estimators = 101 : 0.80248833592535
n_estimators = 106 : 0.80248833592535
n_estimators = 111 : 0.80248833592535
n_estimators = 116 : 0.80248833592535
n_estimators = 121 : 0.80248833592535
n_estimators = 126 : 0.8024883359

In [231]:
#проведем классификацию по модели LogisticRegression
print('Logistic Regression')
model_log = LogisticRegression(random_state=12345)
model_log.fit(features_train, target_train)
predictions_valid_log = model.predict(features_valid)
print(accuracy_score(target_valid, predictions_valid_log))

Logistic Regression
0.7340590979782271




### Вывод

- Наилучший результат покала модель randomforest с max_depth = 6 / n_estimators=41.
- Проверим на тестовой выборке.

## 4. Проверить модель на тестовой выборке

In [235]:

model_forest = RandomForestClassifier(random_state=12345, max_depth=6, n_estimators=41)
model_forest.fit(features_train, target_train)
predictions_valid = model_forest.predict(users_df_test)
print(accuracy_score(users_df_test_valid, predictions_valid))

0.7947122861586314


#### Вывод
- Спасибо! Замечания исправлены, напутал со сплитом тестовой выборки.

## 5. (бонус) Проверить модели на адекватность

In [233]:

print(
'Точность константной нулевой модели равна',
accuracy_score(target_valid, np.zeros(target_valid.shape[0]))
)

Точность константной нулевой модели равна 0.7060653188180405


#### Выводы
Для проверки на адекватность вставил target валидационной выборки. Ее точность 70%, но все равно хуже чем получился с лесом (79%).