<a href="https://colab.research.google.com/github/OsyaginVictor/Recommendation-of-tariffs/blob/main/Recommendation_of_tariffs.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## Откройте и изучите файл

In [None]:
import pandas as pd
import joblib
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

In [None]:
users_behavior = pd.read_csv('/datasets/users_behavior.csv')

In [None]:
users_behavior.head(5)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


## Разбейте данные на выборки

Для корректной проверки будущей модели нам необходимо разбить данные на 3 выборки - обучающую, валидационную и тестовую.

Сначала отделим от датасета 60% наблюдений - это будет обучающая выборка. Оставщиеся данные поделим пополам - на тестовую и валидационную выборки. Таким образом мы разобьем данные в соотношении 60/20/20.


In [None]:
users_behavior_train, users_behavior_rest = train_test_split(users_behavior, test_size=0.4, random_state=666)

In [None]:
users_behavior_test, users_behavior_valid = train_test_split(users_behavior_rest, test_size=0.5, random_state=666)

In [None]:
users_behavior_train.shape
users_behavior_test.shape
users_behavior_valid.shape

(643, 5)

Вывод: Разделили данные на три выборки в соотношении 60/20/20 соответственно:

users_behavior_train - обучающая

users_behavior_test - тестовая

users_behavior_valid - валидационная



## Исследуйте модели

Подготовим данные и обучим модель, а затем исследуем качество разных моделей, меняя гиперпараметры.

In [None]:
#подготовим признаки и целевой признак обучающей и валидационной выборок
features_train = users_behavior_train.drop(['is_ultra'], axis=1)
target_train = users_behavior_train['is_ultra']

In [None]:
features_valid = users_behavior_valid.drop(['is_ultra'], axis=1)
target_valid = users_behavior_valid['is_ultra']

In [None]:
#исследуем работу модели с различными значениями гиперпараметра max_depth
for depth in range(3, 7, 1):
    model1 = DecisionTreeClassifier(random_state=666, max_depth=depth)
    model1.fit(features_train, target_train)
    predictions_train = model1.predict(features_train)
    predictions_valid = model1.predict(features_valid)
    print("Accuracy при max_depth =", depth)
    print("Обучающая выборка:", accuracy_score(target_train, predictions_train))
    print("Валидационная выборка:", accuracy_score(target_valid, predictions_valid))
    print()

Accuracy при max_depth = 3
Обучающая выборка: 0.8018672199170125
Валидационная выборка: 0.8040435458786936

Accuracy при max_depth = 4
Обучающая выборка: 0.8044605809128631
Валидационная выборка: 0.8009331259720062

Accuracy при max_depth = 5
Обучающая выборка: 0.8220954356846473
Валидационная выборка: 0.80248833592535

Accuracy при max_depth = 6
Обучающая выборка: 0.8298755186721992
Валидационная выборка: 0.80248833592535



In [None]:
model2 = LogisticRegression(random_state=666, solver='lbfgs')

In [None]:
model2.fit(features_train, target_train)

LogisticRegression(random_state=666)

In [None]:
predictions_train2 = model2.predict(features_train)
predictions_valid2 = model2.predict(features_valid)

In [None]:
print("Обучающая выборка:", accuracy_score(target_train, predictions_train2))
print("Валидационная выборка:", accuracy_score(target_valid, predictions_valid2))

Обучающая выборка: 0.754149377593361
Валидационная выборка: 0.7511664074650077


In [None]:
#исследуем работу модели с различными значениями гиперпараметра n_estimators
for estim in range(2, 6, 1):
    model3 = RandomForestClassifier(random_state=666, n_estimators=estim)
    model3.fit(features_train, target_train)
    predictions_train3 = model3.predict(features_train)
    predictions_valid3 = model3.predict(features_valid)
    print("Accuracy при n_estimators =", estim)
    print("Обучающая выборка:", accuracy_score(target_train, predictions_train3))
    print("Валидационная выборка:", accuracy_score(target_valid, predictions_valid3))
    print()

Accuracy при n_estimators = 2
Обучающая выборка: 0.9056016597510373
Валидационная выборка: 0.7807153965785381

Accuracy при n_estimators = 3
Обучающая выборка: 0.9517634854771784
Валидационная выборка: 0.7667185069984448

Accuracy при n_estimators = 4
Обучающая выборка: 0.9481327800829875
Валидационная выборка: 0.7978227060653188

Accuracy при n_estimators = 5
Обучающая выборка: 0.9714730290456431
Валидационная выборка: 0.7931570762052877



Вывод:

модель случайного леса отработала лучше двух других моделей (хотя и они прошли порог точности в 0.75),
при увеличении значения max_depth у модели решающего дерева успешность работы модели возрастает, поэтому будем использовать значение 6,
в случае с RandomForestClassifier остановимся на значении n_estimators=4, которое дало наилучший результат на валидационной выборке.


## Проверим модели на тестовой выборке

Объедим обучающую и валидационную выборки, а затем снова обучим модель перед тестовой проверкой.

In [None]:
features_merged = (users_behavior_train
                   .drop(['is_ultra'], axis=1)
                   .append([users_behavior_valid
                            .drop(['is_ultra'], axis=1)])
                  )
target_merged = users_behavior_train['is_ultra'].append([users_behavior_valid['is_ultra']])

In [None]:
features_test = users_behavior_test.drop(['is_ultra'], axis=1)
target_test = users_behavior_test['is_ultra']

In [None]:
#точность при обучении на объединенной выборке
model1 = DecisionTreeClassifier(random_state=666, max_depth=6)
model1.fit(features_merged, target_merged)
model1.predict(features_test)
model1.score(features_test, target_test)

0.7791601866251944

In [None]:
#точность при обучении только на обучающей выборке
model1 = DecisionTreeClassifier(random_state=666, max_depth=6)
model1.fit(features_train, target_train)
model1.predict(features_test)
model1.score(features_test, target_test)

0.7900466562986003

In [None]:
#точность при обучении на объединенной выборке
model3 = RandomForestClassifier(random_state=666, n_estimators=4)
model3.fit(features_merged, target_merged)
model3.predict(features_test)
model3.score(features_test, target_test)

0.7589424572317263

In [None]:
#точность при обучении только на обучающей выборке
model3 = RandomForestClassifier(random_state=666, n_estimators=4)
model3.fit(features_train, target_train)
model3.predict(features_test)
model3.score(features_test, target_test)

0.7713841368584758

вывод:

на тестовой выборке модель DecisionTreeClassifier сработала лучше, чем RandomForestClassifier,
точность моделей падает примерно на 0.02 при обучении на объединенной выборке,
значенение точности модели DecisionTreeClassifier - 0.79 (при обучении на трейне). Получается, что модель ошибается примерно в двух случаях из десяти.

## Проверьте модели на вменяемость

Проверим модель на адекватность двумя способами.

1

Для проверки адекватности модели сравним точность её предсказания с точностью константы:

In [None]:
CONST = (users_behavior['is_ultra'].value_counts() / users_behavior.shape[0]).loc[0]
if CONST < 0.79:
    print('Модель адекватна')

Модель адекватна


2

По другой версии, чтобы оценить адекватность модели в задачах классификации, нужно сравнить её со случайной.

У нас есть два значения целевого признака is_ultra - 1 и 0. Если бы модель предсказывала одно из двух чисел случайным образом, значение ее точности было бы 0.5. С моделью DecisionTreeClassifier мы добились точности 0.79, что гораздо выше.

Следовательно, модель прошла проверку на адекватность.

- [x] Jupyter Notebook открыт
- [ ] Весь код исполняется без ошибок
- [ ] Ячейки с кодом расположены в порядке исполнения
- [ ] Выполнено задание 1: данные загружены и изучены
- [ ] Выполнено задание 2: данные разбиты на три выборки
- [ ] Выполнено задание 3: проведено исследование моделей
    - [ ] Рассмотрено больше одной модели
    - [ ] Рассмотрено хотя бы 3 значения гипепараметров для какой-нибудь модели
    - [ ] Написаны выводы по результатам исследования
- [ ] Выполнено задание 3: Проведено тестирование
- [ ] Удалось достичь accuracy не меньше 0.75
