# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

### Ход исследования

В рамках данного исследования мы собираемся построить модель для задачи классификации, которая будет подбирать подходящий тариф из двух. При этом точность предсказания не должна быть ниже 0,75. 
1. Знакомство с файлом (предобработка уже произведена)
2. Разбиение на обучающую, валидационную и тестовую выборку
3. Исследование разных моделей для выбора наилучшей
4. Проверка на тестовой выборке
5. Проверка моделей на адекватность

## Откройте и изучите файл

Подключим необходимые библиотеки, ознакомимся с датасетом и посмотрим инфромацию по нему.

In [1]:
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import mean_squared_error
from sklearn.dummy import DummyClassifier

In [2]:
try:
    df = pd.read_csv('/datasets/users_behavior.csv')
except:
    raise Exception('Something is wrong. Check the file')

In [3]:
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


У нас имеется информация о 3214 клиентах и их активности, включающей в себя:
- сalls — количество звонков,
- minutes — суммарная длительность звонков в минутах,
- messages — количество sms-сообщений,
- mb_used — израсходованный интернет-трафик в Мб,
- is_ultra — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0).

Признаками здесь будут *сalls, minutes, messages, mb_used*, а целевым признаком — *is_ultra*, т.е. нам по признакам активности нужно будет в будущем предсказывать, какой тариф скорее всего заинтересует клиента.

In [5]:
df['is_ultra'].value_counts()

0    2229
1     985
Name: is_ultra, dtype: int64

В текущем датасете тарифом «Смарт» пользуется примерно 70% клиентов. Эта информация может помочь при оценке адекватности моделей.

## Разбейте данные на выборки

Разбиваем датасет на три выборки: тренировочную, валидационную и тестовую. В отношении 60:20:20.

In [6]:
# разделим признаки
features = df.drop(['is_ultra'], axis=1)
target = df['is_ultra']

In [7]:
# разделим датасет на три выборки
features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.4, random_state=1, stratify=target
)

features_valid, features_test, target_valid, target_test = train_test_split(
    features_test, target_test, test_size=0.5, random_state=1, stratify=target_test
)

In [8]:
# проверим верность пропорций
print(features_train.shape)
print(target_train.shape)

print(features_valid.shape)
print(target_valid.shape)

print(features_test.shape)
print(target_test.shape)

(1928, 4)
(1928,)
(643, 4)
(643,)
(643, 4)
(643,)


Переходим к исследованию моделей.

## Исследуйте модели

В рамках данного исследования проверим обучение на разных моделях, чтобы выявить самую лучшую. Будем использовать решающее дерево, случайный лес и логистическую регрессию. Будем решать задачу классификации для категориального целевого признака. Для всех моделей возьмем один random_state, взятый случайно и равный 999.

In [9]:
random_state = 999

### Решающее дерево

In [10]:
# лучшая модель
best_model_des_tree = None 
# лучшая точность
best_result_des_tree = 0
# лучшая глубина
best_max_depth_des_tree = None

# попробуем найти для этой модели наилучшую глубину не глубже 10
for depth in range(1, 11):
    model_des_tree = DecisionTreeClassifier(random_state=random_state, max_depth=depth)
    model_des_tree.fit(features_train, target_train)
    result_des_tree = model_des_tree.score(features_valid, target_valid)
    if result_des_tree > best_result_des_tree:
        best_model_des_tree = model_des_tree
        best_result_des_tree = result_des_tree
        best_max_depth_des_tree = depth
        
print("Accuracy лучшей модели:", best_result_des_tree)
print('Лучшая глубина:', best_max_depth_des_tree)

Accuracy лучшей модели: 0.7962674961119751
Лучшая глубина: 6


### Случайный лес

In [11]:
# лучшая модель
best_model_random_tree = None 
# лучшая точность
best_result_random_tree = 0
# лучшее кол-во деревьев
best_est_random_tree = None

# попробуем найти для этой модели наилучшее кол-во деревьев не больше 100
for est in range(1, 11):
    model_random_tree = RandomForestClassifier(random_state=random_state, n_estimators=est)
    model_random_tree.fit(features_train, target_train)
    result_random_tree = model_random_tree.score(features_valid, target_valid)
    if result_random_tree > best_result_random_tree:
        best_model_random_tree = model_random_tree
        best_result_random_tree = result_random_tree
        best_est_random_tree = est
        
print("Accuracy лучшей модели:", best_result_random_tree)
print('Лучшее кол-во деревьев:', best_est_random_tree)

Accuracy лучшей модели: 0.7978227060653188
Лучшее кол-во деревьев: 10


### Логистическая регрессия

In [12]:
# лучшая модель
best_model_log_reg = None 
# лучшая точность
best_result_log_reg = 0
# лучшее кол-во итераций
best_iter_log_reg = None

# попробуем найти для этой модели наилучшее кол-во итераций
for iter_count in range(100, 501, 100):
    model_log_reg = LogisticRegression(random_state=random_state, solver='lbfgs', max_iter=iter_count)
    model_log_reg.fit(features_train, target_train)
    result_log_reg = model_log_reg.score(features_valid, target_valid)
    if result_log_reg > best_result_log_reg:
        best_model_log_reg = model_log_reg
        best_result_log_reg = result_log_reg
        best_iter_log_reg = iter_count
        
print("Accuracy лучшей модели:", best_result_log_reg)
print('Лучшее кол-во итераций:', best_iter_log_reg)

Accuracy лучшей модели: 0.7527216174183515
Лучшее кол-во итераций: 100


Получилось следующим образом, что решая задачу при помощи случайного леса с 10 деревьями можно получить самую лучшую точность. Но теперь это надо проверить на тестовых данных.

## Проверьте модель на тестовой выборке

Используем сохраненную модель с нужными гиперпараметрами, чтобы проверить на тестовой выборке данных.

In [13]:
# соберем обучающую и валидационную выборку, чтобы провести проверку на большей выборке
features_train_valid = pd.concat([features_train, features_valid])
target_train_valid = pd.concat([target_train, target_valid])

# еще раз обучим
final_model_random_tree = RandomForestClassifier(random_state=random_state, n_estimators=10)
final_model_random_tree.fit(features_train_valid, target_train_valid)
final_result = final_model_random_tree.score(features_test, target_test)
print('Точность для', type(final_model_random_tree).__name__, final_result)

Точность для RandomForestClassifier 0.7978227060653188


Видим, что точность модели на тестовых данных составила почти 0.8, что является для нас хорошим резульататом. Нет переобучения и недообучения. Если же нагрузка не предполагается большая (скорее всего случайный пользователь может выбрать тариф только раз в месяц), то случайный лес должен показывать самые лучшие результаты.

## (бонус) Проверьте модели на адекватность

Проверим адекватность модели по сравнению с наивным алгоритмом предсказания по частоте выбираемых тарифов.

In [14]:
dummy_clf = DummyClassifier(strategy="most_frequent")
dummy_clf.fit(features_train_valid, target_train_valid)
adequacy = dummy_clf.score(features_test, target_test)
print(adequacy)

0.6936236391912908


Видим, что точность модели выше, чем у алгоритма со стратегией частоты целевого признака, значит, можно считать обученную модель адекватной.

## Вывод

В ходе данного исследования мы рассматривали датасет пользования клиентами услуг, чтобы предсказать, какой тариф им подойдет лучше всего в будущем: «Смарт» или «Ультра». Так как это категориальный признак, то мы разбирали задачу классификации, используя решающее дерево, случайный лес и логистическую регрессию.

После обучения мы остановились на случайном дереве, эта модель показала самую лучшую точность. Мы проверили её на тестовой выборке, предварительно объединив обратно обучающую и валидационную, и получили приемлемый результат. Проверку адекватности модель также прошла успешно.