# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## Откройте и изучите файл

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.dummy import DummyClassifier

In [2]:
try:
    data = pd.read_csv('users_behavior.csv')
except:
    data = pd.read_csv('/datasets/users_behavior.csv')

In [3]:
data.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [5]:
data['is_ultra'].unique()

array([0, 1], dtype=int64)

Проверен датасет, содержащий информацию о пользователях тарифов. Явных пропусков в данных нет, столбцы отображают следующее:
* сalls — количество звонков
* minutes — суммарная длительность звонков в минутах
* messages — количество sms-сообщений
* mb_used — израсходованный интернет-трафик в МБ
* is_ultra — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0)

Столбец `is_ultra` - целевой признак, который нам нужно прогнозировать (модель должна рекомендовать наиболее подходящий для пользователя тариф). Остальные столбцы - признаки, по которым предсказывается значение целевого (из того, сколько пользователь совершает звонков и тратит интернет-трафика, модель предлагает ему тариф Смарт или Ультра).

## Разбейте данные на выборки

Разделяем исходный датасет на признаки и цель.

In [6]:
features = data.drop('is_ultra', axis=1)
target = data['is_ultra']

Отделяем 60% в качестве обучающей выборки.

In [7]:
train_features, val_features, train_target, val_target = train_test_split(features, target,
                                                    train_size=0.6,
                                                    random_state=123, 
                                                    stratify=target)

Оставшуюся часть (40% исходного датасета) делим пополам и получаем тестовую и валидационную выборки по 20% исходного датасета.

In [8]:
val_features, test_features, val_target, test_target = train_test_split(val_features, val_target,
                                                    train_size=0.5,
                                                    random_state=123, 
                                                    stratify=val_target)

Получены выборки:
* обучающая - `train_features`, `train_target` (60% исходного набора данных)
* валидационная - `val_features`, `val_target` (20% исходного набора данных)
* тестовая - `test_features`, `test_target` (20% исходного набора данных)

## Исследуйте модели

In [9]:
for depth in range(1,6):
    model1 = DecisionTreeClassifier(max_depth=depth, random_state=123)
    model1.fit(train_features, train_target)
    val_pred1 = model1.predict(val_features)
    print("max_depth =", depth, ": ", end='')
    print(accuracy_score(val_target, val_pred1))

max_depth = 1 : 0.7465007776049767
max_depth = 2 : 0.7822706065318819
max_depth = 3 : 0.7947122861586314
max_depth = 4 : 0.7807153965785381
max_depth = 5 : 0.7838258164852255


Изучаем модель решающего дерева с разными гиперпараметрами. Наилучший результат достигнут на глубине 3.

In [10]:
for est in range(1, 60):
    model2 = RandomForestClassifier(random_state=123, n_estimators=est)
    model2.fit(train_features, train_target)
    val_pred2 = model2.predict(val_features)
    print("estimators: ", est, ": ", end='')
    print(accuracy_score(val_target, val_pred2))

estimators:  1 : 0.6936236391912908
estimators:  2 : 0.7465007776049767
estimators:  3 : 0.7371695178849145
estimators:  4 : 0.7589424572317263
estimators:  5 : 0.7480559875583204
estimators:  6 : 0.7713841368584758
estimators:  7 : 0.7620528771384136
estimators:  8 : 0.7682737169517885
estimators:  9 : 0.7682737169517885
estimators:  10 : 0.7682737169517885
estimators:  11 : 0.7698289269051322
estimators:  12 : 0.776049766718507
estimators:  13 : 0.7807153965785381
estimators:  14 : 0.7807153965785381
estimators:  15 : 0.7838258164852255
estimators:  16 : 0.7822706065318819
estimators:  17 : 0.7807153965785381
estimators:  18 : 0.7729393468118196
estimators:  19 : 0.7776049766718507
estimators:  20 : 0.7776049766718507
estimators:  21 : 0.7838258164852255
estimators:  22 : 0.7729393468118196
estimators:  23 : 0.776049766718507
estimators:  24 : 0.7698289269051322
estimators:  25 : 0.7667185069984448
estimators:  26 : 0.7713841368584758
estimators:  27 : 0.7698289269051322
estimators: 

Следующая модель - случайный лес, в котором перебирается число деревьев от 1 до 60. Наилучший результат показан на 15 и 21 деревьях.

In [11]:
model3 = LogisticRegression(random_state=123, solver='lbfgs', max_iter=1000)
model3.fit(train_features, train_target)
val_pred3 = model3.predict(val_features)
print(accuracy_score(val_target, val_pred3))

0.6967340590979783


Также проверена логистическая регрессия, но её точность на валидационной выборке низка.

## Проверьте модель на тестовой выборке

In [17]:
model_tree = DecisionTreeClassifier(random_state=123, max_depth=3)
model_tree.fit(train_features, train_target)
test_pred = model_tree.predict(test_features)
print(accuracy_score(test_target, test_pred)) 

0.80248833592535


Используем модель решающего дерева с глубиной 3, т.к. такая показала наилучший результат в предварительных тестах на валидационной выборке. На тестовой выборке она показывает точность ~0.802.

In [18]:
model_forest = RandomForestClassifier(random_state=123, n_estimators=21)
model_forest.fit(train_features, train_target)
test_pred = model_forest.predict(test_features)
print(accuracy_score(test_target, test_pred)) 

0.8258164852255054


Также проверяем модель случайного леса с наилучшими параметрами (число деревьев 21). С нею на тестовой выборке достигнута точность ~0.826, что больше, чем у решающего дерева.

## (бонус) Проверьте модели на адекватность

In [19]:
dummy = DummyClassifier(strategy='most_frequent')
dummy.fit(train_features, train_target)
dummy_pred = dummy.predict(val_features)
print(accuracy_score(val_target, dummy_pred))

0.6936236391912908


Для проверки на адекватность используем `DummyClassifier` со стратегией `most_frequent` (возвращает самый частый целевой признак из обучающего набора данных, переданного модели). Его точность 0.69, что ниже достигнутой как для решающего дерева, так и для случайного леса.

## Вывод
Модель случайного леса показывает наилучшую точность на тестовой выборке, при том, что на валидационной уступает решающему дереву с правильно настроенной глубиной. Это следствие того, что модель на основе дерева склонна к переобучению, поэтому она чаще ошибается на скрытом наборе данных.

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x] Jupyter Notebook открыт
- [x] Весь код исполняется без ошибок
- [x] Ячейки с кодом расположены в порядке исполнения
- [x] Выполнено задание 1: данные загружены и изучены
- [x] Выполнено задание 2: данные разбиты на три выборки
- [x] Выполнено задание 3: проведено исследование моделей
    - [x] Рассмотрено больше одной модели
    - [x] Рассмотрено хотя бы 3 значения гипепараметров для какой-нибудь модели
    - [x] Написаны выводы по результатам исследования
- [x] Выполнено задание 3: Проведено тестирование
- [x] Удалось достичь accuracy не меньше 0.75
