# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

***

In [1]:
import numpy as np

import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = (10, 6)

import seaborn as sns

sns.set_context('notebook', font_scale=1.5)
sns.set_style('darkgrid', rc={'ytick.left':True, 'ytick.direction':'in',
                              'xtick.bottom':True, 'xtick.direction':'in'})

In [2]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  method='lar', copy_X=True, eps=np.finfo(np.float).eps,
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  method='lar', copy_X=True, eps=np.finfo(np.float).eps,
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  eps=np.finfo(np.float).eps, copy_Gram=True, verbose=0,
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  eps=np.finfo(np.float).eps, copy_X=True, fit_path=True,
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  eps=np.finfo(np.float).eps, copy_X=True, fit_path=True,
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes

***

## Откройте и изучите файл

- `сalls` — количество звонков

- `minutes` — суммарная длительность звонков в минутах

- `messages` — количество sms-сообщений

- `mb_used` — израсходованный интернет-трафик в Мб

- `is_ultra` — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0)


In [3]:
df = pd.read_csv('data/users_behavior.csv')

df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [4]:
df.shape

(3214, 5)

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


- Пропуски отсутствуют, типы данных корректные

In [6]:
df.duplicated().sum()

0

- Дубликаты отсутствуют

## Разбейте данные на выборки

In [7]:
features = df.drop(columns=['is_ultra'])
target = df['is_ultra']

In [8]:
# Разделяю исходную выборку (60% данных на обучение, 40% на тесты и валидацию)
features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=.4, random_state=42
)

# Разделяю тестовую и валидационную выборку (в соотношении 1:1)
features_valid, features_test, target_valid, target_test = train_test_split(
    features_valid, target_valid, test_size=.5, random_state=42
)

In [9]:
# Проверка
print(f'Обучающая выборка содержит {len(features_train) / len(df):.0%} исходных данных')
print(f'Валидационная выборка содержит {len(features_valid) / len(df):.0%} исходных данных')
print(f'Тестовая выборка содержит {len(features_test) / len(df):.0%} исходных данных')

Обучающая выборка содержит 60% исходных данных
Валидационная выборка содержит 20% исходных данных
Тестовая выборка содержит 20% исходных данных


## Исследуйте модели

#### Решающее дерево

In [10]:
best_dt_model = None
best_dt_accuracy = 0

for depth in range(1, 11):

    model_dt = DecisionTreeClassifier(max_depth=depth, random_state=42)
    model_dt.fit(features_train, target_train)
    predictions_valid_dt = model_dt.predict(features_valid)

    accuracy_dt = accuracy_score(target_valid, predictions_valid_dt)
    print(f'dt accuracy: {accuracy_dt:.0%}, depth: {depth}')

    if accuracy_dt > best_dt_accuracy:
        best_dt_model = model_dt
        best_dt_accuracy = accuracy_dt
        best_depth = depth

print('*' * 10)
print(f'best dt accuracy: {best_dt_accuracy:.0%}, best depth: {best_depth}')
print('*' * 10)

dt accuracy: 73%, depth: 1
dt accuracy: 78%, depth: 2
dt accuracy: 79%, depth: 3
dt accuracy: 78%, depth: 4
dt accuracy: 77%, depth: 5
dt accuracy: 78%, depth: 6
dt accuracy: 78%, depth: 7
dt accuracy: 80%, depth: 8
dt accuracy: 78%, depth: 9
dt accuracy: 79%, depth: 10
**********
best dt accuracy: 80%, best depth: 8
**********


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y_encoded = np.zeros(y.shape, dtype=np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y_encoded = np.zeros(y.shape, dtype=np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y_encoded = np.zeros(y.shape, dtype=np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y_encoded = np.zeros(y.shape, dtype=np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y_encoded = np.zeros(y.shape, dtype=np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y_encoded = np.zeros(y.shape, dtype=

#### Случайный лес

In [11]:
best_rf_model = None
best_rf_accuracy = 0

for est in range(1, 11):

    model_rf = RandomForestClassifier(n_estimators=est, random_state=42)
    model_rf.fit(features_train, target_train)
    predictions_valid_rf = model_rf.predict(features_valid)

    accuracy_rf = accuracy_score(target_valid, predictions_valid_rf)
    print(f'rf accuracy: {accuracy_rf:.0%}, n est: {est}')

    if accuracy_rf > best_rf_accuracy:
        best_rf_model = model_rf
        best_rf_accuracy = accuracy_rf
        best_n_est = est

print('*' * 10)
print(f'best rf accuracy: {best_rf_accuracy:.0%}, best n est: {best_n_est}')
print('*' * 10)

rf accuracy: 72%, n est: 1
rf accuracy: 77%, n est: 2
rf accuracy: 76%, n est: 3
rf accuracy: 79%, n est: 4
rf accuracy: 77%, n est: 5
rf accuracy: 79%, n est: 6


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y_store_unique_indices = np.zeros(y.shape, dtype=np.int)
  if _joblib.__version__ >= LooseVersion('0.12'):
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y_encoded = np.zeros(y.shape, dtype=np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  dtype=np.int)
  if _joblib.__version__ >= LooseVersion('0.12'):
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y_store_unique_indices = np.zeros(y.shape, dtype=np.int)
  if _joblib.__version__ >= LooseVersion('0.12'):
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y_encoded = np.zeros(y.shape, dtype=np.int)
Deprecated in 

rf accuracy: 79%, n est: 7
rf accuracy: 79%, n est: 8
rf accuracy: 79%, n est: 9
rf accuracy: 79%, n est: 10
**********
best rf accuracy: 79%, best n est: 4
**********


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y_encoded = np.zeros(y.shape, dtype=np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  dtype=np.int)
  if _joblib.__version__ >= LooseVersion('0.12'):
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y_store_unique_indices = np.zeros(y.shape, dtype=np.int)
  if _joblib.__version__ >= LooseVersion('0.12'):
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y_encoded = np.zeros(y.shape, dtype=np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  y_encoded = np.zeros(y.shape, dtype=np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/de

#### Логистическая регрессия

In [12]:
lr_model = LogisticRegression(random_state=42, solver='lbfgs', max_iter=1000)

lr_model.fit(features_train, target_train)

lr_predictions = lr_model.predict(features_valid)

lr_accuracy = lr_model.score(features_valid, target_valid)

lr_accuracy

  if _joblib.__version__ >= LooseVersion('0.12'):
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  indices = (scores > 0).astype(np.int)
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  indices = (scores > 0).astype(np.int)


0.7402799377916018

#### Сводная таблица

In [13]:
pd.set_option("display.precision", 2)

pd.DataFrame([best_dt_accuracy, best_rf_accuracy, lr_accuracy],
              columns=['accuracy_valid'],
              index=['decision_tree', 'random_forest', 'logistic_regression'])

Unnamed: 0,accuracy_valid
decision_tree,0.8
random_forest,0.79
logistic_regression,0.74


- На валидационной выборке лучший результат показывает решающее дерево (accuracy `80%`) при глубине, равной 8

- Сравнимый результат (долю правильных ответов) показывает случайный лес (`79%`, количество деревьев: 4)

- Хуже всего справляется логистическая модель (`74%`)

## Проверьте модель на тестовой выборке

In [14]:
predictions_test_dt = best_dt_model.predict(features_test)

accuracy_test_dt = accuracy_score(target_test, predictions_test_dt)

accuracy_test_dt

0.7978227060653188

In [15]:
predictions_test_rf = best_rf_model.predict(features_test)

accuracy_test_rf = accuracy_score(target_test, predictions_test_rf)

accuracy_test_rf

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  dtype=np.int)
  if _joblib.__version__ >= LooseVersion('0.12'):


0.8009331259720062

In [16]:
accuracy_test_lr = lr_model.score(features_test, target_test)

accuracy_test_lr

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  indices = (scores > 0).astype(np.int)


0.7682737169517885

In [17]:
pd.DataFrame([accuracy_test_dt, accuracy_test_rf, accuracy_test_lr],
              columns=['accuracy_test'],
              index=['decision_tree', 'random_forest', 'logistic_regression'])

Unnamed: 0,accuracy_test
decision_tree,0.8
random_forest,0.8
logistic_regression,0.77


 - Для тестовой выборки качество работы решающего дерева осталось неизменным

 - Для двух других алгоритмов наблюдается небольшой рост качества (вопреки ожиданиям): на 1% и на 3% для случайного леса и логистической регрессии соответственно

## (бонус) Проверьте модели на адекватность

In [19]:
features_test

Unnamed: 0,calls,minutes,messages,mb_used
1545,30.0,166.51,77.0,12199.43
3173,73.0,430.76,84.0,26117.92
2290,82.0,510.85,0.0,20154.23
2645,87.0,568.92,60.0,18257.71
916,50.0,375.91,35.0,12388.40
...,...,...,...,...
1651,58.0,408.53,2.0,15346.04
842,74.0,476.37,76.0,13424.26
532,75.0,496.06,14.0,13850.84
456,76.0,593.77,0.0,11311.21


## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x] Jupyter Notebook открыт
- [ ] Весь код исполняется без ошибок
- [ ] Ячейки с кодом расположены в порядке исполнения
- [x] Выполнено задание 1: данные загружены и изучены
- [x] Выполнено задание 2: данные разбиты на три выборки
- [x] Выполнено задание 3: проведено исследование моделей
    - [x] Рассмотрено больше одной модели
    - [x] Рассмотрено хотя бы 3 значения гипепараметров для какой-нибудь модели
    - [x] Написаны выводы по результатам исследования
- [x] Выполнено задание 3: Проведено тестирование
- [x] Удалось достичь accuracy не меньше 0.75
