# Рекомендация тарифов

Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

# Описание данных

Каждый объект в наборе данных — это информация о поведении одного пользователя за месяц. Известно:
* `сalls` — количество звонков


* `minutes` — суммарная длительность звонков в минутах


* `messages` — количество sms-сообщений


* `mb_used` — израсходованный интернет-трафик в Мб


* `is_ultra` — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0)

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Откройте-и-изучите-файл" data-toc-modified-id="Откройте-и-изучите-файл-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Откройте и изучите файл</a></span><ul class="toc-item"><li><span><a href="#Импорт-используемых-библиотек" data-toc-modified-id="Импорт-используемых-библиотек-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Импорт используемых библиотек</a></span></li><li><span><a href="#Чтение-файла-с-данными" data-toc-modified-id="Чтение-файла-с-данными-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Чтение файла с данными</a></span></li><li><span><a href="#Изучение-общей-информации" data-toc-modified-id="Изучение-общей-информации-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Изучение общей информации</a></span></li></ul></li><li><span><a href="#Разбейте-данные-на-выборки" data-toc-modified-id="Разбейте-данные-на-выборки-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Разбейте данные на выборки</a></span><ul class="toc-item"><li><span><a href="#Выделим-валидационную-выборку" data-toc-modified-id="Выделим-валидационную-выборку-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Выделим валидационную выборку</a></span></li><li><span><a href="#Разделение-данных-на-обучающую-и-тестовую-выборки" data-toc-modified-id="Разделение-данных-на-обучающую-и-тестовую-выборки-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Разделение данных на обучающую и тестовую выборки</a></span></li><li><span><a href="#Проверка-размера-выборок" data-toc-modified-id="Проверка-размера-выборок-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Проверка размера выборок</a></span></li></ul></li><li><span><a href="#Исследуйте-модели" data-toc-modified-id="Исследуйте-модели-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Исследуйте модели</a></span><ul class="toc-item"><li><span><a href="#Создание-переменных-для-признаков-и-целевого-признака" data-toc-modified-id="Создание-переменных-для-признаков-и-целевого-признака-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Создание переменных для признаков и целевого признака</a></span></li><li><span><a href="#Алгоритм-решающего-дерева" data-toc-modified-id="Алгоритм-решающего-дерева-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Алгоритм решающего дерева</a></span></li><li><span><a href="#Алгоритм-случайного-леса" data-toc-modified-id="Алгоритм-случайного-леса-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Алгоритм случайного леса</a></span></li><li><span><a href="#Алгоритм-логистической-регрессии" data-toc-modified-id="Алгоритм-логистической-регрессии-3.4"><span class="toc-item-num">3.4&nbsp;&nbsp;</span>Алгоритм логистической регрессии</a></span></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-3.5"><span class="toc-item-num">3.5&nbsp;&nbsp;</span>Выводы</a></span></li></ul></li><li><span><a href="#Проверьте-модель-на-тестовой-выборке" data-toc-modified-id="Проверьте-модель-на-тестовой-выборке-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверьте модель на тестовой выборке</a></span></li><li><span><a href="#(бонус)-Проверьте-модели-на-адекватность" data-toc-modified-id="(бонус)-Проверьте-модели-на-адекватность-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>(бонус) Проверьте модели на адекватность</a></span></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Выводы</a></span></li></ul></div>

## Откройте и изучите файл

### Импорт используемых библиотек

In [1]:
# импорт библиотеки pandas
import pandas as pd

# импорт функции train_test_split из библиотеки sklearn
from sklearn.model_selection import train_test_split 

# импорт алгоритма решающего дерева из библиотеки sklearn
from sklearn.tree import DecisionTreeClassifier

# импорт алгоритма случайного леса из библиотеки sklearn
from sklearn.ensemble import RandomForestClassifier

# импорт алгоритма логистической регрессии из библиотеки sklearn
from sklearn.linear_model import LogisticRegression

# импорт функции расчёта accuracy из библиотеки sklearn
from sklearn.metrics import accuracy_score

# импорти функции расчёта MSE из библиотеки sklearn
from sklearn.metrics import mean_squared_error

### Чтение файла с данными

In [2]:
# чтение файла с данными
df = pd.read_csv('/datasets/users_behavior.csv')

### Изучение общей информации

In [3]:
# получение первых 10 строк датасета
df.head(10)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
5,58.0,344.56,21.0,15823.37,0
6,57.0,431.64,20.0,3738.9,1
7,15.0,132.4,6.0,21911.6,0
8,7.0,43.39,3.0,2538.67,1
9,90.0,665.41,38.0,17358.61,0


In [4]:
# получение общей информации о данных датасета
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
calls       3214 non-null float64
minutes     3214 non-null float64
messages    3214 non-null float64
mb_used     3214 non-null float64
is_ultra    3214 non-null int64
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [5]:
# получение описательной статистики данных датасета
df.describe()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


Количество звонков и сообщений может быть только целым, поэтому сменим тип данных этих столбцов.

In [6]:
# изменение типа данных
df['calls']=df['calls'].astype('int')
df['messages']=df['messages'].astype('int')

In [7]:
# получение общей информации о данных датасета
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
calls       3214 non-null int64
minutes     3214 non-null float64
messages    3214 non-null int64
mb_used     3214 non-null float64
is_ultra    3214 non-null int64
dtypes: float64(2), int64(3)
memory usage: 125.7 KB


Каждый объект в наборе данных — это информация о поведении одного пользователя за месяц. Всего таких клиентов 3214.

Предобработка данных уже была проведена, что упрощает задачу, однако, я все же сменила для удобства тип данных о количестве звонков и сообщений на целый.

## Разбейте данные на выборки

Спрятанной тестовой выборки нет. Значит, данные нужно разбить на три части: обучающую, валидационную и тестовую. Размеры тестового и валидационного наборов обычно равны. Исходные данные разбивают в соотношении 3:1:1.
Разобъем исходные данные на:
- обучающую выборку (60%)
- тестовую выборку (20%)
- валидационную выборку (20%)

### Выделим валидационную выборку

In [8]:
# выделение валидационной выборки
df_total, df_valid = train_test_split(df, test_size=0.2, random_state=12345)

### Разделение данных на обучающую и тестовую выборки

In [9]:
# разделите данные на обучающую и тестовую выборки
df_train, df_test = train_test_split(df_total, test_size=0.25, random_state=12345)

### Проверка размера выборок

In [10]:
# проверка размера выборок
df_train.shape[0], df_test.shape[0], df_valid.shape[0]

(1928, 643, 643)

Разделение на три выборки прошло успешно.

## Исследуйте модели

### Создание переменных для признаков и целевого признака

Целевым признаком является тариф, а все остальное относится к признакам.

In [11]:
# создание переменные для признаков и целевого признака
features_train = df_train.drop(['is_ultra'], axis=1)
target_train = df_train['is_ultra']
features_test = df_test.drop(['is_ultra'], axis=1)
target_test = df_test['is_ultra']
features_valid = df_valid.drop(['is_ultra'], axis=1)
target_valid = df_valid['is_ultra']

### Алгоритм решающего дерева

In [45]:
# цикл для depth от 1 до 21
best_model_DTC = None
best_depth = 0
best_accuracy_DTC = 0
for depth in range(1, 21):
    model_DTC = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model_DTC.fit(features_train, target_train)
    predictions_valid = model_DTC.predict(features_valid)
    accuracy_DTC = accuracy_score(target_valid, predictions_valid)
    if best_accuracy_DTC < accuracy_DTC:
        best_model_DTC = model_DTC
        best_depth = depth
        best_accuracy_DTC = accuracy_DTC
    print("depth =", depth, ": ", end='')
    print(': {:.4f}'.format(accuracy_DTC))
print('best_depth =',best_depth, 'accuracy'': {:.4f}'.format(best_accuracy_DTC))

depth = 1 : : 0.7481
depth = 2 : : 0.7838
depth = 3 : : 0.7869
depth = 4 : : 0.7869
depth = 5 : : 0.7885
depth = 6 : : 0.7792
depth = 7 : : 0.7885
depth = 8 : : 0.7807
depth = 9 : : 0.7776
depth = 10 : : 0.7714
depth = 11 : : 0.7652
depth = 12 : : 0.7667
depth = 13 : : 0.7496
depth = 14 : : 0.7543
depth = 15 : : 0.7418
depth = 16 : : 0.7434
depth = 17 : : 0.7449
depth = 18 : : 0.7434
depth = 19 : : 0.7278
depth = 20 : : 0.7418
best_depth = 5 accuracy: 0.7885


### Алгоритм случайного леса

In [46]:
# цикл для est от 1 до 21
best_model_RFC = None
best_est = 0
best_accuracy_RFC = 0
for est in range(1, 21):
    model_RFC = RandomForestClassifier(random_state=12345, n_estimators=est)
    model_RFC.fit(features_train, target_train)
    predictions_valid = model_RFC.predict(features_valid)
    accuracy_RFC = accuracy_score(target_valid, predictions_valid)
    if best_accuracy_RFC < accuracy_RFC:
        best_model_RFC = model_RFC
        best_est = est
        best_accuracy_RFC = accuracy_RFC
    print("est =", est, ": ", end='')
    print(': {:.4f}'.format(accuracy_RFC))
print('best_est =',best_est, 'accuracy'': {:.4f}'.format(best_accuracy_RFC))

est = 1 : : 0.7341
est = 2 : : 0.7543
est = 3 : : 0.7729
est = 4 : : 0.7667
est = 5 : : 0.7807
est = 6 : : 0.7745
est = 7 : : 0.7729
est = 8 : : 0.7760
est = 9 : : 0.7792
est = 10 : : 0.7869
est = 11 : : 0.7823
est = 12 : : 0.7823
est = 13 : : 0.7916
est = 14 : : 0.7885
est = 15 : : 0.7900
est = 16 : : 0.7838
est = 17 : : 0.7838
est = 18 : : 0.7854
est = 19 : : 0.7838
est = 20 : : 0.7792
best_est = 13 accuracy: 0.7916


### Алгоритм логистической регрессии

In [47]:
# цикл для iters от 1 до 21
best_model_LR = None
best_iter = 0
best_accuracy_LR = 0
for iters in range(1, 21):
    model_LR = LogisticRegression(random_state=12345, max_iter=iters)
    model_LR.fit(features_train, target_train)
    predictions_valid = model_LR.predict(features_valid)
    accuracy_LR = accuracy_score(target_valid, predictions_valid)
    if best_accuracy_LR < accuracy_LR:
        best_model_LR = model_LR
        best_iter = iters
        best_accuracy_LR = accuracy_LR
    print("iter =", iters, ": ", end='')
    print(': {:.4f}'.format(accuracy_LR))
print('best_iter =',best_iter, 'accuracy'': {:.4f}'.format(best_accuracy_LR))



iter = 1 : : 0.6952
iter = 2 : : 0.6952
iter = 3 : : 0.6967
iter = 4 : : 0.6967
iter = 5 : : 0.6967
iter = 6 : : 0.6967
iter = 7 : : 0.7030
iter = 8 : : 0.7030
iter = 9 : : 0.7030
iter = 10 : : 0.7061
iter = 11 : : 0.7030
iter = 12 : : 0.7030
iter = 13 : : 0.7030
iter = 14 : : 0.7030
iter = 15 : : 0.7030
iter = 16 : : 0.7030
iter = 17 : : 0.7030
iter = 18 : : 0.7030
iter = 19 : : 0.7030
iter = 20 : : 0.7030
best_iter = 10 accuracy: 0.7061


### Выводы

In [48]:
print(f"Decision Tree: {best_accuracy_DTC}")
print(f"Random Forest: {best_accuracy_RFC}")
print(f"Logistic Regression: {accuracy_LR}")

Decision Tree: 0.7884914463452566
Random Forest: 0.7916018662519441
Logistic Regression: 0.702954898911353


Лучшей точностью обладает алгоритм случайного леса, поэтому для проверки на тестовой выборке будем использовать именно эту модель.

## Проверьте модель на тестовой выборке

In [49]:
predictions = best_model_RFC.predict(features_test)
accuracy = accuracy_score(target_test, predictions)
print('accuracy =','{:.4f}'.format(accuracy))

accuracy = 0.7776


## (бонус) Проверьте модели на адекватность

Считается, что модель считается адекватной, если её точность выше, чем доля большего класса в выборке.

In [50]:
# Посмотрим на соотношение классов в датасете 
df_smart = df[df['is_ultra'] == 0]
df_ultra = df[df['is_ultra'] == 1]
df_smart_len = df_smart.shape[0] 
df_ultra_len = df_ultra.shape[0]
ratio = df_smart_len / (df_smart_len + df_ultra_len)
print('Соотношение двух классов (тарифов "ультра" и "смарт"): ', ratio)

Соотношение двух классов (тарифов "ультра" и "смарт"):  0.693528313627878


Сравним настроенную модель с базовой.

In [60]:
rf_base = RandomForestClassifier(random_state=12345)
rf_base.fit(features_train, target_train)
accuracy_rf_base_test =  rf_base.score(features_test, target_test)
print('Точность базовой модели "случайного леса"'': {:.4f}'.format(accuracy_rf_base_test))
print('Точность настроенной модели "случайного леса"'': {:.4f}'.format(best_accuracy_RFC))

Точность базовой модели "случайного леса": 0.7885
Точность настроенной модели "случайного леса": 0.7916




## Выводы

Были исследованы модели решающего дерева, случайного леса и логистической регрессии и определено, что модель случайного леса обладает точностью 0,79, что больше порогового значения 0,75.

На тестовой выборке точность снизилась до 0,78, что все еще отвечает исходному требованию.

Также была проверена адекватность модели и сделан вывод, что модель адекватна.