# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## 1. Откройте и изучите файл

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from catboost import CatBoostClassifier
from tqdm.notebook import tqdm

In [2]:
df = pd.read_csv('./datasets/users_behavior.csv')
df.head(10)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
5,58.0,344.56,21.0,15823.37,0
6,57.0,431.64,20.0,3738.9,1
7,15.0,132.4,6.0,21911.6,0
8,7.0,43.39,3.0,2538.67,1
9,90.0,665.41,38.0,17358.61,0


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


Каждый объект в наборе данных — это информация о поведении одного пользователя за месяц. Известно:
* сalls — количество звонков,
* minutes — суммарная длительность звонков в минутах,
* messages — количество sms-сообщений,
* mb_used — израсходованный интернет-трафик в Мб,
* is_ultra — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0).

In [4]:
df.describe()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


В данных нет пропущенных строк. Значения в столбцах выглядят корректно предобработка данных не тебуется. Прежде чем перейти к разбиению данных на выбоки проведем замену тиов данных.

In [5]:
df.dtypes.apply(lambda x: x.name).to_dict()

{'calls': 'float64',
 'minutes': 'float64',
 'messages': 'float64',
 'mb_used': 'float64',
 'is_ultra': 'int64'}

In [6]:
# заменим типы в таблице по словарю df_type_dict
df_type_dict = {
 'calls': 'int32',
 'minutes': 'float32',
 'messages': 'int16',
 'mb_used': 'float32',
 'is_ultra': 'int8'}

df = df.astype(df_type_dict)

# убедимся что замена прошла так как задумано
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   int32  
 1   minutes   3214 non-null   float32
 2   messages  3214 non-null   int16  
 3   mb_used   3214 non-null   float32
 4   is_ultra  3214 non-null   int8   
dtypes: float32(2), int16(1), int32(1), int8(1)
memory usage: 47.2 KB


## 2. Разбейте данные на выборки

Имена столбцов с "фичами" сохраним в списке x_col, столбец который мы будем предсказывать в списке y_col

In [7]:
x_col = df.columns.drop('is_ultra')
x_col

Index(['calls', 'minutes', 'messages', 'mb_used'], dtype='object')

In [8]:
y_col = ['is_ultra']

Разобьем данные сначала на тестовую и полную тренировачную выбоки, а полную тренировочную выбоку разобъем на непоседственно трениовочную выбоку и валидационную выбоку.

In [9]:
df_train_full, df_test = train_test_split(df, test_size=0.25, random_state=42)
df_train, df_valid = train_test_split(df_train_full, test_size=0.25, random_state=42)

In [10]:
# проверим размеры полученных наборов
len(df_train) + len(df_valid) == len(df_train_full)

True

In [11]:
len(df_train_full) + len(df_test) == len(df)

True

## 3. Исследуйте модели

Исследуем следующие модели классификации:
* дерево решений
* случайный лес
* логистическая регрессия
* CatBoost

### Дерево решений
Для дерева решений будем менять глубину дерева и найдем такую глубину дерева которая дает наилучшее accuracy на валидационной выборке

In [12]:
best_tree_model = None
best_tree_depth = 0
best_tree_score = 0
for depth in range(1, 11):
    model = DecisionTreeClassifier(max_depth=depth, random_state=42)
    model.fit(df_train[x_col], df_train[y_col].values.ravel())
    score = accuracy_score(df_valid[y_col], model.predict(df_valid[x_col]))
    if score > best_tree_score:
        best_tree_model = model
        best_tree_depth = depth
        best_tree_score = score
print('Доля првильных ответов на валидационной выбоке:', best_tree_score, 'для дерева глубиной', best_tree_depth)

Доля првильных ответов на валидационной выбоке: 0.7860696517412935 для дерева глубиной 6


### Случайный лес
Для случайного леса так же будем переберать глубину дерева и кроме того число деревьев.

In [13]:
best_forest_model = None
best_forest_depth = 0
best_forest_n_estimators = 0
best_forest_score = 0
for n_estimators in tqdm(range (1, 51)):
    for depth in range(1, 11):
        model = RandomForestClassifier(n_estimators=n_estimators, max_depth=depth, random_state=42)
        model.fit(df_train[x_col], df_train[y_col].values.ravel())
        score = accuracy_score(df_valid[y_col], model.predict(df_valid[x_col]))
        if score > best_forest_score:
            best_forest_model = model
            best_forest_depth = depth
            best_forest_n_estimators = n_estimators
            best_forest_score = score

print('Доля првильных ответов на валидационной выбоке:', best_forest_score, 'для деревьев глубиной', best_forest_depth)
print('Число деревьев:', best_forest_n_estimators)

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=50.0), HTML(value='')))


Доля првильных ответов на валидационной выбоке: 0.8109452736318408 для деревьев глубиной 7
Число деревьев: 3


### Логистическая регрессия
Для логистической регрессии параметры подберем ручным перебором

In [14]:
logistic_regression_model = LogisticRegression(random_state=42, solver='liblinear', penalty='l1', intercept_scaling=10)
logistic_regression_model.fit(df_train[x_col], df_train[y_col].values.ravel())
logistic_regression_score = accuracy_score(df_valid[y_col], logistic_regression_model.predict(df_valid[x_col]))

print('Доля првильных ответов на валидационной выбоке:', logistic_regression_score)

Доля првильных ответов на валидационной выбоке: 0.7479270315091211


### CatBoost
CatBoost используем с параметрами в основном по умолчанию, ограничим лишь число итераций после которых происходит остановка (200) и количетво выводимой информации (информация выводится каждые 50 итеаций).

In [15]:
cat_boost_model = CatBoostClassifier(verbose=50, early_stopping_rounds=200, random_state=42, eval_metric='Accuracy')
cat_boost_model.fit(df_train[x_col], df_train[y_col].values.ravel(),
                    eval_set=(df_valid[x_col], df_valid[y_col].values.ravel()))

cat_boost_score = accuracy_score(df_valid[y_col], cat_boost_model.predict(df_valid[x_col]))

print('Доля првильных ответов на валидационной выбоке:', cat_boost_score)

Learning rate set to 0.036676
0:	learn: 0.7758716	test: 0.7611940	best: 0.7611940 (0)	total: 56.3ms	remaining: 56.2s
50:	learn: 0.8157167	test: 0.7960199	best: 0.7976783 (38)	total: 198ms	remaining: 3.68s
100:	learn: 0.8295517	test: 0.7976783	best: 0.8059701 (84)	total: 336ms	remaining: 2.99s
150:	learn: 0.8367460	test: 0.8009950	best: 0.8059701 (84)	total: 498ms	remaining: 2.8s
200:	learn: 0.8472607	test: 0.8026534	best: 0.8059701 (84)	total: 636ms	remaining: 2.53s
250:	learn: 0.8599889	test: 0.7993367	best: 0.8059701 (84)	total: 776ms	remaining: 2.32s
Stopped by overfitting detector  (200 iterations wait)

bestTest = 0.8059701493
bestIteration = 84

Shrink model to first 85 iterations.
Доля првильных ответов на валидационной выбоке: 0.8059701492537313


### Итоговая модель
Финальную модель построим комбинацией трех моделей: модели случайного леса, модели логистической регрессии и CatBoost. Решающее правило при этом определим следующим образом: если две или три модели советуют тариф "Ультра" (прогнозируют единицу), то пользователю предлагается тариф "Ультра" (итоговый прогноз единица), иначе "Смарт" (нуль). Введем функцию sum_score_calc которая оценивает accuracy по данному решающему правилу и оценим accuracy на валидационной выборке

In [16]:
def sum_score_calc(df):
    predict_sum = (best_forest_model.predict(df[x_col]) + 
                   logistic_regression_model.predict(df[x_col]) +
                   cat_boost_model.predict(df[x_col]))
    score = accuracy_score(df[y_col], (predict_sum >= 2)*1)
    return score

In [17]:
print('Доля првильных ответов на валидационной выбоке:', sum_score_calc(df_valid))

Доля првильных ответов на валидационной выбоке: 0.8159203980099502


Как видно введение решающего правила дало небольшой прирост accuracy на валидационной выборке по сравнению с моделью случайного леса (81,59 % против 81,09 % у леса)

## 4. Проверьте модель на тестовой выборке

In [18]:
print('Доля првильных ответов на тестовой выбоке:', sum_score_calc(df_test))

Доля првильных ответов на тестовой выбоке: 0.8171641791044776


На тестовой выборке итоговая модель дает accuracy близкий к тому что было получено на валидации, что может говорить о стабильности работы алгоритма.

## 5. Проверьте модели на адекватность

Для проверки модели на адекватность, сравним accuracy итоговой модели на тестовых данных с accuracy модели которая всегда предсказывает тариф "Смарт" (нуль).

In [19]:
accuracy_score(df_test[y_col], [0]*len(df_test))

0.7027363184079602

Модель которая всегда предсказывает тариф "Смарт" на тестовой выборке дает accuracy - 70,27%. Учитывая что итоговая модель на тестовой выборке дает accuracy - 81,7%, эту модель можно считать адекватной.

## Выводы

1. В работе была оценена возможность использования следующих алгоритмов:
    * дерево решений
    * случайный лес
    * логистическая регрессия
    * CatBoost
    
* Оптимизированы параметры алгоритмов
* Предложено решающее правило по которому сформирована итоговая модель
* Проведена оценка accuracy алгоритмов
* Итоговая модель имеет accuracy на тестовой выборке 81,7 % и может быть использована для построения системы, способной на основе поведения клиентов предложить им новый тариф: «Смарт» или «Ультра».
    

