# Рекомендация тарифов

Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».

В нашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы. Нужно построить модель для задачи классификации, которая выберет подходящий тариф.

## Откройте и изучите файл

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
import warnings
warnings.filterwarnings('ignore')

In [3]:
df = pd.read_csv('users_behavior.csv')
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


## Разбейте данные на выборки

In [4]:
df_train, df_valid = train_test_split(df, test_size=0.4, random_state=12345)
df_test, df_valid = train_test_split(df_valid, test_size=0.5, random_state=12345)

### Промежуточные выводы:
Набор данных разделен на три выборки: обучающая выборка, валидационная выборка и тестовая выборка в соотношении 3:1:1 соответственно

## Исследуйте модели

### Подготовка данных и результатов

In [5]:
features_train = df_train.drop(['is_ultra'], axis=1)
target_train = df_train['is_ultra']
features_valid = df_valid.drop(['is_ultra'], axis=1)
target_valid = df_valid['is_ultra']
result_models = []

### Решающее дерево

In [6]:
for depth in range(1, 10):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth) 
    model.fit(features_train, target_train)  
    result_vaild = model.score(features_valid, target_valid)
    result_train = model.score(features_train, target_train) 
    result_models.append(['Дерево',depth, result_vaild, result_train, model])

### Случайный лес

In [7]:
for est in range(10, 200, 10):
    model = RandomForestClassifier(random_state=12345, n_estimators=est) 
    model.fit(features_train, target_train) 
    result_vaild = model.score(features_valid, target_valid) 
    result_train = model.score(features_train, target_train)
    result_models.append(['Случайный лес', est, result_vaild, result_train, model])

### Логистическая регрессия

In [8]:
model = LogisticRegression() 
model.fit(features_train, target_train)
result_vaild = model.score(features_valid, target_valid) 
result_train = model.score(features_train, target_train)
result_models.append(['Логистическиая регрессия', None, result_vaild, result_train, model])

### Подготьовка промежуточных результатов

In [9]:
models = pd.DataFrame(data=result_models, columns = ['name_models', 'depth_or_est', 'result_vaild', 'result_train', 'models'])
models['result_difference'] = abs(models['result_train'] - models['result_vaild'])
models

Unnamed: 0,name_models,depth_or_est,result_vaild,result_train,models,result_difference
0,Дерево,1.0,0.735614,0.75778,"DecisionTreeClassifier(max_depth=1, random_sta...",0.022166
1,Дерево,2.0,0.774495,0.787863,"DecisionTreeClassifier(max_depth=2, random_sta...",0.013369
2,Дерево,3.0,0.77916,0.807573,"DecisionTreeClassifier(max_depth=3, random_sta...",0.028412
3,Дерево,4.0,0.774495,0.810685,"DecisionTreeClassifier(max_depth=4, random_sta...",0.03619
4,Дерево,5.0,0.783826,0.820021,"DecisionTreeClassifier(max_depth=5, random_sta...",0.036195
5,Дерево,6.0,0.77605,0.837656,"DecisionTreeClassifier(max_depth=6, random_sta...",0.061606
6,Дерево,7.0,0.799378,0.855809,"DecisionTreeClassifier(max_depth=7, random_sta...",0.056431
7,Дерево,8.0,0.793157,0.862552,"DecisionTreeClassifier(max_depth=8, random_sta...",0.069395
8,Дерево,9.0,0.780715,0.881224,"DecisionTreeClassifier(max_depth=9, random_sta...",0.100509
9,Случайный лес,10.0,0.780715,0.982365,"(DecisionTreeClassifier(max_features='auto', r...",0.20165


### Отбор наилучших можелей для каждого алгоритма

In [10]:
models = models[models['result_vaild'] >= 0.75]
tree_max = models.query('name_models == "Дерево"')['result_vaild'].max()
tree_min = models.query('name_models == "Дерево"')['result_difference'].min()
forest_max = models.query('name_models == "Случайный лес"')['result_vaild'].max()
forest_min = models.query('name_models == "Случайный лес"')['result_difference'].min()
forest_min

0.20164974864967766

In [11]:
final_models = models.query(
    '(name_models == "Дерево" and (result_vaild == @tree_max or result_difference == @tree_min)) or (name_models == "Случайный лес" and (result_vaild == @forest_max or result_difference == @forest_min)) or (name_models == "Логистическая регрессия")')
final_models = final_models.reset_index(drop=True)
final_models

Unnamed: 0,name_models,depth_or_est,result_vaild,result_train,models,result_difference
0,Дерево,2.0,0.774495,0.787863,"DecisionTreeClassifier(max_depth=2, random_sta...",0.013369
1,Дерево,7.0,0.799378,0.855809,"DecisionTreeClassifier(max_depth=7, random_sta...",0.056431
2,Случайный лес,10.0,0.780715,0.982365,"(DecisionTreeClassifier(max_features='auto', r...",0.20165
3,Случайный лес,80.0,0.796267,0.999481,"(DecisionTreeClassifier(max_features='auto', r...",0.203214


### Промежуточные выводы:
1. Исследованы модели трех алгоритмов с различными гиперпараметрами: решающее дерево, случайный лес, логистичесткая регрессия
2. Отобраны модели показывающий наилучший результат на валидационной выборке и имеющие наилучшую адекватность
3. Модель с наилучшем результатом находится в таблице под номером 1. Будем использовать ее для тестовой выборки.

## Проверьте модель на тестовой выборке

In [16]:
final_model = final_models.loc[1]
final_model['result_test'] = final_model['models'].score(features_test, target_test)

In [17]:
final_model

name_models                                                     Дерево
depth_or_est                                                       7.0
result_vaild                                                  0.799378
result_train                                                  0.855809
models               DecisionTreeClassifier(max_depth=7, random_sta...
result_difference                                             0.056431
result_test                                                   0.782271
Name: 1, dtype: object

### Промежуточные выводы:
1. Итоговая модель на тестовой выборке показывает точность 0.782271

## Выводы:
### Ход работы:
1. Набор данных был разделен на три выборки: обучающая выборка, валидационная выборка и тестовая выборка в соотношении 3:1:1 соответственно
2. Исследована модель решающее дерево с различными гипперпараметрами от 1 до 9
3. Исследована модель случайный лес с различными гипперпараметрами от 10 до 190 с шагом в 10
4. Исследована модель логистической регрессии
5. Результаты по всем полученным моделям сведены в таблицу
6. Отобраны модели показывающий наилучший результат на валидационной выборке и имеющие наилучшую адекватность
7. Выбрана итоговая модель, показывающая наилучшую точность
8. Итоговая модель проверена на тестовой выборке

### Результаты:

1. Отобраны 4 наилучшие модели, представленные в таблице ниже.

|Номер|Алгоритм       |Результаты для обучающей выборки|Результаты для валидационной выборки|
|-----|---------------|--------------------------------|------------------------------------|
|1    |Решающее дерево|0.787863                        |0.774495                            |
|2    |Решающее дерево|0.855809                        |0.799378                            |
|2    |Случайный лес  |0.982365                        |0.780715                            |
|3    |Случайный лес  |0.999481                        |0.796267                            |

2. Модель с наилучшем результатом находится в таблице под номером 1. Будем использовать ее для тестовой выборки.
3. Итоговая модель на тестовой выборке показывает точность 0.782271
4. Адекватность выбранной модели высока, так как разница между итогами проверки на обучающей выборке и валидационной не сильно отличаются
5. Итоги по выброной моделе:

|                                    |               |
|------------------------------------|---------------|
|Имя модели                          |Решающее дерево|
|Количество шагов в моделе           |7.0            |
|Результат для валидационной выборки |0.799378       |
|Результат для обучающей выборки     |0.855809       |
|Результат для тестовой выборки      |0.782271       |