# Рекомендация тарифов для клиентов "Мегалайн"

Задача состоит в построении системы, способной проанализировать поведение клиентов - польщователей архивных тарифов и предложить пользователям новый тариф: «Смарт» или «Ультра».

Требуется построить модель для задачи классификации, которая выберет подходящий тариф с максимально большим значением *accuracy*.

## Обзор данных

In [1]:
import pandas as pd 

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

from sklearn.metrics import accuracy_score
from sklearn.dummy import DummyClassifier

Читаем файл `users_behavior.csv` из папки `/datasets` и сохраняем его в переменной `df`;

Выводим на экран первые пять строк таблицы:

In [2]:
df = pd.read_csv('***')
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


Получаем общую информации о данных в таблице df:

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


В таблице 5 столбцов. Тип данных в столбцах — целые и вещественные числа.

Согласно документации к данным:
- `сalls` — количество звонков,
- `minutes` — суммарная длительность звонков в минутах,
- `messages` — количество sms-сообщений,
- `mb_used` — израсходованный интернет-трафик в Мб,
- `is_ultra` — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0).

## Предобработка данных

По условиям задания предобработка данных не потребуется.

## Разделение исходных данные на выборки

Разделим исходные данные на обучающую, валидационную и тестовую выборки - выделим под обучающую 60% и по 20% на тестовую и валидационную.

Для этого сначала разделим обучающую и валидационную выборки:

In [4]:
df_train, df_valid = train_test_split(df, test_size=0.4, random_state=12345)

Таким образом, мы получили 60% обучающую выборку и 40% валидационную.
Теперь поделим валидационную выборку еще на 2 части:

In [5]:
df_valid, df_test = train_test_split(df_valid, test_size=0.5, random_state=12345)

В итоге получаем по 20% на валидационную и тестовую выборки.

In [6]:
print('Размер обучающей выборки -    ', df_train.shape)
print('Размер валидационной выборки -', df_valid.shape)
print('Размер тестовой выборки -     ', df_test.shape)

Размер обучающей выборки -     (1928, 5)
Размер валидационной выборки - (643, 5)
Размер тестовой выборки -      (643, 5)


Создаём переменные для целевого и остальных признаков, где целевой признак - столбец `is ultra`:

In [7]:
features_test = df_test.drop(['is_ultra'], axis=1)
target_test = df_test['is_ultra']

features_train = df_train.drop(['is_ultra'], axis=1)
target_train = df_train['is_ultra']

features_valid = df_valid.drop(['is_ultra'], axis=1)
target_valid = df_valid['is_ultra']

## Исследование моделей

### Модель решающего дерева

Найдём *accuracy* для модели решающего дерева, а так же оптимальную глубину дерева, при котором получится наибольшее значение accuracy:

In [8]:
best_model_tree = None
best_result = 0
best_depth = 0
for depth in range(1, 11):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)  # обучаем модель на обучающей выборке
    predictions_valid = model.predict(features_valid)
    result = accuracy_score(target_valid, predictions_valid) # считаем качество модели на валидационной выборке
    if result > best_result:
        best_model_tree = model # сохраняем лучшую модель
        best_result = result  #сохраняем лучшее значение accuracy на валидационной выборке
        best_depth = depth
print('Accuracy наилучшей модели на валидационной выборке:', best_result)
print('Оптимальная глубина дерева - ', best_depth)

Accuracy наилучшей модели на валидационной выборке: 0.7853810264385692
Оптимальная глубина дерева -  3


### Модель случайного леса

Далее найдём accuracy для модели случайного леса, а так же оптимальное количество деревьев, при котором получится наибольшее значение *accuracy*:

In [9]:
best_model_forest = None
best_result = 0
best_est = 0
for est in range(1, 160):
    model = RandomForestClassifier(random_state=12345, n_estimators=est) 
    model.fit(features_train, target_train)  # обучаем модель на обучающей выборке
    predictions_valid = model.predict(features_valid)
    result = accuracy_score(target_valid, predictions_valid)  # считаем качество модели на валидационной выборке
    if result > best_result:
        best_model_forest = model # сохраняем лучшую модель
        best_result = result  ##сохраняем лучшее значение accuracy на валидационной выборке
        best_est = est
print('Accuracy наилучшей модели на валидационной выборке:', best_result)
print('Оптимальное количество деревьев -', best_est)

Accuracy наилучшей модели на валидационной выборке: 0.7947122861586314
Оптимальное количество деревьев - 23


### Модель логистической регрессии

Наконец, найдем *accuracy* для модели логистической регрессии:

In [10]:
model_lreg = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=1000) 
model_lreg.fit(features_train, target_train)   # обучаем модель на обучающей выборке
predictions_valid = model_lreg.predict(features_valid) 
print('Accuracy модели на валидационной выборке:', accuracy_score(target_valid, predictions_valid))

Accuracy модели на валидационной выборке: 0.7107309486780715


## Проверьте модель на тестовой выборке

Найлучший результат accuracy - 0.787 показала модель случайного леса c количеством деревьев 12, её и будем использовать для проверки:

In [11]:
predictions = best_model_forest.predict(features_test)
print('Accuracy модели на тестовой выборке:', accuracy_score(target_test, predictions))

Accuracy модели на тестовой выборке: 0.7807153965785381


Результат проверки на тестовой выборке незначительно хуже, чем на валидационной.

## (бонус) Проверка модели на адекватность

Для проверки моделей их можно сравнить со случайной моделью. Для проверки моделей их можно сравнить со случайной моделью. 

Для этого возспользуемся DummyClassifier - этот классификатор служит для сравнения с другими более сложными классификаторами. (https://scikit-learn.org/stable/modules/generated/sklearn.dummy.DummyClassifier.html)


In [12]:
random_model = DummyClassifier(random_state=12345, strategy='uniform')
random_model.fit(features_train, target_train)  # обучаем модель на обучающей выборке
predictions = random_model.predict(features_test)
print('Accuracy модели на тестовой выборке:', accuracy_score(target_test, predictions))

Accuracy модели на тестовой выборке: 0.4821150855365474


Значение *accuracy* случайной модели на тестовой выборке близко к 0.5, что подтвержадет адекватность расссмотренных выше моделей.

## Вывод

Мы рассмотрели три разных модели для решения задачи:

- Модель решающего дерева, значение *accuracy* - 0.785
- Модель случайного леса, значение *accuracy* - 0.787
- Модель логистической регрессии, значение *accuracy* - 0.710

Таким образом, наиболее точной моделью является модель случайного леса.