# Проект "Рекомендация тарифов"

## Описание проекта

Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра». В нашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы. Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных уже сделана ранее. Постройте модель с максимально большим значением accuracy (не менее 0.75).

## План выполнения проекта

1. [**Откройте файл с данными и изучите его.**](#step1) Путь к файлу: <i>datasets/users_behavior.csv</i>.
1. [**Разделите исходные данные на обучающую, валидационную и тестовую выборки.**](#step2)
1. [**Исследуйте качество разных моделей, меняя гиперпараметры.**](#step3) Кратко напишите выводы исследования.
1. [**Проверьте качество модели на тестовой выборке.**](#step4)
1. [**Проверьте модели на вменяемость.**](#step5)

## Описание данных

Каждый объект в наборе данных — это информация о поведении одного пользователя за месяц.

- `calls` — количество звонков;
- `minutes` — суммарная длительность звонков в минутах;
- `messages` — количество sms-сообщений;
- `mb_used` — израсходованный интернет-трафик в Мб;
- `is_ultra` — каким тарифом пользовался в течение месяца ("Ультра" — 1, "Смарт" — 0).

## <a name="step1"></a>Шаг 1. Откройте и изучите файл с данными

Для начала сделаем импорт необходимых библиотек.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.dummy import DummyClassifier

Откроем файл с данными, запишем его в переменную `behavior`.

In [2]:
try:
    # behavior = pd.read_csv('/Users/andreykol/Desktop/yandex_projects/project_Machine_Learning_Intro/users_behavior.csv')
    behavior = pd.read_csv('datasets/users_behavior.csv')
except:
    print('Ошибка при чтении файла!')

Теперь подробнее изучим информацию в таблице.

In [3]:
print(behavior.info())
print(behavior.columns)
display(behavior.head(10))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB
None
Index(['calls', 'minutes', 'messages', 'mb_used', 'is_ultra'], dtype='object')


Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
5,58.0,344.56,21.0,15823.37,0
6,57.0,431.64,20.0,3738.9,1
7,15.0,132.4,6.0,21911.6,0
8,7.0,43.39,3.0,2538.67,1
9,90.0,665.41,38.0,17358.61,0


Как и ожидалось, предобработка была сделана заранее, пропусков в данных нет. Лишних столбцов (и дублирующихся) в таблице также нет, а все нужные — есть.

## <a name="step2"></a>Шаг 2. Разделите исходные данные на выборки

Согласно общим рекомендациям, размеры обучающей, валидационной и тестовой выборок должны быть в соотношении 3:1:1, то есть 60%, 20% и 20% соответственно. Для этого применим функцию `train_test_split` дважды: сначала отделяя тестовую выборку (20% от всей), затем отделяя валидационную (25% уже от остатка). Но перед этим поделим наши данные на признаки (это все столбцы, кроме `is_ultra`) и ответы (столбец `is_ultra`).

In [4]:
features = behavior.drop(['is_ultra'], axis=1)
target = behavior['is_ultra']

features_for_model, features_test, target_for_model, target_test = train_test_split(features, target, 
                                                                                   test_size=0.2, random_state=42)
features_train, features_valid, target_train, target_valid = train_test_split(features_for_model, target_for_model, 
                                                                             test_size=0.25, random_state=42)

print('Размер обучающей выборки:', len(features_train))
print('Размер валидационной выборки:', len(features_valid))
print('Размер тестовой выборки:', len(features_test))

Размер обучающей выборки: 1928
Размер валидационной выборки: 643
Размер тестовой выборки: 643


Судя по выведенным длинам выборок, разделение прошло корректно.

## <a name="step3"></a>Шаг 3. Исследуйте качество разных моделей

Чтобы исследовать качество разных моделей, нужно сначала определить критерий, по которому оно оценивается, а также составить список рассматриваемых далее моделей (вместе с диапазоном изменения каждого из гиперпараметров в них). Итак, нами будут исследованы следующие модели:
- дерево решений (будем варьировать гиперпараметр высоты дерева — значения от 1 до 10);
- случайный лес (меняем количество деревьев в ансамбле — от 10 до 100 с шагом в 10, а также высоту каждого дерева — от 1 до 10);
- логистическая регрессия (нет гиперпараметров для изменения).

Критерием для оценки качества моделей будет доля правильных ответов (accuracy). Для каждой модели подсчитаем accuracy на обучающей и валидационной выборке, "забыв" на время про тестовую выборку.

Начнём анализ с семейства моделей типа дерева решений.

In [5]:
best_tree_model = None
best_tree_result = 0
best_tree_depth = 0

for depth in range(1, 11):
    model = DecisionTreeClassifier(max_depth=depth, random_state=42)
    model.fit(features_train, target_train)
    result = model.score(features_valid, target_valid)
    if result > best_tree_result:
        best_tree_result = result
        best_tree_model = model
        best_tree_depth = depth
print('Лучшей моделью среди решающих деревьев является дерево с высотой {}, её accuracy на валидационной выборке равна {}.'
      .format(best_tree_depth, best_tree_result))

Лучшей моделью среди решающих деревьев является дерево с высотой 7, её accuracy на валидационной выборке равна 0.7884914463452566.


Итак, на проверочных данных мы смогли получить долю правильных ответов в 78.8%, что уже решает нашу задачу-минимум. Но мы не остановимся на этом, теперь проверим следующую группу моделей — случайные леса.

In [6]:
best_forest_model = None
best_forest_result = 0
best_forest_depth = 0
best_forest_num_est = 0

for n_est in range(10, 110, 10):
    for depth in range(1, 11):
        model = RandomForestClassifier(n_estimators=n_est, max_depth=depth, random_state=42)
        model.fit(features_train, target_train)
        result = model.score(features_valid, target_valid)
        if result > best_forest_result:
            best_forest_result = result
            best_forest_model = model
            best_forest_depth = depth
            best_forest_num_est = n_est
print('Лучшей моделью среди случайных лесов является лес с {} деревьями, каждое из которых имеет высоту {}, её accuracy на валидационной выборке равна {}.'
      .format(best_forest_num_est, best_forest_depth, best_forest_result))

Лучшей моделью среди случайных лесов является лес с 90 деревьями, каждое из которых имеет высоту 7, её accuracy на валидационной выборке равна 0.8055987558320373.


На этом этапе мы получили улучшение в целевом показателе. Теперь он составляет 80.5% для случайного леса с 90 деревьями высотой 7. Осталось проверить предсказательную способность логистической регрессии, здесь будет тестироваться ровно одна модель.

In [7]:
logreg_model = LogisticRegression()
logreg_model.fit(features_train, target_train)
print('Accuracy логистической регрессии на валидационной выборке равна {}.'
      .format(logreg_model.score(features_valid, target_valid)))

Accuracy логистической регрессии на валидационной выборке равна 0.7200622083981337.


Мы получили не самый лучший показатель по сравнению с моделями-лидерами. Но можно держать в голове, что здесь точно поменьше степень переобучения. Но всё-таки, на основе проведённых исследований, лучшей моделью мы будем считать случайный лес с 90 деревьями высотой 7.

## <a name="step4"></a>Шаг 4. Проверьте качество модели на тестовой выборке

Итак, теперь у нас есть модель-фаворит (`best_forest_model`), её качество мы и проверим на тестовой выборке, которую до сих пор никто не видел.

In [8]:
print('Accuracy лучшей модели на тестовой выборке равна {}.'
      .format(best_forest_model.score(features_test, target_test)))

Accuracy лучшей модели на тестовой выборке равна 0.8118195956454122.


Отлично, получился результат 81.1%! Это даже чуть лучше, чем на валидационной выборке. Модель ещё раз показала свою устойчивость к данным.

## <a name="step5"></a>Шаг 5. Проверьте модели на адекватность

Проверим теперь лучшие модели в каждой из групп (всего 3) на адекватность. Воспользуемся `DummyClassifier` для того, чтобы сравнить, насколько наши модели лучше предсказывают ответы, чем совсем простая модель (и лучше ли вообще?).

In [9]:
dummy_model = DummyClassifier(strategy='prior', random_state=42)
dummy_model.fit(features_train, target_train)
print('Accuracy простейшей модели на валидационной выборке равна {}.'
      .format(dummy_model.score(features_valid, target_valid)))

Accuracy простейшей модели на валидационной выборке равна 0.7013996889580093.


Получили точность 70.1%, а это значит, что наши лучшие модели предсказывают точнее и проходят проверку на адекватность.