# Рекомендация тарифов

Оператор мобильной связи обнаружил, что многие клиенты продолжают использовать устаревшие тарифы. Они хотят разработать систему, способную анализировать поведение клиентов и предлагать им новые тарифные планы: "Смарт" или "Ультра". В вашем распоряжении имеются данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса "Статистический анализ данных"). Вам необходимо создать модель для задачи классификации, которая будет выбирать подходящий тариф. Предварительная обработка данных не требуется, так как она уже выполнена.

**Задача:**

Построить модель для задачи классификации с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверить *accuracy* на тестовой выборке нужно самостоятельно.

**Ход работы:**
1. Открыть файл с данными и изучить его. Путь к файлу: /datasets/users_behavior.csv
2. Разделить исходные данные на обучающую, валидационную и тестовую выборки.
3. Исследовать качество разных моделей, меняя гиперпараметры. Кратко написать выводы исследования.
4. Проверить качество модели на тестовой выборке.
5. Дополнительное задание: проверить модели на вменяемость.

**Описание данных**

Каждый объект в наборе данных — это информация о поведении одного пользователя за месяц. Известно:
* сalls — количество звонков,
* minutes — суммарная длительность звонков в минутах,
* messages — количество sms-сообщений,
* mb_used — израсходованный интернет-трафик в Мб,
* is_ultra — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0).

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Откройте-и-изучите-файл" data-toc-modified-id="Откройте-и-изучите-файл-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Откройте и изучите файл</a></span></li><li><span><a href="#Разбейте-данные-на-выборки" data-toc-modified-id="Разбейте-данные-на-выборки-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Разбейте данные на выборки</a></span></li><li><span><a href="#Исследуйте-модели" data-toc-modified-id="Исследуйте-модели-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Исследуйте модели</a></span><ul class="toc-item"><li><span><a href="#Дерево-решений-(DecisionTreeClassifier)" data-toc-modified-id="Дерево-решений-(DecisionTreeClassifier)-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Дерево решений (DecisionTreeClassifier)</a></span></li><li><span><a href="#Случайный-лес-(RandomForest)" data-toc-modified-id="Случайный-лес-(RandomForest)-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Случайный лес (RandomForest)</a></span></li><li><span><a href="#Логистическая-регрессия-(LogisticRegression)" data-toc-modified-id="Логистическая-регрессия-(LogisticRegression)-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Логистическая регрессия (LogisticRegression)</a></span></li></ul></li><li><span><a href="#Проверьте-модель-на-тестовой-выборке" data-toc-modified-id="Проверьте-модель-на-тестовой-выборке-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверьте модель на тестовой выборке</a></span></li><li><span><a href="#Проверьте-модели-на-адекватность" data-toc-modified-id="Проверьте-модели-на-адекватность-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Проверьте модели на адекватность</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Вывод</a></span></li><li><span><a href="#Чек-лист-готовности-проекта" data-toc-modified-id="Чек-лист-готовности-проекта-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Чек-лист готовности проекта</a></span></li><li><span><a href="#Общий-вывод-по-проекту" data-toc-modified-id="Общий-вывод-по-проекту-8"><span class="toc-item-num">8&nbsp;&nbsp;</span><b>Общий вывод по проекту</b></a></span></li><li><span><a href="#Общий-вывод-по-проекту-В2" data-toc-modified-id="Общий-вывод-по-проекту-В2-9"><span class="toc-item-num">9&nbsp;&nbsp;</span><b>Общий вывод по проекту В2</b></a></span></li></ul></div>

****
## Откройте и изучите файл

In [1]:
import pandas as pd
import time
from sklearn.ensemble import RandomForestClassifier
from sklearn.dummy import DummyClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split 
from sklearn.tree import DecisionTreeClassifier

In [2]:
df = pd.read_csv('/datasets/users_behavior.csv')

In [3]:
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [5]:
df.duplicated().sum()

0

In [6]:
df.describe()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


**Вывод:** в нашем распоряжении уже предобработанные данные о поведении пользователей тарифов "Смарт" и "Ультра" объемом 3214 строк. В них имеется информация о звонках, сообщениях, использованном траффике и тарифе пользователя. Столбец *is_ultra*, тариф пользователя, будет являться для нашей модели целевым признаком. Он является категориальным, соответсвенно будем решать задачу классификации.

****
## Разбейте данные на выборки

Так как спрятанной тестовой выборки нет, то данные нам нужно разбить на три части: обучающую, валидационную и тестовую. Разобъем имеющиеся данные по общепринятому сценарию в пропорциях 3:1:1.

In [7]:
df_train, df_nottrain = train_test_split(df, test_size=0.4, random_state=123)

In [8]:
df_valid, df_test = train_test_split(df_nottrain, test_size = 0.5, random_state=123)

In [9]:
len(df) * 0.6

1928.3999999999999

In [10]:
len(df) * 0.2

642.8000000000001

In [11]:
print(df_train.shape)
print(df_valid.shape)
print(df_test.shape)

(1928, 5)
(643, 5)
(643, 5)


In [12]:
features_train = df_train.drop('is_ultra', axis=1)
target_train = df_train['is_ultra']

In [13]:
features_valid = df_valid.drop('is_ultra', axis=1)
target_valid = df_valid['is_ultra']

In [14]:
features_test = df_test.drop('is_ultra', axis=1)
target_test = df_test['is_ultra']

**Вывод:** на данном шаге разделили измеющиеся данные на обучающую, валидационную и тестовую выборку в пропорциях 60% к 20% к 20% соответственно, а затем полученные выборки - на признаки и целевой признак. На обучающей в дальнейшем обучим модель, по валидационной будем выбирать значение гиперпараметров, по тестовой оценим готовую модель. 

****
## Исследуйте модели

Рассмотрим три алгоритма: деревье решений, случайный лес и логистическая регрессия.

### Дерево решений (DecisionTreeClassifier)
Для дерева решений рассмотрим изменение следующих параметров: criterion (критерий, по которому определяется новый признак при ветвлении), max_depth (максимальная глубина дерева), и min_samples_leaf (минимальное количество объектов в листе - нижнем узле дерева).

In [15]:
best_model_tree = None
best_result = 0

for depth in range(1, 20):
    for crit in ['gini', 'entropy']:
        for leafs in range(1, 10):
            start = time.perf_counter()
            model = DecisionTreeClassifier(criterion=crit, max_depth=depth, min_samples_leaf=leafs, random_state=12345)
            model.fit(features_train, target_train)
            predictions = model.predict(features_valid)
            end = time.perf_counter()
            result = accuracy_score(target_valid, predictions) # посчитаем качество модели на валидационной выборке
            if result > best_result:
                best_model_tree = model # сохраним наилучшую модель
                best_result = result
                best_depth = depth
                best_crit = crit
                best_leafs = leafs
                best_time = end - start
                    
print(f'Лучший результат: {best_result} с глубиной {best_depth}, критерием {best_crit} и минимальным количеством объектов в листе {best_leafs}.')
print(f'Времени затрачено на обучение лучшей модели: {best_time}')

Лучший результат: 0.8289269051321928 с глубиной 11, критерием entropy и минимальным количеством объектов в листе 5.
Времени затрачено на обучение лучшей модели: 0.010110527276992798


### Случайный лес (RandomForest)
Для леса будем изменять будем следующие три параметра: n_estimators (количество деревьев в лесу), criterion (критерий, по которому определяется новый признак при ветвлении), max_depth (глубина дерева). 

In [16]:
best_model_forest = None
best_result = 0

for depth in range(3, 20, 2):
    for crit in ['gini', 'entropy']:
        for est in range(5, 50):
            start = time.perf_counter()
            model = RandomForestClassifier(n_estimators=est, criterion=crit, max_depth=depth, random_state=12345)
            model.fit(features_train, target_train)
            predictions = model.predict(features_valid)
            end = time.perf_counter()
            result = accuracy_score(target_valid, predictions) # посчитаем качество модели на валидационной выборке
            if result > best_result:
                best_model_forest = model # сохраним наилучшую модель
                best_result = result
                best_depth = depth
                best_crit = crit
                best_est = est
                best_time = end - start
                    
print(f'Лучший результат: {best_result} с количеством деревьев {best_est}, их глубиной {best_depth} и критерием {best_crit}.')
print(f'Времени затрачено на обучение лучшей модели: {best_time}')

Лучший результат: 0.8367029548989113 с количеством деревьев 31, их глубиной 9 и критерием gini.
Времени затрачено на обучение лучшей модели: 0.10013682767748833


### Логистическая регрессия (LogisticRegression)
Для логистической регрессии рассмотрим значения параметров solver (позволяет выбрать алгоритм, который будет строить модель) и  max_iter (задаётся максимальное количество итераций обучения). 

In [17]:
best_model_log = None
best_result = 0

for iters in range(100, 3000, 500):
    for sol in ['lbfgs', 'liblinear', 'newton-cg']:
        start = time.perf_counter()
        model = LogisticRegression(random_state=12345, solver=sol, max_iter=1000)
        model.fit(features_train, target_train)
        predictions = model.predict(features_valid)
        end = time.perf_counter()
        result = accuracy_score(target_valid, predictions) # посчитаем качество модели на валидационной выборке
        if result > best_result:
            best_model_log = model # сохраним наилучшую модель
            best_result = result
            best_solver = sol
            best_iters = iters
            best_time = end - start
                    
print(f'Лучший результат: {best_result} на алгоритме {best_solver} с количеством итераций для обучения {best_iters}.')
print(f'Времени затрачено на обучение лучшей модели: {best_time}')

Лучший результат: 0.7589424572317263 на алгоритме lbfgs с количеством итераций для обучения 100.
Времени затрачено на обучение лучшей модели: 0.030219383537769318


**Вывод**: на валидационной выборке наилучший результат вышел при применении случайного леса - 83,7% точности. Изменение параметром позволяет добиться большей точности.

****
## Проверьте модель на тестовой выборке

In [18]:
predictions = best_model_tree.predict(features_test)
print('Точность дерева решений на тестовой выборке:', accuracy_score(target_test, predictions))

Точность дерева решений на тестовой выборке: 0.7853810264385692


In [19]:
predictions = best_model_forest.predict(features_test)
print('Точность случайного леса на тестовой выборке:', accuracy_score(target_test, predictions))

Точность случайного леса на тестовой выборке: 0.7822706065318819


In [20]:
predictions = best_model_log.predict(features_test)
print('Точность логистической регрессии на тестовой выборке:', accuracy_score(target_test, predictions))

Точность логистической регрессии на тестовой выборке: 0.7309486780715396


**Вывод:** наибольшую точность на тестовой выборке показала модель на основе деревья решений с глубиной 11, критерием entropy и минимальным количеством объектов в листе 5. Модель на случайном лесе, показавшая лучшие результаты на валидационной выборке справилась чуть хуже (0,003%), но так как она работает медленнее, победителем в данном случае однозначно становится дерево решений.

****
## Проверьте модели на адекватность

Для проверки адекватности моделей воспользуемся DummyClassifier, который игнорирует значение входных параметров .

In [21]:
dummy_model = DummyClassifier(strategy='most_frequent', random_state=12345) 
dummy_model.fit(features_train, target_train)
dummy_predictions = dummy_model.predict(features_test)
print('Точность DummyClassifier на тестовой выборке:', accuracy_score(target_test, dummy_predictions))

Точность DummyClassifier на тестовой выборке: 0.6936236391912908


**Вывод**: полученные модели показывают точность выше, чем DummyClassifier, а значит, успешно выявляет какие-то взаимосвязи в данных и делает предсказания не случайным образом.

****
## Вывод
Целью проекта было построить модель для задачи классификации, способную проанализировать поведение клиентов и предложить пользователям подходящий новый тариф. В ходе работы были использованы данные о поведении клиентов, которые уже перешли на эти тарифы, объемом около 3х тысяч строк. <br>
Были исследованы модели на основе следующих алгоритмов: дерево решений, случайный лес и логистическая регрессия. <br>
Наилучший результат на тестовых данных показала модель на основе деревья решений с глубиной 11, критерием ветвления entropy и минимальным количеством объектов в листе 5 - ее точность составила 78,5%.