# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## Описание данных

Каждый объект в наборе данных — это информация о поведении одного пользователя за месяц. Известно:
- сalls — количество звонков,
- minutes — суммарная длительность звонков в минутах,
- messages — количество sms-сообщений,
- mb_used — израсходованный интернет-трафик в Мб,
- is_ultra — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0).

## Ход работы

Для построения моделей разобьем данные на 3 части (обучающую (60%), валидационную (20%) и тестовую (20%)). 

Проверим следующие модели:
- Логистическая регрессия, 
- Деревья принятия решений
- Случайный лес

Выберем лучшую модель и проверим ее паботу на тестовых данных.

## Откройте и изучите файл

In [1]:
import pandas as pd
import numpy as np

from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.metrics import accuracy_score

from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier


In [2]:
df = pd.read_csv('/datasets/users_behavior.csv')

In [3]:
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


Данные предобработаны, пропуски отсутствуют, формат данных удобен для дальнейшей работы.

## Разбейте данные на выборки

Разобьем данные на 3 выборки: обучающую (60%), валидационную (20%) и тестовую (20%). 
Поскольку данные не равномерны, используем параметр stratify.

In [5]:
df_train, df_valid1 = train_test_split(df, test_size=0.4, random_state=12345, stratify=df['is_ultra'])
df_test, df_valid = train_test_split(df_valid1, test_size=0.5, random_state=12345)

Создаем переменные для признаков и целевого признака:

In [6]:
features_train = df_train.drop('is_ultra', axis=1)
features_valid = df_valid.drop('is_ultra', axis=1)
features_test = df_test.drop('is_ultra', axis=1)
target_train = df_train['is_ultra']
target_valid = df_valid['is_ultra']
target_test = df_test['is_ultra']

## Исследуйте модели

Перед нами стоит задача классификации - отнесение к типу 0 или 1.

Для выбора лушей модели исследуем следующие алгоритмы:

Линейные алгоритмы:
- Логистическая регрессия / Logistic Regression 

Нелинейный алгоритм:
- Деревья принятия решений / Decision Tree Classifier 

Ансамблиевый алгоритм:
- Случайный лес / Random Forest Classifier 

Для каждой модели определим долю правильных ответов.

#### Логистическая регрессия:

In [8]:
model = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=1000)
model.fit(features_train, target_train)
model.predict(features_valid)   
model.score(features_valid, target_valid)

0.7480559875583204

Результаты не впечатляют.

#### Дерево решений:

In [9]:
model = DecisionTreeClassifier(random_state=12345)
model.fit(features_train, target_train)
predictions_valid = model.predict(features_valid)   
mean_squared_error(target_valid, predictions_valid)
model.score(features_valid, target_valid)

0.7091757387247278

Неплохой результат. Попробуем подобрать параметры:

In [10]:
best_model = None
best_result = 0
for depth in range(1, 10):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth, criterion='entropy')
    model.fit(features_train, target_train)
    result = model.score(features_valid, target_valid)
    if result > best_result:
        best_model = model
        best_result = result
print('Модель', best_model, 'Доля верных ответов', best_result)

Модель DecisionTreeClassifier(criterion='entropy', max_depth=9, random_state=12345) Доля верных ответов 0.7978227060653188


#### Случайный лес:

In [11]:
model = RandomForestClassifier(random_state=12345, n_estimators=3, criterion='entropy')
model.fit(features_train, target_train)
predictions_valid = model.predict(features_valid)   
mean_squared_error(target_valid, predictions_valid)
model.score(features_valid, target_valid)

0.7527216174183515

Данная модель показала самые высокие результаты, попробуем улучшить их.

In [12]:
best_model = None
best_result = 0
for est in range(1,50):
    model = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=8, criterion='entropy')
    model.fit(features_train, target_train)
    result = model.score(features_valid, target_valid)
    if result > best_result:
        best_model = model
        best_result = result
print('Модель', best_model, 'Доля верных ответов', best_result)

Модель RandomForestClassifier(criterion='entropy', max_depth=8, n_estimators=5,
                       random_state=12345) Доля верных ответов 0.807153965785381


Найдена модель, которая дает лучшие результаты. Используем эту модель на тестовой выборке.

## Проверьте модель на тестовой выборке

In [13]:
model = RandomForestClassifier(random_state=12345, n_estimators=7, max_depth=8, criterion='entropy')
model.fit(features_train, target_train)
model.score(features_test, target_test)

0.80248833592535

## (бонус) Проверьте модели на адекватность

Представим, что менеджер компании дает рекомендации пользователю на основании того, как упала монетка: "Орел" - «Ультра», "Решка" — «Смарт». Напишем функцию для предсказаний:

In [14]:
import random
random_predictions = np.random.randint(low=0, high=2, size=643)
accuracy_score(target_test, random_predictions)

0.5069984447900466

Таким образом, случайный менеджер, который дает рекомендации на основании подбросанной монетки, делает это правильно примерно в 50% случаев, а обученная нами модель-в чуть более 80%.

При этом, если просто выбирать наиболее встречаемый ответ, то точность будет около 70%, наша модель все еще дает лучший результат.

В связи с этим делаем вывод об адекватности модели.

## Вывод

В ходе работы были рассмотрены 4 модели, которые позволяют делать вывод о принадлежности к определенному тарифу и давать рекомендации по тарифам для пользователей.

Лучшей моделью стал Ансамблиевый алгоритм Случайный лес/Random Forest Classifier.
Доля верных ответов на тестовой выборке составила 80,25%, что является довольно высоким результатом по сравнению с прочими моделями и случайными ответами.