# Рекомендация тарифов

В нашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — мы её уже сделали.

Необходимо построить модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Необходимо проверить *accuracy* на тестовой выборке самостоятельно.

## Откройте и изучите файл

In [1]:
import pandas as pd
import numpy as np

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.metrics import accuracy_score

Загрузим необходимые библиотеки и структуры данных

In [2]:
df = pd.read_csv('/datasets/users_behavior.csv')

Откроем файл с данными

In [3]:
print(df.shape)
print(df.head(5))

(3214, 5)
   calls  minutes  messages   mb_used  is_ultra
0   40.0   311.90      83.0  19915.42         0
1   85.0   516.75      56.0  22696.96         0
2   77.0   467.66      86.0  21060.45         0
3  106.0   745.53      81.0   8437.39         1
4   66.0   418.74       1.0  14502.75         0


Изучим датафрейм.

## Разбейте данные на выборки

In [4]:
df_train, df_other = train_test_split(df, test_size=0.40, random_state=12345)


Создадим тренировочную выборку.

In [5]:
df_test, df_valid = train_test_split(df_other, test_size=0.50, random_state=12345)

Создадим тестовую и валидационную выборки.

In [6]:
print(df_train.shape)
print(df_valid.shape)
print(df_test.shape)

(1928, 5)
(643, 5)
(643, 5)


Проверим выборки. Учитывая, что у нас признак категориальный(бинарный, пользование тарифтм либо "Ультра" либо "Смарт" речь идет о бинарной классификации) будем исследовать три соответствующие модели(решающее дерево, случайный лес и логистическая регрессия).

## Исследуйте модели

In [7]:
features_train = df_train.drop(['is_ultra'], axis=1)
target_train = df_train['is_ultra']

Запишем признаки и целевые признаки обучающей выборки.

In [8]:
features_valid = df_valid.drop(['is_ultra'], axis=1)
target_valid = df_valid['is_ultra']

Запишем признаки и целевые признаки валидационной выборки.

In [10]:
for depth in range(1, 6):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)

    predictions_valid = model.predict(features_valid) 
    print("max_depth =", depth, ": ", end='')
    print(accuracy_score(target_valid, predictions_valid))
   

max_depth = 1 : 0.7356143079315708
max_depth = 2 : 0.7744945567651633
max_depth = 3 : 0.7791601866251944
max_depth = 4 : 0.7744945567651633
max_depth = 5 : 0.7838258164852255


Исследуем первую модель (дерево решений). Лучший показатель Accuracy при глубине дерева 5 и составляет 0.7838258164852255.

In [11]:
best_model = None
best_result = 0
for est in range(1, 11):
    model = RandomForestClassifier(random_state=12345, n_estimators=est) 
    model.fit(features_train, target_train) 
    result = model.score(features_valid, target_valid) 
    if result > best_result:
        best_model = model 
        best_result = result 

In [12]:
print("Accuracy лучшей модели:", best_result)

Accuracy лучшей модели: 0.7869362363919129


Исследуем вторую модель (случайный лес). Лучший показатель Accuracy составляет 0.7869362363919129.

In [13]:
model = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=1000) 

In [14]:
model.fit(features_train, target_train)

LogisticRegression(max_iter=1000, random_state=12345)

In [15]:
model.predict(features_valid)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

In [16]:
model.score(features_valid, target_valid)

0.6842923794712286

Исследуем третью модель (логистическая регрессия). Показатель Accuracy составляет 0.6842923794712286.

По результатам видим, что самый лучший показатель accuracy у модели "случайный лес", а самый худший у "логистической регрессии", Что логично. Возьмем модель "случайный лес".

## Проверьте модель на тестовой выборке

In [19]:
features_test = df_test.drop(['is_ultra'], axis=1)
target_test = df_test['is_ultra']

In [20]:
best_model = None
best_result = 0
for est in range(1, 11):
    model = RandomForestClassifier(random_state=12345, n_estimators=est) 
    model.fit(features_train, target_train) 
    result = model.score(features_test, target_test) 
    if result > best_result:
        best_model = model 
        best_result = result 

In [21]:
print("Accuracy лучшей модели:", best_result)

Accuracy лучшей модели: 0.7853810264385692


Проверили выбранную модель на тестовой выборке получили значение 0.7853810264385692 у модели было значение 0.7869362363919129. Различие незначительное. Значение тестовой выборки немного меньше. 

## (бонус) Проверьте модели на адекватность

In [22]:
random_answers = np.random.randint(0, 2, size=643)

In [25]:
accuracy_random_test = accuracy_score(target_test, random_answers)
accuracy_random_test

0.4976671850699845

Сравнили модель со случайной (проверили на адекватность). По итгам проверки видим, что качество ответов выбранной модели достаточно высокое.