# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## Откройте и изучите файл

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

In [2]:
tariffs = pd.read_csv('/datasets/users_behavior.csv')
tariffs.head(10)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
5,58.0,344.56,21.0,15823.37,0
6,57.0,431.64,20.0,3738.9,1
7,15.0,132.4,6.0,21911.6,0
8,7.0,43.39,3.0,2538.67,1
9,90.0,665.41,38.0,17358.61,0


In [3]:
tariffs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


## Разбейте данные на выборки

In [4]:
# train, valid, test
tariffs_train, tariffs_valid = train_test_split(tariffs, test_size=0.2, random_state=12345)
tariffs_train, tariffs_test = train_test_split(tariffs_train, test_size=0.25, random_state=12345)

In [5]:
len(tariffs_train)

1928

In [6]:
len(tariffs_valid)

643

In [7]:
len(tariffs_test)

643

In [8]:
# train
features_train = tariffs_train.drop(['is_ultra'], axis=1)
target_train = tariffs_train['is_ultra']

In [9]:
# valid
features_valid = tariffs_valid.drop(['is_ultra'], axis=1)
target_valid = tariffs_valid['is_ultra']

In [10]:
# test
features_test = tariffs_test.drop(['is_ultra'], axis=1)
target_test = tariffs_test['is_ultra']

## Исследуйте модели

In [11]:
# tree classifier
best_model_tree = None
best_result = 0
best_depth = 0

for depth in range(1, 11):
    model_tree = DecisionTreeClassifier(max_depth=depth, random_state=12345)
    model_tree.fit(features_train, target_train)
    
    result = model_tree.score(features_valid, target_valid)
    
    if result > best_result:
        best_model_tree = model_tree
        best_result = result
        best_depth = depth

In [12]:
print(best_model_tree)
print(best_result)
print(best_depth)

DecisionTreeClassifier(max_depth=5, random_state=12345)
0.7884914463452566
5


In [13]:
# random forest classifier
best_model_forest = None
best_result = 0
best_est = 0

for est in range(1, 21):
    model_forest = RandomForestClassifier(n_estimators=est, random_state=12345)
    model_forest.fit(features_train, target_train)
    
    result = model_forest.score(features_valid, target_valid)
    
    if result > best_result:
        best_model_forest = model_forest
        best_result = result
        best_est = est

In [14]:
print(best_model_forest)
print(best_result)
print(best_est)

RandomForestClassifier(n_estimators=13, random_state=12345)
0.7916018662519441
13


In [15]:
# logistic regression
best_model_logistic = None
best_result = 0
best_coef = 0

for coef in np.arange(1.0, 11.0):
    model_logistic = LogisticRegression(C=coef, solver='lbfgs', max_iter=1000, random_state=12345)
    model_logistic.fit(features_train, target_train)
    
    result = model_logistic.score(features_valid, target_valid)
    
    if result > best_result:
        best_model_logistic = model_logistic
        best_result = result
        best_coef = coef

In [16]:
print(best_model_logistic)
print(best_result)
print(best_coef)

LogisticRegression(max_iter=1000, random_state=12345)
0.7589424572317263
1.0


In [17]:
best_model = None
best_result = 0
best_coef = 0

for coef in np.arange(1.0, 11.0):
    model_logistic = LogisticRegression(C=coef, solver='liblinear', max_iter=1000, random_state=12345)
    model_logistic.fit(features_train, target_train)
    
    result = model_logistic.score(features_valid, target_valid)
    
    if result > best_result:
        best_model = model_logistic
        best_result = result
        best_coef = coef

In [18]:
print(best_model)
print(best_result)
print(best_coef)

LogisticRegression(C=9.0, max_iter=1000, random_state=12345, solver='liblinear')
0.7542768273716952
9.0


In [19]:
best_model = None
best_result = 0
best_coef = 0

for coef in np.arange(1.0, 11.0):
    model_logistic = LogisticRegression(C=coef, solver='liblinear', class_weight='balanced', max_iter=1000, random_state=12345)
    model_logistic.fit(features_train, target_train)
    
    result = model_logistic.score(features_valid, target_valid)
    
    if result > best_result:
        best_model = model_logistic
        best_result = result
        best_coef = coef

In [20]:
print(best_model)
print(best_result)
print(best_coef)

LogisticRegression(C=5.0, class_weight='balanced', max_iter=1000,
                   random_state=12345, solver='liblinear')
0.6236391912908242
5.0


**Вывод:**
- Для решающего дерева наилучшего accuracy удалось добиться при параметре `max_depth` равном 5.
- Случайный лес выдает наилучший результат при `n_estimators` = 13.
- Логистическая регрессия - при коэффициенте регуляризации `C` = 1.

- Также для логистической регрессии рассмотрели параметр `solver`. Изменение параметра не улучшает качество модели.
- При изменении параметра `class_weight` логистической регрессии качество модели ухудшается.

## Проверьте модель на тестовой выборке

In [21]:
# tree classifier
result = best_model_tree.score(features_test, target_test)
result

0.7589424572317263

In [22]:
# random forest classifier
result = best_model_forest.score(features_test, target_test)
result

0.7776049766718507

In [23]:
# logistic regression
result = best_model_logistic.score(features_test, target_test)
result

0.7262830482115086

## (бонус) Проверьте модели на адекватность

In [24]:
tariffs['is_ultra'].value_counts() / len(tariffs)

0    0.693528
1    0.306472
Name: is_ultra, dtype: float64

Чтобы проверить модель на адекватность, можно посмотреть, какие доли занимают значения целевого признака (`is_ultra`). Значение наибольшей доли будет минимальной границей для модели, на которую можно ориентироваться. В нашем случае - это 0.69, следовательно значение `accuracy` для моделей не должно быть меньше него.