# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## 1. Откройте и изучите файл

In [1]:
import pandas as pd

In [2]:
user_data = pd.read_csv('C:/Users/user/Desktop/Jupyter/ML-project1/datasets/users_behavior.csv')

In [3]:
user_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
calls       3214 non-null float64
minutes     3214 non-null float64
messages    3214 non-null float64
mb_used     3214 non-null float64
is_ultra    3214 non-null int64
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


## 2. Разбейте данные на выборки

Перед нами задача разделить выборку на обучающую, валидационную и тестовую.  
Для начала разделить выборку на две: обучающую(60%) и тестовую(40%), затем тестовую поделить пополам на тестовую(20%) и валидационную(20%).

In [4]:
from sklearn.model_selection import train_test_split

In [5]:
user_data_train, user_data_test = train_test_split(user_data, test_size=0.4, random_state=12345)

In [6]:
user_data_test, user_data_valid = train_test_split(user_data_test, test_size=0.5, random_state=12345)

In [7]:
user_data_train

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
3027,60.0,431.56,26.0,14751.26,0
434,33.0,265.17,59.0,17398.02,0
1226,52.0,341.83,68.0,15462.38,0
1054,42.0,226.18,21.0,13243.48,0
1842,30.0,198.42,0.0,8189.53,0
...,...,...,...,...,...
2817,12.0,86.62,22.0,36628.85,1
546,65.0,458.46,0.0,15214.25,1
382,144.0,906.18,0.0,25002.44,1
2177,38.0,301.27,37.0,28914.24,1


In [8]:
user_data_test

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
1386,92.0,536.96,18.0,20193.90,0
3124,40.0,286.57,17.0,17918.75,0
1956,81.0,531.22,56.0,17755.06,0
2286,67.0,460.76,27.0,16626.26,0
3077,22.0,120.09,16.0,9039.57,0
...,...,...,...,...,...
1999,56.0,398.45,4.0,23682.94,0
1023,76.0,601.10,0.0,17104.36,0
748,81.0,525.97,15.0,18878.91,0
1667,10.0,63.03,0.0,2568.00,1


In [9]:
user_data_valid

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
160,61.0,495.11,8.0,10891.23,0
2498,80.0,555.04,28.0,28083.58,0
1748,87.0,697.23,0.0,8335.70,0
1816,41.0,275.80,9.0,10032.39,0
1077,60.0,428.49,20.0,29389.52,1
...,...,...,...,...,...
2401,55.0,446.06,79.0,26526.28,0
2928,102.0,742.65,58.0,16089.24,1
1985,52.0,349.94,42.0,12150.72,0
357,39.0,221.18,59.0,17865.23,0


## 3. Исследуйте модели

Исходя из задания, целевым признаком у нас является тариф.

In [10]:
train_target = user_data_train['is_ultra']

In [11]:
train_features = user_data_train.drop(['is_ultra'], axis=1)

#### Дерево решений

In [12]:
from sklearn.tree import DecisionTreeClassifier

In [13]:
valid_target = user_data_valid['is_ultra']

In [14]:
valid_features = user_data_valid.drop(['is_ultra'], axis=1)

In [15]:
test_target = user_data_test['is_ultra']

In [16]:
test_features = user_data_test.drop(['is_ultra'], axis=1)

Подберем гиперпарамерты.

In [17]:
from sklearn.metrics import accuracy_score

In [18]:
for depth in range(2, 11):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(train_features, train_target)
    valid_prediction = model.predict(valid_features)
    print("max_depth =", depth, ": ", end='')
    print(accuracy_score(valid_target, valid_prediction))

max_depth = 2 : 0.7744945567651633
max_depth = 3 : 0.7791601866251944
max_depth = 4 : 0.7744945567651633
max_depth = 5 : 0.7838258164852255
max_depth = 6 : 0.776049766718507
max_depth = 7 : 0.7993779160186625
max_depth = 8 : 0.7931570762052877
max_depth = 9 : 0.7807153965785381
max_depth = 10 : 0.7884914463452566


In [19]:
for samples in range(2, 11):
    model = DecisionTreeClassifier(random_state=12345, max_depth=7, min_samples_leaf = samples)
    model.fit(train_features, train_target)
    valid_prediction = model.predict(valid_features)
    print("min_samples_leaf =", samples, ": ", end='')
    print(accuracy_score(valid_target, valid_prediction))

min_samples_leaf = 2 : 0.7916018662519441
min_samples_leaf = 3 : 0.8009331259720062
min_samples_leaf = 4 : 0.7993779160186625
min_samples_leaf = 5 : 0.7978227060653188
min_samples_leaf = 6 : 0.7947122861586314
min_samples_leaf = 7 : 0.7947122861586314
min_samples_leaf = 8 : 0.7884914463452566
min_samples_leaf = 9 : 0.7884914463452566
min_samples_leaf = 10 : 0.7884914463452566


In [69]:
model_des_tree = DecisionTreeClassifier(random_state=12345, max_depth=7, min_samples_leaf =3)

In [70]:
model_des_tree.fit(train_features, train_target)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=7,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=3, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=12345, splitter='best')

In [71]:
train_pred_des_tree = model_des_tree.predict(train_features)

In [72]:
valid_pred_des_tree = model_des_tree.predict(valid_features)

In [73]:
print('Accuracy')
print('Обучающая выборка:', accuracy_score(train_target, train_pred_des_tree))
print('Валидационная выборка:', accuracy_score(valid_target, valid_pred_des_tree))

Accuracy
Обучающая выборка: 0.8506224066390041
Валидационная выборка: 0.8009331259720062


При обучении модели случайный лес на гиперпараметрах random_state=12345, max_depth=7, min_samples_leaf =3, подобранных вручную, получили следующие результаты:  
Доля правильных ответов на обучающей выборке - 85%  
Доля правильных ответов на валидационной выборке - 80,1%.  
Такую разницу в долях правильных ответов можно объяснить тем, что модель переобучена, но тем не менее, именно на таких гиперпарметрах accuracy на валидационной выборке самая высокая. 

#### Случайный лес.

In [25]:
from sklearn.ensemble import RandomForestClassifier

In [26]:
for estim in range(1, 51, 5):
    model = RandomForestClassifier(random_state=12345, max_depth=7, n_estimators=estim)
    model.fit(train_features, train_target)
    valid_prediction = model.predict(valid_features)
    print("n_estimators =", estim, ": ", end='')
    print(accuracy_score(valid_target, valid_prediction))

n_estimators = 1 : 0.7667185069984448
n_estimators = 6 : 0.7993779160186625
n_estimators = 11 : 0.7978227060653188
n_estimators = 16 : 0.8040435458786936
n_estimators = 21 : 0.7978227060653188
n_estimators = 26 : 0.80248833592535
n_estimators = 31 : 0.8040435458786936
n_estimators = 36 : 0.8040435458786936
n_estimators = 41 : 0.80248833592535
n_estimators = 46 : 0.80248833592535


In [27]:
for samples in range(2, 11):
    model = RandomForestClassifier(random_state=12345, max_depth=7, min_samples_leaf = samples, n_estimators=16)
    model.fit(train_features, train_target)
    valid_prediction = model.predict(valid_features)
    print("min_samples_leaf =", samples, ": ", end='')
    print(accuracy_score(valid_target, valid_prediction))

min_samples_leaf = 2 : 0.7978227060653188
min_samples_leaf = 3 : 0.7947122861586314
min_samples_leaf = 4 : 0.80248833592535
min_samples_leaf = 5 : 0.8040435458786936
min_samples_leaf = 6 : 0.7962674961119751
min_samples_leaf = 7 : 0.7993779160186625
min_samples_leaf = 8 : 0.7900466562986003
min_samples_leaf = 9 : 0.7978227060653188
min_samples_leaf = 10 : 0.7962674961119751


Оптимальные гиперпараметры для модели "случайный лес": random_state=12345, max_depth=7, min_samples_leaf = 4, n_estimators=16

In [28]:
model_ranfor = RandomForestClassifier(random_state=12345, max_depth=7, min_samples_leaf = 4, n_estimators=16)

In [29]:
model_ranfor.fit(train_features, train_target)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=7, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=4, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=16,
                       n_jobs=None, oob_score=False, random_state=12345,
                       verbose=0, warm_start=False)

In [30]:
train_pred_ranfor = model_ranfor.predict(train_features)

In [31]:
valid_pred_ranfor = model_ranfor.predict(valid_features)

In [32]:
print('Accuracy')
print('Обучающая выборка:', accuracy_score(train_target, train_pred_ranfor))
print('Валидационная выборка:', accuracy_score(valid_target, valid_pred_ranfor))

Accuracy
Обучающая выборка: 0.8443983402489627
Валидационная выборка: 0.80248833592535


При подобранных следующих гиперпараметрах модели "случайный лес", получены следующие результаты:  
Доля правильных ответов на обучающей выборке: 84,4%  
Доля правильных ответов на валидационной выборке: 80,2%  
В данном случае модель тоже можно считать переобученной, однако, показатели accuracy лучше, чем в модели "дерево решений". 

#### Логистическая регрессия

In [33]:
from sklearn.linear_model import LogisticRegression

In [34]:
log_regr_model = LogisticRegression(random_state=12345, solver='lbfgs', C= 0.5)

In [35]:
log_regr_model.fit(train_features, train_target)

LogisticRegression(C=0.5, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=12345, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [36]:
train_pred_logregr = log_regr_model.predict(train_features)

In [37]:
valid_pred_logregr = log_regr_model.predict(valid_features)

In [38]:
print('Accuracy')
print('Обучающая выборка:', accuracy_score(train_target, train_pred_logregr))
print('Валидационная выборка:', accuracy_score(valid_target, valid_pred_logregr))

Accuracy
Обучающая выборка: 0.7531120331950207
Валидационная выборка: 0.7387247278382582


При заданных гиперпараметрах модели, получили следующие результаты:  
Доля правильных ответов на обучающей выборке: 75,3%  
Доля правильных ответов на валидационной выборке: 73,8%
Линейные модели переобучить сложно, поэтому разница в accuracy на обучающей и валидационной выборке всего 1,5%.

## 4. Проверьте модель на тестовой выборке

#### Дерево решений

In [39]:
test_pred_des_tree = model_des_tree.predict(test_features)

In [40]:
test_pred_ranfor = model_ranfor.predict(test_features)

In [41]:
test_pred_logregr = log_regr_model.predict(test_features)

In [42]:
print('Accuracy')
print('Доля правильных ответов на тестовой выборке, модель "дерево решений":', accuracy_score(test_target, test_pred_des_tree))
print('Доля правильных ответов на тестовой выборке, модель "случайный лес":', accuracy_score(test_target, test_pred_ranfor))
print('Доля правильных ответов на тестовой выборке, модель "логистическая регрессия":', accuracy_score(test_target, test_pred_des_tree))

Accuracy
Доля правильных ответов на тестовой выборке, модель "дерево решений": 0.7791601866251944
Доля правильных ответов на тестовой выборке, модель "случайный лес": 0.7947122861586314
Доля правильных ответов на тестовой выборке, модель "логистическая регрессия": 0.7791601866251944


#### Вывод. 
Модель "дерево решений" показывает acuracy меньше, чем на валидационной выборке. Это говорит о том, что переобучить ее довольно легко.  
Модель "случайный лес" показала хорошие результаты, поскольку accuracy между валидационной и тестовой выборками практически одинаковая.  
"Логистическая регрессия" показала на тестовой выборке большую результативность, чем на валидационной, но разница небольшая.  
Самая высокая доля правильных ответов у модели "случайный лес".

## 5. (бонус) Проверьте модели на адекватность

Для оценки вменяемости модели построим модель линейной классификации и сравним долю правильных ответов.

In [46]:
from sklearn.linear_model import RidgeClassifier

In [53]:
model = RidgeClassifier(random_state=12345)

In [54]:
model.fit(train_features, train_target)

RidgeClassifier(alpha=1.0, class_weight=None, copy_X=True, fit_intercept=True,
                max_iter=None, normalize=False, random_state=12345,
                solver='auto', tol=0.001)

In [55]:
train_lin_model = model.predict(train_features)

In [56]:
valid_lin_model = model.predict(valid_features)

In [57]:
test_lin_model = model.predict(test_features)

In [58]:
print('Accuracy')
print('Обучающая выборка:', accuracy_score(train_target, train_lin_model))
print('Валидационная выборка:', accuracy_score(valid_target, valid_lin_model))
print('Тестовая выборка:', accuracy_score(test_target, test_lin_model))

Accuracy
Обучающая выборка: 0.7494813278008299
Валидационная выборка: 0.7402799377916018
Тестовая выборка: 0.7573872472783826


Согласно вышеуказаннм результатам, адекватной можно назвать модель, у которой доля правильных ответов на тестовой выборке будет выше 75%.   
Таким образом, все три изученные модели являются адкватными.

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x] Jupyter Notebook открыт
- [x] Весь код исполняется без ошибок
- [x] Ячейки с кодом расположены в порядке исполнения
- [x] Выполнено задание 1: данные загружены и изучены
- [x] Выполнено задание 2: данные разбиты на три выборки
- [x] Выполнено задание 3: проведено исследование моделей
    - [x] Рассмотрено больше одной модели
    - [x] Рассмотрено хотя бы 3 значения гипепараметров для какой-нибудь модели
    - [x] Написаны выводы по результатам исследования
- [x] Выполнено задание 3: Проведено тестирование
- [x] Удалось достичь accuracy не меньше 0.75