# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## Откройте и изучите файл

In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

df = pd.read_csv('datasets/users_behavior.csv')
print(df.head(5))

   calls  minutes  messages   mb_used  is_ultra
0   40.0   311.90      83.0  19915.42         0
1   85.0   516.75      56.0  22696.96         0
2   77.0   467.66      86.0  21060.45         0
3  106.0   745.53      81.0   8437.39         1
4   66.0   418.74       1.0  14502.75         0


## Разбейте данные на выборки

In [7]:
features = df.drop(['is_ultra'], axis=1)
target = df['is_ultra']
features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.25, random_state=12345
)#Отделили 25% под валидацию

## Исследуйте модели

In [13]:
#Создадим модель дерева решений, и проверим наилучшую точность на разных глубинах дерева
best_depth_decision = 0
best_result_decision = 0
for depth in range(1,6):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)
    result = accuracy_score(target_valid, predictions_valid)
    if (result > best_result_decision):
        best_result_decision = result
        best_depth_decision = depth
print("Accuracy наилучшей модели на валидационной выборке:", best_result_decision)

Accuracy наилучшей модели на валидационной выборке: 0.7885572139303483


In [27]:
#Создадим модель случайного леса и найдём наилучшую точность
best_result_forest = 0
for est in range(1,11):
    model = RandomForestClassifier(random_state=12345, n_estimators=est)
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)
    result = model.score(features_valid, target_valid)
    if (result > best_result_forest):
        best_result_forest = result
print("Accuracy наилучшей модели на валидационной выборке: ", best_result_forest)

Accuracy наилучшей модели на валидационной выборке:  0.7898009950248757


In [28]:
#Создадим модель логистической регрессии и найдём наилучшую точность
best_result_logistic = 0
for i in range(100, 1000, 100):
    model = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=i)
    model.fit(features_train, target_train)
    result = model.score(features_valid, target_valid)
    if(result > best_result_logistic):
        best_result_logistic = result
print("Accuracy наилучшей модели на валидационной выборке: ", best_result_logistic)

Accuracy наилучшей модели на валидационной выборке:  0.7599502487562189


## Проверьте модель на тестовой выборке

## (бонус) Проверьте модели на адекватность

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x] Jupyter Notebook открыт
- [ ] Весь код исполняется без ошибок
- [ ] Ячейки с кодом расположены в порядке исполнения
- [ ] Выполнено задание 1: данные загружены и изучены
- [ ] Выполнено задание 2: данные разбиты на три выборки
- [ ] Выполнено задание 3: проведено исследование моделей
    - [ ] Рассмотрено больше одной модели
    - [ ] Рассмотрено хотя бы 3 значения гипепараметров для какой-нибудь модели
    - [ ] Написаны выводы по результатам исследования
- [ ] Выполнено задание 3: Проведено тестирование
- [ ] Удалось достичь accuracy не меньше 0.75
