# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## Откройте и изучите файл

In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split 
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.dummy import DummyClassifier
from sklearn.metrics import accuracy_score

<img src="https://emojigraph.org/media/apple/check-mark-button_2705.png" align=left width=33, heigth=33>
<div class="alert alert-success">
Отлично, все нужные библиотеки импортированы в начале ноутбука.Это хорошая практика.</div>

In [7]:
try:
    df = pd.read_csv('users_behavior.csv')
    print('датасет загружен локально')
except:
    df = pd.read_csv('/datasets/users_behavior.csv')
    print('датасет загружен с сервера')
df.info()
df.head(5)

датасет загружен локально
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


<img src="https://emojigraph.org/media/apple/check-mark-button_2705.png" align=left width=33, heigth=33>
<div class="alert alert-success">
Данные загружены и исследованы.</div>

## Разбейте данные на выборки

In [8]:
features = df.drop('is_ultra', axis=1)
target = df['is_ultra']

features_train, features_testvalid, target_train, target_testvalid = \
train_test_split(features, target, test_size=0.4, random_state=12345)

features_test, features_valid, target_test, target_valid = \
train_test_split(features_testvalid, target_testvalid, test_size=0.5, random_state=12345)

<div class="alert alert-info">
Оу! Это просто невнимательность)) Я исправил!
</div>

<img src="https://emojigraph.org/media/apple/check-mark-button_2705.png" align=left width=33, heigth=33>
<div class="alert alert-success">
<b>v2</b> 👍 </div>

<img src="https://upload.wikimedia.org/wikipedia/commons/b/ba/Warning_sign_4.0.png" align=left width=44, heigth=33>
<div class="alert alert-warning">
Рекомендую явно вывести размеры получившихся выборок (с использованием .shape и print), это поможет быстро оценить корректность разделения на выборки.
</div>

<img src="https://upload.wikimedia.org/wikipedia/commons/b/ba/Warning_sign_4.0.png" align=left width=44, heigth=33>
<div class="alert alert-warning">
Старайся не делать такие длинные строки. Стандарт PEP8 регулирует длину строки 79 символов. Придерживаться такого очень сложно, но лучше хотя-бы вмещать в экран, чтобы не приходилось использовать scroll.
</div>

<img src="https://emojigraph.org/media/apple/check-mark-button_2705.png" align=left width=33, heigth=33>
<div class="alert alert-success">

<b>v2</b>    
Читаемость сильно ухудшилась....  Лучше вот так:
    
    features_test, features_valid, target_test, target_valid = train_test_split(
        features_testvalid, target_testvalid, test_size=0.5, random_state=12345
    )

Я использовал https://extendsclass.com/python-formatter.html, хотя во всех современных IDE есть инструменты для поддержания красоты и читаемости кода.

</div>

## Исследуйте модели

### DecisionTreeClassifier

Эта модель основана на дереве решений.
Сделаем цикл, для того, чтобы выбрать наиболее эффективную глубину.

In [9]:
# < сделаем цикл для max_depth от 1 до 5 >
for depth in range(1,6):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth) # обучим модель с заданным кол-вом depth
    model.fit(features_train, target_train) # обучим модель на обучающей выборке
    predictions_valid = model.predict(features_valid) # предскажем на валидационной выборке
    print("max_depth =", depth, ": ", end='') # на каждом шаге напечатаем выбранную глубину
    print(accuracy_score(target_valid, predictions_valid)) # на каждом шаге напечатаем accuracy_score валидационной выборки

max_depth = 1 : 0.7356143079315708
max_depth = 2 : 0.7744945567651633
max_depth = 3 : 0.7791601866251944
max_depth = 4 : 0.7744945567651633
max_depth = 5 : 0.7838258164852255


<img src="https://emojigraph.org/media/apple/check-mark-button_2705.png" align=left width=33, heigth=33>
<div class="alert alert-success">
Дерево решений исследовано  корректно:
    
 - исследовано 5 значений гиперпараметров
 - модель обучена на обучающем наборе
 - получена оценка качества на валидационном наборе
 - перебор гиперпараметров осуществляется в цикле
</div>

***Вывод:
При максимальной глубине делева = 5 точность accuracy 0.7838 на валидационной (тестовой) выборке.***

### RandomForestClassifier

Эта модель - случайный лес.
Алгоритм обучает большое количество независимых друг от друга деревьев, а потом принимает решение на основе голосования.
Сделаем цикл, для того, чтобы выбрать наиболее эффективное количество деревьев в лесу

In [10]:
# < сделаем цикл для max_depth от 1 до 5 >
best_model = None
best_result = 0
for est in range(1, 20):
    model = RandomForestClassifier(random_state=12345, n_estimators=est) # обучаем модель с заданным количеством деревьев
    model.fit(features_train, target_train) # обучаем модель на тренировочной выборке
    result = model.score(features_valid, target_valid) # посчитаем качество модели на валидационной выборке
    if result > best_result:
        best_model = model # сохраняем наилучшую модель
        best_result = result #сохраняем наилучшее значение метрики accuracy на валидационных данных

print("Accuracy наилучшей модели на валидационной выборке:", best_result, "Деревьев в лесу:", est)

Accuracy наилучшей модели на валидационной выборке: 0.7869362363919129 Деревьев в лесу: 19


<img src="https://emojigraph.org/media/apple/check-mark-button_2705.png" align=left width=33, heigth=33>
<div class="alert alert-success">
Случайный лес исследован корректно:
    
 - исследовано 19 значений гиперпараметров
 - модель обучена на обучающем наборе
 - получена оценка качества на валидационном наборе
 - перебор гиперпараметров осуществляется в цикле
</div>

***Вывод:
Лучший результат для леса = 0.78915 при 19 деревьях на валидационной выборке.***

### LogisticRegression 

In [11]:
model = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=1000) 
model.fit(features_train, target_train) # обучим модель на обучающей выборке
result = model.score(features_valid, target_valid) # посчитаем качество модели на валидационной выборке

print("Score:", result)

Score: 0.6842923794712286


<img src="https://emojigraph.org/media/apple/check-mark-button_2705.png" align=left width=33, heigth=33>
<div class="alert alert-success">
Логистическая регрессия исследована корректно.
</div>


***Вывод:
При применении регрессии результат не очень хороший = 0.68 на валидационной (тестовой) выборке.***

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/81/Stop_sign.png/240px-Stop_sign.png" align=left width=35, heigth=35>
<div class="alert alert-danger">
Ты закончил важный этап: исследовал три модели, нашел оптимальные гиперпараметры для каждой. Нужно зафиксировать результат: выбрать лучшую модель (включая гиперпараметры)  и описать свое решение в выводах.</div>

***Общий вывдод:***
<div class="alert alert-info">
Мы исследовали 3 разные модели. Лучше всех показал себя лес при кол-ве 19 деревьев.
Регрессия работает быстро, но очень не точно.
Результаты дерева решений схожи с лесом, можно использовать и эту модель.
</div>

<img src="https://emojigraph.org/media/apple/check-mark-button_2705.png" align=left width=33, heigth=33>
<div class="alert alert-success">
<b>v2</b> 👍 </div>

## Проверьте модель на тестовой выборке

In [12]:
features_full = pd.concat([features_train, features_valid])
target_full = pd.concat([target_train, target_valid])
model = RandomForestClassifier(random_state=12345, n_estimators=19) # обучаем модель с заданным количеством деревьев
model.fit(features_full, target_full) # обучаем модель на тренировочной выборке
result = model.score(features_test, target_test) # качество модели на тестовой выборке
result

0.7791601866251944

***Вывод:
0.779 на тестовой подтверждает наш правильный выбор***

<div class="alert alert-info">
Да, так и было, но потом я поправил код разделения и забыл вернуть))
Объединил выборки!
</div>

<img src="https://emojigraph.org/media/apple/check-mark-button_2705.png" align=left width=33, heigth=33>
<div class="alert alert-success">
<b>v2</b> сейчас все ОК </div>

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/81/Stop_sign.png/240px-Stop_sign.png" align=left width=35, heigth=35>
<div class="alert alert-danger">
Совет - если видишь слишком хорошую метрику - проверяй код на наличие утечек. Как правило, слишком хорошая точность говорит о том, что данные из тестовой выборки попали в обучающую или иным образом информация из тестовой выборки была использована моделью. Но в нашем случае всё очевидно - сейчас тестовая выборка в точности равна обучающей, поэтому и такая высокая метрика accuracy


</div>

<img src="https://emojigraph.org/media/apple/check-mark-button_2705.png" align=left width=33, heigth=33>
<div class="alert alert-success">
Совет:  Сейчас, когда гиперпараметры подобраны и валидационная выборка нам не нужна, мы можем обучить модель на большой выборке (обучающая + валидационная), а тестирование новой модели произвести уже на тестовой выборке.
    
Объединить выборки можно с помощью pd.concat
</div>

## (бонус) Проверьте модели на адекватность

In [13]:
model = DummyClassifier(strategy="most_frequent")
model.fit(features_train, target_train)
result = model.score(features_test, target_test) # качество модели на тестовой выборке
result

0.7060653188180405

<img src="https://emojigraph.org/media/apple/check-mark-button_2705.png" align=left width=33, heigth=33>
<div class="alert alert-success">
 👍 Молодец, верно применен Dummy Classifier для оценки стратегии предсказания самого частого ответа.</div>

***Вывод:
<div class="alert alert-danger">
ПОЖАЛУЙСТА, ПРИ ПРИЕМЕ ПРОЕКТА ОТВЕТЬТЕ НА ВОПРОСЫ ИЗ ЭТОГО БЛОКА))
    
    
Применили модель подброса монетки со стратегией наиболее часто встречающегося значения. Не могу сделать вывод об адекватности. Не могли бы разьяснить мне? Мои мысли, что при такой модели аккураси должна быть около 50% исходя из теории вероятности. Правильно ли я мыслю? По моей логике значение 0,70 означает что модель не вполне адекватна.***

<img src="https://emojigraph.org/media/apple/check-mark-button_2705.png" align=left width=33, heigth=33>
<div class="alert alert-success">
<b>v2</b> 

Наша модель должна побить все возможные  примитивные эвристики (бейзлайны, решения основанные на простых правилах), иначе зачем нам вообще городить МЛ.
    
Т.к. мы решаем задачу бинарной классификации, то всегда есть стратегия подброса монетки и она дает accuracy 50%. Поэтому если модель дает accuracy меньше, то модель хуже бейзлайна и проверку на адекватность не прошла.
    
Но для данных, в которых имеется сильный дисбаланс есть гораздо более сильный бейзлайн - всегда предсказывать самый популярный класс. И вот этот бейзлайн уже имеет accuracy 0.7, что гораздо лучше, чем у решения, подбрасывающего монетку.
    
Поэтому мы и сравниваем с более сильным бейзлайном, а про монетку забываем.    


</div>

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x] Jupyter Notebook открыт
- [x] Весь код исполняется без ошибок
- [x] Ячейки с кодом расположены в порядке исполнения
- [x] Выполнено задание 1: данные загружены и изучены
- [x] Выполнено задание 2: данные разбиты на три выборки
- [x] Выполнено задание 3: проведено исследование моделей
    - [x] Рассмотрено больше одной модели
    - [x] Рассмотрено хотя бы 3 значения гипепараметров для какой-нибудь модели
    - [x] Написаны выводы по результатам исследования
- [x] Выполнено задание 3: Проведено тестирование
- [x] Удалось достичь accuracy не меньше 0.75


<img src="http://s3.amazonaws.com/pix.iemoji.com/images/emoji/apple/ios-12/256/waving-hand.png" align=left width=44, heigth=44>
<div class="alert alert-info">
<b> Заключительный комментарий</b>

В целом мне все понравилось: твоя работа выполнена на хорошем уровне с минимальными помарками.
Также работа выглядит аккуратной и хорошо оформленной.
Вижу, что тебе дается python, и инструментарий машинного обучения.
 
Единственое критичное замечание - связано с неправильным разделением датасета на выборки. Тестовая оказалась в точности равна обучающей.
    
Желтые комментарии на твое усмотрение.
    
    
Жду твой проект на финальное ревью :)
</div>

<img src="http://s3.amazonaws.com/pix.iemoji.com/images/emoji/apple/ios-12/256/waving-hand.png" align=left width=44, heigth=44>
<div class="alert alert-info">
<b> Заключительный комментарий v2</b>

Проект принят. Поздравляю и желаю дальнейших успехов!</div>