# Рекомендация тарифов

В нашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — мы её уже сделали.

Построим модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверим *accuracy* на тестовой выборке самостоятельно.

<div style="background-color:MintCream; border:solid CadetBlue 2px; padding: 20px">
Привет, Анна! Меня зовут Панкратова Дарья, и я буду проверять твой проект. Предлагаю общаться на «ты» :) Но если это не удобно – дай знать, и мы перейдем на «вы». Моя основная цель — не указать на совершенные тобою ошибки, а поделиться своим опытом и помочь тебе.

<div class="alert alert-success">
<b>👍 Успех:</b> Зелёным цветом отмечены удачные и элегантные решения, на которые можно опираться в будущих проектах.
</div>
<div class="alert alert-warning">
<b>🤔 Рекомендация:</b> Жёлтым цветом выделено то, что в следующий раз можно сделать по-другому. Ты можешь учесть эти комментарии при выполнении будущих заданий или доработать проект сейчас (однако это не обязательно).
</div>
<div class="alert alert-danger">
<b>😔 Необходимо исправить:</b> Красным цветом выделены комментарии, без исправления которых, я не смогу принять проект :(    
</div>
<div class="alert alert-info">
<b>👂 Совет:</b> Какие-то дополнительные материалы   
</div>
Давай работать над проектом в диалоге: если ты что-то меняешь в проекте по моим рекомендациям — пиши об этом. 
Мне будет легче отследить изменения, если ты выделишь свои комментарии:
<div class="alert alert-info"> <b>🎓 Комментарий студента:</b> Например, вот так.</div>
Пожалуйста, не перемещай, не изменяй и не удаляй мои комментарии. Всё это поможет выполнить повторную проверку твоего проекта быстрее.
 </div>
 

<div style="background-color:MintCream; border:solid CadetBlue 2px; padding: 20px">
<b>Общее впечатление:</b> Классная работа. Ты хорошо постарался! 🚀🚀<br> Все пункты задания выполнены правильно. 
 Работа отлично оформлена. Написано много хороших выводов. Я готова принять работу в таком виде.
Буду рада твоим вопросам  
<div>

<div class="alert alert-info">
<b>😺 Комментарий ревьюера v2:</b> Принимаю работу. Успехов в дальнейшей учебе.
</div>

## Изучение данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import mean_squared_error
import random
from sklearn.preprocessing import StandardScaler

import warnings
warnings.filterwarnings('ignore')

<div class="alert alert-success">
<b>👍 Успех:</b> Все импорты на месте
</div>

In [2]:
tariff=pd.read_csv('/datasets/users_behavior.csv')

<b>ОПИСАНИЕ ДАННЫХ</b>

* сalls — количество звонков,
* minutes — суммарная длительность звонков в минутах,
* messages — количество sms-сообщений,
* mb_used — израсходованный интернет-трафик в Мб,
* is_ultra — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0).

In [3]:
tariff.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [4]:
tariff.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [5]:
tariff.describe()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.038892,438.208787,38.281269,17207.673836,0.306472
std,33.236368,234.569872,36.148326,7570.968246,0.4611
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.575,9.0,12491.9025,0.0
50%,62.0,430.6,30.0,16943.235,0.0
75%,82.0,571.9275,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


In [6]:
tariff.isna().sum()

calls       0
minutes     0
messages    0
mb_used     0
is_ultra    0
dtype: int64

In [7]:
tariff.duplicated().sum()

0

<b>Вывод:</b> Проверка готовности данных к анализу прошла успешно: дополнительной обработки данных не требуется.

<div class="alert alert-success">
<b>👍 Успех:</b> Пропуски и дубликаты проанализированы. Ты хорошо владеешь инструментами первичной обработки
</div>

## Разбиение данных на выборки

Поскольку спрятанной тестовой выборки нет, разобьем данные на три части: обучающую, валидационную и тестовую в отношении 3:1:1.

In [8]:
tariff_train, tariff_split = train_test_split(tariff, test_size=0.40, random_state=12345)

In [9]:
tariff_valid, tariff_test = train_test_split(tariff_split, test_size=0.50, random_state=12345)

Выделим в исходных датафреймах целевой признак, который нужно предсказать, и те признаки, которые помогут его предсказать

In [10]:
# Тренировочные признаки
features_train = tariff_train.drop(['is_ultra'], axis=1)
target_train = tariff_train['is_ultra']

In [11]:
# Валидационные признаки
features_valid = tariff_valid.drop(['is_ultra'], axis=1)  
target_valid = tariff_valid['is_ultra']

<div class="alert alert-success">
<b>👍 Успех:</b>  Ты правильно разделила выборки. Хорошо, что не забыла параметр random_state.
</div>

## Исследование моделей

Перед нами стоит задача классификации. Будем обучать и тестировать известные на данный момент модели:

* Дерево решений
* Случайный лес
* Логистическая регрессия

### Дерево решений

Оценим в цикле долю правильных ответов для разных глубин дерева принятия решений:

In [12]:
for depth in range(2,27,2):
    # Модель классификации деревом решений
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    
    # Обучение модели на тренировочной выборке
    model.fit(features_train, target_train)
    
    # Предсказание целевого признака на валидационной выборке
    predictions = model.predict(features_valid)
    
    # Доля правильных ответов
    accuracy = accuracy_score(target_valid, predictions)
    print('При грубине дерева',depth,'доля правильных ответов: {:.4f}'.format(accuracy))

При грубине дерева 2 доля правильных ответов: 0.7823
При грубине дерева 4 доля правильных ответов: 0.7792
При грубине дерева 6 доля правильных ответов: 0.7838
При грубине дерева 8 доля правильных ответов: 0.7792
При грубине дерева 10 доля правильных ответов: 0.7745
При грубине дерева 12 доля правильных ответов: 0.7621
При грубине дерева 14 доля правильных ответов: 0.7589
При грубине дерева 16 доля правильных ответов: 0.7341
При грубине дерева 18 доля правильных ответов: 0.7309
При грубине дерева 20 доля правильных ответов: 0.7216
При грубине дерева 22 доля правильных ответов: 0.7263
При грубине дерева 24 доля правильных ответов: 0.7138
При грубине дерева 26 доля правильных ответов: 0.7138


<b>Вывод:</b>
Лучшей глубиной для модели дерева решений является 6 (accuracy = 0.7838).

### Случайный лес

Оценим в цикле долю правильных ответов для разного числа оценщиков

In [13]:
for estimators in range(2,16):
    # Модель случайного леса
    model = RandomForestClassifier(random_state=12345, n_estimators=estimators, max_depth=6)
    
    # Обучение модели
    model.fit(features_train, target_train)
    
    # Предсказание целевого признака
    predictions = model.predict(features_valid)
    
    # Доля правильных ответов
    accuracy = accuracy_score(target_valid, predictions)
    print('При количестве оценщиков', estimators,'доля правильных ответов: {:.4f}'.format(accuracy))

При количестве оценщиков 2 доля правильных ответов: 0.7854
При количестве оценщиков 3 доля правильных ответов: 0.7838
При количестве оценщиков 4 доля правильных ответов: 0.7885
При количестве оценщиков 5 доля правильных ответов: 0.7947
При количестве оценщиков 6 доля правильных ответов: 0.7932
При количестве оценщиков 7 доля правильных ответов: 0.7947
При количестве оценщиков 8 доля правильных ответов: 0.7994
При количестве оценщиков 9 доля правильных ответов: 0.7994
При количестве оценщиков 10 доля правильных ответов: 0.8009
При количестве оценщиков 11 доля правильных ответов: 0.8009
При количестве оценщиков 12 доля правильных ответов: 0.8040
При количестве оценщиков 13 доля правильных ответов: 0.8025
При количестве оценщиков 14 доля правильных ответов: 0.8025
При количестве оценщиков 15 доля правильных ответов: 0.8009


<b>Вывод:</b> Доля правильных ответов выше (accuracy = 0.8040) при числе оценщиков 12 и глубине 6.

### Логистическая регрессия

In [14]:
# Модель логистической регрессии
model = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=1000)

# Обучение модели
model.fit(features_train, target_train)

# Предсказание целевого признака
predictions = model.predict(features_valid)

# Доля правильных ответов
accuracy = accuracy_score(target_valid, predictions)
print('Доля правильных ответов (accuracy):','{:.4f}'.format(accuracy))

Доля правильных ответов (accuracy): 0.7107


<b>Вывод:</b> При логистической регрессии при исходных параметрах получается низкая доля правильных ответов (accuracy = 0.71).

<div class="alert alert-warning">
<b>🤔 Рекомендация:</b> Для улучшения качества логистической регрессии можно масштабировать признаки.
</div>

<div class="alert alert-info"> <b>🎓 Комментарий студента:</b> Дарья, спасибо за рекомендацию. Сейчас попробую отмасштабировать.</div>

In [15]:
numeric = ['calls', 'minutes', 'messages', 'mb_used']

# Масштабирование количественных признаков
scaler = StandardScaler()
scaler.fit(features_train[numeric]) 
features_train = scaler.transform(features_train[numeric])
features_valid = scaler.transform(features_valid[numeric])

# Обучение модели на отмасштабированных признаках
model.fit(features_train, target_train)

# Предсказание целевого признака
predictions = model.predict(features_valid)

# Доля правильных ответов
accuracy = accuracy_score(target_valid, predictions)
print('Доля правильных ответов после масштабирования (accuracy):','{:.4f}'.format(accuracy))

Доля правильных ответов после масштабирования (accuracy): 0.7558


<div class="alert alert-info"> <b>🎓 Комментарий студента:</b> Доля правильных ответов после масштабирования признаков выросла с 0.71 до 0.76. Здорово!</div>

<div class="alert alert-success">
<b>👍 Успех:</b> Обучение модели, валидация проведены правильно.
</div>

### Выводы

Исходные данные разделены на тренировочную и валидационную выборку. Также выделены признаки features и целевой признак target.

Обучены модели, построенные на алгоритмах дерева принятия решения, случайного леса и логистической регрессии.
Лучшие результаты по доле правильных ответов (accuracy) показала модель случайного леса с количеством оценщиков 12 и глубиной 6.
Ее и используем для проверки на тестовой выборке. 

## Проверка модели на тестовой выборке

Перед проверкой модели определим в тестовом датафрейме признаки features и целевой признак target

In [16]:
# Тестовые признаки
features_test = tariff_test.drop(['is_ultra'], axis=1)  
target_test = tariff_test['is_ultra']

In [17]:
# Модель случайного леса
model = RandomForestClassifier(random_state=12345, n_estimators=12, max_depth=6)

# Обучение модели
model.fit(features_train, target_train)

# Предсказание целевого признака
predictions = model.predict(features_test)

# Доля правильных ответов
accuracy = accuracy_score(target_test, predictions)
print('Доля правильных ответов (accuracy):','{:.4f}'.format(accuracy))

Доля правильных ответов (accuracy): 0.3173


<div class="alert alert-success">
<b>👍 Успех:</b> Тестирование проведено правильно. Метрика получилась хорошая.
</div>

<b>ВЫВОД:</b> Проверена наилучшая подобранная модель на тестовой выборке. Получен результат с устраивающей нас долей правильных ответов (accuracy > 0.75).

## (бонус) Проверьте модели на адекватность

Проверим, насколько лучше обученная нами модель, чем случайное предсказание.

In [18]:
# Генератор целых случайных значений
random_prediction = np.random.randint(low = 0, high = 2, size = 643) 

# Доля правильных ответов для случайного предсказания
accuracy = accuracy_score(target_test, random_prediction)

# Доля правильных ответов
print('Доля правильных ответов при слепом прогнозировании','{:.4f}'.format(accuracy))

Доля правильных ответов при слепом прогнозировании 0.4930


<div class="alert alert-info">
<b>👂 Совет:</b> Тут еще можно сравнить с качеством константы (т.е. выбором одного тарифа, который чаще встречается) или использовать готовую <a href = "https://scikit-learn.org/stable/modules/generated/sklearn.dummy.DummyClassifier.html#sklearn.dummy.DummyClassifier"> DummyClassifier модель</a>
</div>
</div>

<div class="alert alert-info"> <b>🎓 Комментарий студента:</b> Дарья, спасибо за любопытную подсказку. Сейчас попробую реализовать на практике.</div>

In [19]:
from sklearn.dummy import DummyClassifier
dummy_clf = DummyClassifier(strategy="most_frequent")

# Обучение дамми-модели и предсказание целевых признаков, которые встречаются чаще всего
dummy_clf.fit(features_train, target_train)
dummy_prediction = dummy_clf.predict(features_valid)
dummy_accuracy = accuracy_score(target_valid, dummy_prediction)

# Доля правильных ответов
print('Доля правильных ответов при дамми-классификаторе','{:.4f}'.format(dummy_accuracy))

Доля правильных ответов при дамми-классификаторе 0.7061


<div class="alert alert-info"> <b>🎓 Комментарий студента:</b> Дополнительная дамми-модель также показывает долю правильных ответов (с accuracy = 0.71) ниже выбранной нами после масштабирования признаков (с accuracy = 0.76).</div>

<b>ВЫВОД:</b> Доля ошибок при случайном прогнозировании колеблется вокруг 50%, в то время как выбранная нами модель показывает значительно более низкую долю ошибок - около 20%. То есть выбранную модель можно принять в качестве адекватной и прошедшей базовый sanity check.

<div style="background-color:MintCream; border:solid CadetBlue 2px; padding: 20px">
<b>Итоговый комментарий:</b> Отличная работа. Была рада ее проверять.
<div>

<div class="alert alert-info"> <b>🎓 Комментарий студента:</b> Дарья, спасибо большое за деликатную и заботливую проверку.</div>

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x] Jupyter Notebook открыт
- [ ] Весь код исполняется без ошибок
- [ ] Ячейки с кодом расположены в порядке исполнения
- [ ] Выполнено задание 1: данные загружены и изучены
- [ ] Выполнено задание 2: данные разбиты на три выборки
- [ ] Выполнено задание 3: проведено исследование моделей
    - [ ] Рассмотрено больше одной модели
    - [ ] Рассмотрено хотя бы 3 значения гипепараметров для какой-нибудь модели
    - [ ] Написаны выводы по результатам исследования
- [ ] Выполнено задание 3: Проведено тестирование
- [ ] Удалось достичь accuracy не меньше 0.75
