<h1 id="tocheading">Оглавление</h1>
<div id="toc"></div>

In [1]:
%%javascript
$.getScript('https://kmahelona.github.io/ipython_notebook_goodies/ipython_notebook_toc.js')

<IPython.core.display.Javascript object>

# Описание проекта

Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. 

Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением accuracy. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте accuracy на тестовой выборке самостоятельно.

**Инструкция по выполнению проекта**

1. Откройте файл с данными и изучите его. Путь к файлу: datasets/users_behavior.csv. 

2. Разделите исходные данные на обучающую, валидационную и тестовую выборки.

3. Исследуйте качество разных моделей, меняя гиперпараметры. Кратко напишите выводы исследования.

4. Проверьте качество модели на тестовой выборке.

5. Дополнительное задание: проверьте модели на вменяемость. 

# Изучение данных

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats as st
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier 
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

In [3]:
df = pd.read_csv('/datasets/users_behavior.csv')

In [4]:
display(df.shape)
display(df.info())
display(df.head(10))

(3214, 5)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


None

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
5,58.0,344.56,21.0,15823.37,0
6,57.0,431.64,20.0,3738.9,1
7,15.0,132.4,6.0,21911.6,0
8,7.0,43.39,3.0,2538.67,1
9,90.0,665.41,38.0,17358.61,0


## Вывод

Целевым признаком будет столбец 'is_ultra'.

# Разделение на выборки

Присвоим значения переменным и разобьем выборку по принципу 60/20/20 на обучающую, валидационную и тестовую выборки.

In [5]:
features = df.drop(['is_ultra'], axis=1)
target = df['is_ultra']

random = 123456


features, features_test, target, target_test = train_test_split(
    features, target, test_size=0.2, random_state=random, stratify=target)
features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, train_size=0.6, random_state=random, stratify=target)

# Исследование и сравнение моделей

**Сперва рассмотрим модель Дерево решений**

In [6]:
%%time

best_depth_tree = 0
best_model_tree = None
best_result_tree = 0
for depth in range(1, 100):#взяла большой размах)
    model_tree = DecisionTreeClassifier(random_state=random, max_depth= depth)
    model_tree.fit(features_train, target_train) # обучаем
    predicted_valid_tree = model_tree.predict(features_valid) # получаем предсказания
    result_tree = accuracy_score(target_valid, predicted_valid_tree) # считаем качество модели
    display("Глубина дерева {}, Точность {}".format(depth,result_tree))
    if result_tree > best_result_tree:
        best_depth_tree = depth
        best_result_tree = result_tree
        best_model_tree = model_tree
        
display('Лучшая глубина дерева - {}, Лучшая точность - {}'.format(best_depth_tree, best_result_tree))



'Глубина дерева 1, Точность 0.7414965986394558'

'Глубина дерева 2, Точность 0.7696793002915452'

'Глубина дерева 3, Точность 0.7852283770651117'

'Глубина дерева 4, Точность 0.7871720116618076'

'Глубина дерева 5, Точность 0.793002915451895'

'Глубина дерева 6, Точность 0.7803692905733722'

'Глубина дерева 7, Точность 0.7774538386783285'

'Глубина дерева 8, Точность 0.782312925170068'

'Глубина дерева 9, Точность 0.783284742468416'

'Глубина дерева 10, Точность 0.7793974732750243'

'Глубина дерева 11, Точность 0.7755102040816326'

'Глубина дерева 12, Точность 0.771622934888241'

'Глубина дерева 13, Точность 0.7687074829931972'

'Глубина дерева 14, Точность 0.7657920310981535'

'Глубина дерева 15, Точность 0.7648202137998056'

'Глубина дерева 16, Точность 0.7560738581146744'

'Глубина дерева 17, Точность 0.7531584062196307'

'Глубина дерева 18, Точность 0.7521865889212828'

'Глубина дерева 19, Точность 0.7356656948493683'

'Глубина дерева 20, Точность 0.7376093294460642'

'Глубина дерева 21, Точность 0.738581146744412'

'Глубина дерева 22, Точность 0.738581146744412'

'Глубина дерева 23, Точность 0.7346938775510204'

'Глубина дерева 24, Точность 0.7317784256559767'

'Глубина дерева 25, Точность 0.7346938775510204'

'Глубина дерева 26, Точность 0.7240038872691934'

'Глубина дерева 27, Точность 0.7317784256559767'

'Глубина дерева 28, Точность 0.7327502429543246'

'Глубина дерева 29, Точность 0.7327502429543246'

'Глубина дерева 30, Точность 0.7327502429543246'

'Глубина дерева 31, Точность 0.7327502429543246'

'Глубина дерева 32, Точность 0.7327502429543246'

'Глубина дерева 33, Точность 0.7327502429543246'

'Глубина дерева 34, Точность 0.7327502429543246'

'Глубина дерева 35, Точность 0.7327502429543246'

'Глубина дерева 36, Точность 0.7327502429543246'

'Глубина дерева 37, Точность 0.7327502429543246'

'Глубина дерева 38, Точность 0.7327502429543246'

'Глубина дерева 39, Точность 0.7327502429543246'

'Глубина дерева 40, Точность 0.7327502429543246'

'Глубина дерева 41, Точность 0.7327502429543246'

'Глубина дерева 42, Точность 0.7327502429543246'

'Глубина дерева 43, Точность 0.7327502429543246'

'Глубина дерева 44, Точность 0.7327502429543246'

'Глубина дерева 45, Точность 0.7327502429543246'

'Глубина дерева 46, Точность 0.7327502429543246'

'Глубина дерева 47, Точность 0.7327502429543246'

'Глубина дерева 48, Точность 0.7327502429543246'

'Глубина дерева 49, Точность 0.7327502429543246'

'Глубина дерева 50, Точность 0.7327502429543246'

'Глубина дерева 51, Точность 0.7327502429543246'

'Глубина дерева 52, Точность 0.7327502429543246'

'Глубина дерева 53, Точность 0.7327502429543246'

'Глубина дерева 54, Точность 0.7327502429543246'

'Глубина дерева 55, Точность 0.7327502429543246'

'Глубина дерева 56, Точность 0.7327502429543246'

'Глубина дерева 57, Точность 0.7327502429543246'

'Глубина дерева 58, Точность 0.7327502429543246'

'Глубина дерева 59, Точность 0.7327502429543246'

'Глубина дерева 60, Точность 0.7327502429543246'

'Глубина дерева 61, Точность 0.7327502429543246'

'Глубина дерева 62, Точность 0.7327502429543246'

'Глубина дерева 63, Точность 0.7327502429543246'

'Глубина дерева 64, Точность 0.7327502429543246'

'Глубина дерева 65, Точность 0.7327502429543246'

'Глубина дерева 66, Точность 0.7327502429543246'

'Глубина дерева 67, Точность 0.7327502429543246'

'Глубина дерева 68, Точность 0.7327502429543246'

'Глубина дерева 69, Точность 0.7327502429543246'

'Глубина дерева 70, Точность 0.7327502429543246'

'Глубина дерева 71, Точность 0.7327502429543246'

'Глубина дерева 72, Точность 0.7327502429543246'

'Глубина дерева 73, Точность 0.7327502429543246'

'Глубина дерева 74, Точность 0.7327502429543246'

'Глубина дерева 75, Точность 0.7327502429543246'

'Глубина дерева 76, Точность 0.7327502429543246'

'Глубина дерева 77, Точность 0.7327502429543246'

'Глубина дерева 78, Точность 0.7327502429543246'

'Глубина дерева 79, Точность 0.7327502429543246'

'Глубина дерева 80, Точность 0.7327502429543246'

'Глубина дерева 81, Точность 0.7327502429543246'

'Глубина дерева 82, Точность 0.7327502429543246'

'Глубина дерева 83, Точность 0.7327502429543246'

'Глубина дерева 84, Точность 0.7327502429543246'

'Глубина дерева 85, Точность 0.7327502429543246'

'Глубина дерева 86, Точность 0.7327502429543246'

'Глубина дерева 87, Точность 0.7327502429543246'

'Глубина дерева 88, Точность 0.7327502429543246'

'Глубина дерева 89, Точность 0.7327502429543246'

'Глубина дерева 90, Точность 0.7327502429543246'

'Глубина дерева 91, Точность 0.7327502429543246'

'Глубина дерева 92, Точность 0.7327502429543246'

'Глубина дерева 93, Точность 0.7327502429543246'

'Глубина дерева 94, Точность 0.7327502429543246'

'Глубина дерева 95, Точность 0.7327502429543246'

'Глубина дерева 96, Точность 0.7327502429543246'

'Глубина дерева 97, Точность 0.7327502429543246'

'Глубина дерева 98, Точность 0.7327502429543246'

'Глубина дерева 99, Точность 0.7327502429543246'

'Лучшая глубина дерева - 5, Лучшая точность - 0.793002915451895'

CPU times: user 1.11 s, sys: 51.2 ms, total: 1.16 s
Wall time: 1.28 s


**На очереди - модель Случайный лес**

In [7]:
%%time

best_model_forest = None
best_result_forest = 0
for est in range(1, 20):
    model_forest = RandomForestClassifier(random_state=random, n_estimators= est) 
    model_forest.fit(features_train, target_train) # обучаем
    predicted_valid = model_forest.predict(features_valid) #получаем предсказания
    result_forest = accuracy_score(target_valid, predicted_valid) # считаем качество
    display("Количество деревьев {}, Точность {}".format(est,result_forest))
    if result_forest > best_result_forest:
        best_model_forest = model_forest
        best_result_forest = result_forest
        best_est = est

display ("Accuracy наилучшей модели на валидационной выборке: {}, число деревьев: {}".format(best_result_forest, best_est))

'Количество деревьев 1, Точность 0.7152575315840622'

'Количество деревьев 2, Точность 0.7764820213799806'

'Количество деревьев 3, Точность 0.7648202137998056'

'Количество деревьев 4, Точность 0.7978620019436345'

'Количество деревьев 5, Точность 0.7793974732750243'

'Количество деревьев 6, Точность 0.793002915451895'

'Количество деревьев 7, Точность 0.7842565597667639'

'Количество деревьев 8, Точность 0.7891156462585034'

'Количество деревьев 9, Точность 0.7793974732750243'

'Количество деревьев 10, Точность 0.7842565597667639'

'Количество деревьев 11, Точность 0.7784256559766763'

'Количество деревьев 12, Точность 0.7881438289601554'

'Количество деревьев 13, Точность 0.7793974732750243'

'Количество деревьев 14, Точность 0.7959183673469388'

'Количество деревьев 15, Точность 0.7803692905733722'

'Количество деревьев 16, Точность 0.7920310981535471'

'Количество деревьев 17, Точность 0.7813411078717201'

'Количество деревьев 18, Точность 0.7949465500485908'

'Количество деревьев 19, Точность 0.7842565597667639'

'Accuracy наилучшей модели на валидационной выборке: 0.7978620019436345, число деревьев: 4'

CPU times: user 752 ms, sys: 11.8 ms, total: 764 ms
Wall time: 805 ms


**Протестируем модель логистической регрессии**

In [8]:
%%time

model_log_reg = LogisticRegression(random_state=random, solver='lbfgs', max_iter=1000) 
model_log_reg.fit(features_train, target_train) 
predicted_valid = model_log_reg.predict(features_valid) 
result_log_reg = accuracy_score(target_valid, predicted_valid) 
display("Точность {}".format(result_log_reg))

'Точность 0.749271137026239'

CPU times: user 26.7 ms, sys: 481 µs, total: 27.2 ms
Wall time: 31.4 ms


## Выводы

Модель дерева решений выбрала лучшую глубину == 5, точность на валидационной выборке составила - 0.793002915451895'.

Модель случайного леса показала точность на валидационной выборке: 0.7978620019436345, при числе деревьев == 4.

Модель логистической регрессии показала точность на валидационной выборке - 0.749271137026239.



# Проверка качества на тестовой выборке

Оценим точность каждой модели на тестовой выборке 

In [9]:
predicted_test = best_model_tree.predict(features_test)
result_tree = accuracy_score(target_test, predicted_test)
print('Точность модели дерева решений на тестовой выборке',result_tree)

predicted_test = best_model_forest.predict(features_test)
result_forest = accuracy_score(target_test, predicted_test)
print('Точность модели случайного леса на тестовой выборке',result_forest)

predicted_test = model_log_reg.predict(features_test)
result_log_reg = accuracy_score(target_test, predicted_test)
print('Точность модели логистической регресиии на тестовой выборке',result_log_reg)

Точность модели дерева решений на тестовой выборке 0.7962674961119751
Точность модели случайного леса на тестовой выборке 0.7698289269051322
Точность модели логистической регресиии на тестовой выборке 0.7371695178849145


## Выводы

Показатель accuracy (точность) для модели дерева решений (глубина == 5), на тестовой выборке оказался выше, чем на валидационной и составил 0,7963. 

Также высокий показатель (0.7698) точности у модели дерева решений (глубина 6).

Логистическая регрессия покзала себя не очень удачно (точность == 0.7372).


# Оценка адекватности модели

Оценить адекватность модели можно используя несколько метрик:

* accuracy - точность совпадения прогнозов с правильными ответами.
* precision - отношение правильно предсказанных классов равных 1(TP) к сумме правильно предсказанных классов равных 1(TP) с неправльными предсказаниями, указанные как 1(FP).
* recall - отношение правильно предсказанных классов равных 1(TP) к сумме правильно предсказанных классов равных 1(TP) с неправльными предсказаниями, указанные как 0(FN).

Для оценки адеватности используется F1-мера - среднее гармоническое между precision и recall. Если хотя бы один из параметров близок к нулю, то и F1-мера стремится к 0. Если оба стремятся к 1, то F-мера тоже стремится к 1.

In [10]:
predicted_test = best_model_tree.predict(features_test)
accuracy = accuracy_score(target_test, predicted_test)
precision = precision_score(target_test, predicted_test)
recall = recall_score(target_test, predicted_test)
f_score = f1_score(target_test, predicted_test)
display('Дерево решений: Accuracy = {:.2f}, Precision = {:.2f}, Recall = {:.2f}, F-мера = {:.2f}'.format(accuracy, precision, recall, f_score))

predicted_test = best_model_forest.predict(features_test)
accuracy = accuracy_score(target_test, predicted_test)
precision = precision_score(target_test, predicted_test)
recall = recall_score(target_test, predicted_test)
f_score = f1_score(target_test, predicted_test)
display('Случайный лес: Accuracy = {:.2f}, Precision = {:.2f}, Recall = {:.2f}, F-мера = {:.2f}'.format(accuracy, precision, recall, f_score))

predicted_test = model_log_reg.predict(features_test)
accuracy = accuracy_score(target_test, predicted_test)
precision = precision_score(target_test, predicted_test)
recall = recall_score(target_test, predicted_test)
f_score = f1_score(target_test, predicted_test)
display('Логистическая регрессия: Accuracy = {:.2f}, Precision = {:.2f}, Recall = {:.2f}, F-мера = {:.2f}'.format(accuracy, precision, recall, f_score))


'Дерево решений: Accuracy = 0.80, Precision = 0.78, Recall = 0.46, F-мера = 0.58'

'Случайный лес: Accuracy = 0.77, Precision = 0.66, Recall = 0.51, F-мера = 0.57'

'Логистическая регрессия: Accuracy = 0.74, Precision = 0.75, Recall = 0.21, F-мера = 0.33'

## Вывод

Дерево решений показало наилучшее качество(accuracy) и адекватность (F1-мера).

# Общий вывод

Для решения задачи оператора мобильной связи «Мегалайн» мы выбрали модель с наиболее высокими показателями качества и адекватности. Ей оказалось дерево ршений (max-depth == 5). Это значит, что рекомендации по выбору тарифа будут более точными при использовании этой модели.