# Описание проекта

Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением accuracy. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте accuracy на тестовой выборке самостоятельно.

## Описание данных

Каждый объект в наборе данных — это информация о поведении одного пользователя за месяц. 
Известно:
- сalls — количество звонков,
- minutes — суммарная длительность звонков в минутах,
- messages — количество sms-сообщений,
- mb_used — израсходованный интернет-трафик в Мб,
- is_ultra — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0).

In [118]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import classification_report
from sklearn.dummy import DummyClassifier
import joblib

## Изучение данных

In [119]:
df = pd.read_csv('datasets/users_behavior.csv')

In [120]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [121]:
df.sample(15)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
1319,55.0,421.69,80.0,26894.34,0
2991,60.0,351.44,85.0,21943.86,0
3118,74.0,546.48,43.0,15891.21,0
2996,67.0,499.29,10.0,23124.48,0
2659,69.0,457.3,14.0,17240.58,0
361,72.0,497.93,46.0,12651.41,0
1117,9.0,59.72,6.0,838.22,0
3207,17.0,92.39,2.0,4299.25,0
356,1.0,11.54,111.0,32758.53,1
2513,39.0,242.71,0.0,20480.11,0


В датасете 3213 записи, без пропусков. Значения выглядят нормальными, так что можно приступать к разделению данных для тренировки, валидации и тестирования.

## Разделение данных на выборки

Для обучения моделей нам не нужен такой признак как количство звонков, так как в тарифах считается количество использованных минут, а не количество звонков.

In [122]:
df.drop('calls', axis=1, inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   minutes   3214 non-null   float64
 1   messages  3214 non-null   float64
 2   mb_used   3214 non-null   float64
 3   is_ultra  3214 non-null   int64  
dtypes: float64(3), int64(1)
memory usage: 100.6 KB


In [123]:
features = df.drop('is_ultra', axis=1)
targets = df['is_ultra']

Поделим выборку на 60% для обучения и по 20% для валидации и тестирования.

In [124]:
features_train, features_val_test, target_train, target_val_test = train_test_split(features, targets, test_size=0.4, stratify=targets, random_state=123)

features_val, features_test, target_val, target_test = train_test_split(features_val_test, target_val_test, test_size=0.5, stratify=target_val_test, random_state=123)

## Исследование разных моделей

### Исследование модели дерева решений

In [125]:
for deep in range(1,10):
    tree_model = DecisionTreeClassifier(max_depth=deep, random_state=123)
    tree_model.fit(features_train, target_train)
    
    prediction = tree_model.predict(features_val)
    
    train_score = tree_model.score(features_train, target_train)
    score = tree_model.score(features_val, target_val)
    
    print('Deep: {}'.format(deep))
    print('Decision Tree train: {}'.format(train_score))
    print('Decision Tree valid: {}'.format(score))
    print()

Deep: 1
Decision Tree train: 0.754149377593361
Decision Tree valid: 0.7465007776049767

Deep: 2
Decision Tree train: 0.7821576763485477
Decision Tree valid: 0.7822706065318819

Deep: 3
Decision Tree train: 0.7971991701244814
Decision Tree valid: 0.7947122861586314

Deep: 4
Decision Tree train: 0.8091286307053942
Decision Tree valid: 0.7838258164852255

Deep: 5
Decision Tree train: 0.8127593360995851
Decision Tree valid: 0.7822706065318819

Deep: 6
Decision Tree train: 0.8195020746887967
Decision Tree valid: 0.7838258164852255

Deep: 7
Decision Tree train: 0.8283195020746889
Decision Tree valid: 0.7900466562986003

Deep: 8
Decision Tree train: 0.841804979253112
Decision Tree valid: 0.7853810264385692

Deep: 9
Decision Tree train: 0.8521784232365145
Decision Tree valid: 0.7838258164852255



In [126]:
tree_param_grid = {'max_depth': [deep for deep in range(1, 10)]}
tree_gs = GridSearchCV(DecisionTreeClassifier(random_state=123), param_grid=tree_param_grid)

tree_gs.fit(features_train, target_train)

print(tree_gs.best_params_)

{'max_depth': 4}


In [127]:
tree_predict = tree_gs.predict(features_val_test)

tree_train_score = tree_gs.score(features_train, target_train)
tree_score = tree_gs.score(features_val, target_val)
print('Decision Tree train: {}'.format(tree_train_score))
print('Decision Tree valid: {}'.format(tree_score))

Decision Tree train: 0.8091286307053942
Decision Tree valid: 0.7838258164852255


При ручном переборе максимальной глубины дерева, мы можем заметить, что чем глубже дерево, тем метрики этой модели лучше, но это так же это может означать что у модели происходит переобучение. Поэтому мы можем использовать GridSearchCV для выбора лучших гиперпараметров для нашей модели. Для дальнейшего выбора модели лучше использовать GridSearchCV.

### Исследование модели случайного леса

Так как модель случайного леса состоит из множества деревьев решений мы будем менять параметр max_depth, как в прошлый раз, а так же n_estimators.

In [128]:
forest_param_grid = {'max_depth': [deep for deep in range(2, 16, 2)],
                    'n_estimators': [50, 100, 150]}
forest_gs = GridSearchCV(RandomForestClassifier(random_state=123), param_grid=forest_param_grid)
forest_gs.fit(features_train, target_train)

print(forest_gs.best_params_)

{'max_depth': 6, 'n_estimators': 100}


In [129]:
forest_predict = forest_gs.predict(feaures_val)

forest_train_score = forest_gs.score(features_train, target_train)
forest_score = forest_gs.score(features_val, target_val)

print('Random Forest train: {}'.format(forest_train_score))
print('Random Forest valid: {}'.format(forest_score))

Random Forest train: 0.8257261410788381
Random Forest valid: 0.7962674961119751


Хоть мы и передали гиперпараметры для глубины от 2 до 16 с шагом 2 значения, лучше всего для модели подошло значение 6, а количество деревьев так и вовсе 100 достаточно, так что больше - не значит лучше. Хоть этот метод и медленее, но это модель точнее, чем просто дерево.

### Исследование модели логистической регрессии

In [130]:
logistic_param_grid = {'C': [1.0, 0.5, 0.1]}
logistic_gs = GridSearchCV(LogisticRegression(random_state=123), param_grid=logistic_param_grid)
logistic_gs.fit(features_train, target_train)

print(logistic_gs.best_params_)

{'C': 1.0}


In [131]:
logistic_predict = logistic_gs.predict(feaures_val)

logistic_train_score = logistic_gs.score(features_train, target_train)
logistic_score = logistic_gs.score(features_val, target_val)

print('Logistic Regression train: {}'.format(logistic_train_score))
print('Logistic Regression valid: {}'.format(logistic_score))

Logistic Regression train: 0.6986514522821576
Logistic Regression valid: 0.6967340590979783


При разных значения регуляризации, лучшим оказалось значение 1. Это модель гораздо быстрее остальных, но она получилась наименее точной.

**Вывод:** Так как модель дерева решений это частный случай модели случайного леса, мы можем сразу её отбросить, так как несколько деревьев лучше одного. Модель логистической регресии мы отбрасываем из-за недостаточной точности, хоть она и быстрее остальных. Таким образом остается модель случайного леса с максимальной глубинной дерева 10 и 50 деревьев.

## Проверка качества модели на тестовой выборке

In [132]:
X_train, X_test, y_train, y_test = train_test_split(features, targets, test_size=0.2, stratify=targets, random_state=123)


In [133]:
forest_model = RandomForestClassifier(max_depth = 6, n_estimators= 100, random_state=123)
forest_model.fit(X_train, y_train)
prediction = forest_model.predict(X_test)

In [134]:
forest_test_score = forest_gs.score(X_test, y_test)
print('Random Forest valid: {}'.format(forest_test_score))
print(classification_report(y_test, prediction))

Random Forest valid: 0.7900466562986003
              precision    recall  f1-score   support

           0       0.80      0.94      0.86       446
           1       0.77      0.46      0.57       197

    accuracy                           0.79       643
   macro avg       0.78      0.70      0.72       643
weighted avg       0.79      0.79      0.77       643



Мы создали модель случайного леса с нужными нам гиперпараметрами, обучили её и получили accurancy 79%. Так же видно, что точность в разных классах сбалансирована и модель не отдает предпочтение какому-то конкректному классу. 

## Попытка проверки модели на вменяемость

In [135]:
dclf = DummyClassifier(strategy = 'most_frequent', random_state = 123) 
dclf.fit(X_train, y_train)

print('Dummy score: {}'.format(dclf.score(X_test, y_test)))
print('Random Forest score: {}'.format(forest_test_score))

Dummy score: 0.6936236391912908
Random Forest score: 0.7900466562986003


Как видно из accurency наша модель всё же предсказывает лучше данные, чем наша Dummy модель, поэтому нашу модель можно считать вменяемой. 

## Вывод

В ходе проекта мы рассмотрели возможности разных модели, а так же выяснили, что разные гиперпараметры по разному влияют на точность предсказывания той или иной модели. Испробовав разные модели, а именно дерево решений, случайный лес и логистическую регрессию - моделью с самым большим accuracy оказалася случайный лес с глубиной дерева 6 и 100 деревьев. Эти гиперпарметры помогли нам достичь точности в 79% на тестовой выборке. Так же мы убедились, что наша модель вменяема сравнив accuracy нашей модели с Dummy моделью.