# Рекомендация тарифов

Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».
В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.
Постройте модель с максимально большим значением accuracy. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте accuracy на тестовой выборке самостоятельно.

In [1]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.dummy import DummyClassifier

pd.options.display.float_format = "{:.2f}".format

## Откройте и изучите файл

In [2]:
try:
    behavior = pd.read_csv('/Users/mikhail/Desktop/praktikum/project_6/users_behavior.csv')
except:
    behavior = pd.read_csv('datasets/users_behavior.csv')

In [3]:
# ознакомимся с таблицей 

behavior.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [4]:
display(behavior.info())
display(behavior.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


None

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
count,3214.0,3214.0,3214.0,3214.0,3214.0
mean,63.04,438.21,38.28,17207.67,0.31
std,33.24,234.57,36.15,7570.97,0.46
min,0.0,0.0,0.0,0.0,0.0
25%,40.0,274.58,9.0,12491.9,0.0
50%,62.0,430.6,30.0,16943.24,0.0
75%,82.0,571.93,57.0,21424.7,1.0
max,244.0,1632.06,224.0,49745.73,1.0


Пропусков нет, аномалий не выявлено. 

Можно избавиться от float и округлить минуты и мб в большую сторону (все еще свежи воспоминания).

Так же необходимо преобразовать столбец 'is_ultra': переименуем его в 'tariff' и заменим знаяения 0 на smart, a 1 на ultra

### Подготовка данных

In [5]:
# округлим количество минут и мб в большую сторону
# и поменяем тип данных 

behavior['minutes'] = behavior['minutes'].apply(np.ceil).astype(int)
behavior['mb_used'] = behavior['mb_used'].apply(np.ceil).astype(int)


# меняем тип данных в столбцах с количеством звонков и сообщений

behavior['messages'] = behavior['messages'].astype(int)
behavior['calls'] = behavior['calls'].astype(int)

In [6]:
# переименуем столбец 'is_ultra'

behavior = behavior.rename(columns = {'is_ultra': 'tariff'})

In [7]:
# заменим данные в столбце 'tariff'

behavior['tariff'] = behavior['tariff'].replace(0, 'smart')
behavior['tariff'] = behavior['tariff'].replace(1, 'ultra')

In [8]:
behavior.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   calls     3214 non-null   int64 
 1   minutes   3214 non-null   int64 
 2   messages  3214 non-null   int64 
 3   mb_used   3214 non-null   int64 
 4   tariff    3214 non-null   object
dtypes: int64(4), object(1)
memory usage: 125.7+ KB


## Разбейте данные на выборки

Разобью представленные данные на три выборки в пропорциях 60-20-20: 
- 60% - треничровочная выборка 
- 20% - валидационная выборка 
- 20% - тестовая выборка

In [9]:
# зададим признаки - все данные таблицы помимо столбца с названиями тарифов
features = behavior.drop(['tariff'], axis=1)
# ключевой признак будет - название тарифа
target = behavior['tariff']


# так как нам необходимо разделить датафрейм на три части, то для начала создадим две выборки 
# это будут тренировочная и тестовая выборка
# 80% оставляем на тренировочную и 20% отбираем для тестовой

features_train, features_test, target_train, target_test = \
train_test_split(features, target, test_size=0.20, random_state=123) 


# и создаем третью выборку - валидационную 
# для этого от тренировочной выборки заберем 25%

features_train, features_valid, target_train, target_valid = \
train_test_split(features_train, target_train, test_size=0.25, random_state=123)

## Исследуйте модели

Построим несколько моделей и обучим их на тренировочной выборке. 

Каждую модель проверим на качество метрикой accuracy по валидационной выборке. 

### Модель "Дерево решений"

In [10]:
# создадим цикл для поиска наилучшей модели "Дерево решений" с глубиной от 1 до 10
# цикл покажет параметры лучшей моедли и значение accuracy

best_model = None
best_result = 0
for depth in range(1, 21):
    tree_model = DecisionTreeClassifier(random_state=123, max_depth=depth) 
    tree_model.fit(features_train, target_train)
    tree_predictions = tree_model.predict(features_valid)
    tree_result = accuracy_score(target_valid, tree_predictions)
    if tree_result > best_result:
        best_model = tree_model
        best_result = tree_result
print('Параметры лучше модели:', best_model)       
print('Accuracy лучшей модели на валидационной выборке:', round(best_result*100,5), '%')

Параметры лучше модели: DecisionTreeClassifier(max_depth=9, random_state=123)
Accuracy лучшей модели на валидационной выборке: 79.00467 %


In [11]:
# сохраним лучшую модель "Дерево решений" с указанными параметрами

tree_model = DecisionTreeClassifier(random_state=123, max_depth=9)
tree_model.fit(features_train, target_train)

DecisionTreeClassifier(max_depth=9, random_state=123)

### Модель "Случайный лес"

In [12]:
# создадим цикл для поиска наилучшей модели "случайный лес" 
# с количеством деревьев от 10 до 50 и шагом 10 
# с глубиной от 1 до 20

best_model = 0
best_result = 0
for est in range(10, 51, 10):
    for depth in range (1, 21):
        forest_model = RandomForestClassifier(random_state=123, n_estimators=est, \
                                              max_depth=depth) 
        forest_model.fit(features_train, target_train) 
        result = forest_model.score(features_valid, target_valid) 
        if result > best_result:
            best_model = forest_model
            best_result = result
print('Параметры лучше модели:', best_model)        
print("Accuracy лучшей модели на валидационной выборке:", round(best_result*100,5),'%')        

Параметры лучше модели: RandomForestClassifier(max_depth=20, n_estimators=40, random_state=123)
Accuracy лучшей модели на валидационной выборке: 80.7154 %


In [13]:
# сохраним лучшую модель "Случайный лес" с указанными параметрами

forest_model = RandomForestClassifier(random_state=123, n_estimators=40, max_depth=20) 
forest_model.fit(features_train, target_train)

RandomForestClassifier(max_depth=20, n_estimators=40, random_state=123)

### Модель "Логистическая регрессия"

In [14]:
log_model = LogisticRegression(random_state=123)
log_model.fit(features_train, target_train)
result = log_model.score(features_valid, target_valid)

print("Accuracy модели логистической регрессии на валидационной выборке:", round(result*100,5),'%')

Accuracy модели логистической регрессии на валидационной выборке: 70.76205 %


### Выводы

Были выбраны и обучены (на тренировочной выборке) три модели: "Дерево решений", "Случайный лес" и "Логистическая регрессия". 

Был проведен анализ всех трех моделей на валидационной выборке и путем подбора гиперпараметров были найдены самые точные модели. 

Получаем следующие результаты accuracy на валидационной выборке для лучших моделей: 
- Модель "Случайный лес" - 80.7154 %
- Модель "Дерево решений" - 79.00467 %
- Модель "Логистическая регрессия" - 70.76205 %

При прочих равных точность модели "Случайный лес" выше остальных, хотя скорость работы заметно ниже, например, модели "Логистическая регрессия".

## Проверьте модель на тестовой выборке

### Проверка модели "Дерево решений"

In [15]:
# создадим цикл для поиска наилучшей модели "Дерево решений" с глубиной от 1 до 10
# цикл покажет параметры лучшей моедли и значение accuracy

tree_predictions = tree_model.predict(features_test)
tree_test_result = accuracy_score(target_test, tree_predictions)

print('Accuracy лучшей модели на валидационной выборке:', round(tree_test_result*100,5),'%')

Accuracy лучшей модели на валидационной выборке: 79.31571 %


### Проверка модели "Случайный лес"

In [16]:
forest_test_result = forest_model.score(features_test, target_test) 
     
print("Accuracy лучшей модели на тестовой выборке:", round(forest_test_result*100,5),'%')        

Accuracy лучшей модели на тестовой выборке: 79.93779 %


### Проверка модели "Логистическая регрессия"

In [17]:
log_test_result = log_model.score(features_test, target_test) 

print("Accuracy модели логистической регрессии на валидационной выборке:", \
      round(log_test_result*100,5),'%')

Accuracy модели логистической регрессии на валидационной выборке: 71.07309 %


### Выводы

Как и в случае с валидационной выборкой - позиции точности на тестовой выборке распредлены следующим образом: 
- "Случайный лес" - 79.93779 %
- "Дерево решений" - 79.31571 %
- "Логистическая регрессия" - 71.07309 %

## Проверьте модели на адекватность

Для проверки лучшей модели (forest_model) на адекватность используем DummyClassifier

In [18]:
dum_model = DummyClassifier(strategy = 'most_frequent', random_state=456)
dum_model.fit(features_train, target_train)

if forest_model.score(features_test, target_test) > dum_model.score(features_test, target_test):
    print('Моя модель "Случайного леса" адекватна')
else:
    print('Моя "Случайного леса" не очень')

Моя модель "Случайного леса" адекватна


## Общий вывод

Был рассмотрен датасет на 3214 строк и 5 столбцов, в котором не было обнаружено пропусков. 

Данный датасет был разбит на три выборки в соотношении 60-20-20: тренировочный, тестовый и валидационный. 

Были проверены три модели для классификации: "Случайный лес", "Дерево решений" и "Логистическая регрессия". 
- каждая модель подверглась изучению на валидационной выборке
- были выявлены наиболее эффективные модели для каждого типа
- была выявлена самая эффективная модель - модель "Случайного леса"

Самые эффективные модели каждого типа были проверены на тестовой выборке - результат проверки соответствовал градации при проверке на валидационной выборке. 

Самая эффективная модель ("Случайный лес") прошла проверку на адекватность при помощи DummyClassifier. 

Модель "Случайный лес" имеет эффективность на тестовой выборке 79.93779 %. 

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x] Jupyter Notebook открыт
- [x] Весь код исполняется без ошибок
- [x] Ячейки с кодом расположены в порядке исполнения
- [x] Выполнено задание 1: данные загружены и изучены
- [x] Выполнено задание 2: данные разбиты на три выборки
- [x] Выполнено задание 3: проведено исследование моделей
    - [x] Рассмотрено больше одной модели
    - [x] Рассмотрено хотя бы 3 значения гипепараметров для какой-нибудь модели
    - [x] Написаны выводы по результатам исследования
- [x] Выполнено задание 3: Проведено тестирование
- [x] Удалось достичь accuracy не меньше 0.75
