# Введение в машинное обучение. Модель рекомендательной сиситемы

## Описание проекта.
Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».
В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы. 

Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится. 
Постройте модель с максимально большим значением accuracy. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте accuracy на тестовой выборке самостоятельно.


## Описание данных.
Каждый объект в наборе данных — это информация о поведении одного пользователя за месяц. Известно:  
* **сalls** — количество звонков,  
* **minutes** — суммарная длительность звонков в минутах,  
* **messages** — количество sms-сообщений,  
* **mb_used** — израсходованный интернет-трафик в Мб,  
* **is_ultra** — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0).  


## <a id="0.0"></a>Содержание.

* [1. Знакомство с данными.](#1.)   
* [2. Деление выборки на обучающую, валидационную и тестовую части.](#2.)     
* [3. Обучение модели, подбор наилучших гиперпараметров.](#3.)     
* [4. Проверка модели на тестовой выборке.](#4.)     
* [5. Проверка на вменяемость.](#5.)   
* [Вывод](#6.)   

In [13]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression 
from sklearn.metrics import accuracy_score
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import train_test_split

### 1. Знакомство с данными.<a name="1."></a>
[к содержанию](#0.0)

In [14]:
# считаем данные из файла
df = pd.read_csv('datasets/users_behavior.csv')

# посмотрим общую информацио о данных
print(df.info()), print()
print(df.describe()), print()
print(df.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB
None

             calls      minutes     messages       mb_used     is_ultra
count  3214.000000  3214.000000  3214.000000   3214.000000  3214.000000
mean     63.038892   438.208787    38.281269  17207.673836     0.306472
std      33.236368   234.569872    36.148326   7570.968246     0.461100
min       0.000000     0.000000     0.000000      0.000000     0.000000
25%      40.000000   274.575000     9.000000  12491.902500     0.000000
50%      62.000000   430.600000    30.000000  16943.235000     0.000000
75%      82.000000   571.927500    57.000000  21424.700000 

Предобработка уже была произведена ранее, в датасете отсутствуют пропущенные значения, аномальные значения признаков, все столбцы переведены в соответствующие типы данных.

### 2. Деление выборки на обучающую, валидационную и тестовую части.<a name="2."></a>
[к содержанию](#0.0)

Используем метод train_test_split для разделения выборки на тренировочную и тестовую.

In [15]:
# разделим выборку на train и test
train_data, test_data = train_test_split(df, test_size=0.20, random_state=12345)

# выделим фичи и таргеты из тренировочной выборки
features = train_data.drop(['is_ultra'], axis=1)
target = train_data['is_ultra']

# выделим фичи и таргеты из тестовой выборки
features_test = test_data.drop(['is_ultra'], axis=1)
target_test = test_data['is_ultra']

Выделим валидационную выборку из тренировочного датасета.

In [16]:
features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.20, random_state=12345)

In [17]:
print('Размер тренировочной выборки, фичи:', features_train.shape, 'таргеты:', target_train.shape)
print('Размер валидационной выборки, фичи:', features_valid.shape, 'таргеты:', target_valid.shape)
print('Размер тестовой выборки, фичи:', features_test.shape, 'таргеты:', target_test.shape)

Размер тренировочной выборки, фичи: (2056, 4) таргеты: (2056,)
Размер валидационной выборки, фичи: (515, 4) таргеты: (515,)
Размер тестовой выборки, фичи: (643, 4) таргеты: (643,)


### 3. Обучение модели, подбор наилучших гиперпараметров.<a name="3."></a>
[к содержанию](#0.0)

Перед нами задача бинарной классификации. Решим задачу при помощи трех популярных моделей, попытаемся подобрать оптимальные гиперпараметры для большей точности.

#### Случайный лес

Решим задачу при помощи модели - **Случайный лес**. Для того чтобы подобрать оптимальные гиперпараметры модели, переберем число деревьев от 1 до 50 с шагом в 10, а также максимальную глубину дерева от 1 до 10.

In [18]:
%%time
best_model_rf = None
best_result_rf = 0
best_est_rf = 0
best_depth_rf = 0

for est in range(10, 51, 10):
    for depth in range (1, 10):
        model = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=depth)
        model.fit(features_train, target_train)
        predictions_valid = model.predict(features_valid)
        result = accuracy_score(target_valid, predictions_valid) 
        if result > best_result_rf:
            best_model_rf = model
            best_result_rf = result
            best_est_rf = est
            best_depth_rf = depth
            
# распечатаем наилучшие результаты
print('Accuracy лучшей модели:', best_result_rf)
print('Оптимальное количество деревьев:', best_est_rf)
print('Оптимальная глубина дерева:', best_depth_rf)

Accuracy лучшей модели: 0.7902912621359224
Оптимальное количество деревьев: 50
Оптимальная глубина дерева: 8
CPU times: user 3.74 s, sys: 71.8 ms, total: 3.81 s
Wall time: 3.88 s


#### Дерево решений

Решим задачу при помощи модели - **решающее дерево.** Напишем функцию, в которой подберем оптимальные параметры.

In [19]:
%%time
best_model_dt = None
best_result_dt = 0
best_est_dt = 0
best_depth_dt = 0
criterions = ['entropy', 'gini']

for depth in range(1, 20):
    for criterion in criterions:
        model = DecisionTreeClassifier(random_state=12345, criterion=criterion, max_depth=depth)
        model.fit(features_train, target_train)
        predictions_valid = model.predict(features_valid)
        result = accuracy_score(target_valid, predictions_valid) 
        if result > best_result_dt:
            best_model_dt = model
            best_result_dt = result
            best_est_dt = est
            best_depth_dt = depth
            
# распечатаем наилучшие результаты
print('Accuracy лучшей модели:', best_result_dt)
print('Оптимальная глубина дерева:', best_depth_dt)

Accuracy лучшей модели: 0.7747572815533981
Оптимальная глубина дерева: 8
CPU times: user 374 ms, sys: 8.98 ms, total: 383 ms
Wall time: 386 ms


#### Логистическая регрессиия

Решим задачу при помощи модели - **Логистическая регрессия.**

In [20]:
%%time
model_lr = LogisticRegression(random_state=12345) 
model_lr.fit(features_train, target_train) 
result_lr = model_lr.score(features_valid, target_valid)

            
# распечатаем наилучшие результаты
print('Accuracy лучшей модели:', result_lr)

Accuracy лучшей модели: 0.7165048543689321
CPU times: user 102 ms, sys: 6.13 ms, total: 108 ms
Wall time: 64 ms


### 4. Проверка модели на тестовой выборке.<a name="4."></a>
[к содержанию](#0.0)

Проверим обученные модели на тестовой выборке и поймем какая обладает наибольшей точностью

In [21]:
# проверим точность модели случайный лес
predictions_test_rf = best_model_rf.predict(features_test)
test_accuracy_rf = accuracy_score(target_test, predictions_test_rf) 

# проверим точность модели решающее дерево
predictions_test_dt = best_model_dt.predict(features_test)
test_accuracy_dt = accuracy_score(target_test, predictions_test_dt) 

# проверим точность модели логистическая регрессия
result_lr = model_lr.score(features_test, target_test)


print('Accuracy модели Случайный лес:', test_accuracy_rf)
print('Accuracy модели Решающее дерево:', test_accuracy_dt)
print('Accuracy модели Логистическая регрессия:', result_lr)

Accuracy модели Случайный лес: 0.8040435458786936
Accuracy модели Решающее дерево: 0.7822706065318819
Accuracy модели Логистическая регрессия: 0.76049766718507


### 5. Проверка на вменяемость.<a name="5."></a>
[к содержанию](#0.0)

Сравним точность полученных нами моделей с "глупой моделью". Реализуем её с помощью модуля DummyClassifier.
Используем стратегию constant. В случае нашей задачи мы прогнозируем значения 1 и 0. Зададим эти констатны DummyClassifier и посмотрим насколько точность нашей модели выше.

In [22]:
dummy_clf_1 = DummyClassifier(strategy="constant", random_state=0, constant=1)
dummy_clf_1.fit(features_train, target_train)

dummy_clf_0 = DummyClassifier(strategy="constant", random_state=0, constant=0)
dummy_clf_0.fit(features_train, target_train)

result_1 = dummy_clf_1.score(features_test, target_test)
result_0 = dummy_clf_0.score(features_test, target_test)

print("Точность 'глупой модели' с константой 1:", result_1)
print("Точность 'глупой модели' с константой 0:", result_0)

Точность 'глупой модели' с константой 1: 0.3048211508553655
Точность 'глупой модели' с константой 0: 0.6951788491446346


Относительно высокое значение показала модель с констатой 0. Это обусловлено тем, 0 в нашей выборке это тариф Смарт, он популярнее тарифа Ультра, и как видно встречается в тестовой выборке в 69,5%. 

## Вывод<a name="6."></a>
[к содержанию](#0.0)

На вход были получены данные, не требующие предварительной обработки. Методом train_test_split выборка была разделена на обучающую, валидационную и тестовую части. Были проверены 3 популярные модели машиннного обучения: решающее дерево, случайный лес и логистическая регрессия. При обучении моделе подбирались оптимальные гиперпараметры для большей точности. Модели с наилучшими гиперпараметрами были проверены на тестовой выборке. Наилучшей моделью для решения задачи оказался случайный лес, который показал точность 80%. Также было проведено сравнение лучшей модели с "глупой моделью" с помощью модуля DummyClassifier. Точность лучшей полученной модели оказалась на 10% выше точности глупой модели.