# Рекомендация тарифов

Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».


В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.


Постройте модель с максимально большим значением accuracy. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте accuracy на тестовой выборке самостоятельно.

## Откройте и изучите файл

In [17]:
import pandas as pd 
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [18]:
try:
    df = pd.read_csv('users_behavior.csv')
except:
    df = pd.read_csv('https://code.s3.yandex.net/datasets/users_behavior.csv')

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


всего у нас 5 прзнаков и 3214 объектов.
* is_ultra - категориальный признак  


In [20]:
df['is_ultra'].value_counts()

0    2229
1     985
Name: is_ultra, dtype: int64

## Разбейте данные на выборки

подготовим данные

In [21]:
df_train, df_valid = train_test_split(df, test_size=0.30, random_state=12345)
df_valid, df_test = train_test_split(df_valid,test_size = 0.5, random_state=12345)

In [22]:
features = df.drop(['is_ultra'], axis=1)
target = df['is_ultra']

#Валидационная выборка
features_valid = df_valid.drop(['is_ultra'], axis=1)
target_valid = df_valid['is_ultra']

#Обучающая выборка
features_train = df_train.drop(['is_ultra'], axis=1)
target_train = df_train['is_ultra']

#Тестовая выборка
features_test = df_test.drop(['is_ultra'], axis=1)
target_test = df_test['is_ultra']

## Исследуйте модели

рассмотрим  модели:

* дерево решений 
* случайный лес 
* логистическую регрессию 

Decision Tree

In [23]:
for depth in range(1, 20, 2):
    model =  DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train , target_train) 
    predictions = model.predict(features_valid)
    score = accuracy_score(target_valid, predictions)
    print("depth = ", depth, "Accuracy:",score)

depth =  1 Accuracy: 0.7510373443983402
depth =  3 Accuracy: 0.7863070539419087
depth =  5 Accuracy: 0.7614107883817427
depth =  7 Accuracy: 0.7821576763485477
depth =  9 Accuracy: 0.7780082987551867
depth =  11 Accuracy: 0.7904564315352697
depth =  13 Accuracy: 0.7821576763485477
depth =  15 Accuracy: 0.7593360995850622
depth =  17 Accuracy: 0.7510373443983402
depth =  19 Accuracy: 0.7551867219917012


При глубине depth =  11  точность  Accuracy: 0.7904564315352697 наибольшая

Random Forest

In [24]:
for depth in range(2, 22, 2):
    for estim in range(50, 351, 50):
             model = RandomForestClassifier(n_estimators=estim, max_depth=7, random_state=12345)
             model.fit(X_train, y_train)
             predictions = model.predict(X_valid)
             score = accuracy_score(y_valid, predictions)
             print("n_est =", estim, "Accuracy:",score)

n_est = 50 Accuracy: 0.8118195956454122
n_est = 100 Accuracy: 0.8133748055987559
n_est = 150 Accuracy: 0.8118195956454122
n_est = 200 Accuracy: 0.8133748055987559
n_est = 250 Accuracy: 0.8102643856920684
n_est = 300 Accuracy: 0.8102643856920684
n_est = 350 Accuracy: 0.8087091757387247
n_est = 50 Accuracy: 0.8118195956454122
n_est = 100 Accuracy: 0.8133748055987559
n_est = 150 Accuracy: 0.8118195956454122
n_est = 200 Accuracy: 0.8133748055987559
n_est = 250 Accuracy: 0.8102643856920684
n_est = 300 Accuracy: 0.8102643856920684
n_est = 350 Accuracy: 0.8087091757387247
n_est = 50 Accuracy: 0.8118195956454122
n_est = 100 Accuracy: 0.8133748055987559
n_est = 150 Accuracy: 0.8118195956454122
n_est = 200 Accuracy: 0.8133748055987559
n_est = 250 Accuracy: 0.8102643856920684
n_est = 300 Accuracy: 0.8102643856920684
n_est = 350 Accuracy: 0.8087091757387247
n_est = 50 Accuracy: 0.8118195956454122
n_est = 100 Accuracy: 0.8133748055987559
n_est = 150 Accuracy: 0.8118195956454122
n_est = 200 Accuracy

Модель случайного леса предсказывает тариф, 0.8008298755186722

Logistic Regression

In [25]:
model = LogisticRegression(random_state=12345)
model.fit(features_train, target_train)
predictions_valid = model.predict(features_valid)
score = accuracy_score(target_valid, predictions_valid)
print(accuracy_score(target_valid, predictions_valid))

0.6908713692946058


у логической регрессии наименьшая точность 

## Проверьте модель на тестовой выборке

In [26]:
best_model = RandomForestClassifier(n_estimators=estim, max_depth=7, random_state=12345)
best_model.fit(features_train, target_train)
pred_test = best_model.predict(features_test)
test_score = accuracy_score(target_test, pred_test)
print(test_score)

0.8198757763975155


## Проверка модели на адекватность

In [29]:
df['is_ultra'].value_counts(normalize=True)

0    0.693528
1    0.306472
Name: is_ultra, dtype: float64

* Доля большего класса тестовой выборки равна ~69%; 
* Полученная нами модель имеет accuracy ~ 79 %. 
* Можем считать модель адекватной