# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## 1.  Откройте и изучите файл

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score


In [2]:
users_behavior.shape

(3214, 5)

In [3]:
users_behavior.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


## 2. Разбейте данные на выборки

In [4]:
# 60% train, 20% valid, 20% test
df_train, df_valid = train_test_split(users_behavior, test_size=0.4, random_state=12345)
df_valid,df_test = train_test_split(df_valid, test_size=0.5, random_state=12345)

In [5]:
# Тренировочные данные
feature_train = df_train.drop('is_ultra', axis=1)
target_train = df_train['is_ultra']
# Валидационные данные
feature_valid = df_valid.drop('is_ultra', axis=1)
target_valid = df_valid['is_ultra']
# Тестовые данные
feature_test = df_test.drop('is_ultra', axis=1)
target_test = df_test['is_ultra']

## 3. Исследуйте модели

In [6]:
# Исследуем модель Дерево принятия решения
for i in range(1, 6):
    dtc_model = DecisionTreeClassifier(max_depth=i, random_state=12345)
    dtc_model.fit(feature_train, target_train)
    
    dtc_valid_predictions = dtc_model.predict(feature_valid)
    accuracy = accuracy_score(target_valid, dtc_valid_predictions)
    print(f"DecisionTreeClassifier. max_depth = {i}; accuracy = {accuracy}")

DecisionTreeClassifier. max_depth = 1; accuracy = 0.7542768273716952
DecisionTreeClassifier. max_depth = 2; accuracy = 0.7822706065318819
DecisionTreeClassifier. max_depth = 3; accuracy = 0.7853810264385692
DecisionTreeClassifier. max_depth = 4; accuracy = 0.7791601866251944
DecisionTreeClassifier. max_depth = 5; accuracy = 0.7791601866251944


In [7]:
# Исследуем модель Случайный лес с количеством estimators от 1 до 10
for i in range(1, 11):
    rf_model = RandomForestClassifier(random_state=12345, n_estimators=i)
    rf_model.fit(feature_train, target_train)
    rf_valid_predictions = rf_model.predict(feature_valid)
    score = accuracy_score( target_valid, rf_valid_predictions)
    print(f'RandomForestClassifier, estimators={i}, score={score}')

RandomForestClassifier, estimators=1, score=0.7107309486780715
RandomForestClassifier, estimators=2, score=0.7636080870917574
RandomForestClassifier, estimators=3, score=0.7387247278382582
RandomForestClassifier, estimators=4, score=0.7713841368584758
RandomForestClassifier, estimators=5, score=0.749611197511664
RandomForestClassifier, estimators=6, score=0.7807153965785381
RandomForestClassifier, estimators=7, score=0.7682737169517885
RandomForestClassifier, estimators=8, score=0.7822706065318819
RandomForestClassifier, estimators=9, score=0.7729393468118196
RandomForestClassifier, estimators=10, score=0.7853810264385692


In [8]:
# Исследуем модель Случайный лес с количеством estimators от 10 до 100
for i in range(10, 101, 10):
    rf_model = RandomForestClassifier(random_state=12345, n_estimators=i)
    rf_model.fit(feature_train, target_train)
    rf_valid_predictions = rf_model.predict(feature_valid)
    score = accuracy_score( target_valid, rf_valid_predictions)
    print(f'RandomForestClassifier, estimators={i}, score={score}')

RandomForestClassifier, estimators=10, score=0.7853810264385692
RandomForestClassifier, estimators=20, score=0.7869362363919129
RandomForestClassifier, estimators=30, score=0.7838258164852255
RandomForestClassifier, estimators=40, score=0.7838258164852255
RandomForestClassifier, estimators=50, score=0.7916018662519441
RandomForestClassifier, estimators=60, score=0.7853810264385692
RandomForestClassifier, estimators=70, score=0.7791601866251944
RandomForestClassifier, estimators=80, score=0.7822706065318819
RandomForestClassifier, estimators=90, score=0.7838258164852255
RandomForestClassifier, estimators=100, score=0.7853810264385692


In [9]:
# Исследуем модель Логистическая Регрессия
log_model = LogisticRegression(random_state=12345)
log_model.fit(feature_train, target_train)
log_predictions = log_model.predict(feature_valid)
score = accuracy_score( target_valid, log_predictions)
print(f'Logistic Regression, score = {score}')

Logistic Regression, score = 0.7589424572317263




### Предварительные выводы:  
#### Наиболее высокий результат на валидационной выборке показали:
---
    1) RandomForestClassifier, estimators=50, score=0.7916
    2) DecisionTreeClassifier. max_depth = 3; accuracy = 0.785
    3) RandomForestClassifier, estimators=10, accuracy_score=0.785
    4) DecisionTreeClassifier. max_depth = 2; accuracy = 0.782
    5) RandomForestClassifier, estimators=8, accuracy_score=0.782

Самый высокий показатель точности был у модели Случайный лес с гиперпараметром n_estimators=50. Эту модель мы будем проверять на тестовой выборке.

## 4. Проверьте модель на тестовой выборке

In [10]:
model = RandomForestClassifier(random_state=12345, n_estimators=50)
model.fit(feature_train, target_train)
predictions = model.predict(feature_test)

print(f"RandomForestClassifier. n_estimators = 50; accuracy = {accuracy_score(target_test, predictions)}")

DecisionTreeClassifier. max_depth = 3; accuracy = 0.7931570762052877


## 5. (бонус) Проверьте модели на адекватность

accuracy модели, использующей случайное предсказание тарифа составляет 0.69
accuracy нашей модели 0.7931, что говорит о том, что она адекватней случайного угадывания.


In [11]:
users_behavior['is_ultra'].value_counts(normalize=True)

0    0.693528
1    0.306472
Name: is_ultra, dtype: float64