# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

Название проекта: рекомендация тарифов.<br>
Цель: построить модель с максимально большим значением accuracy.<br>
Задачи исследования: выбрать наиболее подходящую модель и проверить на адекватность.<br>
Итоги: модель RandomForestClassifier имеет самый высокий показатель accuracy 0.80248833592535 и прошла тест на адекватность.<br>

## Откройте и изучите файл

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.dummy import DummyClassifier
from sklearn.metrics import accuracy_score
from tqdm import tqdm

In [2]:
df = pd.read_csv('/datasets/users_behavior.csv')
print(df.head(10))
print(df.info())
print(df.describe())

   calls  minutes  messages   mb_used  is_ultra
0   40.0   311.90      83.0  19915.42         0
1   85.0   516.75      56.0  22696.96         0
2   77.0   467.66      86.0  21060.45         0
3  106.0   745.53      81.0   8437.39         1
4   66.0   418.74       1.0  14502.75         0
5   58.0   344.56      21.0  15823.37         0
6   57.0   431.64      20.0   3738.90         1
7   15.0   132.40       6.0  21911.60         0
8    7.0    43.39       3.0   2538.67         1
9   90.0   665.41      38.0  17358.61         0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB
None
             calls      minutes     

<div class="alert alert-block alert-info">
<b>КОММЕНТАРИЙ СТУДЕНТА:</b><br>
    
- Приведем тип данных в столбцах calls и messages к int64 и проверим данные на явные дубликаты.
</div>

In [3]:
df['calls'] = df['calls'].astype('int')
df['messages'] = df['messages'].astype('int')
df.duplicated().sum()

0

## Разбейте данные на выборки

In [4]:
features = df.drop(['is_ultra'], axis=1)
target = df['is_ultra']
features_train, features_test, target_train, target_test = train_test_split(features, 
                                                                            target, 
                                                                            test_size=0.4, 
                                                                            random_state=12345
                                                                           ) 
features_valid, features_test, target_valid, target_test = train_test_split(features_test, 
                                                                            target_test, 
                                                                            test_size=0.5, 
                                                                            random_state=12345
                                                                           )
print(features_train.shape)
print(target_train.shape)
print(features_valid.shape)
print(target_valid.shape)
print(features_test.shape)
print(target_test.shape)

(1928, 4)
(1928,)
(643, 4)
(643,)
(643, 4)
(643,)


<div class="alert alert-block alert-info">
<b>КОММЕНТАРИЙ СТУДЕНТА:</b><br>
    
- Размер обучающей выборки - 1928 объектов
- Размер валидационной выборки - 643 объекта
- Размер тестовой выборки - 643 объекта
</div>

## Исследуйте модели

In [5]:
for depth in range(1, 6):
    model = DecisionTreeClassifier(max_depth=depth, random_state=12345)
    model.fit(features_train,target_train)
    predictions_valid = model.predict(features_valid)

    print("max_depth =", depth, ": ", end='')
    print(accuracy_score(target_valid, predictions_valid))

max_depth = 1 : 0.7542768273716952
max_depth = 2 : 0.7822706065318819
max_depth = 3 : 0.7853810264385692
max_depth = 4 : 0.7791601866251944
max_depth = 5 : 0.7791601866251944


<div class="alert alert-block alert-info">
<b>КОММЕНТАРИЙ СТУДЕНТА:</b><br>
    
- Модель решающее дерево
- Наилучшее качество достигается при max_depth = 3 : 0.7853810264385692 
</div>

In [6]:
best_model_rfc = None
best_est_rfc = 0
best_depth_rfc = 0
best_result_rfc = 0
for est in tqdm(range(1, 11)):
    for depth in range(1, 11):
        model_rfc = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth = depth).fit(features_train, target_train)
        predictions_valid_rfc = model_rfc.predict(features_valid)
        result_rfc = accuracy_score(predictions_valid_rfc, target_valid)
        if best_result_rfc < result_rfc:
            best_model_rfc = model_rfc
            best_est_rfc = est
            best_depth_rfc = depth
            best_result_rfc = result_rfc
print('best n_estimators =', 
      best_est_rfc, 
      '; ', 
      'best max_depth =', 
      best_depth_rfc, 
      '; ', 
      'best Accuracy = ', 
      best_result_rfc, 
      end =''
     ) 

100%|██████████| 10/10 [00:01<00:00,  6.18it/s]

best n_estimators = 8 ;  best max_depth = 8 ;  best Accuracy =  0.80248833592535




<div class="alert alert-block alert-info">
<b>КОММЕНТАРИЙ СТУДЕНТА:</b><br>
    
- Модель случайный лес
- Accuracy = 0.80248833592535
</div>

In [7]:
model = LogisticRegression(random_state=12345).fit(features_train, target_train)
predictions_valid_lr = model.predict(features_valid)
accuracy_lr = accuracy_score(predictions_valid_lr, target_valid)
print('Accuracy LogisticRegression:', accuracy_lr, end ='')

Accuracy LogisticRegression: 0.7107309486780715

<div class="alert alert-block alert-info">
<b>КОММЕНТАРИЙ СТУДЕНТА:</b><br>
    
- Модель логистическая регрессия
- Accuracy = 0.7107309486780715
</div>

<div class="alert alert-block alert-info">
<b>КОММЕНТАРИЙ СТУДЕНТА:</b><br>
    <b>Вывод:</b><br>
    
- наилучший результат Accuracy у модели решающего дерева - DecisionTreeClassifier - Accuracy равен 0.7853810264385692
- наилучший результат Accuracy у модели случайного леса - RandomForestClassifier - 0.80248833592535
- результат Accuracy у модели логистической регрессии - LogisticRegression - 0.7107309486780715
- наиболее высокий показатель Accuracy из всех трёх моделей у модели случайного леса - RandomForestClassifier - 0.80248833592535
</div>

## Проверьте модель на тестовой выборке

In [8]:
model = RandomForestClassifier(random_state=12345, n_estimators = 8, max_depth = 8).fit(features_train, target_train)
predictions_test = model.predict(features_test)
result_test = accuracy_score(predictions_test, target_test)
print('Accuracy RandomForestClassifier:', result_test)

Accuracy RandomForestClassifier: 0.7962674961119751


<div class="alert alert-block alert-info">
<b>КОММЕНТАРИЙ СТУДЕНТА:</b><br>
    <b>Вывод:</b>
    
- Accuracy у модели случайного леса - RandomForestClassifier на тестовой выборке равна 0.7962674961119751   
</div>

## (бонус) Проверьте модели на адекватность

In [9]:
model_dc = DummyClassifier(strategy='most_frequent', random_state=12345)
model_dc.fit(features_train, target_train)
result_dc = model_dc.score(features_valid, target_valid)
print('Accuracy DummyClassifier:', result_dc)
print('Accuracy RandomForestClassifier:', result_test)

Accuracy DummyClassifier: 0.7060653188180405
Accuracy RandomForestClassifier: 0.7962674961119751


<div class="alert alert-block alert-info">
<b>КОММЕНТАРИЙ СТУДЕНТА:</b><br>
    <b>Вывод:</b>
    
- Accuracy модели DummyClassifier ниже, чем у модели RandomForestClassifier - значит модель адекватна
</div>

<div class="alert alert-block alert-info">
<b>КОММЕНТАРИЙ СТУДЕНТА:</b><br>
    <b>Общий вывод:</b><br>
    
- Изменили тип данных в столбцах calls и messages к int64 и проверим данные на явные дубликаты
- Разбили данные на обучающую, валидационную и тестовую выборки в соотношении 60%-20%-20%
- Исследовали модели и обнаружили, что наиболее высокий показатель accuracy(качество) из всех трёх моделей у модели случайного леса - RandomForestClassifier - 0.80248833592535 с гиперпараметрами n_estimators равным - 8 и max_depth равным 8
- Проверили качество модели RandomForestClassifier на тестовой выборке и получили результат accuracy - 0.796267496111975
- Проверили модель RandomForestClassifier на вменяемость с помощью модели DummyClassifier, которая показала результат Accuracy - 0.7060653188180405 - что меньше, чем у модели RandomForestClassifier, а значит модель адекватна
</div>