# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## Откройте и изучите файл

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble 

In [2]:
data = pd.read_csv('/datasets/users_behavior.csv')

In [3]:
display (data.head())
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


## Разбейте данные на выборки

### Разобьем данные сначала на тренировочную и проверочную выборки. 

In [4]:
features = data.drop('is_ultra', axis=1)
target = data['is_ultra']
features_train, features_sum, target_train, target_sum= train_test_split(features, target, test_size=0.4, random_state=12345)


### Проверочную выборку в свою очередь разобьем на валидационную и тестовую выборки

In [5]:
features_val, features_test, target_val, target_test = train_test_split(features_sum, target_sum, test_size=0.5, random_state=12345)

## Исследуйте модели

### Модель дерева решений

In [6]:
%%time
best_accuracy = 0
best_depth = 0
for depth in range(1,10):
    model = DecisionTreeClassifier(max_depth=depth, random_state=12345)
    model.fit(features_train, target_train)
    accuracy_train = model.score(features_train, target_train)
    accuracy_val = model.score(features_val, target_val)
    #predictions=model.predict(features_val) мой вопрос по этой строке ниже 
    #accuracy_1=accuracy_score (target_val, predictions) мой вопрос по этой строке ниже 
    if accuracy_val > best_accuracy:
        best_accuracy = accuracy_val
        best_depth = depth
    print("Глубина дерева:", depth, "    Качество тренировочной выборки:", accuracy_train)    
    print("Глубина дерева:", depth, "    Качество валидационной выборки:", best_accuracy)
    #print("Глубина дерева:", depth, "    Качество валидационной выборки:",  accuracy_1)
print("Лучшие параметры:      Глубина дерева:", best_depth, "    Качество:", best_accuracy)




Глубина дерева: 1     Качество тренировочной выборки: 0.7577800829875518
Глубина дерева: 1     Качество валидационной выборки: 0.7542768273716952
Глубина дерева: 2     Качество тренировочной выборки: 0.7878630705394191
Глубина дерева: 2     Качество валидационной выборки: 0.7822706065318819
Глубина дерева: 3     Качество тренировочной выборки: 0.8075726141078838
Глубина дерева: 3     Качество валидационной выборки: 0.7853810264385692
Глубина дерева: 4     Качество тренировочной выборки: 0.8106846473029046
Глубина дерева: 4     Качество валидационной выборки: 0.7853810264385692
Глубина дерева: 5     Качество тренировочной выборки: 0.8200207468879668
Глубина дерева: 5     Качество валидационной выборки: 0.7853810264385692
Глубина дерева: 6     Качество тренировочной выборки: 0.8376556016597511
Глубина дерева: 6     Качество валидационной выборки: 0.7853810264385692
Глубина дерева: 7     Качество тренировочной выборки: 0.8558091286307054
Глубина дерева: 7     Качество валидационной выборк

<div class="alert alert-info">
<font color='black'> <b> При глубине дерева "3" качество на валидационной выборке достигло максимума и уже не меняется </font> <b>

### Модель логистической регрессии

In [7]:
%%time
model = LogisticRegression()
model.fit(features_train, target_train)
accuracy = model.score(features_val, target_val)
print("Качество:", accuracy)

Качество: 0.7107309486780715
CPU times: user 19 ms, sys: 3.5 ms, total: 22.5 ms
Wall time: 21.1 ms


### Модель случайного леса

In [8]:
%%time
best_accuracy = 0
best_est = 0
for est in range(1,40):
    model = RandomForestClassifier(n_estimators=est, random_state=12345)
    model.fit(features_train, target_train)
    accuracy_train = model.score(features_train, target_train)
    accuracy_val = model.score(features_val, target_val)
    if accuracy_val > best_accuracy:
        best_accuracy = accuracy_val
        best_est = est
    print("Количество деревьев:", est, "    Качество тренировочной выборки:", accuracy_train)    
    print("Количество деревьев:", est, "    Качество валидационной выборки:", best_accuracy)
print("Лучшие параметры:     Количество деревьев:", best_est, "    Качество:", best_accuracy)


Количество деревьев: 1     Качество тренировочной выборки: 0.9035269709543569
Количество деревьев: 1     Качество валидационной выборки: 0.7107309486780715
Количество деревьев: 2     Качество тренировочной выборки: 0.9097510373443983
Количество деревьев: 2     Качество валидационной выборки: 0.7636080870917574
Количество деревьев: 3     Качество тренировочной выборки: 0.9507261410788381
Количество деревьев: 3     Качество валидационной выборки: 0.7636080870917574
Количество деревьев: 4     Качество тренировочной выборки: 0.946058091286307
Количество деревьев: 4     Качество валидационной выборки: 0.7713841368584758
Количество деревьев: 5     Качество тренировочной выборки: 0.9678423236514523
Количество деревьев: 5     Качество валидационной выборки: 0.7713841368584758
Количество деревьев: 6     Качество тренировочной выборки: 0.9693983402489627
Количество деревьев: 6     Качество валидационной выборки: 0.7807153965785381
Количество деревьев: 7     Качество тренировочной выборки: 0.9787

<div class="alert alert-info">
<font color='black'> <b>На валидационной выборке наилучшим образом показала себя модель случайного леса: качество составило 0.794. Видно, что при числе деревьев=40 , точность на обучающей выборке почти идеальная<b>

## Проверьте модель на тестовой выборке

### Модель дерева решений

In [9]:
model = DecisionTreeClassifier(max_depth=3, random_state=12345)
model.fit(features_train, target_train)
accuracy = model.score(features_test, target_test)
display("Качество:", accuracy)

'Качество:'

0.7791601866251944

### Модель логистической регрессии

In [10]:
model = LogisticRegression()
model.fit(features_train, target_train)
accuracy = model.score(features_test, target_test)
display("Качество:", accuracy)

'Качество:'

0.6842923794712286

### Модель случайного леса

In [11]:
model = RandomForestClassifier(n_estimators=23, random_state=12345)
model.fit(features_train, target_train)
accuracy = model.score(features_test, target_test)
display("Качество:", accuracy)

'Качество:'

0.7807153965785381

<div class="alert alert-info">
<font color='black'> <b>Проверим лучшую модель на совмещенной выборке (валидационная + обучающая). Из-за большего набора данных модель обучилась лучше и качество соответственно увеличилось и составило 0.8 <b>

In [12]:
model = RandomForestClassifier(n_estimators=23, random_state=12345)
feat = pd.concat([features_train, features_val], ignore_index=True)
target = pd.concat([target_train, target_val], ignore_index=True)
model.fit(feat, target)
accuracy1 = model.score(features_test, target_test)
display("Качество:", accuracy1)

'Качество:'

0.8055987558320373

<div class="alert alert-info">
<font color='black'> <b>ВЫВОД: На тестовой выборке наилучшим образом показала себя снова модель случайного леса: качество тем не менее немного ухудшилось и составило 0.78