# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

## Откройте и изучите файл

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

In [2]:
df=pd.read_csv('/datasets/users_behavior.csv')
df.columns

Index(['calls', 'minutes', 'messages', 'mb_used', 'is_ultra'], dtype='object')

In [10]:
temp = df.copy() 
# Проверка на явные дубликаты
print('Кол-во дубликатов:',temp.duplicated().sum())
list_c = ['calls', 'minutes', 'messages', 'mb_used', 'is_ultra']
print(temp.info())
for col_l in list_c:
  print('-------------------------')
  print(col_l, temp[col_l].sort_values().unique())
  print(col_l,': кол-во NaN',temp[col_l].isna().sum(),
        ', процент NaN', round(temp[col_l].isna().sum()/len(temp)*100, 2),'%')

Кол-во дубликатов: 0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB
None
-------------------------
calls [  0.   1.   2.   3.   4.   5.   6.   7.   8.   9.  10.  11.  12.  13.
  14.  15.  16.  17.  18.  19.  20.  21.  22.  23.  24.  25.  26.  27.
  28.  29.  30.  31.  32.  33.  34.  35.  36.  37.  38.  39.  40.  41.
  42.  43.  44.  45.  46.  47.  48.  49.  50.  51.  52.  53.  54.  55.
  56.  57.  58.  59.  60.  61.  62.  63.  64.  65.  66.  67.  68.  69.
  70.  71.  72.  73.  74.  75.  76.  77.  78.  79.  80.  81.  82.  83.
  84.  85.  86.  87.  88.  89.  90.  91.  92.  93.  94.  95.  96.  97.
  98.  99. 100

<b>Выводы:</b>  
* В датафрайме отсутсвуют пробелы.  
* Типы данных соответсвуют данным в них.
* В сете отсутсвуют дубликаты.
* Значения тарифа-бинары.

## Разбейте данные на выборки

In [4]:
features= df.drop(['is_ultra'], axis=1)
target= df['is_ultra']
features_train, features_rem, target_train, target_rem = train_test_split(features,target, train_size=0.8)

features_valid, features_test, target_valid, target_test = train_test_split(features_rem,target_rem, test_size=0.5)


## Исследуйте модели
В данном анализе необходимо построить бинарную классификацию разделение на тарифы.  
В исследование использовал две модели: Дерево (гиперпараметры: depth), Случайный Лес ( гиперпараметры: estimators).

In [8]:

for depth in range(1, 10):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth)
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)
    print("max_depth =", depth, ": ", end='')
    print(accuracy_score(target_valid, predictions_valid))

max_depth = 1 : 0.7040498442367601
max_depth = 2 : 0.7414330218068536
max_depth = 3 : 0.7507788161993769
max_depth = 4 : 0.7476635514018691
max_depth = 5 : 0.7663551401869159
max_depth = 6 : 0.7632398753894081
max_depth = 7 : 0.7538940809968847
max_depth = 8 : 0.7538940809968847
max_depth = 9 : 0.7507788161993769


In [6]:
for est in range(1, 20):
    model = RandomForestClassifier(random_state=12345, n_estimators=est)
    model.fit(features_train,target_train)
    predictions_valid = model.predict(features_valid)
    print("max_estimators =",est, ": ", end='')
    print(accuracy_score(target_valid, predictions_valid))

max_estimators = 1 : 0.719626168224299
max_estimators = 2 : 0.7289719626168224
max_estimators = 3 : 0.7040498442367601
max_estimators = 4 : 0.7445482866043613
max_estimators = 5 : 0.7632398753894081
max_estimators = 6 : 0.7632398753894081
max_estimators = 7 : 0.7632398753894081
max_estimators = 8 : 0.7694704049844237
max_estimators = 9 : 0.7663551401869159
max_estimators = 10 : 0.778816199376947
max_estimators = 11 : 0.7725856697819314
max_estimators = 12 : 0.7819314641744548
max_estimators = 13 : 0.7757009345794392
max_estimators = 14 : 0.7757009345794392
max_estimators = 15 : 0.778816199376947
max_estimators = 16 : 0.778816199376947
max_estimators = 17 : 0.7725856697819314
max_estimators = 18 : 0.7725856697819314
max_estimators = 19 : 0.7725856697819314


<b>Выводы:</b> Наилучшие показатели по модели мы получили, используя модель Случайный лес с estimators=12

## Проверьте модель на тестовой выборке

In [7]:
model = RandomForestClassifier(random_state=12345, n_estimators=12)
model.fit(features_train,target_train)
predictions_test = model.predict(features_test)
print(accuracy_score(target_test, predictions_test))

0.7670807453416149


<b>Выводы:</b> Применили выбранную модель к тестовой выборке и получили точность (accuracy) =0.76, при допустимом 0.75

<b>Общий вывод:</b> Интерпретируя результат исследования, можно сказать, что построенная модель позволит с точностью практически 80% определять какой тариф рекомендовать  пользователю, зная его месячные потребления минут, сообщений, трафика.

## (бонус) Проверьте модели на адекватность

In [11]:
df['is_ultra'].value_counts() / df.shape[0]

0    0.693528
1    0.306472
Name: is_ultra, dtype: float64