# Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import accuracy_score, recall_score, precision_score
from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.ensemble import RandomForestClassifier

## Загружаем и изучаем файл

In [2]:
df = pd.read_csv('/datasets/users_behavior.csv')
df.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


In [4]:
df['is_ultra'].value_counts(), df.shape

(0    2229
 1     985
 Name: is_ultra, dtype: int64,
 (3214, 5))

В нашем датасете 4 признака, 3214 наблюдений.

Класс 0 встречается более чем в два раза чаще, чем класс 1

## Делим данные на выборки

In [5]:
features = df.drop('is_ultra', axis=1)
target = df['is_ultra']

train_features, valid_features, train_target, valid_target = train_test_split(features,
                                                                              target,
                                                                              test_size=.4,
                                                                              stratify=target,
                                                                              random_state=1)

valid_features, test_features, valid_target, test_target = train_test_split(valid_features,
                                                                            valid_target,
                                                                            test_size=.5,
                                                                            stratify=valid_target,
                                                                            random_state=1)



print(f'Обучающая выборка {train_features.shape, train_target.shape}')
print(f'Валидационная выборка {valid_features.shape, valid_target.shape}')
print(f'Тестовая выборка {test_features.shape, test_target.shape}')


Обучающая выборка ((1928, 4), (1928,))
Валидационная выборка ((643, 4), (643,))
Тестовая выборка ((643, 4), (643,))


In [6]:
# просто проверка, как в итоге поделились классы
print((train_target.value_counts() / train_target.shape[0]))
print((valid_target.value_counts() / valid_target.shape[0]))
print((test_target.value_counts() / test_target.shape[0]))

0    0.693465
1    0.306535
Name: is_ultra, dtype: float64
0    0.693624
1    0.306376
Name: is_ultra, dtype: float64
0    0.693624
1    0.306376
Name: is_ultra, dtype: float64


Выборку разбили по следующей формуле: train -60%, valid - 20%, test - 20%

## Исследуем модели
### Логистическая регрессия

In [7]:
best_model_lr = None
best_score_lr = 0


for penalty in ['l1', 'l2', 'elasticnet', 'none']:
    try:
        for solver in ['newton-cg', 'lbfgs', 'liblinear']: 
            model = LogisticRegression(penalty=penalty, solver=solver, max_iter=1000, random_state=1)
            model.fit(train_features, train_target)
            prediction = model.predict(valid_features)
            score = accuracy_score(valid_target, prediction)
            print(f'penalty: {penalty}. solver {solver}. \nAccuracy: {score:.4}')
            print('*'*50)
            if best_score_lr < score:
                best_model_lr = model
                best_score_lr = score
    except:
        print(f'{solver} не поддерживает {penalty}')
        print('*'*50)

print('Лучшая модель')
print(best_model_lr)

newton-cg не поддерживает l1
**************************************************
penalty: l2. solver newton-cg. 
Accuracy: 0.7527
**************************************************
penalty: l2. solver lbfgs. 
Accuracy: 0.7527
**************************************************
penalty: l2. solver liblinear. 
Accuracy: 0.7061
**************************************************
newton-cg не поддерживает elasticnet
**************************************************




penalty: none. solver newton-cg. 
Accuracy: 0.7527
**************************************************
penalty: none. solver lbfgs. 
Accuracy: 0.7527
**************************************************
liblinear не поддерживает none
**************************************************
Лучшая модель
LogisticRegression(max_iter=1000, random_state=1, solver='newton-cg')


Мы видим, что значения некоторых гиперпараметров не совместимы между собой. При определенных сочетаниях алгоритм не сходится, о чем нас предупреждают сообщения, выделенные красным

В проведенном эксперименте мы видим, что несколько моделей показали результат **0.7527**.

### Случайный лес

In [8]:
best_model_rf = None
best_score_rf = 0


for criterion in ["gini", "entropy"]:
    for depth in [4, 6, 8, 10, 12]:
        for n_estimators in [25, 50, 100, 125, 150]: 
            model = RandomForestClassifier(criterion=criterion,
                                           max_depth=depth,
                                           n_estimators=n_estimators,
                                           random_state=1)
            model.fit(train_features, train_target)
            prediction = model.predict(valid_features)
            score = accuracy_score(valid_target, prediction)
            print(f'criterion: {criterion}. max_depth {depth}. n_estimators: {n_estimators}')
            print(f'\nAccuracy: {score:.4}')
            print('*'*50)
            if best_score_rf < score:
                best_model_rf = model
                best_score_rf = score


print('Лучшая модель')
print(f'criterion: {best_model_rf.criterion}, max_depth: {best_model_rf.max_depth}, n_estimators:{best_model_rf.n_estimators}')

criterion: gini. max_depth 4. n_estimators: 25

Accuracy: 0.7947
**************************************************
criterion: gini. max_depth 4. n_estimators: 50

Accuracy: 0.8009
**************************************************
criterion: gini. max_depth 4. n_estimators: 100

Accuracy: 0.7994
**************************************************
criterion: gini. max_depth 4. n_estimators: 125

Accuracy: 0.7994
**************************************************
criterion: gini. max_depth 4. n_estimators: 150

Accuracy: 0.7994
**************************************************
criterion: gini. max_depth 6. n_estimators: 25

Accuracy: 0.7947
**************************************************
criterion: gini. max_depth 6. n_estimators: 50

Accuracy: 0.7947
**************************************************
criterion: gini. max_depth 6. n_estimators: 100

Accuracy: 0.7994
**************************************************
criterion: gini. max_depth 6. n_estimators: 125

Accuracy: 0.8009
**

Случайный лес сам по себе работает дольше, а с учетом перебора большего числа параметров количество операций значительно увеличивается.

Данная модель показала лучший результат на валидационной выборке **0.8072**

In [9]:
params = {'criterion': ["gini", "entropy"],
          'max_depth': [4, 6, 8, 10, 12],
          'n_estimators': [25, 50, 100, 125, 150],
           'random_state': [1]}

clf = GridSearchCV(estimator=RandomForestClassifier(),
                  param_grid=params,
                  cv=5,
                  refit=True)

clf.fit(pd.concat([train_features, valid_features]),
        pd.concat([train_target, valid_target]))

clf.best_params_

{'criterion': 'gini', 'max_depth': 10, 'n_estimators': 125, 'random_state': 1}

In [10]:
clf.best_score_

0.8105745910619169

   
**Вывод**
    
**Наша лучшая модель - случайный лес с гиперпараметрами 'criterion': 'gini', 'max_depth': 10, 'n_estimators': 125** 
    
**Данная модель имеет усредненный по пяти отложенным выборкам accuracy 0.8105, что является высшим результатом среди опробованных**


## Проверяем модель на тестовой выборке

In [11]:
prediction_clf = clf.predict(test_features)
print(f'Accuracy модели случайного леса на тестовой выборке: {accuracy_score(test_target, prediction_clf):.4}')

Accuracy модели случайного леса на тестовой выборке: 0.8243


In [12]:
prediction_lr = best_model_lr.predict(test_features)
print(f'Accuracy модели логистической регрессии: {accuracy_score(test_target, prediction_lr):.4}')

prediction_rf = best_model_rf.predict(test_features)
print(f'Accuracy модели случайного леса: {accuracy_score(test_target, prediction_rf):.4}')

Accuracy модели логистической регрессии: 0.7574
Accuracy модели случайного леса: 0.8212


In [13]:
print('Accuracy модели:')
for model in [best_model_lr, best_model_rf]:
    prediction_train = model.predict(train_features)
    prediction_valid = model.predict(valid_features)
    prediction_test = model.predict(test_features)
    print(model)
    print(f'train: {accuracy_score(train_target, prediction_train):.4}\
            valid: {accuracy_score(valid_target, prediction_valid):.4}\
            test: {accuracy_score(test_target, prediction_test):.4} \n')

Accuracy модели:
LogisticRegression(max_iter=1000, random_state=1, solver='newton-cg')
train: 0.7505            valid: 0.7527            test: 0.7574 

RandomForestClassifier(max_depth=8, n_estimators=150, random_state=1)
train: 0.8672            valid: 0.8072            test: 0.8212 



Логистическая регрессия показала практически одинаковый результат на трейне и на тесте, немного просев на валиде. Такую погрешность можно списать на случайность при формирования выборок

Случайный лес явно переобучился на трейне, но при этом показал стабильно высокий результат на валидационной и тестовой выборках

## Проверим модели на адекватность

In [14]:
# делаем предсказание по самому частому классу.
accuracy_score(test_target, [0]*643)

0.6936236391912908

Получили достаточно высокий результат (относительно требуемого accuracy в 0.75). Возможно, выбрана не самая лучшая метрика для данной задачи. Оценим другие метрики.

In [15]:
print('Модель логистической регрессии')
print(f'precision: {precision_score(test_target, prediction_lr):.4}, recall: {recall_score(test_target, prediction_lr):.4}')

Модель логистической регрессии
precision: 0.8596, recall: 0.2487


Precision говорит нам о том, что если модель предсказывает класс 1, то делает это с точностью 80%. При Recall показывает, что модель нашла только 27% наблюдений с классом 1.

In [16]:
print('Модель случайного леса')
print(f'precision: {precision_score(test_target, prediction_rf):.4}, recall: {recall_score(test_target, prediction_rf):.4}')

Модель случайного леса
precision: 0.8154, recall: 0.5381


In [17]:
print('Модель случайного леса')
print(f'precision: {precision_score(test_target, prediction_rf):.4}, recall: {recall_score(test_target, prediction_rf):.4}')

Модель случайного леса
precision: 0.8154, recall: 0.5381


А вот наша модель случайного леса имеет меньший precision, зато выявляет класс 1 гораздо лучше.

В вольной интерпретации как-то так: наша модель лог. регрессии идет по "безопасному" пути - определяет большинство классов как 0, и делает прогноз 1 если в этом высокая уверенность. А модель на деревьях чаще предсказывает класс 1, выявляя его больше чем лог. регрессия, но делает это с большей ошибкой