# Рекомендация тарифов

# Tariff recommendation

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением *accuracy*. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте *accuracy* на тестовой выборке самостоятельно.

You have at your disposal data on the behavior of customers who have already switched to these tariffs (from the draft course "Statistical Data Analysis"). You need to build a model for the classification problem that will select the appropriate rate. Data preprocessing is not required - you have already done it.

Build the model with the largest possible *accuracy* value. To pass the project successfully, you need to bring the percentage of correct answers to at least 0.75. Check *accuracy* on the test set yourself.

## Откройте и изучите файл

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier 
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
import warnings
warnings.filterwarnings('ignore')

In [4]:
data = pd.read_csv('/datasets/users_behavior.csv')

In [5]:
data.head()

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


## Разбейте данные на выборки

## Divide the data into samples

### Выделение признаков и целевой переменной

### Feature extraction and target variable

In [6]:
features = data.drop(['is_ultra'], axis=1)
target = data['is_ultra']

### Разделение исходных данных на обучающую, валидационную и тестовую выборки

### Dividing the initial data into training, validation and test sets

In [7]:
train_tariff_data, vnt_tariff_data = train_test_split(data, test_size=0.25, random_state=12345)
valid_tariff_data, test_tariff_data = train_test_split(vnt_tariff_data, test_size=0.25, random_state=12345)

print('Размер тренериующей выборки', train_tariff_data.shape[0])
print('Размер валидационной выборки', valid_tariff_data.shape[0])
print('Размер тестовой выборки', test_tariff_data.shape[0])

Размер тренериующей выборки 2410
Размер валидационной выборки 603
Размер тестовой выборки 201


Выделяем признаки и целевую переменную в выборках:

We select the features and the target variable in the samples:

In [8]:
train_tariff_data_features = train_tariff_data.drop(['is_ultra'], axis=1)
train_tariff_data_target = train_tariff_data['is_ultra']
valid_tariff_data_features = valid_tariff_data.drop(['is_ultra'], axis=1)
valid_tariff_data_target = valid_tariff_data['is_ultra']
test_tariff_data_features = test_tariff_data.drop(['is_ultra'], axis=1)
test_tariff_data_target = test_tariff_data['is_ultra']

## Исследуйте модели

## Explore models

### Применение алгоритма дерева решений

### Apply the decision tree algorithm

In [9]:
best_depth = 0
best_accuracy = 0

for depth in range(1,150):
    model = DecisionTreeClassifier(random_state=4125, max_depth=depth)
    model.fit(train_tariff_data_features, train_tariff_data_target)
    valid_predictions = model.predict(valid_tariff_data_features)
    accuracy = accuracy_score(valid_tariff_data_target, valid_predictions)
    if accuracy > best_accuracy:
        best_depth = depth
        best_accuracy = accuracy

print('Лучшая глубина дерева', best_depth,'Лучшая точность', best_accuracy)     

Лучшая глубина дерева 3 Лучшая точность 0.7976782752902156


In [10]:
best_tree_model = DecisionTreeClassifier(random_state=12345, max_depth=3)
best_tree_model.fit(train_tariff_data_features, train_tariff_data_target)
valid_predictions = best_tree_model.predict(valid_tariff_data_features)
accuracy = accuracy_score(valid_tariff_data_target, valid_predictions)
print('Глубина дерева', 3,'Точность',accuracy)

Глубина дерева 3 Точность 0.7976782752902156


In [10]:
best_tree_model.get_params()

{'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': 3,
 'max_features': None,
 'max_leaf_nodes': None,
 'min_impurity_decrease': 0.0,
 'min_impurity_split': None,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'random_state': 12345,
 'splitter': 'best'}

#### Исследование изменения гиперпараметров

#### Hyperparameter change study

In [11]:
best_tree_model = DecisionTreeClassifier(random_state=12345, max_depth=3, max_leaf_nodes=6)
best_tree_model.fit(train_tariff_data_features, train_tariff_data_target)
valid_predictions = best_tree_model.predict(valid_tariff_data_features)
accuracy = accuracy_score(valid_tariff_data_target, valid_predictions)
print('Глубина дерева', 3,'Точность',accuracy)

Глубина дерева 3 Точность 0.7976782752902156


In [12]:
best_tree_model = DecisionTreeClassifier(random_state=12345, max_depth=3, criterion="entropy")
best_tree_model.fit(train_tariff_data_features, train_tariff_data_target)
valid_predictions = best_tree_model.predict(valid_tariff_data_features)
accuracy = accuracy_score(valid_tariff_data_target, valid_predictions)
print('Глубина дерева', 3,'Точность',accuracy)

Глубина дерева 3 Точность 0.7976782752902156


In [13]:
best_tree_model = DecisionTreeClassifier(random_state=12345, max_depth=3, splitter='random')
best_tree_model.fit(train_tariff_data_features, train_tariff_data_target)
valid_predictions = best_tree_model.predict(valid_tariff_data_features)
accuracy = accuracy_score(valid_tariff_data_target, valid_predictions)
print('Глубина дерева', 3,'Точность',accuracy)

Глубина дерева 3 Точность 0.7545605306799337


### Применение алгоритма случайного леса

### Apply random forest algorithm

In [14]:
best_estim = 0
best_accuracy = 0

for estim in range(1,150):
    model = RandomForestClassifier(random_state=12345, n_estimators=estim)
    model.fit(train_tariff_data_features, train_tariff_data_target)
    valid_predictions = model.predict(valid_tariff_data_features)
    accuracy = accuracy_score(valid_tariff_data_target, valid_predictions)
    if accuracy > best_accuracy:
        best_estim = estim
        best_accuracy = accuracy

print('Лучшая количество деревьев', best_estim,'Лучшая точность', best_accuracy)      

Лучшая количество деревьев 60 Лучшая точность 0.8092868988391376


In [11]:
best_forest_model = RandomForestClassifier(random_state=12345, n_estimators=60)
best_forest_model.fit(train_tariff_data_features, train_tariff_data_target)
valid_predictions = best_forest_model.predict(valid_tariff_data_features)
accuracy = accuracy_score(valid_tariff_data_target, valid_predictions)
print('Количество деревьев', 60,'Точность',accuracy)

Количество деревьев 60 Точность 0.8092868988391376


In [16]:
best_forest_model.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': 'auto',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_impurity_split': None,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 60,
 'n_jobs': None,
 'oob_score': False,
 'random_state': 12345,
 'verbose': 0,
 'warm_start': False}

#### Исследование изменения гиперпараметров

#### Hyperparameter change study

In [17]:
best_forest_model = RandomForestClassifier(random_state=12345, n_estimators=60, criterion='entropy')
best_forest_model.fit(train_tariff_data_features, train_tariff_data_target)
valid_predictions = model.predict(valid_tariff_data_features)
accuracy = accuracy_score(valid_tariff_data_target, valid_predictions)
print('Количество деревьев', 60,'Точность',accuracy)

Количество деревьев 60 Точность 0.7993366500829188


In [18]:
best_forest_model = RandomForestClassifier(random_state=12345, n_estimators=60, bootstrap=False)
best_forest_model.fit(train_tariff_data_features, train_tariff_data_target)
valid_predictions = model.predict(valid_tariff_data_features)
accuracy = accuracy_score(valid_tariff_data_target, valid_predictions)
print('Количество деревьев', 60,'Точность',accuracy)

Количество деревьев 60 Точность 0.7993366500829188


In [19]:
best_forest_model = RandomForestClassifier(random_state=12345, n_estimators=60, warm_start=True)
best_forest_model.fit(train_tariff_data_features, train_tariff_data_target)
valid_predictions = model.predict(valid_tariff_data_features)
accuracy = accuracy_score(valid_tariff_data_target, valid_predictions)
print('Количество деревьев', 60,'Точность',accuracy)

Количество деревьев 60 Точность 0.7993366500829188


### Применение алгоритма логистической регрессии

### Apply the logistic regression algorithm

In [20]:
best_max_iter = 0
best_accuracy = 0

for max_iter in range(1,150):
    model = LogisticRegression(random_state=12345, max_iter=max_iter)
    model.fit(train_tariff_data_features, train_tariff_data_target)
    valid_predictions = model.predict(valid_tariff_data_features)
    accuracy = accuracy_score(valid_tariff_data_target, valid_predictions)
    if accuracy > best_accuracy:
        best_max_iter = max_iter
        best_accuracy = accuracy

print('Лучшая количество итерраций', best_max_iter,'Лучшая точность', best_accuracy) 

Лучшая количество итерраций 22 Лучшая точность 0.7064676616915423


In [21]:
best_reg_model = LogisticRegression(random_state=12345, max_iter=22)
best_reg_model.fit(train_tariff_data_features, train_tariff_data_target)
valid_predictions = best_reg_model.predict(valid_tariff_data_features)
accuracy = accuracy_score(valid_tariff_data_target, valid_predictions)
print('Количество итерраций', 22,'Точность', accuracy)

Количество итерраций 22 Точность 0.7064676616915423


In [22]:
best_reg_model.get_params()

{'C': 1.0,
 'class_weight': None,
 'dual': False,
 'fit_intercept': True,
 'intercept_scaling': 1,
 'l1_ratio': None,
 'max_iter': 22,
 'multi_class': 'auto',
 'n_jobs': None,
 'penalty': 'l2',
 'random_state': 12345,
 'solver': 'lbfgs',
 'tol': 0.0001,
 'verbose': 0,
 'warm_start': False}

#### Исследование изменения гиперпараметров

#### Hyperparameter change study

In [23]:
best_solver = ''
best_accuracy = 0

for solve in {'newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'}:
    model = LogisticRegression(random_state=12345, solver=solve)
    model.fit(train_tariff_data_features, train_tariff_data_target)
    valid_predictions = model.predict(valid_tariff_data_features)
    accuracy = accuracy_score(valid_tariff_data_target, valid_predictions)   
    print('Solver', solve,'Точность',accuracy)
    if accuracy > best_accuracy:
        best_solver= solve
        best_accuracy = accuracy

print('Лучший solver', best_solver,'Лучшая точность', best_accuracy) 

Solver saga Точность 0.6998341625207297
Solver newton-cg Точность 0.7661691542288557
Solver liblinear Точность 0.75787728026534
Solver sag Точность 0.6998341625207297
Solver lbfgs Точность 0.703150912106136
Лучший solver newton-cg Лучшая точность 0.7661691542288557


In [24]:
best_C = 0.0
best_accuracy = 0

for float_c in [x/10 for x in range(1,21)]:
    model = LogisticRegression(random_state=12345, C=float_c)
    model.fit(train_tariff_data_features, train_tariff_data_target)
    valid_predictions = model.predict(valid_tariff_data_features)
    accuracy = accuracy_score(valid_tariff_data_target, valid_predictions)
    print('C=', float_c,'Точность',accuracy)
    if accuracy > best_accuracy:
        best_C= float_c
        best_accuracy = accuracy

print('Лучший C', best_C,'Лучшая точность', best_accuracy) 

C= 0.1 Точность 0.703150912106136
C= 0.2 Точность 0.703150912106136
C= 0.3 Точность 0.703150912106136
C= 0.4 Точность 0.703150912106136
C= 0.5 Точность 0.703150912106136
C= 0.6 Точность 0.703150912106136
C= 0.7 Точность 0.703150912106136
C= 0.8 Точность 0.703150912106136
C= 0.9 Точность 0.703150912106136
C= 1.0 Точность 0.703150912106136
C= 1.1 Точность 0.703150912106136
C= 1.2 Точность 0.703150912106136
C= 1.3 Точность 0.703150912106136
C= 1.4 Точность 0.703150912106136
C= 1.5 Точность 0.703150912106136
C= 1.6 Точность 0.703150912106136
C= 1.7 Точность 0.703150912106136
C= 1.8 Точность 0.703150912106136
C= 1.9 Точность 0.703150912106136
C= 2.0 Точность 0.703150912106136
Лучший C 0.1 Лучшая точность 0.703150912106136


### Выводы по исследованию моделей

### Conclusions from the study of models

В ходе исследования были получены следующие данные:

Точность модели решающего дерева при глубине дерева 3 равна 0.797
Точность модели случайного леса при количестве деревьев 60 равна 0.809
Точность модели логистической регресии равна 0.766 (при solver newton-cg).

Итого, лучший результат показывает модель случайного леса.

________________________________________________________________________________________________________________________________

During the study, the following data were obtained:

Decision tree model accuracy at tree depth 3 is 0.797
The accuracy of the random forest model with 60 trees is 0.809
The accuracy of the logistic regression model is 0.766 (with solver newton-cg).

In total, the random forest model shows the best result.

## Проверьте модель на тестовой выборке

## Check the model on the test set

In [12]:
test_predictions = best_forest_model.predict(test_tariff_data_features)
accuracy = accuracy_score(test_tariff_data_target, test_predictions)
print('Точность модели случайного леса на тестовой выборке',accuracy)

Точность модели случайного леса на тестовой выборке 0.7761194029850746


### Вывод

### Conclusion

Результаты исследования на тестовой выборке хуже, чем на валидационной выборке, что говорит о некоторой переобученности модели, однако точность модели выше требуемой, т.е. 0.75. 

The results of the study on the test set are worse than on the validation set, which indicates some overfitting of the model, but the accuracy of the model is higher than required, i.e. 0.75.

## Проверьте модели на адекватность

## Check models for adequacy

In [16]:
import numpy as np
from sklearn.dummy import DummyClassifier

# Делаем дополнительную проверку с помощью DummyClassifier 
dummy = DummyClassifier(strategy='most_frequent').fit(train_tariff_data_features, train_tariff_data_target)
dummy_pred = dummy.predict(test_tariff_data_features)

# проверяем accuracy 
print('Test score: ', accuracy_score(test_tariff_data_target, dummy_pred))

Test score:  0.7014925373134329


## Итоги

## Results

В ходе проделанной работы было выполнено:

Изучен файл с данными.

Разбиты данные на три выборки: обучающая, валидационная и тестовая.

Исследованы три модели классификации: Решающее дерево, Случайный лес и Логистическая регрессия.

Найдены оптимальные параметры для каждой модели и выбрана одна из них для обучения модели.

Оценена точность обученной модели.

Оценена адекватность модели (насколько это возможно).

Для улучшения качества обучения модели необходимо увеличить размер исходной выборки. Адекватность модели повысится с ростом количества значений.

________________________________________________________________________________________________________________________________

In the course of the work done, the following was accomplished:

The data file has been studied.

The data was divided into three samples: training, validation and test.

Three classification models have been studied: Decision Tree, Random Forest and Logistic Regression.

The optimal parameters for each model are found and one of them is chosen for training the model.

The accuracy of the trained model is estimated.

The adequacy of the model was assessed (as far as possible).

To improve the quality of training the model, it is necessary to increase the size of the initial sample. The adequacy of the model will increase with an increase in the number of values.