# Рекомендация тарифов

### Описание проекта
Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».

В нашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — мы её уже сделали.

Необходимо построить модель с максимально большим значением accuracy. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверить accuracy на тестовой выборке самостоятельно.


<a id='content'></a>
### Оглавление.

1. [План работы](#plan)
2. [Шаг 1. Подключение библиотек. Знакомство с данными.](#step1)
3. [Шаг 2. Разбиваем данные на выборки](#step2)
4. [Шаг 3. Исследуем модели](#step3)
5. [Шаг 4. Проверяем модель на тестовой выборке](#step4)
6. [Шаг 5. (бонус) Проверяем модели на адекватность](#step5)
7. [Шаг 6. Выводы](#step6)

<a id="plan">  </a>
#### План работы.

    - Открыть файл с данными и изучить его. Путь к файлу: datasets/users_behavior.csv. 
    - Разделить исходные данные на обучающую, валидационную и тестовую выборки.
    - Исследовать качество разных моделей, меняя гиперпараметры. Кратко написать выводы исследования.
    - Проверить качество модели на тестовой выборке.
    - Дополнительное задание: проверить модели на вменяемость. 

<a id="step1">  </a>
## 1. Подключение библиотек. Знакомство с данными.

In [1]:
# Подключение библиотек
import pandas as pd
from IPython.display import display
pd.options.display.max_columns = 50
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression


#### Описание данных
Каждый объект в наборе данных — это информация о поведении одного пользователя за месяц. Известно:

    сalls — количество звонков,
    minutes — суммарная длительность звонков в минутах,
    messages — количество sms-сообщений,
    mb_used — израсходованный интернет-трафик в Мб,
    is_ultra — каким тарифом пользовался в течение месяца («Ультра» — 1, «Смарт» — 0).

In [2]:
#df = pd.read_csv('/datasets/users_behavior.csv') 
df = pd.read_csv('users_behavior.csv')
display(df.head(10))
display(df.info())
print(df.isnull().sum())

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
5,58.0,344.56,21.0,15823.37,0
6,57.0,431.64,20.0,3738.9,1
7,15.0,132.4,6.0,21911.6,0
8,7.0,43.39,3.0,2538.67,1
9,90.0,665.41,38.0,17358.61,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     3214 non-null   float64
 1   minutes   3214 non-null   float64
 2   messages  3214 non-null   float64
 3   mb_used   3214 non-null   float64
 4   is_ultra  3214 non-null   int64  
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


None

calls       0
minutes     0
messages    0
mb_used     0
is_ultra    0
dtype: int64


#### Выводы.
1. У нас 3214 строк с данными. В каждой строке - данные по каждому пользователю в месяц - количество и длительность звонков, число сообщений и количетво скачанных мегабайт
2. Пропусков нет, все значения в столбцах числовые. Красота!
3. В нашем случае `Количество звонков`, `Количество минут`, `Количество сообщений` и `Количетво мегабайт` - это признаки
4. Наша задача - предсказывать тариф. Значит, целевой признак - `Тариф`


<a id="step2">  </a>
## 2. Разбиваем данные на выборки

1) Нам необходимо получить три выборки: тренировочную, валидационную и тестовую.

2) Сделаем это поэтапно с помощью `train_test_split`. Сначала выделим тестовую выборку(`df_test`), потом из остатка(`df1`) выделим валидационную(`df_valid`) и обучающую(`df_train`) выборки. Кроме того, мы сможем потом использовать промежуточную выборку `df1` для проверки тестовой выборки, так как выборка `df1` больше `df_train`, что должно быть лучше для обучения модели.

3) Потом в каждой из выборок необходимо будет выделить целевые признаки.

In [3]:
# Создадим обучающую, тренировочную и валидационную выборки
# объявим переменную rs - для хранения значения random_state:
rs = 12345
df1, df_test = train_test_split(df, test_size=0.2, random_state=rs)
# Если вся выборка 100%, то df1=80%
# df_valid должна составить 0.2 от всех данных = df/5 = (5/4)*df1 / 5 = 0.25*df1
df_train, df_valid = train_test_split(df1, test_size=0.25, random_state=rs)

In [4]:
# Сначала сделаем выборки с признаками и с целевым признаком.
features_train = df_train.drop(['is_ultra'], axis=1)
target_train = df_train['is_ultra']

features_valid = df_valid.drop(['is_ultra'], axis=1)
target_valid = df_valid['is_ultra']

features_test = df_test.drop(['is_ultra'], axis=1)
target_test = df_test['is_ultra']

# проверим - все ли правильно
display(features_train.head())
display(target_train.tail())
print(80 * '*')
print('--------Обучающая выборка--------')
display(features_train.info())
print("Размер target обучающей выборки:", target_train.shape[0])
print()

print(80 * '*')
print('--------Валидационная выборка--------')
display(features_valid.info())
print("Размер target валидационной выборки:", target_valid.shape[0])
print()
print(80 * '*')
print('--------Тестовая выборка--------')
display(features_test.info())
print("Размер target тестовой выборки:", target_test.shape[0])
print()

Unnamed: 0,calls,minutes,messages,mb_used
2656,30.0,185.07,34.0,17166.53
823,42.0,290.69,77.0,21507.03
2566,41.0,289.83,15.0,22151.73
1451,45.0,333.49,50.0,17275.47
2953,43.0,300.39,69.0,17277.83


1043    1
2132    1
1642    0
1495    0
510     0
Name: is_ultra, dtype: int64

********************************************************************************
--------Обучающая выборка--------
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1928 entries, 2656 to 510
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     1928 non-null   float64
 1   minutes   1928 non-null   float64
 2   messages  1928 non-null   float64
 3   mb_used   1928 non-null   float64
dtypes: float64(4)
memory usage: 75.3 KB


None

Размер target обучающей выборки: 1928

********************************************************************************
--------Валидационная выборка--------
<class 'pandas.core.frame.DataFrame'>
Int64Index: 643 entries, 2699 to 1806
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     643 non-null    float64
 1   minutes   643 non-null    float64
 2   messages  643 non-null    float64
 3   mb_used   643 non-null    float64
dtypes: float64(4)
memory usage: 25.1 KB


None

Размер target валидационной выборки: 643

********************************************************************************
--------Тестовая выборка--------
<class 'pandas.core.frame.DataFrame'>
Int64Index: 643 entries, 1415 to 1196
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     643 non-null    float64
 1   minutes   643 non-null    float64
 2   messages  643 non-null    float64
 3   mb_used   643 non-null    float64
dtypes: float64(4)
memory usage: 25.1 KB


None

Размер target тестовой выборки: 643



__1) Итак, мы выделили обучающую, валидационную и тестовую выборки:__

    - Стартовые данные: 3214 строк
    - Обучающая выборка: 1928 строк (59.98%)
    - Валидационная выборка: 643 строки (20%)
    - Тестовая выборка: 643 строки (20%)
    
__2) Затем в каждой выборке мы выделили целевой признак (тариф 1 или 0) и обучающие признаки.__

<a id="step3">  </a>
## 3. Исследуем модели

У нас всего две категории пользователей - с тарифом `Ultra` и с тарифом `Smart`\
Предсказывать мы должны категорию. Значит, мы решаем задачу классификации.

##### Начнем с дерева решений
Интересно посмотреть на изменение accuracy в зависимости от изменения гиперпараетра max_depth
Поэтому будем выбирать лучшую модель не путем нахождения лучшего значения accuracy в цикле, а посморим на эти значения глазами.

In [5]:
print('Accuracy моделей для различной глубины деревьев')
print(80 * '-')
for depth in range(1, 16):
    model1 = DecisionTreeClassifier(random_state=rs, max_depth=depth)
    model1.fit(features_train, target_train)
    result_train1 = model1.score(features_train, target_train)
    result1 = model1.score(features_valid, target_valid)
    print(f'max_depth {depth}', '- валид. выборка:', result1, 
          '- обуч. выборка: ', result_train1)


Accuracy моделей для различной глубины деревьев
--------------------------------------------------------------------------------
max_depth 1 - валид. выборка: 0.7387247278382582 - обуч. выборка:  0.758298755186722
max_depth 2 - валид. выборка: 0.7573872472783826 - обуч. выборка:  0.79201244813278
max_depth 3 - валид. выборка: 0.7651632970451011 - обуч. выборка:  0.8117219917012448
max_depth 4 - валид. выборка: 0.7636080870917574 - обуч. выборка:  0.8205394190871369
max_depth 5 - валид. выборка: 0.7589424572317263 - обуч. выборка:  0.8272821576763485
max_depth 6 - валид. выборка: 0.7573872472783826 - обуч. выборка:  0.8335062240663901
max_depth 7 - валид. выборка: 0.7744945567651633 - обуч. выборка:  0.8506224066390041
max_depth 8 - валид. выборка: 0.7667185069984448 - обуч. выборка:  0.8661825726141079
max_depth 9 - валид. выборка: 0.7620528771384136 - обуч. выборка:  0.875
max_depth 10 - валид. выборка: 0.7713841368584758 - обуч. выборка:  0.8910788381742739
max_depth 11 - валид. выбо

Наибольшее значение `accuracy` = 0.7745 получилось для глубины дерева 7. Далее с увеличением глубины значение accuracy начинает падать (неравномерно, но уверенно). При этом же значение accuracy для тренировочной выборки закономерно продолжает расти, из чего можно предположить переобучение моделей для `max_depth > 7`.

##### Рассмотрим случайный лес.
Также интересно посмотреть на динамику изменения accuracy.
Поэтому зададим побольше вариантов размера леса и посмотрим на результат глазами.

In [6]:
# Случайный лес
print('Accuracy моделей для различного количества деревьев')
print(60 * '-')

for est in range(1, 26):
    model2 = RandomForestClassifier(random_state=rs, n_estimators=est)
    model2.fit(features_train, target_train)
    result_train2 = model2.score(features_train, target_train)
    result2 = model2.score(features_valid, target_valid)
    print(f'n_estimators = {est} - валид. выборка:', result2, '- обуч. выборка: ', result_train2)


Accuracy моделей для различного количества деревьев
------------------------------------------------------------
n_estimators = 1 - валид. выборка: 0.702954898911353 - обуч. выборка:  0.9024896265560166
n_estimators = 2 - валид. выборка: 0.7573872472783826 - обуч. выборка:  0.9102697095435685
n_estimators = 3 - валид. выборка: 0.744945567651633 - обуч. выборка:  0.9590248962655602
n_estimators = 4 - валид. выборка: 0.7651632970451011 - обуч. выборка:  0.9481327800829875
n_estimators = 5 - валид. выборка: 0.7620528771384136 - обуч. выборка:  0.970954356846473
n_estimators = 6 - валид. выборка: 0.7698289269051322 - обуч. выборка:  0.9652489626556017
n_estimators = 7 - валид. выборка: 0.7713841368584758 - обуч. выборка:  0.979253112033195
n_estimators = 8 - валид. выборка: 0.7869362363919129 - обуч. выборка:  0.9719917012448133
n_estimators = 9 - валид. выборка: 0.7838258164852255 - обуч. выборка:  0.9818464730290456
n_estimators = 10 - валид. выборка: 0.7884914463452566 - обуч. выборка: 

Чем дальше в лес.... Тем проще заблудиться.\
Видно, что для 10 деревьев мы получили первое наилучшее значение `accuracy` = 0.7885\
До 10 деревьев значение accuracy планомерно росло от 0.70 до 0.78.\
При дальнейшем сгущени леса значение accuracy колеблется от 0.777 до 0.79. Не падает но и не растёт. Наилучшее значение `accuracy` в лесах до 25 деревьев получилось 0.793 для 22 деревьев. Но скорее всего, можно остановиться и на 10 деревьях.

__Посмотрим на изменение accuracy в лесах с учетом max_depth:__

In [7]:
print('Accuracy моделей для различных количества и глубины деревьев')
print(60 * '-')

for est in range(2, 26, 2):
    print(f'n_estimators = {est}')
    for depth in range(2, 16, 2):
        model2 = RandomForestClassifier(random_state=rs, 
                                        n_estimators=est,
                                        max_depth = depth)
        model2.fit(features_train, target_train)
        result_train2 = model2.score(features_train, target_train)
        result2 = model2.score(features_valid, target_valid)
        print( f'max_depth = {depth} - валид. выборка:', result2, 
              '- обуч. выборка: ', result_train2)


Accuracy моделей для различных количества и глубины деревьев
------------------------------------------------------------
n_estimators = 2
max_depth = 2 - валид. выборка: 0.7573872472783826 - обуч. выборка:  0.7889004149377593
max_depth = 4 - валид. выборка: 0.7667185069984448 - обуч. выборка:  0.8003112033195021
max_depth = 6 - валид. выборка: 0.7744945567651633 - обуч. выборка:  0.8428423236514523
max_depth = 8 - валид. выборка: 0.7900466562986003 - обуч. выборка:  0.8563278008298755
max_depth = 10 - валид. выборка: 0.7558320373250389 - обуч. выборка:  0.866701244813278
max_depth = 12 - валид. выборка: 0.7558320373250389 - обуч. выборка:  0.8822614107883817
max_depth = 14 - валид. выборка: 0.7480559875583204 - обуч. выборка:  0.8967842323651453
n_estimators = 4
max_depth = 2 - валид. выборка: 0.7620528771384136 - обуч. выборка:  0.796161825726141
max_depth = 4 - валид. выборка: 0.7651632970451011 - обуч. выборка:  0.8034232365145229
max_depth = 6 - валид. выборка: 0.7776049766718507 

При увеличении глубины деревьев удалось ещё увеличить значение accuracy.

- Уже на четырех деревьях мы достигли значений 0.793 и 0.795 при глубинах 8 и 10 соответственно.
- На восьми деревьях при max_depth = 10 accuracy достигло значения 0.796.

В принципе, можно на этом значении и остановиться - при дальнейшем увеличении параметров не заметно существенных улучшений, а время расчётов увеличивается.

##### Логистическая регрессия

In [8]:
# Логистическая регрессия
model3 = LogisticRegression(random_state=rs,
                            solver='liblinear'
                           )
model3.fit(features_train, target_train)
result_train3 = model3.score(features_train, target_train)
result_valid3 = model3.score(features_valid, target_valid)

print('Accuracy для обучающей выборки', result_train3)
print('Accuracy для валидационной выборки', result_valid3)


Accuracy для обучающей выборки 0.7422199170124482
Accuracy для валидационной выборки 0.7293934681181959


### Вывод
1. Как это ни странно, но логистичекая регрессия показала один из худших результатов.
2. Лучший результат показал случайный лес на 20 деревьях c max_depth=14. Но поскольку в лесу, в котором больше 10 деревьев значения accuracy перестают расти и колеблятся примерно в одних пределах, мы решили остановиться пока на модели из 8 деревьев c max_depth=10, для которого accuracy оказался тоже относительно неплохим (0.796)

<a id="step4">  </a>
## 4. Проверяем модель на тестовой выборке

Итак, пришло время проверить тестовую выборку. Лучшей моделью мы выбрали случайный лес из 8 деревьев.

Еще попробуем сделать обучение модели перед проверкой не на тренировочной выборке, а на на увеличенной выборке, в которую мы еще добавим и валидационную. Нам даже не надо их складывать, потому что такая выборка у нас образовалась изначально при выделении тесотвой выборки (выборка df1). Нам надо только выделить из нее целевой признак.

In [9]:
#Возьмем для обучения не обучающую выборку, а обучающую+валидационную.
features_df1 = df1.drop(['is_ultra'], axis=1)
target_df1 = df1['is_ultra']
display(features_df1.info())
print("Размер target выборки df1:", target_df1.shape[0])

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2571 entries, 348 to 482
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   calls     2571 non-null   float64
 1   minutes   2571 non-null   float64
 2   messages  2571 non-null   float64
 3   mb_used   2571 non-null   float64
dtypes: float64(4)
memory usage: 100.4 KB


None

Размер target выборки df1: 2571


In [10]:
# Обучим модель на увеличенной выборке df1 в случайном лесу из 8 деревьев
model = RandomForestClassifier(random_state=rs, 
                               n_estimators=8,
                               max_depth=10)
model.fit(features_df1, target_df1)
#result_train2 = model2.score(features_train, target_train)
prediction = model.predict(features_test)
result = model.score(features_test, target_test)
print('Accuracy модели для 8 деревьев c max_depth=10 на тестовой выборке:', result)


Accuracy модели для 8 деревьев c max_depth=10 на тестовой выборке: 0.7978227060653188


In [11]:
# Посмотрим все-таки, что получится в лесу из 20 деревьев:
model = RandomForestClassifier(random_state=rs, 
                               n_estimators=20, 
                               max_depth=10
                              )
model.fit(features_df1, target_df1)
#result_train2 = model2.score(features_train, target_train)
prediction = model.predict(features_test)
result = model.score(features_test, target_test)
print('Accuracy модели для 20 деревьев c max_depth=10 на тестовой выборке:', result)


Accuracy модели для 20 деревьев c max_depth=10 на тестовой выборке: 0.7978227060653188


На 20 деревьях значение accuracy такое же! Можно ограничится и меньшим количеством деревьев.\
_Тем более, что на обучающей выборке для 20 деревьев accuracy практически приближалось к 1, что скорее указывает на переобучение._


<a id="step5">  </a>
## 5. (бонус) Проверяем модели на адекватность

Посмотрим, как в наших данных соотносятся количества пользователей наших двух тарифов

In [12]:
group_tariffs = df['is_ultra'].value_counts()
print(group_tariffs)

0    2229
1     985
Name: is_ultra, dtype: int64


In [13]:
print(2229/(2229+985))

0.693528313627878


## Пользователей тарифа 0 больше чем пользователей тарифа 1.\
Доля пользователей тарифа 0 составляет 0.69.\
То есть если мы просто будем предсказывать для любого пользователя тариф 0, то доля правильных ответов составит 0.69.

В случайном лесу из 8 деревьев глубиной 10, мы получили accuracy 0.7978 на тестовой выборке. \
Оно, конечно, не сильно, но все-таки больше, чем 0.69. \
А вот логистическая регрессия с accuracy 0.729 для валидационной выборки при таком соотношении целевых признаков выглядит бледно.

<a id="step6">  </a>
## 6. Выводы

1. Данные были разделены на три выборки - тестовую, валидационную и тренировочную. При этом бонусом была получена увеличенная тренировочная выборка, на которой в дальнейшем была обучена модель для проверки тестовой выборки.


2. В целевом признаке  всего две категории пользователей: пользователи тарифа 0 и пользователи тарифа 1. Значит, для предсказания предпочтительного тарифа мы должны решать задачу классификации.


3. Рассматривалось три разных модели:
    - `Дерево решений`. Для этой модели менялась глубина дерева от 1 до  16. Наилучшее значение accuracy (0.7745) получилось при глубине max_depth = 7.
    - `Случайный лес`. Здесь менялись количество деревьев от 1 до 24 и max_depth от 2 до 14. 
        - Наилучшее значение accuracy (0.796) получилось для 8 деревьев глубиной 10. 
        - Похожее значение accuracy(0.796) получается на 20 деревьях глубиной 10. 
        - На 20 деревьях глубиной 14 получается accuracy еще лучше (0.799). Но accuracy на обучающей выборке при таких параметрах вырастает до 0.934, что может уже указывать на переобучение.
        На большом количестве данных лес из 8 деревьев может оказаться быстрее, чем лес из 20 деревьев.
    - `Логистическая регрессия`. Acuracy для этой модели оказалось совсем маленьким - 0.729. Такой результат оказался хуже леса из 2 деревьев и даже хуже пенька - дерева глубины 1! \
    

4. В итоге была построена модель случайного леса из 8 деревьев глубиной 10 (accuracy = 0.796), а затем из 20 деревьев глубиной 10 (accuracy = 0.796),  обучена на увеличенной тренировочной выборке (df1 = df_train + df_valid) и проверена на тетовой выборке. Результат для обеих моделей получился одинаковым (accuracy = 0.7978), поэтому можно выбрать более простую модель из 8 деревьев глубиной 10.


5. Была проверена адекватность модели, путём сравнения ее со случаем, когда просто предсказывается всегда тариф 0 (доля которого в наших данных составляет 0.6935). Модель случайного леса из 8 деревьев глубиной 10 предсказывает лучше, чем предсказание, построенное на простом выборе тарифа 0 для всех данных.
    