# Цель работы

Построить модель для задачи классификации, которая выберет подходящий тариф.

## Задача

Пострить модель с максимально большим значением `accuracy`.

Импотрируем все необходимые библиотеки

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.dummy import DummyClassifier
from sklearn.metrics import accuracy_score

## Изучение предоставленных данных

Выведем общую информацию о таблице

In [4]:
df = pd.read_csv('/datasets/users_behavior.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3214 entries, 0 to 3213
Data columns (total 5 columns):
calls       3214 non-null float64
minutes     3214 non-null float64
messages    3214 non-null float64
mb_used     3214 non-null float64
is_ultra    3214 non-null int64
dtypes: float64(4), int64(1)
memory usage: 125.7 KB


**Промежуточные выводы**: в таблице 5 столбцов, 3214 строк. Столбцы предствленны данными типов float и int. Названия столбцов с нижним регистром и нижним подчеркиванием.

Просмотрим общий вид таблицы

In [5]:
df.head(10)

Unnamed: 0,calls,minutes,messages,mb_used,is_ultra
0,40.0,311.9,83.0,19915.42,0
1,85.0,516.75,56.0,22696.96,0
2,77.0,467.66,86.0,21060.45,0
3,106.0,745.53,81.0,8437.39,1
4,66.0,418.74,1.0,14502.75,0
5,58.0,344.56,21.0,15823.37,0
6,57.0,431.64,20.0,3738.9,1
7,15.0,132.4,6.0,21911.6,0
8,7.0,43.39,3.0,2538.67,1
9,90.0,665.41,38.0,17358.61,0


Просмотрим уникальные значения каждого столбца, количество и распределение уникальных значений

In [6]:
# просмотрим уникальные значений в столбце calls
print('Уникальные значения столбца {}\n'.format('calls\n'), 
      df['calls'].unique(), '\n',
      '\nОбщее количество уникальных значений столбца {}\n'.format('calls\n'), 
      df['calls'].nunique(), '\n',
      '\nКоличество уникальных значений столбца {}\n{}'.
      format('calls\n', df['calls'].value_counts()), '\n',
     '\nТаблица распределения значений столбца {}\n{}'.
      format('calls\n', df['calls'].describe()), '\n') 

Уникальные значения столбца calls

 [ 40.  85.  77. 106.  66.  58.  57.  15.   7.  90.  82.  45.  51.  56.
 108.   6.   2.  26.  79.  49.  93.  48.  11.  53.  81. 154.  37.  50.
  41.  10.  71.  65. 110. 120.  76.  64.  23.  34.  98.  35.   5.  70.
 124. 129.  67.   0.  13.  68.  91. 121. 114. 125.  80.  33. 138.  84.
  78.  69.  63.  72.  73.   1.  43. 118.  74.  83. 141. 117.  54. 101.
  29.   3. 107.  55.  47. 158.  87.  28.  59.  52.  44.  17. 111. 109.
  14.  92.  94.  46. 133.  75.  38.  60. 100.  31.  61.  89.  27. 196.
  24.  99.  62. 162. 116. 123.  18.  21.  12.  86.  32.  95.  39.  30.
  25.  36.  42. 113.   9. 183. 156. 127.  96.  16.   4. 102.  97.  20.
 104. 144.  19. 132. 131. 136.  88. 115. 176. 160. 164. 169.  22. 105.
 152. 177. 161. 112.   8. 126. 178. 103. 130. 198. 119. 137. 150. 122.
 146. 151. 157. 203. 143. 148. 128. 185. 167. 181. 184. 171. 153. 140.
 159. 188. 134. 189. 182. 173. 172. 145. 180. 155. 174. 244. 165. 163.
 142. 168.] 
 
Общее количество уникальны

**Промежуточные выводы**: видно, что значений 'NaN' нет, в целом, все значения готовы для дальнейшей работы.

In [7]:
# просмотрим уникальные значений в столбце minutes
print('Уникальные значения столбца {}\n'.format('minutes\n'), 
      df['minutes'].unique(), '\n',
      '\nОбщее количество уникальных значений столбца {}\n'.format('minutes\n'), 
      df['minutes'].nunique(), '\n',
      '\nКоличество уникальных значений столбца {}\n{}'.
      format('minutes\n', df['minutes'].value_counts()), '\n',
     '\nТаблица распределения значений столбца {}\n{}'.
      format('minutes\n', df['minutes'].describe()), '\n') 

Уникальные значения столбца minutes

 [311.9  516.75 467.66 ... 634.44 462.32 566.09] 
 
Общее количество уникальных значений столбца minutes

 3142 
 
Количество уникальных значений столбца minutes

0.00      40
1.00       3
2.00       3
564.01     3
260.94     2
          ..
81.29      1
105.01     1
523.84     1
507.52     1
185.18     1
Name: minutes, Length: 3142, dtype: int64 
 
Таблица распределения значений столбца minutes

count    3214.000000
mean      438.208787
std       234.569872
min         0.000000
25%       274.575000
50%       430.600000
75%       571.927500
max      1632.060000
Name: minutes, dtype: float64 



**Промежуточные выводы**: видно, что значений 'NaN' нет, в целом, все значения готовы для дальнейшей работы.

In [8]:
# просмотрим уникальные значений в столбце messages
print('Уникальные значения столбца {}\n'.format('messages\n'), 
      df['messages'].unique(), '\n',
      '\nОбщее количество уникальных значений столбца {}\n'.format('messages\n'), 
      df['messages'].nunique(), '\n',
      '\nКоличество уникальных значений столбца {}\n{}'.
      format('messages\n', df['messages'].value_counts()), '\n',
     '\nТаблица распределения значений столбца {}\n{}'.
      format('messages\n', df['messages'].describe()), '\n') 

Уникальные значения столбца messages

 [ 83.  56.  86.  81.   1.  21.  20.   6.   3.  38.  13.  61.  16.   0.
   4.  90.  31.  97.  66.  19.  30.  52.  48.  44.  27.   7.   9.  43.
  33.  34.  10. 106.  65.  17.  11.  29.  75.  47.  49.  64. 144.  99.
  46.  24.  22.  55.   8.  93. 153.  37.  69.  18.  78.  42.  82.  62.
  40.  57.  60.  58. 123.  26.  51. 109.   5.  39.  35.  79.  12. 182.
  36. 126.  59. 102.  14. 133. 110.  54.  72. 103.  23. 108.  92.  73.
  15.  25.  91. 113. 105.  85. 191.  32.  50. 145.  41. 150.  53. 171.
 176.  68.  28.  76.  71. 118.  63. 132.  84.   2.  67. 111. 101.  96.
 112.  95.  89. 143.  45.  70.  77.  94. 137. 107.  98. 141. 124. 129.
 114.  87.  80. 117. 138. 142. 134. 128. 180. 115. 154.  74. 185. 121.
 127. 116.  88. 140. 201. 100. 169. 155. 135. 151. 139. 131. 188. 157.
 148. 104. 224. 158. 211. 120. 149. 190. 173. 172. 146. 162. 119. 178.
 223. 130. 122. 159. 181. 125. 152. 197. 136. 165. 183. 170.] 
 
Общее количество уникальных значений столбца

**Промежуточные выводы**: видно, что значений 'NaN' нет, в целом, все значения готовы для дальнейшей работы.

In [9]:
# просмотрим уникальные значений в столбце mb_used
print('Уникальные значения столбца {}\n'.format('mb_used\n'), 
      df['mb_used'].unique(), '\n',
      '\nОбщее количество уникальных значений столбца {}\n'.format('mb_used\n'), 
      df['mb_used'].nunique(), '\n',
      '\nКоличество уникальных значений столбца {}\n{}'.
      format('mb_used\n', df['mb_used'].value_counts()), '\n',
     '\nТаблица распределения значений столбца {}\n{}'.
      format('mb_used\n', df['mb_used'].describe()), '\n') 

Уникальные значения столбца mb_used

 [19915.42 22696.96 21060.45 ... 13974.06 31239.78 29480.52] 
 
Общее количество уникальных значений столбца mb_used

 3203 
 
Количество уникальных значений столбца mb_used

0.00        11
0.01         2
15578.67     1
30671.00     1
14586.92     1
            ..
14515.45     1
9031.85      1
13560.15     1
17190.83     1
17969.15     1
Name: mb_used, Length: 3203, dtype: int64 
 
Таблица распределения значений столбца mb_used

count     3214.000000
mean     17207.673836
std       7570.968246
min          0.000000
25%      12491.902500
50%      16943.235000
75%      21424.700000
max      49745.730000
Name: mb_used, dtype: float64 



**Промежуточные выводы**: видно, что значений 'NaN' нет, в целом, все значения готовы для дальнейшей работы.

In [10]:
# просмотрим уникальные значений в столбце is_ultra
print('Уникальные значения столбца {}\n'.format('is_ultra\n'), 
      df['is_ultra'].unique(), '\n',
      '\nОбщее количество уникальных значений столбца {}\n'.format('is_ultra\n'), 
      df['is_ultra'].nunique(), '\n',
      '\nКоличество уникальных значений столбца {}\n{}'.
      format('is_ultra\n', df['is_ultra'].value_counts()), '\n',
     '\nТаблица распределения значений столбца {}\n{}'.
      format('is_ultra\n', df['is_ultra'].describe()), '\n') 

Уникальные значения столбца is_ultra

 [0 1] 
 
Общее количество уникальных значений столбца is_ultra

 2 
 
Количество уникальных значений столбца is_ultra

0    2229
1     985
Name: is_ultra, dtype: int64 
 
Таблица распределения значений столбца is_ultra

count    3214.000000
mean        0.306472
std         0.461100
min         0.000000
25%         0.000000
50%         0.000000
75%         1.000000
max         1.000000
Name: is_ultra, dtype: float64 



**Промежуточные выводы**: видно, что значений 'NaN' нет, в целом, все значения готовы для дальнейшей работы. Значения столбца стнадартизированы и не требуют коррекции

Проверим таблицу на предмет пропущенных значений

In [11]:
df.isna().sum()

calls       0
minutes     0
messages    0
mb_used     0
is_ultra    0
dtype: int64

**Выводы**: таблица готова для дальнейшей работы, типы данных менять не нужно, отсуствуют значения 'NaN', пропущенных значений нет. Можно приступать.

## Разбиение данных на выборки

Разобьем таблицу на различные выборки: обучающую, валидационную и тестовую.

Для начала выделим целевой признак 'target' и вторичные признаки 'features'.

In [12]:
features = df.drop(['is_ultra'], axis=1)
target = df['is_ultra']

Далее создадим валидаицонную выборку в объеме 25% от исходных данных.

In [13]:
features_train_test, features_valid, target_train_test, target_valid = train_test_split(
    features, target, test_size=0.25, random_state=1425)

Затем из оставшихся данных выделим тестовую выборку в объеме 25% от оставшихся данных после разбиение на валидационную.

In [14]:
features_train, features_test, target_train, target_test = train_test_split(
    features_train_test, target_train_test, test_size=0.25, random_state=1425)

Проверим, какие таблицы получились. Выведем их на экран.

In [15]:
display('Обучающия таблица features_train:', features_train)
display('Обучающия таблица features_valid:', features_valid)
display('Обучающия таблица features_test:', features_test)

'Обучающия таблица features_train:'

Unnamed: 0,calls,minutes,messages,mb_used
1178,72.0,599.30,25.0,11759.84
823,42.0,290.69,77.0,21507.03
2379,51.0,318.70,3.0,18659.17
1723,63.0,377.43,0.0,16663.48
2277,49.0,336.33,130.0,9777.89
...,...,...,...,...
1120,24.0,191.97,77.0,13292.23
783,83.0,554.07,44.0,19300.04
1164,37.0,267.39,0.0,15195.95
629,123.0,947.71,57.0,24046.86


'Обучающия таблица features_valid:'

Unnamed: 0,calls,minutes,messages,mb_used
2397,51.0,375.07,117.0,6967.00
2967,80.0,583.37,58.0,20898.57
2393,51.0,360.56,53.0,19683.68
1827,78.0,569.16,19.0,16795.58
2624,58.0,373.66,22.0,19410.70
...,...,...,...,...
836,113.0,707.79,0.0,21008.04
770,49.0,301.37,65.0,17393.94
2394,92.0,662.15,32.0,27426.21
437,71.0,501.94,33.0,16853.73


'Обучающия таблица features_test:'

Unnamed: 0,calls,minutes,messages,mb_used
1911,62.0,423.82,16.0,8378.35
97,83.0,538.83,60.0,13721.94
2795,143.0,1155.95,171.0,15790.19
2550,83.0,543.77,0.0,14035.87
989,58.0,373.58,63.0,14802.42
...,...,...,...,...
543,66.0,432.02,54.0,24008.36
1168,54.0,374.45,13.0,19344.75
42,48.0,392.04,0.0,19122.13
2308,62.0,396.29,0.0,17621.26


Вывод: таблицы разделены пропоционально - по 25% от общей таблицы отведены для валидационной и тестовой, оставшаяся часть около 50% отведена для обучения моделей.

## Исследование моделей

Выберем три модели машинного обучения из курса (расположим в порядке увеличения скорости обучения): 

- "Случайный лес" - RandomForestClassifier;
- Дерево решений - DecisionTreeClassifier;
- Логистическая регрессия - LogisticRegression.

Обучим модель "случайного леса"

In [16]:
clf = RandomForestClassifier(random_state=1425)

Зададим словарь гипермараметров, которые будет перебирать модуль `GridSearchCV` для нахождения лучших из них

In [17]:
parametrs = {'n_estimators': range (10, 51, 10),
             'max_depth': range (1, 13, 2),
             'min_samples_leaf': range (1, 8),
             'min_samples_split': range (2, 10, 2)}

Запустим модуль `GridSearchCV` для перебора гиперпараметров

In [18]:
grid = GridSearchCV(clf, parametrs, cv=5)

In [19]:
%%timeit -n 1 -r 5 # отразим время выполнения поиска лучших гиперпараметров
grid.fit(features_train, target_train)

4min 31s ± 3.76 s per loop (mean ± std. dev. of 5 runs, 1 loop each)


Посмотрим, какие гиперпараметры являются лучшими для нашей обученной модели

In [20]:
print('Лучшие гиперпараметры для модели "случаного леса"', grid.best_params_)

Лучшие гиперпараметры для модели "случаного леса" {'max_depth': 11, 'min_samples_leaf': 1, 'min_samples_split': 6, 'n_estimators': 40}


In [21]:
grid.best_score_


0.8057467746131831

Используем найденные гиперпараметры в нашей модели

In [22]:
clf_rand_forest = RandomForestClassifier(random_state=1425, 
                                         n_estimators=grid.best_params_['n_estimators'],
                                         max_depth=grid.best_params_['max_depth'], 
                                         min_samples_leaf=grid.best_params_['min_samples_leaf'],
                                         min_samples_split=grid.best_params_['min_samples_split'])

И обучим ее на тренировочных данных

In [23]:
%%timeit -n 1 -r 5 # замерим время выполнения обучения
clf_rand_forest.fit(features_train, target_train)

110 ms ± 2.45 ms per loop (mean ± std. dev. of 5 runs, 1 loop each)


Проверим модель на валидационной выборке

In [24]:
rand_forest_valid_score = clf_rand_forest.score(features_valid, target_valid)
print('Точность модели случайного леса на валидационной выборке:', rand_forest_valid_score)

Точность модели случайного леса на валидационной выборке: 0.8208955223880597


**Выводы**: подобранные гиперпараметры позволили достичь точность обученной модели "случайного леса" 0.82, что соответствует минимальным требованиям задачи.

Обучим модель дерева решений.

In [25]:
clf_tree = DecisionTreeClassifier(random_state=1425)

Применим также модуль `GridSearchCV` для перебора гиперпараметров, предварительно собранных в словаре параметров.

In [26]:
parametrs_tree = {'max_depth': range (1, 13, 2),
                  'min_samples_leaf': range (1, 8),
                  'min_samples_split': range (2, 10, 2) }
grid_tree = GridSearchCV(clf_tree, parametrs_tree, cv=5)

In [27]:
%%timeit -n 1 -r 5 # замерим время обучения на подобранных модулем гиперпараметров
grid_tree.fit(features_train, target_train)

4.37 s ± 147 ms per loop (mean ± std. dev. of 5 runs, 1 loop each)


Выведем полученные гиперпараметры

In [28]:
grid_tree.best_params_

{'max_depth': 7, 'min_samples_leaf': 7, 'min_samples_split': 2}

Используем данные гиперпараметры в нашей модели обучения дерева

In [29]:
clf_tree = DecisionTreeClassifier(random_state=1425,
                                  max_depth=grid_tree.best_params_['max_depth'], 
                                  min_samples_leaf=grid_tree.best_params_['min_samples_leaf'], 
                                  min_samples_split=grid_tree.best_params_['min_samples_split'])

In [30]:
%%timeit -n 1 -r 5 # замерим время выполнения обучения на тренировочных данных
clf_tree.fit(features_train, target_train)

4.36 ms ± 249 µs per loop (mean ± std. dev. of 5 runs, 1 loop each)


Проверим обученную модель на валидационной выборке

In [31]:
tree_valid_score = clf_tree.score(features_valid, target_valid)
print('Точность модели дерева решений на валидационной выборке:', tree_valid_score)

Точность модели дерева решений на валидационной выборке: 0.8022388059701493


**Выводы**: подобранные гиперпараметры позволили достичь точность обученной модели дерева решений 0.80, что соответствует минимальным требованиям задачи.

Обучим модель линейной регерессии

In [32]:
clf_log = LogisticRegression(random_state=1425)

In [33]:
%%timeit -n 1 -r 5 # замерим время выполнения обучения на тренировочных данных
clf_log.fit(features_train, target_train)

26.3 ms ± 11.8 ms per loop (mean ± std. dev. of 5 runs, 1 loop each)


Проверим модель логистической регрессии на валидационной выборке

In [34]:
log_valid_score = clf_log.score(features_valid, target_valid)
print('Точность модели логистической на валидационной выборке:', log_valid_score)

Точность модели логистической на валидационной выборке: 0.746268656716418


**Вывод**: видно, что точность предсказания модели логистической регрессии ниже требуемых: 0.75.

## Проверка моделей на тестовой выборке

Проверим точность модели "случайного леса" на тестовой выборке

In [35]:
rand_forest_test_score = clf_rand_forest.score(features_test, target_test)
print('Точность модели "случайного леса" на тестовой выборке:', rand_forest_test_score)

Точность модели "случайного леса" на тестовой выборке: 0.8126036484245439


Точность на дереве решений

In [36]:
tree_test_score = clf_tree.score(features_test, target_test)
print('Точность модели дерева решений на тестовой выборке:', tree_test_score)

Точность модели дерева решений на тестовой выборке: 0.7976782752902156


Точность модели логистической регрессии

In [37]:
log_test_score = clf_log.score(features_test, target_test)
print('Точность модели логистической регрессии на тестовой выборке:', log_test_score)

Точность модели логистической регрессии на тестовой выборке: 0.7562189054726368


## (бонус) Проверим модели на адекватность

Для проверки на "вменяемость" моделей используем классификатор `DummyClassifier` и далее сравним значение его точности с точностью наших моделей

In [38]:
dummy_clf = DummyClassifier(strategy="most_frequent")

In [39]:
dummy_clf.fit(features_train, target_train) # обучим модель на тренировочных данных

DummyClassifier(constant=None, random_state=None, strategy='most_frequent')

Проверим на валидационных данных

In [40]:
dummy_valid_score = dummy_clf.score(features_valid, target_valid)
print('Точность "невменяемой" модели на валидационной выборке:', dummy_valid_score)

Точность "невменяемой" модели на валидационной выборке: 0.6890547263681592


Сравним точность работы обученных моделей с невменяемой моделью и отбросим те, которые не будут эффективней "невменяемой" модели, либо ниже требуемой точности по задаче

In [41]:
valid_scores = {'"случайного леса"': rand_forest_valid_score, 
                'дерева решений': tree_valid_score, 
                'логистической регрессии': log_valid_score}
for i in valid_scores:
    if valid_scores[i] <= dummy_valid_score:
        print('Отбрасываем модель {}, которая хуже или соответствует случайной модели предсказания на валидационной выборке'.format(i))
    if valid_scores[i] < 0.75:
        print('Отбрасываем модель {}, точность предсказания которой ниже требуемой (0.75) на валидационной выборке'.format(i))
    else:
        print('Модель {} успешно проходит проверку на валидационных данных'.format(i))



Модель "случайного леса" успешно проходит проверку на валидационных данных
Модель дерева решений успешно проходит проверку на валидационных данных
Отбрасываем модель логистической регрессии, точность предсказания которой ниже требуемой (0.75) на валидационной выборке


И проверим на тестовых данных

In [42]:
dummy_test_score = dummy_clf.score(features_test, target_test)
print('Точность "невменяемой" модели на тестовой выборке:', dummy_test_score)

Точность "невменяемой" модели на тестовой выборке: 0.7014925373134329


Сравним точность работы обученных моделей с невменяемой моделью и отбросим те, которые не будут эффективней "невменяемой" модели

In [43]:
test_scores = {'"случайного леса"': rand_forest_test_score, 
               'дерева решений': tree_test_score, 
               'логистической регрессии': log_test_score}
for i in test_scores:
    if test_scores[i] <= dummy_test_score:
        print('Отбрасываем модель {}, которая хуже или соответствует случайной модели предсказания'.format(i))
    if test_scores[i] < 0.75:
        print('Отбрасываем модель {}, точность предсказания которой ниже требуемой (0.75)'.format(i))
    else:
        print('Модель {} успешно проходит проверку на тестовых данных'.format(i))

Модель "случайного леса" успешно проходит проверку на тестовых данных
Модель дерева решений успешно проходит проверку на тестовых данных
Модель логистической регрессии успешно проходит проверку на тестовых данных


**Выводы**: обученные нами модели все же лучше "предсказывают", чем простой, случайный перебор данных. Однако, предсказания модели логистической регрессии все же ниже требуемых 0.75. Следовательно, она нам не подходит в данном случае.

# Общие выводы

В ходе работы над проектом были выполнены следующие шаги:
1. Просмотрена общая информация таблицы исходных данных, проверены уникальные значения, пропуски, количество `NaN` значений.
2. Выбраны случайным образом данные для обучения будущих моделей, отобраны валидационные и тестовые данные в соответственном пропорции 50/25/25
3. Проверены три модели обучения, где было возможным был использован метод автоматического подбора гиперпараметров (`GridSearchCV`).
4. Обученые модели были проверены на валидационной и тестовой выборках.
5. Обученные модели проверены "на вменяемость" методом `DummyClassifier`, в ходе которой мы отбросили плохо обученные модели.
6. Было замерено время выполнения обучения каждой модели.


Можно сделать следующие выводы:
- наиболее высокая точность прогноза была представлена моделью "случайный лес"
- плохо обученной моделью оказалась модель логистической регрессией

- скорость выполнения обучения выше у модели дерева решений с оптимально подобранными гиперпараметрами
- наиболее долгое время обучения заняло у модели "случайного леса"

- подбор гиперпараметров модулем `GridSearchCV` был наиболее длителен у модели обчения "случайный лес" (ввиду их большего количества)