## Лабораторная работа "Введение в ML"

В этой лабораторной вы:

- познакомитесь с базовыми библиотеками для работы с табличными данными — `numpy` и `pandas`
- поближе посмотрите на простейшие задачи машинного обучения: классификацию и регрессию
- попробуете несколько метрик и поймёте, почему выбор метрики это важно
- обучите несколько простых моделей
- увидите связь между сложностью модели и переобучением
- убедитесь, что без данных всё тлен

Загрузка самых базовых библиотек:

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# %ghimatplotlib inline

from sklearn.model_selection import train_test_split

print(f'А где катька?(')
print(f'Ура катьку пришла!')

А где катька?(
Ура катьку пришла!


### [NumPy](https://numpy.org/doc/stable/user/index.html)

С 1995 numeric, с 2006 NumPy — «Numerical Python extensions» или просто «NumPy»

Возможности библиотеки NumPy:
* работать с многомерными массивами (таблицами)
* быстро вычислять математические функций на многомерных массивах

Ядро пакета NumPy — объект [ndarray](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.html)

**Важные отличия** между NumPy arrays и Python sequences:
* NumPy array имеет фиксированную длину, которая определяется в момент его создания (в отличие от Python lists, которые могут расти динамически)
* Элементы в NumPy array должны быть одного типа
* Можно выполнять операции непосредственно над NumPy arrays

**Скорость** NumPy достигается с помощью:
* реализации на C
* векторизации и броадкастинга (broadcasting). Например, произведение массивов совместимых форм.

Теперь давайте разберёмся подробнее и сделаем что-нибудь приятное и полезное в `numpy`!

### Индексация

В NumPy работает привычная индексация Python, ура! Включая использование отрицательных индексов и срезов (slices)

<div class="alert alert-info">
<b>Замечание 1:</b> Индексы и срезы в многомерных массивах не нужно разделять квадратными скобками,
т.е. вместо <b>matrix[i][j]</b> нужно использовать <b>matrix[i, j]</b>. Первое тоже работает, но сначала выдаёт строку i, потом элемент j в ней.
</div>

<div class="alert alert-danger">
<b>Замечание 2:</b> Срезы в NumPy создают view, а не копии, как в случае срезов встроенных последовательностей Python (string, tuple and list).
</div>

In [2]:
ones_matrix = np.ones((5, 5))
ones_submatrix_view = ones_matrix[::2,::2] # creates a view, not copy
ones_matrix[::2,::2] = np.zeros((3, 3))
ones_submatrix_view
# print('----')
# ones_matrix

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

### Ссылка на Яндекс.Контест

Решения и ответы в задачах, расположенных ниже, загружайте в контест на автоматическую проверку:
https://new.contest.yandex.ru/60376/start


**1.** Реализуйте функцию, принимающую на вход два одномерных массива `first_array` и `second_array` и возвращающую матрицу, в которой первый массив соответствует первому столбцу матрицы, второй — второму.

Вероятно первое, что приходит вам на ум, это конкатенация и транспонирование:

In [3]:
def construct_matrix(first_array, second_array):
    """
    Construct matrix from pair of arrays
    :param first_array: first array
    :param second_array: second array
    :return: constructed matrix
    """
    
    # # --- var 1 ---
    # return np.vstack([first_array, second_array]).T # <- your first right code here
    
    # # --- var 2 --- 
    # col1 = first_array[:, np.newaxis]
    # col2 = second_array[:, np.newaxis]
    
    # constructed_matrix = np.concatenate((col1, col2), axis=1)
    
    # return construct_matrix
    
    if len(first_array) != len(second_array):
        raise ValueError("не совпадают размерности")
    
    constructed_matrix = []
    
    for el_a, el_b in zip(first_array, second_array):
        new_row = [el_a, el_b]
        
        constructed_matrix.append(new_row)
    
    if not constructed_matrix: 
        return np.empty((0, 2))
    else:
        return np.array(constructed_matrix)
     

In [4]:
construct_matrix(np.array([1,2]),np.array([3,4]))

array([[1, 3],
       [2, 4]])

(в скобках заметим, что конкатенировать можно vertically, horizontally, depth wise методами vstack, hstack, dstack по трём осям (0, 1 и 2, соотвественно), либо в общем случае `np.concatenate` — поиграйтесь ниже с прекрасным примером четырёхмерной точки, чтобы точно всё для себя понять)

In [5]:
# arange аналог range с итератором
p = np.arange(1).reshape([1, 1, 1, 1])

a = np.full((1, 1, 1, 5), 7)
print(p.shape, "-|-", a.shape)
print(p, '-|-', a)
p = np.concatenate([p, a], axis=3)
print(p.shape)
p

(1, 1, 1, 1) -|- (1, 1, 1, 5)
[[[[0]]]] -|- [[[[7 7 7 7 7]]]]
(1, 1, 1, 6)


array([[[[0, 7, 7, 7, 7, 7]]]])

In [6]:
print("vstack: ", np.vstack((p, p)).shape) # axis 0. 1 столбец
print("vstack: ", np.vstack((p, p)))
print("hstack: ", np.hstack((p, p)).shape) # axis 1. 2 столбец
print("hstack: ", np.hstack((p, p)))
print("dstack: ", np.dstack((p, p)).shape) # axis 2. 3 столбец
print("dstack: ", np.dstack((p, p)))

vstack:  (2, 1, 1, 6)
vstack:  [[[[0 7 7 7 7 7]]]


 [[[0 7 7 7 7 7]]]]
hstack:  (1, 2, 1, 6)
hstack:  [[[[0 7 7 7 7 7]]

  [[0 7 7 7 7 7]]]]
dstack:  (1, 1, 2, 6)
dstack:  [[[[0 7 7 7 7 7]
   [0 7 7 7 7 7]]]]


In [7]:
print(np.concatenate((p, p), axis=3).shape)
np.concatenate((p, p), axis=3)

(1, 1, 1, 12)


array([[[[0, 7, 7, 7, 7, 7, 0, 7, 7, 7, 7, 7]]]])

Но, поскольку операция транспонирования [делает массив non-contiguous](https://numpy.org/doc/stable/user/basics.copies.html#other-operations), мы в этой задаче **запретим** ей пользоваться и порекомедуем воспользоваться, например, методом [reshape](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html).

**2.** Реализуйте функцию, принимающую на вход массив целых неотрицательных чисел `nums` и возвращающую самый частый элемент массива.

In [8]:
def most_frequent(nums):
    """
    Find the most frequent value in an array
    :param nums: array of ints
    :return: the most frequent value
    """
    freq_dict = {}
    
    for num in nums:
        if num in freq_dict:
            freq_dict[num] += 1
        else:
            freq_dict[num] = 1
    
    most_common_value = None
    max_freq = -1
    
    for key, value in freq_dict.values():
        if value > max_freq:
            max_freq = value
            most_common_value = key
    
    return most_common_value

### Переходим к работе с данными

Прежде всего, загрузим данные и сделаем из них красивые pandas-таблички. Они взяты из параллели RecSys соревнования https://yandex.ru/cup/ml/. Но мы будем иметь дело не со всеми данными, а только с их частью. Данные у нас будут про заведения общественного питания (больше бюрократический терминологии!)

Файлы с данными можно найти [здесь](https://disk.yandex.ru/d/YWvCNRQMb7QSQA).

Задачей будет **предсказание среднего чека** (average_bill) по некоторым другим свойствам заведения.

In [9]:
base = 'tables/'

In [10]:
data = pd.read_csv(base + 'organisations.csv')
features = pd.read_csv(base + 'features.csv')
rubrics = pd.read_csv(base + 'rubrics.csv')

В основном мы будем работать с табличкой `data`; остальное вам может пригодиться, если вы захотите знать, какое содержание стоит за кодами признаков.

## Изучение данных

Посмотрите на данные. В этом вам поможет метод ``head`` pandas-таблички.

In [11]:
# <Your code here>
print(data.head())
print(features.head())
print(rubrics.head())

                 org_id city  average_bill    rating   rubrics_id  \
0  15903868628669802651  msk        1500.0  4.270968  30776 30774   
1  16076540698036998306  msk         500.0  4.375000        30771   
2   8129364761615040323  msk         500.0  4.000000        31495   
3  15262729117594253452  msk         500.0  4.538813  30776 30770   
4  13418544315327784420  msk         500.0  4.409091        31495   

                                         features_id  
0  3501685156 3501779478 20422 3502045016 3502045...  
1  1509 1082283206 273469383 10462 11617 35017794...  
2  10462 11177 11617 11629 1416 1018 11704 11867 ...  
3  3501618484 2020795524 11629 11617 1018 11704 2...  
4  11617 10462 11177 1416 11867 3501744275 20282 ...  
   feature_id                           feature_name
0           1  prepress_and_post_printing_processing
1          40                               products
2          54                        printing_method
3          77                              

Полезно посмотреть внимательнее на то, с какими признаками нам предстоит работать.

* **org_id** вам не понадобится;
* **city** - город, в котором находится заведение (``msk`` или ``spb``);
* **average_bill** - средний чек в заведении - он будет нашим таргетом;
* **rating** - рейтинг заведения;
* **rubrics_id** - тип заведения (или несколько типов). Соответствие кодов каким-то человекочитаемым типам живёт в табличке ``rubrics``
* **features_id** - набор неких фичей заведения. Соответствие кодов каким-то человекочитаемым типам живёт в табличке ``features``

Обратите внимание, что **rubrics_id** и **features_id** - это не списки, а разделённые пробелами строки. Когда вам захочется работать с отдельными фичами из мешка фичей для данного заведения, вам придётся всё-таки превратить их в списки (здесь поможет метод `split` для строк).

Чтобы быстро восстанавливать по рубрикам и фичам их нормальные названия, сделайте словари вида ``код_фичи:название_фичи``

In [12]:
# <Your code here>
rubric_dict = {}

# rubric_dict = rubrics.set_index('rubric_id')['rubric_name'].to_dict()

for rubric_id, rubric_name in zip(rubrics['rubric_id'], rubrics['rubric_name']):
    rubric_dict[rubric_id] = rubric_name

Посмотрим, какими бывают типы заведений:

In [13]:
rubric_dict

{30519: 'Булочная, пекарня',
 30770: 'Бар, паб',
 30771: 'Быстрое питание',
 30774: 'Кафе',
 30775: 'Пиццерия',
 30776: 'Ресторан',
 30777: 'Столовая',
 31286: 'Спортбар',
 31350: 'Кондитерская',
 31375: 'Суши-бар',
 31401: 'Кальян-бар',
 31495: 'Кофейня',
 3108292683: 'Бар безалкогольных напитков',
 3501514558: 'Фудкорт',
 3501750896: 'Кофе с собой'}

Мы что-то поняли про признаки, которыми нам предстоит пользоваться. Теперь время посмотреть на таргет. Вооружившись функциями ``hist`` и ``scatter`` из библиотеки ``matplotlib``, а также методом ``isna`` для pandas-таблиц разберитесь, какие значения принимают таргеты, есть ли там там выбросы, пропуски или ещё какие-то проблемы.

&nbsp;

<details>
  <summary>Когда будете готовы, кликните сюда, чтобы посмотреть ответ</summary>
    <ol>
      <li>Среди таргетов довольно много пропусков;</li>
      <li>Все таргеты - это числа, кратные 500;</li>
      <li>Есть какие-то адские значения, превышающие 100 000 (видимо, выбросы);</li>
      <li>В целом, число ресторанов с данным средним чеком быстро падает с ростом среднего чека. Для средних чеков, больших 2500, заведений уже совсем мало. Примерно у 2/3 заведений средний чек 500.</li>
    </ol>
</details>

In [14]:
print('isna: ', data.isna().value_counts(), '\n')
print('avg_bill: ', data['average_bill'].isna().value_counts(), '\n')
print(data['average_bill'].describe())

print(data['average_bill'].head(10))

isna:  org_id  city   average_bill  rating  rubrics_id  features_id
False   False  False         False   False       False          28324
               True          False   False       False          20814
                             True    False       True            5579
                             False   False       True            5470
               False         True    False       False           4454
               True          True    False       False           3698
Name: count, dtype: int64 

avg_bill:  average_bill
True     35561
False    32778
Name: count, dtype: int64 

count    3.277800e+04
mean     1.135075e+03
std      4.163250e+04
min      5.000000e+02
25%      5.000000e+02
50%      5.000000e+02
75%      1.000000e+03
max      7.502000e+06
Name: average_bill, dtype: float64
0    1500.0
1     500.0
2     500.0
3     500.0
4     500.0
5     500.0
6     500.0
7     500.0
8     500.0
9     500.0
Name: average_bill, dtype: float64


**Базовая очистка данных**

Раз есть треш, давайте чистить данные.

С пропусками можно бороться по-разному (даже и с пропусками в таргете), но пока мы сделаем самую простую вещь: дропнем все заведения, для которых мы не знаем средний чек.

Уберите из них все заведения, у которых средний чек неизвестен или превышает 2500. Пока есть опасение, что их слишком мало, чтобы мы смогли обучить на них что-нибудь.

**3. Введите в Контест количество заведений, которое у вас получилось после очистки**.

Дальше мы будем работать с очищенными данными.

In [15]:
# <Your code here>
df = data.drop("org_id", axis=1).copy()

df = df.dropna(subset=['average_bill'], axis=0)
df = df[df['average_bill'] <= 2500].copy()

df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 32136 entries, 0 to 68332
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   city          32136 non-null  object 
 1   average_bill  32136 non-null  float64
 2   rating        27818 non-null  float64
 3   rubrics_id    32136 non-null  object 
 4   features_id   32136 non-null  object 
dtypes: float64(2), object(3)
memory usage: 1.5+ MB


**4. Посчитайте и введите в Контест разность между средними арифметическими average_bill в кафе Москвы и Санкт-Петербурга. Округлите ответ до целого.**

&nbsp;

<details>
  <summary>Небольшая подсказка</summary>
  Примените часто используемый метод groupby.
</details>

In [16]:
# <Your code here>

msk_data = df[df['city'] == 'msk'].copy()
spb_data = df[df['city'] == 'spb'].copy()

avg_bill_msk = msk_data['average_bill'].mean()
avg_bill_spb = spb_data['average_bill'].mean()

print(f'msk: {avg_bill_msk:.2f}, spb: {avg_bill_spb:.2f}')
print(avg_bill_msk - avg_bill_spb)

msk: 792.89, spb: 676.45
116.43756751957676


In [17]:
is_msk = (df['city'] == 'msk').astype(int)
corr_val_msk = df['average_bill'].corr(is_msk)

is_spb = (df['city'] == 'spb').astype(int)
corr_val_spb = df['average_bill'].corr(is_spb)

print(f'msk: {corr_val_msk:.2f}, spb: {corr_val_spb:.2f}')

rubrics.info()

is_restaurant_mask = df['rubrics_id'].str.contains('30776', na=False)
is_pub_mask = df['rubrics_id'].str.contains('30770', na=False)

avg_restaurant_bill = df[is_restaurant_mask]['average_bill'].mean()
avg_pub_bill = df[is_pub_mask]['average_bill'].mean()

print(f"\nrest: {avg_restaurant_bill:,.2f}")
print(f"pub: {avg_pub_bill:,.2f}")

msk: 0.12, spb: -0.12
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   rubric_id    15 non-null     int64 
 1   rubric_name  15 non-null     object
dtypes: int64(1), object(1)
memory usage: 372.0+ bytes

rest: 995.47
pub: 814.24


In [18]:
is_msk = (df['city'] == 'msk').astype(int)
corr_val_msk = df['average_bill'].corr(is_msk)

is_spb = (df['city'] == 'spb').astype(int)
corr_val_spb = df['average_bill'].corr(is_spb)

print(f'msk: {corr_val_msk:.2f}, spb: {corr_val_spb:.2f}')

rubrics.info()

is_restaurant_mask = df['rubrics_id'].str.contains('30776', na=False)
is_pub_mask = df['rubrics_id'].str.contains('30770', na=False)

avg_restaurant_bill = df[is_restaurant_mask]['average_bill'].mean()
avg_pub_bill = df[is_pub_mask]['average_bill'].mean()

print(f"\nrest: {avg_restaurant_bill:,.2f}")
print(f"pub: {avg_pub_bill:,.2f}")

msk: 0.12, spb: -0.12
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   rubric_id    15 non-null     int64 
 1   rubric_name  15 non-null     object
dtypes: int64(1), object(1)
memory usage: 372.0+ bytes

rest: 995.47
pub: 814.24


Давайте ещё немного поизучаем данные. Ответьте на вопросы:

1. Есть ли разница между средними чеками в Москве и Санкт-Петербурге?
2. Коррелирует ли средний чек с рейтингом?
3. Есть ли разница в среднем чеке между ресторанами и пабами (см. соответствующие типы из ``rubrics``)?

&nbsp;

<details>
  <summary>Когда будете готовы, кликните сюда, чтобы посмотреть ответ</summary>
    <ol>
      <li>В целом, да. Вы могли бы сравнить средние (в Москве больше) или медианы (они равны, потому что уж больно много где средний чек 500). Этого, конечно, мало для того, чтобы сделать вывод. Нужно проверять какие-то статические критерии, которые изучаются в курсе по статистике. Не будем останавливаться на этом подробно. Поскольку данные совсем не нормальные, никакой t-тест не сработает; мы бы предложили использовать критерий Манна-Уитни (см. википедию и функцию mannwhitneyu из библиотеки scipy.stats).</li>
      <li>Какая-то корреляция между ними есть но уж больно неубедительная (рекомендуем построим на одном графике boxplot рейтинга по каждому значению среднего чека для визуализации). Конечно, дна становится меньше с ростом среднего чека, но, видимо, в предсказании это особо не используешь;</li>
      <li>Несомненно, в ресторанах средний чек выше. Это и невооружённым глазом видно, и с помощью критерия Манна-Уитни можно проверить.</li>
    </ol>
</details>

## Формулируем задачу

Прежде, чем решать задачу, её надо сформулировать.

**Вопрос первый**: это классификация или регрессия? Подумайте над этим.

&nbsp;

<details>
  <summary>Когда будете готовы, кликните сюда, чтобы посмотреть ответ</summary>
    Ответ не столь однозначен, как хотелось бы. С одной стороны, таргет принимает всего четыре значения, и потому это может быть классификацией с 4 классами. С другой стороны, таргеты - это не абстрактные "треугольник", "круг", "квадрат", а вещественные числа, и когда мы вместо 500 предсказываем 2500, это явно хуже, чем вместо 1500 предсказать 2000. В целом, задачу можно решать и так, и так; мы будем смотреть на метрики обеих задач.
</details>

**Вопрос второй**: какие метрики мы будем использовать для оценки качества решения? Какие метрики вы предложили бы для этой задачи как для задачи классификации? А для этой задачи, как для задачи регрессии?

&nbsp;

<details>
  <summary>Когда будете готовы, кликните сюда, чтобы посмотреть ответ</summary>
    
    Начнём с классификации. Метрика accuracy не очень хороша из-за несбалансированности классов. Действительно, классификатор, который всегда говорит 500, будет иметь accuracy примерно 0.66, хотя это никак не отражает практическую ценность модели. Как мы увидим, самая большая проблема будет заключаться в том, чтобы научиться выделять заведения с большими чеками, а их меньше всего и в accuracy они вносят самый маленький вклад. Есть разные способы с этим бороться, один -- использовать sklearn.metrics.balanced_accuracy_score. Его идея, грубо говоря, в том, чтобы по каждому классу найти, какая доля объектов этого класса правильно классифицирована, а потом эти доли усреднить. Тогда у бессмысленного классификатора, который всем ставит 500, будет скор 1/5 (ведь классов 5), а чтобы получить прежние 2/3, нужно будет научиться в каждом классе правильно ставить хотя бы 2/3 меток.    
    
    Теперь что касается регрессии. Основых метрики две - MSE и MAE. Из первой стоит извлекать корень, чтобы получать интерпретируемые человеком значения, а вторая менее агрессивна к выбросам (впрочем, выбросов тут уже нет, мы их все выкинули). Без дополнительной информации не очень понятно, какую выбирать, можно брать любую. А выбирать надо: ведь даже банальные модели "предсказывай всегда среднее" и "предсказывай всегда медиану" будут по-разному ранжироваться этими метриками.
    
</details>

**Вопрос третий**: а не взять ли нам какую-нибудь более экзотическую метрику? Например, MAPE (определение в учебнике в главе про оценку качества моделей). А как вам такое соображение: допустим, заказчик говорит, что пользователи будут расстраиваться, только если мы завысили средний чек - так давайте поправим MSE или MAE, обнуляя те слагаемые, для которых предсказанный таргет меньше истинного. Вот это хорошая метрика или нет?

&nbsp;

<details>
  <summary>Когда будете готовы, кликните сюда, чтобы посмотреть ответ</summary>
    
    Что касается MAPE, у нас нет тех проблем, с которой она борется. Вот если бы у нас были средние чеки от 500 до миллиона, мы бы столкнулись с ситуацией, что большие ошибки для больших чеков доминировали бы в сумме для MSE и MAE (500 вместо 1000 меркнет по сравнению с 500к вместо миллиона). Говоря поэтически, мы бы оптимизировали модель для миллионеров, забыв про простых трудяг. И было бы логично перейти от парадигмы "ошибаемся на 500 рублей" к парадигме "ошибаемся на 50%". Но у нас все таргеты примерно одного порядка, MAPE нам особо ни к чему.
    
    Вторая метрика коварна тем, что её можно "накрутить" безо всякой пользы для дела. А именно, модель, которая всегда предсказывает средний чек в миллион, была бы идеальна. Но все бы расстраивались и не ходили есть. Другое дело, что можно ввести разные веса для ошибок в большую и в меньшую сторону, но опять же - пока нет показаний к тому, что это нужно.
    
</details>

## Применяем ML

Теперь время разбить данные на обучающую и тестовую выборку. Делается это с помощью функции ``train_test_split`` из пакета ``sklearn``. При этом очень важно сделать две вещи:

* Зафиксировать ``random_state=42`` (да, именно этот, а то ваши модели могут не зайти в Контест), чтобы всё, что мы делаем, было воспроизводимо (иначе от перезапуска к перезапуску числа могут меняться, и мы не будем понимать, из-за чего это происходит).
* Сделать стратификацию по таргету. В противном случае у нас в трейне и тесте могут оказаться разные пропорции классов (обычно особенно страдают мало представленные классы), что неутешительно скажется на результате.

**Обратите внимание**, что если вы побьёте выборку на train и test по-другому, ваши результаты могут не зайти в контест.

In [19]:
clean_data = df

clean_data_train, clean_data_test = train_test_split(
    clean_data, stratify=clean_data['average_bill'], test_size=0.33, random_state=42)

Теперь нам нужен **бейзлайн** - очень простая модель, с которой мы в дальнейшем будем сравниваться.

Поскольку мы ещё не знаем никаких умных классов моделей, все модели мы будем писать руками. А именно, мы напишем две простых модели на основе ``sklearn.baseRegressorMixin`` и ``sklearn.base.ClassifierMixin`` (посмотрите примеры в документации sklearn и сделайте так же):

* Модель для задачи регрессии, которая для всех заведений предсказывает одно число — среднее значение среднего чека;
* Модель для задачи классификации, которая для всех заведений предсказывает один класс — самый частый класс (ироничным образом он в данном случае совпадает с медианой).

**Важно!** Мы будем много раз повторять вам мантру о том, что **информация из тестовой выборки не должна протекать в процесс обучения**. Так вот, и среднее, и самый частый класс вы должны считать именно на обучающей выборке!

**5 и 6. Напишите эти две модели и сдайте в Контест**. В процессе проверки модели будут и обучаться, и предсказывать.

Заметим, что для этих моделей нам вообще не нужны какие-то "фичи"; мы работаем только с таргетом.

У каждой модели есть (как минимум) два метода: `fit` (обучает модель по фичам `X` и таргету `y`) `predict` (предсказывает по фичам `X`)

In [20]:
from scipy.stats import mode

from sklearn.base import RegressorMixin

class MeanRegressor(RegressorMixin):
    # Predicts the mean of y_train
    def fit(self, X=None, y=None):
        '''
        Parameters
        ----------
        X : array like, shape = (n_samples, n_features)
        Training data features
        y : array like, shape = (_samples,)
        Training data targets
        '''
        # YOUR CODE HERE
        self.mean_ = np.mean(y)
        return self

    def predict(self, X=None):
        '''
        Parameters
        ----------
        X : array like, shape = (n_samples, n_features)
        Data to predict
        '''
        # YOUR CODE HERE
        return np.full(len(X), self.mean_)

from sklearn.base import ClassifierMixin

class MostFrequentClassifier(ClassifierMixin):
    # Predicts the rounded (just in case) median of y_train
    def fit(self, X=None, y=None):
        '''
        Parameters
        ----------
        X : array like, shape = (n_samples, n_features)
        Training data features
        y : array like, shape = (_samples,)
        Training data targets
        '''
        # YOUR CODE HERE
        y = np.asarray(y) 
        
        if len(y) == 0:
            self.mode_ = None 
        else:
            self.mode_ = mode(y)[0].ravel()[0]
            
        return self

    def predict(self, X=None):
        '''
        Parameters
        ----------
        X : array like, shape = (n_samples, n_features)
        Data to predict
        '''
        # YOUR CODE HERE
        return np.full(len(X), self.mode_)
    

Обучим наши модели

In [21]:
X_train, X_test = clean_data_train.drop(columns='average_bill', axis=1), clean_data_test.drop(columns='average_bill', axis=1)
y_train, y_test = clean_data_train['average_bill'], clean_data_test['average_bill']

from sklearn.metrics import mean_squared_error, balanced_accuracy_score

reg = MeanRegressor()
reg.fit(X=X_train, y=y_train)

y_pred_reg = reg.predict(X_test)
rmse_reg = np.sqrt(mean_squared_error(y_test, y_pred_reg))

clf = MostFrequentClassifier()
clf.fit(X=X_train, y=y_train)

y_pred_clf = clf.predict(X_test)
rmse_clf = np.sqrt(mean_squared_error(y_test, y_pred_clf))
bacc_clf = balanced_accuracy_score(y_test, y_pred_clf)

print(f"RMSE (MeanRegressor): {rmse_reg:,.2f}")
print(f"RMSE (MostFrequentClassifier): {rmse_clf:.4f}")
print(f"Balanced Accuracy (MostFrequentClassifier): {bacc_clf:.4f}")

RMSE (MeanRegressor): 448.71
RMSE (MostFrequentClassifier): 514.7517
Balanced Accuracy (MostFrequentClassifier): 0.2000


Обучите модели и оцените их качество на тестовой выборке. В качестве метрик возьмём RMSE (``np.sqrt`` от ``sklearn.metrics.mean_squared_error``) и ``sklearn.metrics.balanced_accuracy_score``.

Для регрессионной модели имеет смысл считать только RMSE (значения будут не кратны 500, точно мы угадывать не будем никогда), а вот для классификационной можно найти обе метрики. Сделайте это. Какая модель оказалась лучше по RMSE?

<details>
  <summary>Когда будете готовы, кликните сюда</summary>
    
  Казалось бы, регрессор никогда не угадывает, но он в каком-то смысле лучше классификатора - справедливо ли это? Возможно. Несуществующий пользователь модели вряд ли будет задавать вопросы "почему средний чек не кратен 500?" Ну, выдали около 800 - ок, понятно.
    
</details>

## Усложнение модели

Бейзлайны будут нашей отправной точкой. Строя дальнейшие модели, мы будем спрашивать себя: получилось ли лучше бейзлайна? Если нет или если не особо, то в чём смысл усложнения?

Начнём с использования фичи ``city``. Мы уже видели, что в разных городах и средние чеки разные. Легко проверить, что *медиана* средних чеков всё же одна и та же и в Москве, и в Санкт-Петербурге (ох уж этот вездесущий средний чек 500!), поэтому с классификатором мы ничего не сделаем. Но вот регрессор можно попробовать починить.

**7. Напишите регрессор, для каждого заведения предсказывающий среднее значение в том же городе (на обучающей выборке, конечно) и сдайте его в Контест**. Вам может помочь то, что булевы `pandas` и `numpy` столбцы можно умножать на численные — в такой ситуации False работает, как ноль, а True как единица.

In [22]:
from sklearn.base import RegressorMixin

class CityMeanRegressor(RegressorMixin):
    def __init__(self):
        self.city_means_ = {}
        self.global_mean_ = None
    
    def fit(self, X=None, y=None):
        # YOUR CODE HERE
        if 'city' not in X.columns:
            raise ValueError('...')

        X_df = pd.DataFrame(X).copy()
        y_series = pd.Series(y).copy()
        
        data_train = X_df.assign(target=y_series)
        
        self.global_mean_ = data_train['target'].mean()
        self.city_means_ = data_train.groupby('city')['target'].mean().to_dict()
        
        return self
        
    def predict(self, X=None):
        # YOUR CODE HERE
        X_df = pd.DataFrame(X).copy()
        
        predictions = X_df['city'].map(self.city_means_).fillna(self.global_mean_)
        
        return predictions.values

Обучите регрессор и сравните его по метрике RMSE с бейзлайнами. Получилось ли улучшить метрику?

In [23]:
city_reg = CityMeanRegressor()
city_reg.fit(X=X_train, y=y_train)

y_pred_train_reg = city_reg.predict(X_train)
y_pred_test_reg = city_reg.predict(X_test)

rmse_train_reg = np.sqrt(mean_squared_error(y_train, y_pred_train_reg))
rmse_test_reg = np.sqrt(mean_squared_error(y_test, y_pred_test_reg))

print(f"RMSE (CityMeanRegressor): {rmse_train_reg:,.2f}")
print(f"RMSE (CityMeanRegressor): {rmse_test_reg:,.2f}")
print(f"RMSE (MeanRegressor): {rmse_reg:,.2f}")

RMSE (CityMeanRegressor): 445.18
RMSE (CityMeanRegressor): 445.11
RMSE (MeanRegressor): 448.71


Лучше стало, но, правда, не очень сильно. В этот момент очень важно не просто радовать руководителя приростом в третьем знаке, но и думать о том, что происходит.

Средний средний чек по Москве равен 793, в Санкт-Петербурге - 676, а в целом - 752 рубля. MSE, увы, не поможет вам ответить на вопрос, стало ли лучше пользователю, если вы ему вместо 752 рублей назвали 793. Здесь вскрывается весьма существенный порок MSE в этой задаче. Дело в том, что наш изначальный таргет делит заведения на некоторые "ценовые категории", и различие в средних чеках 500 и 1000 в самом деле существенно. Наверное, мы хотели бы как раз правильно предсказывать ценовые категории. Но MSE не очень помогает нам об этом судить. Дальше мы ещё подумаем, как это исправить.

В любом случае, несмотря на улучшение метрики, мы пока не можем судить, стало ли по жизни лучше от усложнения модели.

Поручинившись немного, возьмём на вооружение другую идею. Давайте использовать типы заведений!

Но с типами есть некоторая проблема: в столбце ``rubrics_id`` не всегда один идентификатор, часто их несколько, и всего комбинаций довольно много. Чтобы не возиться с малочисленными типами, давайте сольём их в один безликий ``other``.

Итак, добавьте в обучающие и тестовые данные столбец ``modified_rubrics``, в котором будет то же, что и в ``rubrics_id``, если соответствующая комбинация рубрик содержит хотя бы 100 заведений из обучающей (!) выборки, и строка ``other`` в противном случае.

Здесь вам поможет контейнер ``Counter`` из библиотеки ``collections``.

In [24]:
# your code
from collections import Counter

rubrics_counts = Counter(X_train['rubrics_id'])
popular_rubrics = {rubric for rubric, count in rubrics_counts.items() if count >= 100}

def _modify_rubric(rubric_id, popular_set):
    if rubric_id in popular_set:
        return rubric_id
    return 'other'

X_train['modified_rubrics'] = X_train['rubrics_id'].apply(
    lambda x: _modify_rubric(x, popular_rubrics)
)

X_test['modified_rubrics'] = X_test['rubrics_id'].apply(
    lambda x: _modify_rubric(x, popular_rubrics)
)

print(f"{X_train['rubrics_id'].nunique()}")
print(f"{X_train['modified_rubrics'].nunique()}")


616
28


Теперь настало время написать могучий классификатор, который по заведению предсказывает медиану средних чеков среди тех в обучающей выборке, у которых с ним одинаковые `modified_rubrics` и город (вы спросите, почему медиану, а не самый частый -- спишем это на вдохновение; самый частый тоже можно брать - но медиана работает лучше).

**8. Напишите классификатор и сдайте в Контест**.

In [25]:
# your code
import numpy as np
import pandas as pd
from sklearn.base import ClassifierMixin

class RubricCityMedianClassifier(ClassifierMixin):
    def __init__(self):
        self.combo_medians_ = {}
        self.global_median_ = None
        
    def fit(self, X, y):
        X_df = pd.DataFrame(X).copy()
        
        required_cols = ['city', 'modified_rubrics']
        if not all(col in X_df.columns for col in required_cols):
            return ValueError('...')
        
        data_train = X_df.assign(target=pd.Series(y))
        
        self.global_median_ = int(data_train['target'].median())
        self.combo_medians_ = data_train.groupby(['city', 'modified_rubrics'])['target'] \
                                        .median().round().astype(int).to_dict()
                                        
        return self
    
    def predict(self, X):
        X_df = pd.DataFrame(X).copy()
        required_cols = ['city', 'modified_rubrics']
        if not all(col in X_df.columns for col in required_cols):
            raise ValueError('...')

        # создаем ключ
        X_df['combo_key'] = X_df.apply(lambda row: (row['city'], row['modified_rubrics']), axis=1)

        predictions = X_df['combo_key'].map(self.combo_medians_).fillna(self.global_median_)
        
        return predictions.astype(int).values
        
        
        

Сравните обученный классификатор по метрикам RMSE и balanced_accuracy_score с нашими бейзлайнами. Получилось ли улучшить?

Обратите внимание что рост accuracy по сравнению с бейзлайном при этом на порядок меньше:

In [26]:
rcm_clf = RubricCityMedianClassifier() 

rcm_clf.fit(X=X_train, y=y_train) 

y_pred_rcm_clf = rcm_clf.predict(X_test) 

bacc_rcm_clf = balanced_accuracy_score(y_test, y_pred_rcm_clf)


print(f"Balanced Accuracy (MostFrequentClassifier): {bacc_clf:.4f}")
print(f"Balanced Accuracy (RubricCityMedian): {bacc_rcm_clf:.4f}")

Balanced Accuracy (MostFrequentClassifier): 0.2000
Balanced Accuracy (RubricCityMedian): 0.3055


accuracy_score

Predict most frequent:  0.6947666195190948

Predict by rubric and city:  0.7095709570957096

Для диагностики напечатайте для каждого класса тестовой выборки, сколько в нём объектов и скольким из них наш классификатор приписал правильный класс. Что вы видите?

&nbsp;

<details>
  <summary>Когда будете готовы, кликните сюда, чтобы посмотреть ответ</summary>
    
  Вы, вероятно, видите то, что мы стали однозначно лучше по сравнению с бейзлайном детектировать средний чек 1000 и 1500 (хотя всё равно не очень хорошо + ценой ухудшения качества на среднем чеке 500), а вот чеки 2000 и 2500 нам ну никак не даются.
    
</details>

**Кстати**. А вы понимаете, почему приведённый выше пайплайн классификации был не очень удачным с точки зрения архитектуры? Почему его было бы правильнее воплотить по-другому?

&nbsp;

<details>
  <summary>Когда будете готовы, кликните сюда, чтобы посмотреть ответ</summary>
Собственно говоря, и не было никакого пайплайна. К счастью, у нас была одна обучающая выборка, мы на ней посчитали список рубрик для modified_rubrics и радовались жизни. Но если бы нам надо было переобучать всё на новых данных, пришлось бы помнить, что их надо везде пересчитать (ведь у нас могли появиться новые рубрики с хотя бы 100 представителями). А уж никакую кросс-валидацию (кто знает - тот поймёт) с нашим подходом к делу и вовсе бы не получилось сделать без боли.
    
Поэтому в следующей лабораторной вы научитесь делать честные пайплайны, в которых преобразование данных, генерация фичей и обучение классификатора будут объединены в один понятный процесс, происходящий на этапе fit.
</details>

## Слишком простые и слишком сложные модели

Бейзлайны у нас слишком просты и потому не очень полезны в жизни. Но если сложность модели растёт бесконтрольно, то тоже получается плохо.

Давайте рассмотрим конкретный пример. Создадим классификатор, использующий одновременно `rubrics_id` и `features_id`.

Сделайте следующее:

- для каждого объекта обучающей выборки сконкатенируйте строку `rubrics_id` с разделителем (например, буквой 'q') и содержимым `features_id`. Полученный столбец озаглавьте `modified_features`. Это не самый клёвый способ заиспользовать все фичи, но сейчас пока сойдёт. Причём на сей раз не будем выкидывать мало представленные значения (вся информация важна, не так ли?).
- при этом для тестовой выборке заменяйте на строку `other` все конкатенации, которые не встретились в обучающей выборке.

То есть элементы в этом столбце будут иметь вид `other` или `30776 30774 q 3502045032 11741 3502045016 1046...`.

In [27]:
import pandas as pd
import numpy as np

DELIMITER = ' q '

X_train['modified_features'] = (
    X_train['rubrics_id'].astype(str) + 
    DELIMITER + 
    X_train['features_id'].astype(str)
)

known_combos = set(X_train['modified_features'].unique())


X_test['modified_features'] = (
    X_test['rubrics_id'].astype(str) + 
    DELIMITER + 
    X_test['features_id'].astype(str)
)

def handle_novel_combos(combo, known_set):
    """Возвращает combo, если оно известно из трейна, иначе 'other'."""
    if combo in known_set:
        return combo
    else:
        return 'other'

X_test['modified_features'] = X_test['modified_features'].apply(
    lambda x: handle_novel_combos(x, known_combos)
)



print(f"X_train: {X_train['modified_features'].nunique()}")
print(f"X_test: {X_test['modified_features'].nunique()}")


X_train: 20915
X_test: 307


Теперь обучите классификатор, который для заведения предсказывает медиану среднего чека по всем объектам тестовой выборки с таким же, как у него, значением `modified_features`, а если такого в обучающей выборке нет, то глобальную медиану среднего чека по всей обучающей выборке.

**9. Загрузите в Контест предсказания этого классификатора на тестовой выборке**

Мы ждём файла **.csv**, у которого в каждой строке будет только одно число - предсказание классификатора.

Возможно, вам будет полезна библиотека ``tqdm``, позволяющая отслеживать в реальном времени, сколько времени уже крутится цикл и сколько итераций ещё осталось. Впрочем, если вы всё написали нормально, то должно работать не очень долго.

In [28]:
import numpy as np
import pandas as pd
from collections import Counter
import os 


DELIMITER = ' q '

X_train['modified_features'] = (
    X_train['rubrics_id'].astype(str) + DELIMITER + X_train['features_id'].astype(str)
)

known_combos = set(X_train['modified_features'].unique())

X_test['modified_features'] = (
    X_test['rubrics_id'].astype(str) + DELIMITER + X_test['features_id'].astype(str)
)

def handle_novel_combos(combo, known_set):
    return combo if combo in known_set else 'other'

X_test['modified_features'] = X_test['modified_features'].apply(
    lambda x: handle_novel_combos(x, known_combos)
)


data_train_for_combo = X_train.assign(target=pd.Series(y_train))

global_median = int(data_train_for_combo['target'].median())

combo_medians = data_train_for_combo.groupby('modified_features')['target'] \
                                    .median().round().astype(int).to_dict()


test_features = X_test['modified_features']
predictions = []

predictions_series = test_features.map(combo_medians).fillna(global_median).astype(int)


results_df = pd.DataFrame({
    'index': X_test.index,
    'prediction': predictions_series.values 
})


results_df.to_csv('predictions_final.csv', index=False, header=False)

print(results_df.head().to_string(index=False, header=False))

65841 500
48882 500
33711 500
33544 500
35293 500


Модель, очевидно, очень сложная. Число параметров (различных категорий) в ней сопоставимо с числом объектов в обучающей выборке. А получилось ли хорошо?

Давайте посчитаем RMSE и balanced_accuracy_score на обучающей и на тестовой выборках.

**10. Введите их в Контест**

In [29]:
rcm_clf.fit(X=X_train, y=y_train) 

y_pred_train_clf = rcm_clf.predict(X_train) 
y_pred_test_clf = rcm_clf.predict(X_test) 

bacc_train = balanced_accuracy_score(y_train, y_pred_train_clf)
bacc_test = balanced_accuracy_score(y_test, y_pred_test_clf)

rmse_train = np.sqrt(mean_squared_error(y_train, y_pred_train_reg))
rmse_test = np.sqrt(mean_squared_error(y_test, y_pred_test_reg))

print(f"1. Balanced Accuracy (TRAIN): {bacc_train:.4f}")
print(f"2. Balanced Accuracy (TEST): {bacc_test:.4f}")
print("--------------------------------------------------")
print(f"3. RMSE (TRAIN): {rmse_train:,.2f}")
print(f"4. RMSE (TEST): {rmse_test:,.2f}")

1. Balanced Accuracy (TRAIN): 0.3054
2. Balanced Accuracy (TEST): 0.3055
--------------------------------------------------
3. RMSE (TRAIN): 445.18
4. RMSE (TEST): 445.11


Налицо переобучение: на трейне метрики отличные, на тесте - вообще никакие

В общем, не гонитесь за чрезмерной сложностью модели..

## ML без данных что компутер без электричества

Возможно, вы смотрите на полученные выше результаты и думаете: вот если бы мы не какие-то убогие медианы предсказывали, а гоняли бы нейросети, то тут-то бы всё и получилось!

Но, увы, совсем даже не всегда от счастья нас отделяет выбор хорошей модели (и стратегии обучения). Если данные не очень, то даже самая крутая модель не сработает. В этой ситуации нужно либо добывать новые фичи каким-то образом, либо собирать новые данные (увеличивать датасет), либо просто бросать задачу.

Давайте посмотрим, что выжмет из наших данных одна из самых мощных моделей для табличных данных - градиентный бустинг на решающих деревьях в исполнении [CatBoost](https://catboost.ai/).

Но прежде, чем сделать fit, нам надо облагородить данные. Несмотря на то, что CatBoost отлично работает с категориальными фичами, мешок признаков из `rubrics_id` или `features_id` может ему оказаться не по зубам. Поэтому мы соберём датасет в пристойную матрицу, создав для каждого типа рубрик и фичей отдельный столбец и записав там единицы для тех объектов, у которых эта рубрика или фича имеет место.

В матрице почти все элементы будут нулями. Такие матрицы считаются **разреженными** и их можно хранить гораздо эффективней, чем просто таблицей. Этим и займёмся)

Есть несколько форматов хранения разреженных матриц (многие из них реализованы в [пакете sparse библиотеки scipy](https://docs.scipy.org/doc/scipy/reference/sparse.html)), и каждый пригоден для чего-то своего.

Создавать разреженную матрицу лучше в [формате COO](https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.coo_array.html#scipy.sparse.coo_array). Он предполагает, что разреженная матрица задаётся в виде трёх списков: `row`, `col`, `data`, причём каждая тройка `(row[i], col[i], data[i])` кодирует элемент со значением `data[i]`, стоящий на позиции `(row[i], col[i])`. Считается, что на позициях `(row, col)`, которые ни разу не встретились, стоят нули.

Нетрудно видеть, что заполнять такую матрицу - одно удовольствие, и особенно этому помогает тот факт, что **пара `(row, col)` может встретиться несколько раз** (тогда в итоговой матрице на соответствующей позиции стоит сумма соответствующих `data[i]`). Но, с другой стороны, почти ничего другого с такой матрицей не сделаешь: произвольного доступа к элементам она не предоставляет, умножить её тоже особо ничего не умножишь. Поэтому для дальнейшего использования созданную таким образом матрицу преобразуют в один из более удобных форматов, например, [CSR (compressed sparse row)](https://scipy-lectures.org/advanced/scipy_sparse/csr_matrix.html). Он, к примеру, хорошо подходит для умножения на вектор (потому что матрица хранится по строкам). Не будем разбирать его подробно, но можете почитать по ссылке, если интересно.

Вам нужно будет превратить обучающие и тестовые данные в разреженные матрицы `sparse_data_train` и `sparse_data_test` соответственно, таким образом, что:

- столбец `city` превратится в столбец из единиц и нулей (например, 1 - Москва, 0 - Питер);
- столбец `rating` перекочует в разреженные матрицы без изменений;
- каждый типы рубрик и каждая фича превратятся в отдельный 0-1-принак;

В тестовой выборке будут фичи, которых в обучающей выборке не было. С ними можно по-разному работать, но давайте создадим дополнительную фантомную фичу `feature_other`, в которой будет то, сколько неизвестных по обучающей выборке фичей есть у данного объекта.

In [None]:
import numpy as np
import pandas as pd
from scipy.sparse import csr_matrix, hstack, issparse

# подготовка данных
for df in [X_train, X_test]:
    # приводим id к строке для корректного разделения
    df['rubrics_id'] = df['rubrics_id'].astype(str)
    df['features_id'] = df['features_id'].astype(str)

# определяем все уникальные id (словари)
rubrics_ids_train_flat = X_train['rubrics_id'].str.split(' ').explode().unique()
all_rubrics = set(rubrics_ids_train_flat) - {None, '', 'nan'}

features_ids_train_flat = X_train['features_id'].str.split(' ').explode().unique()
all_features = set(features_ids_train_flat) - {None, '', 'nan'}


def multi_hot_encode(df, col_name, vocabulary):
    # строим словарь id -> индекс колонки
    vocab_map = {id: i for i, id in enumerate(sorted(list(vocabulary)))}
    
    data = []
    row_ind = []
    col_ind = []
    
    # построчная итерация и сборка данных для разреженной матрицы
    for row_idx, id_string in enumerate(df[col_name]):
        # выбираем только id, которые есть в трейне
        current_ids = set(id_string.split(' ')) & vocabulary
        
        for id in current_ids:
            if id in vocab_map:
                data.append(1)
                row_ind.append(row_idx)
                col_ind.append(vocab_map[id])
    
    # создаём разреженную матрицу
    return csr_matrix((data, (row_ind, col_ind)), shape=(len(df), len(vocabulary)))

def create_feature_other(df, features_vocab):
    counts = []
    # считаем, сколько фич нет в обучающей выборке
    for id_string in df['features_id']:
        if id_string == 'nan' or not id_string:
            counts.append(0)
            continue

        current_ids = set(id_string.split(' ')) - {''} 
        
        # неизвестные фичи
        novel_ids = current_ids - features_vocab
        
        counts.append(len(novel_ids))

    # возвращаем как один столбец
    return np.array(counts).reshape(-1, 1)


# кодируем рубрики и фичи
sparse_rubrics_train = multi_hot_encode(X_train, 'rubrics_id', all_rubrics)
sparse_rubrics_test = multi_hot_encode(X_test, 'rubrics_id', all_rubrics)

sparse_features_train = multi_hot_encode(X_train, 'features_id', all_features)
sparse_features_test = multi_hot_encode(X_test, 'features_id', all_features)


# ohe города
city_ohe_train = pd.get_dummies(X_train['city'], prefix='city', dtype=int)
city_ohe_test = pd.get_dummies(X_test['city'], prefix='city', dtype=int)

# выравнивание столбцов (обязательно)
missing_cols = set(city_ohe_train.columns) - set(city_ohe_test.columns)
for c in missing_cols:
    city_ohe_test[c] = 0

city_ohe_test = city_ohe_test[city_ohe_train.columns]

# импутация рейтинга медианой трейна
rating_median = X_train['rating'].median() 

rating_train = X_train['rating'].fillna(rating_median).values.reshape(-1, 1)
rating_test = X_test['rating'].fillna(rating_median).values.reshape(-1, 1)

# фантомная фича
feature_other_train = np.zeros(len(X_train)).reshape(-1, 1)
feature_other_test = create_feature_other(X_test, all_features)

# преобразование плотных признаков в разреженные для hstack
rating_train_sparse = csr_matrix(rating_train)
rating_test_sparse = csr_matrix(rating_test)

city_train_sparse = csr_matrix(city_ohe_train.values)
city_test_sparse = csr_matrix(city_ohe_test.values)

feature_other_train_sparse = csr_matrix(feature_other_train)
feature_other_test_sparse = csr_matrix(feature_other_test)

# сборка всех признаков
sparse_data_train = hstack([
    city_train_sparse, 
    rating_train_sparse, 
    sparse_rubrics_train, 
    sparse_features_train, 
    feature_other_train_sparse
]).tocsr()

sparse_data_test = hstack([
    city_test_sparse, 
    rating_test_sparse, 
    sparse_rubrics_test, 
    sparse_features_test, 
    feature_other_test_sparse
]).tocsr()

print(f"sparse_data_train: {sparse_data_train.shape}")
print(f"sparse_data_test: {sparse_data_test.shape}")

sparse_data_train: (21531, 606)
sparse_data_test: (10605, 606)


Данные готовы, и теперь можно запустить катбуст

In [31]:
from catboost import CatBoostClassifier

In [35]:
# <USE IT!>
clf = CatBoostClassifier()
clf.fit(sparse_data_train, clean_data_train['average_bill'])

Learning rate set to 0.092536
0:	learn: 1.4353425	total: 80ms	remaining: 1m 19s
1:	learn: 1.3152839	total: 103ms	remaining: 51.6s
2:	learn: 1.2252693	total: 125ms	remaining: 41.5s
3:	learn: 1.1522474	total: 144ms	remaining: 35.8s
4:	learn: 1.0959396	total: 163ms	remaining: 32.4s
5:	learn: 1.0494918	total: 181ms	remaining: 30s
6:	learn: 1.0104702	total: 200ms	remaining: 28.3s
7:	learn: 0.9755375	total: 225ms	remaining: 27.9s
8:	learn: 0.9451564	total: 245ms	remaining: 26.9s
9:	learn: 0.9188520	total: 264ms	remaining: 26.1s
10:	learn: 0.8945487	total: 283ms	remaining: 25.4s
11:	learn: 0.8763111	total: 300ms	remaining: 24.7s
12:	learn: 0.8585284	total: 318ms	remaining: 24.2s
13:	learn: 0.8419809	total: 339ms	remaining: 23.9s
14:	learn: 0.8279988	total: 357ms	remaining: 23.4s
15:	learn: 0.8123576	total: 376ms	remaining: 23.1s
16:	learn: 0.7999135	total: 393ms	remaining: 22.7s
17:	learn: 0.7876057	total: 412ms	remaining: 22.5s
18:	learn: 0.7768515	total: 433ms	remaining: 22.4s
19:	learn: 0.

<catboost.core.CatBoostClassifier at 0x1389d9e50>

**11. Пришлите в Контест balanced_accuracy_score на тестовой выборке, округлённый до двух знаков после запятой**. Стало ли сильно лучше от того, что мы воспользовались таким крутым классификатором?

In [None]:
y_pred_clf_catboost = clf.predict(sparse_data_test)

bacc_catboost = balanced_accuracy_score(y_test, y_pred_clf_catboost)
print(f"\nBalanced Accuracy (CatBoost): {bacc_catboost:.2f}")


Balanced Accuracy(CatBoost): 0.36
