# Курс по машинному обучению,   ВМК МГУ
## Градиентный бустинг деревьев

### Важно! О формате сдачи

* **Практически все выделенные задания из ноутбука оцениваются по системе <font color='red'>кросс-рецензирования</font>. Задания, в котором надо реализовать свой код и послать в систему, выделены здесь и в pdf отдельно**
* **В этом ноутбуке есть задание на ML-решение**
* **При решении ноутбука используйте данный шаблон. Не нужно удалять текстовые ячейки c разметкой частей ноутбука и формулировками заданий. Добавлять свои ячейки, при необходимости, конечно можно**
* **Везде, где в формулровке задания есть какой-либо вопрос (или просьба вывода), необходимо прописать ответ в ячейку (код или markdown).**
* **Наличие кода решения обязательно. Письменные ответы на вопросы без сопутствующего кода оцениваются в 0 баллов.**

**А также..**

Если в ячейке написана фраза "Вывод"/"Ответ на вопрос" итд, то ожидается ответ в виде текста (можете добавить ячейки с кодом, если считаете это необходимым, но это необязательно). Если в ячейке написано "Your code here", то ожидается ответ в виде кода (можете добавить ячейки с кодом, если считаете это необходимым, но это необязательно). Если есть и ячейка с фразой "Вывод", и ячейка с фразой "Your code here", то в ответе ожидается и код, и текст)

__В этом задании вы..:__

- Познакомитесь с несколькими новыми библиотеками машинного обучения
- Сравните между собой разные реализации градиентных бустингов
- Примените все полученные знания для получения лучшего скора на датасете фильмов




## Введение

Привет, ребятушки!

Сегодня мы с вами будем решать очень важную задачу, а именно оценивать цену поддержанных автомобилей в ряде стран. Делать мы это будем с помощью различных методов градиентного бустинга. Мы с вами узнаем, что в мире существует не только sklearn, и что существуют библиотеки, облегчающие нам задачу поиска оптимальных параметров для моделей.

**Внимание! Во всех заданиях в качестве целевой метрики используется MAE (средняя абсолютная ошибка).** Значение MAE вычисляется как

$$
  MAE = \sum_{i = 1}^N\dfrac{|a(x_i) - y_i|}{N},
$$

где $N$ - число объектов в тестовой выборке, $x_i$ - вектор признаков i-го объекта, $a(x_i)$ - предсказание на i-ом объекте, $y_i$ - значение целевого признака на i-м объекте.

## Установка дополнительных библиотек.

В этом задании нам понадобятся три бибиотеки, которыми вы ранее не пользовались в этом курсе, а именно:

**XGBoost**: Документация [здесь](https://xgboost.readthedocs.io/en/stable/).<br />
**LightGBM**: Документация [здесь](https://lightgbm.readthedocs.io/en/latest/index.html). Также дополнительно про установку [тут](https://pypi.org/project/lightgbm/).<br />
**Catboost**: Документация [здесь](https://catboost.ai/en/docs/). Можно найти также некоторую информацию на русском [тут](https://habr.com/ru/company/otus/blog/527554/).<br />
**HyperOpt**: Документация [здесь](http://hyperopt.github.io/hyperopt/). <br />

Все библиотеки легко ставятся через pip (либо альтернативные установщики вроде conda).


## Как правильно перебирать параметры

В этом ноутбуке мы будем несколько раз заниматься поиском оптимальных параметров для градиентного бустинга, перебирая задания по заданной сетке. В этом задании от Вас не будет требоваться найти самые лучшие параметры, но всё равно важно правильно составлять сетку для перебора. Для этого нужно понимать суть параметров и их смысл.



**learning_rate** -- темп обучения нашего метода. Для этого метода сетка перебора должна быть логарифмической, т.е. перебирать порядковые значения (к примеру, [1e-3, 1e-2, 1e-1, 1]). В большинстве случаев достаточно перебрать значения от 1e-5 до 1.<br />
**max_depth** -- максимальная глубина деревьев в ансамбле. Вообще говоря, эта величина зависит от числа признаков, но обычно лучше растить небольшие деревья. К примеру, библиотека CatBoost, которую мы будем исследовать сегодня, рекомендует перебирать значения до 10 (и уточняется, что обычно оптимальная глубина лежит от 6 до 10).<br />
**n_estimators** -- количество деревьев в ансамбле. Обычно стоит перебирать с каким-то крупным шагом (можно по логарифмической сетке). Здесь важно найти баланс между производительностью, временем обучения и качеством. Обычно нескольких тысяч деревьев бывает достаточно.<br />

Учтите, что в реальных задачах необходимо следить за тем, что оптимальные значения параметров не попадают на границы интервалов, т.е. что вы нашли хотя бы локальный минимум. Если Вы перебрали значения параметра от 1 до 10 и оказалось, что 10 - оптимальное значение, значит следует перебрать и бОльшие числа, чтобы убедиться, что качество не улучшается дальше (или по крайней мере убедиться, что рост качества сильно замедляется и на сильное улучшения рассчитывать не стоит.


## Подготовка датасета

Все библиотеки, используемые сегодня, мы будем проверять на одних и тех же параметрах: n_estimators=1000, max_depth=5, learning_rate=0.1. Таким образом мы устанавливаем, соответственно, число деревьев в ансамбле равным 1000, ограничиваем максимальную глубину деревьев 5 и устанавливаем темп обучения равным 0.1. Создадим сразу словарь, чтобы передавать эти параметры создаваемым регрессорам (если вдруг не знали, словарь можно передавать как параметры, поставив перед ним **).

Эти параметры мы вынесем в отдельную переменную `test_parameters`.

<span style="color:red">Загрузите датасет, с которым мы будем работать. Его можно найти на платформе cv-gml.ru, в задании `Град. бустинг (ML)`, по ссылке `Дополнительные файлы для решения`. Если Вы решите сохранить этот файл не рядом с ноутбуком, Вы можете исправить путь к этому файлу во второй ячейке ноутбука (в строке с `read_csv`).</span>

При желании можно почитать про этот датасет на платформе kaggle: [ссылка на данные](https://www.kaggle.com/bushnag/cars-in-the-middle-east?select=dataframe_YesIndex_YesHeader_C.csv). <span style="color:red"> Не скачивайте датасет из kaggle для выполнения ноутбука, поскольку его могут изменить.</span> Нас интересует файл dataframe_YesIndex_YesHeader_C.csv, поскольку он уже хорошо предобработан (хотя, конечно, датасаентисты должны сами уметь это делать, но ладно).
Давайте попробуем загрузить датасет в память и посмотреть, как он выглядит.

In [1]:
!pip install catboost



In [3]:
%matplotlib inline
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.metrics import mean_absolute_error, make_scorer

# from hyperopt import hp, tpe, Trials
# from hyperopt.fmin import fmin
# from hyperopt.pyll import scope

from xgboost import XGBRegressor

from lightgbm import LGBMRegressor

from catboost import CatBoostRegressor

import matplotlib.pyplot as plt

import pandas as pd

import numpy as np

import time


pd.set_option('max_columns', None)

In [44]:
test_parameters = {"n_estimators": 1000, "max_depth": 5, "learning_rate":0.1}
currency = {0: 27, 1: 28, 2: 28, 3: 336, 4: 265, 5: 271}
variables_category = {"Drive Type":'category', "Cylinders":'category', 
                      "Transmission":'category', "brand":'category', 
                      "Seating Capacity":'category', 'Fuel Type':'category',
                      "currency": 'category', "Country": 'category',
                      "brand": 'category'}

df = pd.read_csv('dataframe_YesIndex_YesHeader_C.csv', index_col=0)
df.head()

Unnamed: 0,Engine Capacity,Cylinders,Drive Type,Fuel Tank Capacity,Fuel Economy,Fuel Type,Horsepower,Torque,Transmission,Top Speed,Seating Capacity,Acceleration,Length,Width,Height,Wheelbase,Trunk Capacity,name,price,currency,Country
0,1.2,3,0,42.0,4.9,0,76,100.0,0,170,5,14.0,4.245,1.67,1.515,2.55,450.0,Mitsubishi Attrage 2021 1.2 GLX (Base),34099.0,0,0
1,1.2,3,0,42.0,4.9,0,76,100.0,0,170,5,14.0,4.245,1.67,1.515,2.55,450.0,Mitsubishi Attrage 2021 1.2 GLX (Base),34099.0,0,0
2,1.4,4,0,45.0,6.3,0,75,118.0,1,156,2,16.0,3.864,1.716,1.721,2.513,2800.0,Fiat Fiorino 2021 1.4L Standard,41250.0,0,0
3,1.6,4,0,50.0,6.4,0,102,145.0,0,180,5,11.0,4.354,1.994,1.529,2.635,510.0,Renault Symbol 2021 1.6L PE,44930.0,0,0
4,1.5,4,0,48.0,5.8,0,112,150.0,0,170,5,10.9,4.314,1.809,1.624,2.585,448.0,MG ZS 2021 1.5L STD,57787.0,0,0


### Задание 0 (без проверки, 0 баллов)

Посмотрите на цены автомобилей. Попробуйте понять, написаны они в одной валюте или нет. Если нет -- будут ли у нас серьезные проблемы при использовании деревьев? Стоит ли нам что-то сделать для того, чтобы нивелировать эту проблему?


В глаза бросаются две проблемы: у нас имеется информация о производителе автомобиля, скрытая в текстовой переменной модели автомобиля (нет отдельного признака). Также имеются некоторые категориальные переменные. Со всем этим безобразием надо что-то сделать.

### **Задание 1 (кросс-проверка, 3 балла)**
**Данные**: датасет со стоимостью поддержанных автомобилей  
**Цели**: В данном задании следует выполнить следующие пункты (выполнять можно в любом порядке)
1. Изучить датасет, проверить наличие пропусков. При необходимости заменить их на среднее значение признака.
3. Добавить столбец brand с информацией о производителе автомобиля (для простоты можно взять первое слово в названии модели)
4. Решить, какие признаки Вы хотите сделать категориальными. Конвертировать выбранные категориальные столбцы в тип category. 
5. Создать датасет А с категориальными признаками в виде категорий. Для этого необходимо создать вектор целевых значений (столбец цен автомобилей) и матрицу признаков с категориальными переменными в виде категорий (получается путем удаления только целевой переменной из матрицы с данными). Дополнительно стоит создать список с названиями и индексами столбцов категориальных переменных (поможет в будущем).
6. Создать датасет B без категориальных признаков. Для этого необходимо создать вектор целевых значений (столбец цен автомобилей) и удалить из матрицы признаков столбец с целевыми переменными, а также все категориальные переменные.
8. Создать датасет C с категориальными признаками в виде one-hot encoding. Для этого необходимо создать вектор целевых значений (столбец цен автомобилей), удалить из матрицы признаков столбец с целевыми переменными и все категориальными переменные, а затем добавить новые признаки, соответствующие one-hot encoding категориальных переменных (здесь вам поможет функция `pd.get_dummies`).
9. Разбить датасеты на тренировочное и тестовое множества, используя `train_test_split(X, y, test_size=0.25, random_state=0)` (зафиксировав random_seed мы получим одинаковое разбиение на обучение/тест для всех трёх выборок).

In [45]:
def get_norm_dataset():
  df = pd.read_csv('dataframe_YesIndex_YesHeader_C.csv', index_col=0)
  df = df.drop_duplicates()
  df.loc[:,'price'] = df['price']*df['currency'].apply(lambda x: currency.get(x))
  df.loc[df['Engine Capacity']==0,:] = df['Engine Capacity'].mean()
  df.drop(df[df['Torque'] == df['Torque'].min()].index, inplace=True)
  for i in ['Length', 'Width', 'Height', 'Wheelbase']:
    df.loc[df[i] > 100, i] = df.loc[df[i] > 100, i]/1000
  df.loc[:,'brand'] = df['name'].apply(lambda x: x.split()[0])
  df = df.astype(variables_category)
  df.drop('name', inplace=True, axis=1)  
  return df

df = get_norm_dataset()
df.head()

Unnamed: 0,Engine Capacity,Cylinders,Drive Type,Fuel Tank Capacity,Fuel Economy,Fuel Type,Horsepower,Torque,Transmission,Top Speed,Seating Capacity,Acceleration,Length,Width,Height,Wheelbase,Trunk Capacity,price,currency,Country,brand
0,1.2,3.0,0.0,42.0,4.9,0.0,76.0,100.0,0.0,170.0,5.0,14.0,4.245,1.67,1.515,2.55,450.0,920673.0,0.0,0.0,Mitsubishi
2,1.4,4.0,0.0,45.0,6.3,0.0,75.0,118.0,1.0,156.0,2.0,16.0,3.864,1.716,1.721,2.513,2800.0,1113750.0,0.0,0.0,Fiat
3,1.6,4.0,0.0,50.0,6.4,0.0,102.0,145.0,0.0,180.0,5.0,11.0,4.354,1.994,1.529,2.635,510.0,1213110.0,0.0,0.0,Renault
4,1.5,4.0,0.0,48.0,5.8,0.0,112.0,150.0,0.0,170.0,5.0,10.9,4.314,1.809,1.624,2.585,448.0,1560249.0,0.0,0.0,MG
5,1.4,4.0,0.0,35.0,5.1,0.0,98.0,127.0,0.0,170.0,5.0,12.0,3.636,1.597,1.483,2.385,314.0,1452330.0,0.0,0.0,Chevrolet


In [46]:
def train_test(a):
  f = train_test_split(a, y, test_size=0.25, random_state=0)
  return {'X_train': f[0], 'X_test': f[1], 'y_train': f[2], 'y_test': f[3]}

A = get_norm_dataset()
B = get_norm_dataset().drop(variables_category.keys(), axis=1)
C = pd.concat((B, pd.get_dummies(get_norm_dataset()[variables_category.keys()])),axis=1)
y = A.pop('price')
B.drop('price', inplace=True, axis=1)
C.drop('price', inplace=True, axis=1)

datasets = {'A': train_test(A),
            'B': train_test(B), 
            'C': train_test(C)}

Итак, кажется, что у нас всё готово для того, чтобы начать искать ответы на волнующие нас вопросы. Начнем со столь любимой нами библиотеки, а именно...

## Градиентный бустинг со sklearn

Естественно, в sklearn имеется реализация градиентного бустинга, которая хранится в sklearn.ensemble.GradientBoostingRegressor. Преимущественно данным классом пользуются в учебных заданиях, поскольку в реальных задачах предпочтение отдаётся другим библиотекам. Давайте попробуем понять, заслуженно ли градиентный бустинг в sklearn не пользуется популярностью.

FYI: в sklearn имеется также реализация GradientBoostingClassifier для задач классификации, но пользоваться им мы сегодня не будем.

GradientBoostingRegressor из коробки не умеет работать с категориальными признаками. Мы к этому уже подготовились, закодировав наши признаки.

### **Задание 2 (кросс-проверка, 2 балла)**:

**Данные**: датасет со стоимостью поддержанных автомобилей    
**Метрика**: MAE    
**Цели**: В данном задании следует выполнить следующие пункты:    
1. Обучить sklearn.ensemble.GradientBoostingRegressor на датасетах B и C, используя параметры n_estimators=1000, max_depth=5, learning_rate=0.1 (наши `test_parameters`). Замерьте время обучения, получите предсказания данных моделей на тестовом множестве.
2. Обучить sklearn.ensemble.GradientBoostingRegressor на датасете B (можно и на C, если позволяют вычислительные ресурсы), используя кросс-валидацию на тренировочном множестве и подбирая значения для параметров n_estimators, learning_rate и max_depth. для простоты можете воспользоваться GridSearchCV. При необходимости можно оптимизировать параметры по одному, а не все сразу. Выведите лучшие параметры. Получите предсказания лучшей модели (с лучшими параметрами) на тестовом множестве. Для ускорения процесса не забудьте воспользоваться n_jobs.
3. Посчитать MAE для полученных предсказаний на тренировочном и тестовом множествах (можно воспользоваться sklearn.metrics.mean_absolute_error).
5. Вывести результаты и время в таблице DataFrame.
4. Сделайте выводы. Оцените полезность категориальных переменных и поиска оптимальных параметров. Оцените время, затраченное на обучение. Попробуйте дать оценку получившемуся MAE: оно большое или маленькое?


In [47]:
df_skl = pd.DataFrame(columns=['Dataset', 'Parameters', 'Time', 'MAE'])

# your cool code here
start = time.time()
model_skl_gbr_B = GradientBoostingRegressor(**test_parameters).fit(datasets['B']['X_train'], datasets['B']['y_train'])
time_model_skl_gbr_B = time.time()-start
print(f'Время обучения на B: {time_model_skl_gbr_B/60:.2f} мин')

start = time.time()
model_skl_gbr_C = GradientBoostingRegressor(**test_parameters).fit(datasets['C']['X_train'], datasets['C']['y_train'])
time_model_skl_gbr_C = time.time()-start
print(f'Время обучения на С: {time_model_skl_gbr_C/60:.2f} мин')

Время обучения на B: 0.16 мин
Время обучения на С: 0.47 мин


In [48]:
params = {'n_estimators': [1000, 1600], 
          'learning_rate': [1e-2, 1e-1],
          'max_depth': [5, 8, 10]}
start = time.time()
model_skl_gbr_gs = GridSearchCV(GradientBoostingRegressor(), 
                                param_grid=params, 
                                cv = 3, 
                                n_jobs=-1,
                                scoring = make_scorer(mean_absolute_error, greater_is_better=False), 
                                verbose=1).fit(datasets['B']['X_train'], datasets['B']['y_train'])
time_model_skl_gbr_gs = time.time()-start
print(f'Время обучения на С: {time_model_skl_gbr_gs/60:.2f} мин')

Fitting 3 folds for each of 12 candidates, totalling 36 fits
Время обучения на С: 5.52 мин


In [49]:
model_skl_gbr_gs.best_params_, model_skl_gbr_gs.best_score_

({'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 1600},
 -918756.0026085473)

In [50]:
def get_MAE(model, X_train, y_train, X_test, y_test):
  MAE_train = mean_absolute_error(model.predict(X_train), y_train)
  MAE_test = mean_absolute_error(model.predict(X_test), y_test)
  return MAE_train, MAE_test

def print_MAE(name, mae1, mae2):
  print(f'{name} train = {mae1}')
  print(f'{name} test  = {mae2}')
  print()


MAE_B_train, MAE_B_test = get_MAE(model_skl_gbr_B, **datasets['B'])

MAE_C_train, MAE_C_test = get_MAE(model_skl_gbr_C, **datasets['C'])

MAE_gs_train, MAE_gs_test = get_MAE(model_skl_gbr_gs.best_estimator_, **datasets['B'])

In [51]:
print_MAE('GradientBoostingRegressor на датасете B', MAE_B_train, MAE_B_test)
print_MAE('GradientBoostingRegressor на датасете C', MAE_C_train, MAE_C_test)
print_MAE('GridSearchCV на датасете B', MAE_gs_train, MAE_gs_test)


GradientBoostingRegressor на датасете B train = 424913.7023602083
GradientBoostingRegressor на датасете B test  = 841857.2786894067

GradientBoostingRegressor на датасете C train = 185216.88933722107
GradientBoostingRegressor на датасете C test  = 688296.7526515648

GridSearchCV на датасете B train = 421454.13555994077
GridSearchCV на датасете B test  = 841856.6951390258



In [52]:
df_skl.Dataset = ['B', 'C', 'B']
df_skl.Parameters = [test_parameters, test_parameters, model_skl_gbr_gs.best_params_]
df_skl.Time = [time_model_skl_gbr_B, time_model_skl_gbr_C, time_model_skl_gbr_gs]
df_skl.MAE = [MAE_B_test, MAE_C_test, MAE_gs_test]

In [53]:
df_skl

Unnamed: 0,Dataset,Parameters,Time,MAE
0,B,"{'n_estimators': 1000, 'max_depth': 5, 'learni...",9.542317,841857.278689
1,C,"{'n_estimators': 1000, 'max_depth': 5, 'learni...",28.36834,688296.752652
2,B,"{'learning_rate': 0.1, 'max_depth': 5, 'n_esti...",331.392878,841856.695139


**Ваши выводы:**

Судя по MAE Использование категориальных переменных сильно улучшает результат. Поиск оптимальных параметров не улучшил результат, но это не проблема GridSearchCV, а датасета (или того, как я его пред обработал:) ). 

Возможно это проблема конкретного разбиения 

Что касается времени: по моему получилось GridSearchCV 36 фита (12 моделей на 3 фолда каждая), время одного ~ 0.19 мин(из ячейки выше), получаем 36*0.19 ~ 6.5 мин. Так и получилось. MAE очень плохое. прям совсем :(

И так, sklearn предлагает нам привычный и простой способ тренировки моделей. Однако, для градиентного бустинга существует множество эвристик и трюков, помогающих улучшить результаты. И одна из библиотек, реализующая улучшенную версию бустинга, называется xgboost.

## Градиентный бустинг с XGBoost

XGBoost стала достаточно популярной библиотекой, которая позволяет добиться хороших результатов без особых усилий (во всяком случае, так гласят легенды). И у нас для вас две новости: хорошая и плохая. Хорошая – xgboost, хоть и является сторонней библиотекой, сохраняет интерфейс sklearn и даже прекрасно работает с GridSearchCV. Плохая – она тоже не умеет из коробки работать с категориальными признаками. Ну что же, давайте пощупаем это безобразие. На этот раз нас интересует класс xgboost.XGBRegressor.

Update: относительно недавно в xgboost появилась экспериментальная поддержка категориальных переменных, которая еще не добавлена в стабильную версию, поэтому ею мы пользоваться пока не будем.

### Задание 3 (кросс-проверка, 2 балла):
**Данные**: датасет со стоимостью поддержанных автомобилей  
**Метрика**: MAE  
**Цели**: В данном задании следует выполнить следующие пункты:  
1. Обучить xgboost.XGBRegressor на датасетах B и C, используя параметры n_estimators=1000, max_depth=5, learning_rate=0.1 (наши `test_parameters`). Замерьте время обучения. Получите предсказания данных моделей на тестовом множестве.
2. Обучить xgboost.XGBRegressor на датасетах B и C, используя кросс-валидацию на тренировочном множестве и подбирая значения для параметров n_estimators, learning_rate и max_depth (для простоты можете воспользоваться GridSearchCV). При необходимости можно оптимизировать параметры по одному, а не все сразу. Замерьте время перебора, получите предсказания лучшей модели (с лучшими параметрами) на тестовом множестве. В этом случае устанавливать n_jobs у GridSearchCV не рекомендую, поскольку xgboost сам умеет захватывать все доступные ресурсы, и если GridSearchCV начнет их размножать, то последствия будут печальны.
3. Посчитать MAE для полученных предсказаний на тренировочном и тестовом множествах (можно воспользоваться sklearn.metrics.mean_absolute_error).
1. Выведите результаты и время в таблице DataFrame.
4. Сделайте выводы. Оцените полезность категориальных переменных и поиска оптимальных параметров. Оцените время, затраченное на обучение. Сравните результаты со sklearn.

In [54]:
df_xgb = pd.DataFrame(columns=['Dataset', 'Parameters', 'Time', 'MAE'])

# your perfect code here
start = time.time()
model_xgb_B = XGBRegressor(**test_parameters, objective ='reg:squarederror').fit(datasets['B']['X_train'], datasets['B']['y_train'])
time_model_xgb_B = time.time()-start
print(f'Время обучения на B: {time_model_xgb_B/60:.2f} мин')

start = time.time()
model_xgb_C = XGBRegressor(**test_parameters, objective ='reg:squarederror').fit(datasets['C']['X_train'], datasets['C']['y_train'])
time_model_xgb_C = time.time()-start
print(f'Время обучения на B: {time_model_xgb_C/60:.2f} мин')

Время обучения на B: 0.05 мин
Время обучения на B: 0.19 мин


In [None]:
params = {'n_estimators': [800, 1200], 
          'learning_rate': [1e-2, 1e-1],
          'max_depth': [6, 8, 10]}
start = time.time()
model_xgb_gs = GridSearchCV(XGBRegressor(objective ='reg:squarederror'), 
                                param_grid=params, 
                                cv = 3,
                                scoring =  make_scorer(mean_absolute_error, greater_is_better=False),
                                verbose=1).fit(datasets['B']['X_train'], datasets['B']['y_train'])
time_model_xgb_gs = time.time()-start
print(f'Время обучения на С: {time_model_xgb_gs/60:.2f} мин')

In [None]:
df_xgb.Dataset = ['B', 'C', 'B']
df_xgb.Parameters = [test_parameters, test_parameters, model_xgb_gs.best_params_]
df_xgb.Time = [time_model_xgb_B, time_model_xgb_C, time_model_xgb_gs]
df_xgb.MAE = [get_MAE(model_xgb_B, **datasets['B'])[1],
              get_MAE(model_xgb_C, **datasets['C'])[1],
              get_MAE(model_xgb_gs.best_estimator_, **datasets['B'])[1]]

In [57]:
df_xgb

Unnamed: 0,Dataset,Parameters,Time,MAE
0,B,"{'n_estimators': 1000, 'max_depth': 5, 'learni...",2.822964,842479.071036
1,C,"{'n_estimators': 1000, 'max_depth': 5, 'learni...",11.61171,707739.331268
2,B,"{'learning_rate': 0.1, 'max_depth': 8, 'n_esti...",126.363848,856591.309811


In [None]:
df_skl

**Ваши выводы:** 

Категориальные переменные действительно полезны. Поиск оптимальных параметров не улушил MAE. Время примерно равно количеству "фитов" умноженных на время обучения одного фита model_xgb_B 36 * 0.05 = 2 мин.
Результаты MAE sklearn и XGBRegressor примерно одинаковые, но время обучения у sklearn примерно в 2-3 раза больше.

Т.к. GridSearchCV выбирает модель с меньшим количеством деревьев, кажется, что задача поставлена неправильно 

Таким вот несложным образом нам удалось воспользоваться еще одной библиотекой. Давайте перейдем к третьей библиотеке, которую мы сегодня изучим, и называется она lightgbm.

## Градиентный бустинг в lightgbm

Про Lightgbm легенды гласят, что она очень быстрая и легкая: что самый большой датасет она без проблем переварит за относительно небольшое время. А еще её разрабатывали не хухры кто, а сами мелкомягкие, так что попробовать её определённо стоит. На этот раз у нас вновь две новости, две хороших и две плохих. Первая хорошая — lightgbm тоже работает с GridSearchCV. Вторая хорошая — lightgbm умеет из коробки работать с категориальными признаками! Плохая — делает она это немного нетривиально (не зря я просил вас запомнить категориальные переменные!). Вторая плохая — да, нам придётся этим пользоваться.

Внимание! LightGBM может писать сотню радостных сообщений о том, что он увидел ваши categorical_feature и использует их. При желании можете заглушать эти оповещения, ибо в случае перебора параметров их становится слишком много. (заклинание для заглушения: `warnings.filterwarnings("ignore")`)

### Задание 4 (кросс-проверка, 3 балла):
**Данные**: датасет со стоимостью поддержанных автомобилей  
**Метрика**: MAE  
**Цели**: В данном задании следует выполнить следующие пункты:  
1. В случае датасета, сохраненном в numpy, lightgbm требует, чтобы категории были закодированы целыми числами от 0 до числа признаков(e.g. ['a', 'b', 'a'] -> [0, 1, 0]). Сделайте это для датасета A. Если вы используете pandas, то для датасета A достаточно установить соответствующие столбцы типа "категория", тогда categorical_feature='auto' сам всё подхватит.
2. Обучить lightgbm.LGBMRegressor на датасетах A, B и C, используя параметры используя параметры n_estimators=1000, max_depth=5, learning_rate=0.1. В случае датасета A, передайте в функцию fit индексы/имена категориальных признаков. Замерьте время обучения, получите предсказания данных моделей на тестовом множестве.
3. Обучить lightgbm.LGBMRegressor на датасетах A, B и C, используя кросс-валидацию на тренировочном множестве и подбирая значения для параметров n_estimators, learning_rate и max_depth (для простоты можете воспользоваться GridSearchCV). Замерьте время, потраченное на поиск оптимальных параметров(вновь не советую использовать n_jobs). Замерьте время перебора, получите предсказания лучшей модели (с лучшими параметрами) на тестовом множестве.
4. Посчитать MAE для полученных предсказаний на тренировочном и тестовом множествах (можно воспользоваться sklearn.metrics.mean_absolute_error). Сделайте выводы и полезности использования категориальных переменных и поиска оптимальных параметров.
5. Вывести результаты и время в таблице DataFrame.

In [None]:
import warnings
warnings.filterwarnings("ignore")

df_lightgbm = pd.DataFrame(columns=['Dataset', 'Parameters', 'Time', 'MAE'])

# your great code here
start = time.time()
model_lightgbm_A = LGBMRegressor(**test_parameters).fit(datasets['A']['X_train'], 
                                                      datasets['A']['y_train'], 
                                                      categorical_feature=variables_category.keys())
time_model_lightgbm_A = time.time() - start


start = time.time()
model_lightgbm_B = LGBMRegressor(**test_parameters).fit(datasets['B']['X_train'], 
                                                      datasets['B']['y_train'])
time_model_lightgbm_B = time.time() - start


start = time.time()
model_lightgbm_C = LGBMRegressor(**test_parameters).fit(datasets['C']['X_train'], 
                                                      datasets['C']['y_train'])
time_model_lightgbm_C = time.time() - start

In [None]:
params = {'n_estimators': [800, 1200, 1600], 
          'learning_rate': [1e-3, 1e-2, 1e-1],
          'max_depth': [6, 8, 10]}
start = time.time()
model_lightgbm_gs_A = GridSearchCV(LGBMRegressor(), 
                                param_grid=params, 
                                cv = 3,
                                scoring =  make_scorer(mean_absolute_error, greater_is_better=False),
                                verbose=1).fit(datasets['A']['X_train'], datasets['A']['y_train'])
time_model_lightgbm_gs_A = time.time()-start

model_lightgbm_gs_B = GridSearchCV(LGBMRegressor(), 
                                param_grid=params, 
                                cv = 3,
                                scoring =  make_scorer(mean_absolute_error, greater_is_better=False),
                                verbose=1).fit(datasets['B']['X_train'], datasets['B']['y_train'])
time_model_lightgbm_gs_B = time.time()-start

model_lightgbm_gs_C = GridSearchCV(LGBMRegressor(), 
                                param_grid=params, 
                                cv = 3,
                                scoring =  make_scorer(mean_absolute_error, greater_is_better=False),
                                verbose=1).fit(datasets['C']['X_train'], datasets['C']['y_train'])
time_model_lightgbm_gs_C = time.time()-start

In [None]:
df_lightgbm.Dataset = ['A', 'B', 'C', 'A', 'B', 'C']
df_lightgbm.Parameters = [test_parameters]*3+[model_lightgbm_gs_A.best_params_,
                                              model_lightgbm_gs_B.best_params_,model_lightgbm_gs_C.best_params_]
df_lightgbm.Time = [time_model_lightgbm_A,time_model_lightgbm_B,time_model_lightgbm_C,
                    time_model_lightgbm_gs_A,time_model_lightgbm_gs_B,time_model_lightgbm_gs_C]
df_lightgbm.MAE = [get_MAE(model_lightgbm_A, **datasets['A'])[1],
                   get_MAE(model_lightgbm_B, **datasets['B'])[1],
                   get_MAE(model_lightgbm_C, **datasets['C'])[1],
                   get_MAE(model_lightgbm_gs_A.best_estimator_, **datasets['A'])[1],
                   get_MAE(model_lightgbm_gs_B.best_estimator_, **datasets['B'])[1],
                   get_MAE(model_lightgbm_gs_C.best_estimator_, **datasets['C'])[1]]

In [None]:
df_lightgbm

**Ваши выводы:**
Категориальные признаки улучшили результат, подбор параметров тоже его улучшил 


Как вы видите, иногда можно не возиться с OHE, а позволить библиотекам самим это сделать (хотя иногда при этом приходится повозиться с самими данными, чтобы библиотека съела данные).

Итак, мы с вами почти стали мастерами градиентного бустинга. Переходим к последней звезде нашего хит-парада.



## Градиентный бустинг в catboost

Библиотека, созданная в тёмных подвалах яндекса. По легендам эта библиотека умеет работать с категориальными данными, быстрая, эффективная, легко настраивается, из коробки понимает текстовые признаки в задачах классификации и спасла Брюса Уиллиса. Давайте проверим.
Вас, наверное, не удивить тем, что эта библиотека работает с GridSearchCV, но им мы пользоваться не будем. В catboost существует своя реализация перебора параметров, и мы попробуем им воспользоваться (ура, разнообразие!). В качестве регрессора нас интересует catboost.CatBoostRegressor.

Внимание! Эта библиотека еще более болтлива, чем lightgbm, но это (почти) полностью лечится с помощью verbose. К сожалению, отключением warnings её не сделать молчаливее. А еще эта библиотека может неожиданно создать вам парочку новых папок.

### Задание 5 (кросс-проверка, 3 балла):
**Данные**: датасет со стоимостью поддержанных автомобилей  
**Метрика**: MAE  
**Цели**: В данном задании следует выполнить следующие пункты:  
1. Обучить catboost.CatBoostRegressor на датасетах A, B и C, используя параметры используя параметры n_estimators=1000, max_depth=5, learning_rate=0.1. В случае датасета A, передайте на вход методу fit/конструктору параметр cat_features, содержащий имена/индексы категориальных переменных. В данном случае переводить категории в целые числа, как мы делали для lightgbm, не нужно. Замерьте время обучения, получите предсказания данных моделей на тестовом множестве.
2. Обучить catboost.CatBoostRegressor на датасетах A, B и C, используя метод grid_search (является методом экземпляра класса CatBoostRegressor). Замерьте время, потраченное на поиск оптимальных параметров. Замерьте время перебора, получите предсказания лучшей модели (с лучшими параметрами) на тестовом множестве.
3. Посчитать MAE для полученных предсказаний на тренировочном и тестовом множествах (можно воспользоваться sklearn.metrics.mean_absolute_error).
4. Сделайте выводы и полезности использования категориальных переменных и поиска оптимальных параметров.
5. Вывести результаты и время в таблице DataFrame.


In [63]:
datasets['A']['X_train'] = datasets['A']['X_train'].astype({'Country': int,
                                                             'Cylinders': int,
                                                             'Drive Type': int,
                                                             'Fuel Type': int,
                                                             'Seating Capacity': int,
                                                             'Transmission': int,
                                                             'currency': int})
datasets['A']['X_test'] = datasets['A']['X_test'].astype({'Country': int,
                                                             'Cylinders': int,
                                                             'Drive Type': int,
                                                             'Fuel Type': int,
                                                             'Seating Capacity': int,
                                                             'Transmission': int,
                                                             'currency': int})

In [None]:
df_catboost = pd.DataFrame(columns=['Dataset', 'Parameters', 'Time', 'MAE'])

# your ideal code here

# your great code here
start = time.time()
model_cat_A = CatBoostRegressor(**test_parameters).fit(datasets['A']['X_train'], 
                                                      datasets['A']['y_train'], 
                                                      cat_features=[*variables_category.keys()])
time_model_cat_A = time.time() - start


start = time.time()
model_cat_B = CatBoostRegressor(**test_parameters).fit(datasets['B']['X_train'], 
                                                      datasets['B']['y_train'])
time_model_cat_B = time.time() - start


start = time.time()
model_cat_C = CatBoostRegressor(**test_parameters).fit(datasets['C']['X_train'], 
                                                      datasets['C']['y_train'])
time_model_cat_C = time.time() - start

In [None]:
params = {'n_estimators': [800, 1200, 1600], 
          'learning_rate': [1e-3, 1e-2, 1e-1],
          'max_depth': [6, 8, 10]}
start = time.time()
cat_A = CatBoostRegressor(cat_features=[*variables_category.keys()])
model_cat_gs_A = cat_A.grid_search(params, datasets['A']['X_train'], datasets['A']['y_train'])
time_model_cat_gs_A = time.time()-start

cat_B = CatBoostRegressor()
model_cat_gs_B = cat_B.grid_search(params, datasets['B']['X_train'], datasets['B']['y_train'])
time_model_cat_gs_B = time.time()-start

cat_C = CatBoostRegressor()
model_cat_gs_C = cat_C.grid_search(params, datasets['C']['X_train'], datasets['C']['y_train'])
time_model_cat_gs_C = time.time()-start

0:	learn: 12179841.5320543	test: 15104996.2925971	best: 15104996.2925971 (0)	total: 22.2ms	remaining: 17.8s
1:	learn: 12171534.8801296	test: 15097661.1515384	best: 15097661.1515384 (1)	total: 52.5ms	remaining: 21s
2:	learn: 12162858.9056662	test: 15090018.8323329	best: 15090018.8323329 (2)	total: 64.5ms	remaining: 17.1s
3:	learn: 12154056.9552345	test: 15082383.2829339	best: 15082383.2829339 (3)	total: 75.8ms	remaining: 15.1s
4:	learn: 12145641.3444623	test: 15074959.5912098	best: 15074959.5912098 (4)	total: 84.6ms	remaining: 13.4s
5:	learn: 12136919.3244349	test: 15067339.3266603	best: 15067339.3266603 (5)	total: 107ms	remaining: 14.1s
6:	learn: 12128629.2245809	test: 15059995.8962813	best: 15059995.8962813 (6)	total: 113ms	remaining: 12.8s
7:	learn: 12119757.2835874	test: 15052285.4673686	best: 15052285.4673686 (7)	total: 133ms	remaining: 13.2s
8:	learn: 12111292.6293560	test: 15044903.7916160	best: 15044903.7916160 (8)	total: 141ms	remaining: 12.4s
9:	learn: 12102570.0812460	test: 1

In [None]:
df_catboost.Dataset = ['A', 'B', 'C', 'A', 'B', 'C']
df_catboost.Parameters = [test_parameters]*3+[model_cat_gs_A['params'],
                                              model_cat_gs_B['params'],model_cat_gs_C['params']]
df_catboost.Time = [time_model_cat_A,time_model_cat_B,time_model_cat_C,
                    time_model_cat_gs_A,time_model_cat_gs_B,time_model_cat_gs_C]
df_catboost.MAE = [get_MAE(model_cat_A, **datasets['A'])[1],
                   get_MAE(model_cat_B, **datasets['B'])[1],
                   get_MAE(model_cat_C, **datasets['C'])[1],
                   get_MAE(cat_A, **datasets['A'])[1],
                   get_MAE(cat_B, **datasets['B'])[1],
                   get_MAE(cat_C, **datasets['C'])[1]]

In [None]:
df_catboost

**Ваши выводы:**

Категориальные признаки сильно улучшают модель. Поиск оптимальных параметров немного улучшил результат, кроме результатов на датасете B, но это скорее всего произошло из-за неудачного разбиения

И так, мы наконец познакомились со всеми библиотеками градиентного бустинга.

## Обобщение результатов

На текущем этапе у вас должно быть несколько датафреймов результатами по каждой библиотеке. Мы, конечно, сделали некоторые выводы, но пришло время собрать это в красивый отчет.

### Задание 6 (кросс-проверка, 3 балла):
**Данные**: датасет с ценами поддержанных автомобилей  
**Цели**: В данном задании следует выполнить следующие пункты:  
1. При помощи одного или нескольких графиков показать результаты различных библиотек: времени работы и качество результатов. Можете воспользоваться любым типом графиков: гистограммы, scatter и т.д. По этим графикам должно быть понятно какая библиотека и насколько быстрее, насколько различается их качество, сравнение оптимизированных и неоптимизированных параметров.
2. По графикам сравните библиотеки, производительность и качество работы. Опишите ваши выводы ниже.

In [None]:
# Your great pictures and conclusions below!

**Ваши выводы:**

## Оптимизация параметров с hyperopt

И так, мы с вами научились пользоваться библиотеками для градиентного бустинга. И я почти уверен, что знаю вашу самую "любимую" часть всех этих заданий: оптимизация параметров. Она достаточно долгая, нудная, да еще и над сетками перебора нужно думать. Значит сейчас, когда вы поняли всю тяжесть этого процесса, мы можем узнать как относительно быстро и безболезненно нащупать оптимальные параметры!


[Эмоции выполняющего в этот момент.](https://disk.yandex.ru/i/qwkvBEFrWYoV9A)


Нашего спасителя зовут HyperOpt. На первый взгляд hyperopt делает всё то же самое, что и grid search, а именно перебирает параметры. По факту же hyperopt превращает это в задачу оптимизации, используя некоторые эвристики для ускорения сходимости процесса. К тому же, он требует лишь информацию о границе интарвалов, а не сами сетки. В теории это должно помочь нам добиться лучших результатов за более короткое время. Давайте попробуем это сделать.

Для данного эксперимента я рекомендую использовать lightgbm, поскольку она быстрее и с ней удобнее играться, но Вы можете воспользоваться любой библиотекой из представленных выше.

### Задание 7 (кросс-проверка, 4 балла):
**Данные**: датасет со стоимостью поддержанных автомобилей
**Метрика**: MAE
**Цели**: В данном задании следует выполнить следующие пункты:
1. Взять любую библиотеку градиентного бустинга (можете взять самую быструю)
2. Составить сетку перебора в hyperopt, включающую параметры n_estimators, max_depth и learning_rate в hyperopt. Вам могут понадобиться такие типы данных, как hp.choise, hp.qloguniform, hp.uniform и hp.quniform (можно также пользоваться np.arange). Также для округления значения типа float до целых чисел (4.0 -> 4) используйте `scope.int`.
3. Реализуйте функцию, которая принимает на вход словарь параметров для регрессора, и при помощи cv оценивает его качество на датасете A (можно воспользоваться cross_val_score, а для ускорения поставить cv=3). Не забудьте о том, в каком виде lightgbm принимает категориальные признаки в numpy и что также надо передавать индексы категориальных признаков.
4. Создайте объект trials=Trials(), который будет хранить информацию о процессе оптимизации.
5. Используя функцию fmin, оптимизируйте Вашу функцию. Установите algo=tpe.suggest, trials=trials и max_evals, по крайней мере, 50. verbose=1 позволит видеть прогресс-бар по типу tqdm.
6. Выведите получившиеся параметры. Нарисуйте график, показывающий значение loss в ходе оптимизации. Посчитайте качество на тесте при использовании лучших параметров (возвращаются после использования fmin). Сделайте выводы по результату.

In [None]:
import warnings
warnings.filterwarnings("ignore")

trials = Trials()

def quality(params):
    score = cross_val_score(LGBMRegressor(**params), 
                datasets['A']['X_train'], 
                datasets['A']['y_train'],
                cv=3, 
                scoring=make_scorer(mean_absolute_error, greater_is_better=False))
    return np.absolute(score.mean())

grid = {
    'n_estimators' : scope.int(hp.uniform(label='n_estimators', low=700, high=4000)),
    'max_depth' : scope.int(hp.uniform(label='max_depth', low=3, high=8)),
    'learning_rate' : hp.uniform(label='learning_rate', low=0.001, high=0.1)
}

best = fmin(fn=quality,
                space=grid,
                algo=tpe.suggest,
                max_evals=100,
                trials=trials,
               verbose= 1)


# your super code for super graph 852642

In [256]:
best

{'learning_rate': 0.0995390924842762,
 'max_depth': 4.767316369492336,
 'n_estimators': 2966.4489391798375}

**Ваши выводы:**

## Предсказание зрительских симпатий

Ну что, детишки, а теперь перейдём к действительно важным вопросам.

**Внимание!** Следующее задание сдается в системе cv-gml.ru, задание `Град. бустинг (ML)` Для выполнения этого задания необходимо скачать датасет из задания. Здесь вы можете немного почитать про датасет и, при желании, поэкспериментировать. На cv-gml.ru загружайте уже готовый скрипт с подобранными параметрами для обучаемого регрессора. Релизовать код необходимо в шаблонном файле awards_prediction.py, который вы можете найти в проверяющей системе.

В некотором царстве, некотором государстве была развита кинопромышленность. Новые фильмы в этом государстве показывают по интернету, а пользователи после просмотра могут дать фильму некоторую "награду". Наша цель - предсказать число наград для фильма.

В нашем распоряжении имеются следующие данные:

**awards** - количество наград, полученных фильмом от пользователей (целевое значение)  
**potions** - количество магических зелий, потраченных на создание спец-эффектов  
**genres** - жанры созданного фильма  
**questions** - количество вопросов, заданных пользователями на соответствующих форумах об этом фильме до премьеры  
**directors** - режиссеры фильма (если неизвестны, то unknown)  
**filming_locations** - области, в которых снимался фильм  
**runtime** - продолжительность фильма в некоторых единицах, принятых в этом государстве  
**critics_liked** - количество критиков из 100, присудивших награды фильму на предварительных закрытых показах  
**pre-orders** - количество зрителей, заранее купивших билеты на первый показ  
**keywords** - ключевые слова, описывающие содержание фильма

**release_year** - год, во котором фильм был показан (конечно, в летоисчислении этого государства)

Следующие поля появляются несколько раз с разными значениями i:

**actor_i_known_movies** - количество известных фильмов актера i (i от 1 до 3)

**actor_i_postogramm** - количество подписчиков в социальной сети "по сто грамм" актера i (i от 1 до 3)

**actor_i_gender** - пол актера i (i от 1 до 3)

**actor_i_age** - возраст актера i (i от 1 до 3)

-----
**Внимание!** Учтите, что при OHE кодировании признаки на обучении и тестировании должны совпадать! Если вы примените простое .get_dummies() или что-то подобное, то признаки на трейне и тесте получатся разные! Так что вам, вероятно, придётся придумать способ для того, чтобы сохранить их :)  

### Задание 8 (ML задание, 20 баллов):
**Данные**: датасет с ценами поддержанных автомобилей  
**Метрика**: MAE  
**Цели**: В данном задании следует выполнить следующие пункты:  
1. Взять любую библиотеку градиентного бустинга
2. Используя предложенный датасет, обучить регрессор для предсказания awards (предоставляем полную свободу в настройках и выборе методов)
3. Загрузить решение и получить качество на закрытой выборке больше порогового значения

In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer
import re
import warnings
warnings.filterwarnings("ignore")

In [4]:
category = ['genres', 'directors', 'filming_locations', 'keywords', 'actor_0_gender', 'actor_1_gender', 'actor_2_gender']
## your efficient code here
df = pd.read_json('/content/train.jsonl', lines=True)
df.head(1)

Unnamed: 0,potions,genres,questions,directors,filming_locations,runtime,awards,critics_liked,preorders,keywords,release_year,actor_0_known_movies,actor_0_postogramm,actor_0_gender,actor_0_age,actor_1_known_movies,actor_1_postogramm,actor_1_gender,actor_1_age,actor_2_known_movies,actor_2_postogramm,actor_2_gender,actor_2_age
0,500,"[History, Action, Documentary]",16,"[Balin, Sauron]","[LonelyMountain, Gondor]",127,4835,70,588550,"[quarantine, meaning of life, shaving cream, a...",4086462,59,9.538,Female,46,4,1.481,Male,15,42,9.892,Male,45


In [4]:
def list_vectorizer(X_train, X_test):
    vectorizer = TfidfVectorizer(preprocessor=lambda x: ','.join(x).lower() if type(x) == list else x,
                                 tokenizer=lambda x: x.split(','), max_features=440)
    f = vectorizer.fit_transform(X_train[X_train.notna()])
    top_words = sorted(zip(vectorizer.get_feature_names_out(), f.toarray().sum(axis=0)),
                       key=lambda x: x[1], reverse=1)[:4]
    list_words = [i[0] for i in top_words]
    X_train[X_train.isna()] = X_train[X_train.isna()].apply(lambda x: list_words)
    X_test[X_test.isna()] = X_test[X_test.isna()].apply(lambda x: list_words)
    f_train = vectorizer.fit_transform(X_train)
    f_test = vectorizer.transform(X_test)
    return f_train.toarray(), f_test.toarray()


def get_data(df_train, df_test):
    df_train[df_train == 'unknown'] = np.nan
    df_train[df_train == 'unknown'.upper()] = np.nan
    df_test[df_test == 'unknown'] = np.nan
    df_test[df_test == 'unknown'.upper()] = np.nan

    f1_train, f1_test = list_vectorizer(df_train.genres, df_test.genres)
    f2_train, f2_test = list_vectorizer(df_train.directors, df_test.directors)
    f3_train, f3_test = list_vectorizer(df_train.filming_locations, df_test.filming_locations)
    f4_train, f4_test = list_vectorizer(df_train.keywords, df_test.keywords)

    for i in range(3):
        df_train[f'actor_{i}_gender'].fillna('Male', inplace=True)
        df_train[f'actor_{i}_gender'] = df_train[f'actor_{i}_gender'].apply(lambda x: True if x == 'Male' else False)
        df_test[f'actor_{i}_gender'].fillna('Male', inplace=True)
        df_test[f'actor_{i}_gender'] = df_test[f'actor_{i}_gender'].apply(lambda x: True if x == 'Male' else False)

    df_train.drop(['genres', 'directors', 'filming_locations', 'keywords'], axis=1, inplace=True)
    df_test.drop(['genres', 'directors', 'filming_locations', 'keywords'], axis=1, inplace=True)

    return np.hstack([df_train.to_numpy(), f1_train, f2_train, f3_train, f4_train]), np.hstack([df_test.to_numpy(), f1_test, f2_test, f3_test, f4_test]) 


In [40]:
df_train = pd.read_json('/content/train.jsonl', lines=True)
df_test = pd.read_json('/content/test.jsonl', lines=True)
y_train = df_train["awards"]
del df_train["awards"]
df_train, df_test = get_data(df_train, df_test)

In [41]:
df_train.shape, df_test.shape

((3354, 542), (121, 542))

In [39]:
df_train

Unnamed: 0,potions,genres,questions,directors,filming_locations,runtime,critics_liked,preorders,keywords,release_year,actor_0_known_movies,actor_0_postogramm,actor_0_gender,actor_0_age,actor_1_known_movies,actor_1_postogramm,actor_1_gender,actor_1_age,actor_2_known_movies,actor_2_postogramm,actor_2_gender,actor_2_age
0,2125,"[Horror, Romance, Documentary, TV Movie, Thril...",1,"[Bilbo Baggins, Sauron]","[Gondor, Rhun]",109,52,363400,"[mid-life crisis, hiding, wrongful imprisonment]",4042110,68,15.732,Male,37,92,5.538,Male,69,49,10.103,Female,39
1,750,"[History, Horror, Fantasy]",1,"[Elanor Gardner, Saruman, Farmer Maggot, Isildur]",[Gondor],139,70,3041500,"[septic tank, schoolboy, evil genius, killer w...",4042110,63,17.549,Male,30,68,23.201,Female,28,87,14.378,Male,50
2,0,"[Mystery, Fantasy]",0,unknown,[Gondor],157,64,123240,"[cavalry, war injury, framed for murder, famil...",3962090,0,0.000,UNKNOWN,120,93,7.233,Female,29,52,19.064,Female,20
3,2500,"[History, Family, Romance]",1,[Legolas],[Gondor],118,71,3084950,"[winnie, meaning of life, kidnapping, secret l...",3986012,22,4.488,Male,43,60,5.261,Female,34,1,1.073,Female,126
4,0,"[Action, History, Animation]",9,[Radagast],"[LonelyMountain, Gondor]",124,67,92430,"[eclipse, prisoner, successful author, archdio...",4082420,16,13.135,Male,29,30,9.209,Female,27,26,5.543,Female,28
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
116,92,[Comedy],0,"[Sauron, Gondorian Archivist]",[Gondor],162,75,591710,"[chemical contamination, forest fire, tardy ha...",3906552,137,14.418,Male,46,14,0.832,Male,77,21,3.594,Female,32
117,325,"[Horror, History, War]",0,[Boromir],[Gondor],148,74,1478880,"[jihad, sin, training, assassin, crime spree, ...",3950156,145,11.220,Male,36,119,10.247,Male,26,1,2.722,Male,117
118,1750,"[Thriller, Documentary, Family]",0,[Thorin Oakenshield],[Gondor],142,58,1700870,"[honor, stuck, bridge blowup, spiritualism, fi...",4030056,89,11.201,Male,50,59,9.538,Female,32,132,10.253,Male,70
119,2500,"[Documentary, Thriller, Western, Fantasy, Hist...",0,[Samwise Gamgee],"[LonelyMountain, Rhovanion, Gondor]",132,55,2114830,"[unfaithful husband, formalin, hunting rifle, ...",4058210,15,6.633,Male,28,50,9.570,Female,47,20,8.880,Female,26


In [93]:
df.isna().sum()

potions                 0
questions               0
runtime                 0
awards                  0
critics_liked           0
preorders               0
release_year            0
actor_0_known_movies    0
actor_0_postogramm      0
actor_0_gender          0
actor_0_age             0
actor_1_known_movies    0
actor_1_postogramm      0
actor_1_gender          0
actor_1_age             0
actor_2_known_movies    0
actor_2_postogramm      0
actor_2_gender          0
actor_2_age             0
dtype: int64

In [94]:
df.describe()

Unnamed: 0,potions,questions,runtime,awards,critics_liked,preorders,release_year,actor_0_known_movies,actor_0_postogramm,actor_0_age,actor_1_known_movies,actor_1_postogramm,actor_1_age,actor_2_known_movies,actor_2_postogramm,actor_2_age
count,3354.0,3354.0,3354.0,3354.0,3354.0,3354.0,3354.0,3354.0,3354.0,3354.0,3354.0,3354.0,3354.0,3354.0,3354.0,3354.0
mean,919.691413,1.191115,135.512224,8471.77102,65.355993,1881769.0,4016994.0,69.623435,9.499518,41.049195,59.234049,7.52306,40.81127,56.178593,6.233909,43.90638
std,1153.956697,10.163714,19.565425,6703.192485,7.962238,2512691.0,57098.91,44.425133,7.732732,20.625348,40.82309,6.200399,21.65301,42.310387,5.35092,24.869661
min,0.0,0.0,53.0,1.0,33.0,2370.0,3707550.0,0.0,0.0,6.0,0.0,0.0,7.0,0.0,0.0,-13.0
25%,125.0,0.0,122.0,3609.25,60.0,422847.5,3990006.0,36.0,4.6065,29.0,30.0,3.509,29.0,25.0,2.676,30.0
50%,500.0,0.0,132.0,6946.0,65.0,933780.0,4030056.0,64.0,7.9,38.0,52.0,6.1855,36.0,48.0,5.1045,39.0
75%,1250.0,1.0,146.0,11567.75,71.0,2254265.0,4062240.0,96.0,11.718,47.0,81.0,9.806,46.0,78.0,8.451,50.0
max,9500.0,434.0,275.0,52894.0,87.0,20875750.0,4086462.0,353.0,58.593,151.0,294.0,58.593,151.0,393.0,58.593,151.0


In [184]:
params = {'n_estimators': [900, 1600, 2000], 
          'learning_rate': [0.005, 0.01, 0.1],
          'max_depth': [9,12,14,16]}
model_lightgbm_gs_A = GridSearchCV(LGBMRegressor(), 
                                param_grid=params, 
                                cv = 5,
                                scoring =  'neg_mean_absolute_error',
                                verbose=0).fit(X_train, y_train)

In [186]:
get_MAE(model_lightgbm_gs_A.best_estimator_,X_train, y_train, X_test, y_test)

(761.7326825397737, 2062.932379293286)

In [107]:
get_MAE(model_lightgbm_gs_A.best_estimator_,X_train, y_train, X_test, y_test)

(862.4603143037806, 2061.4669137045553)

In [189]:
model_lightgbm_gs_A.best_params_

{'learning_rate': 0.01, 'max_depth': 12, 'n_estimators': 2000}

In [18]:
reg_1 = LGBMRegressor(**{'learning_rate': 0.01, 'max_depth': 12, 'n_estimators': 2000, 'random_state': 1}).fit(X_train, y_train)
#reg_2 = LGBMRegressor(**{'learning_rate': 0.03, 'max_depth': None, 'n_estimators': 1500, 'random_state': 11}).fit(X_train, y_train)
#reg_3 = LGBMRegressor(**{'learning_rate': 0.008, 'max_depth': None, 'n_estimators': 3000, 'random_state': 21}).fit(X_train, y_train)
# reg_4 = LGBMRegressor(**{'learning_rate': 0.03, 'max_depth': None, 'n_estimators': 1000, 'random_state': 31}).fit(X_train, y_train)
# reg_5 = LGBMRegressor(**{'learning_rate': 0.03, 'max_depth': None, 'n_estimators': 1000, 'random_state': 3}).fit(X_train, y_train)

In [None]:
(reg_1.predict(X_test) + reg_2.predict(X_test)+reg_3.predict(X_test))/3

In [21]:
mean_absolute_error((reg_1.predict(X_test)+cat.predict(X_test))/2, y_test)

2037.1950037646243

In [193]:
get_MAE(reg, X_train, y_train, X_test, y_test)

(761.7326825397737, 2062.932379293286)

In [None]:
import warnings
warnings.filterwarnings("ignore")

trials = Trials()

def quality(params):
    score = cross_val_score(CatBoostRegressor(**params), 
                X_train, 
                y_train,
                cv=3, 
                scoring=make_scorer(mean_absolute_error, greater_is_better=False))
    return np.absolute(score.mean())

grid = {
    'n_estimators' : scope.int(hp.uniform(label='n_estimators', low=700, high=4000)),
    'max_depth' : scope.int(hp.uniform(label='max_depth', low=3, high=8)),
    'learning_rate' : hp.uniform(label='learning_rate', low=0.001, high=0.1)
}

best = fmin(fn=quality,
                space=grid,
                algo=tpe.suggest,
                max_evals=50,
                trials=trials,
               verbose= 1)


# your super code for super graph 852642

In [267]:
best

{'learning_rate': 0.019955941588150408,
 'max_depth': 7.866056376808446,
 'n_estimators': 2401.0991049270524}

In [31]:
cat = CatBoostRegressor(**{'learning_rate': 0.039955941588150408,
                     'max_depth': 8,
                     'n_estimators': 1600}).fit(X_train, y_train)

0:	learn: 6566.1291311	total: 262ms	remaining: 6m 58s
1:	learn: 6404.1035006	total: 499ms	remaining: 6m 38s
2:	learn: 6257.8385686	total: 711ms	remaining: 6m 18s
3:	learn: 6117.8788627	total: 965ms	remaining: 6m 25s
4:	learn: 5960.8817604	total: 1.2s	remaining: 6m 23s
5:	learn: 5815.1543020	total: 1.43s	remaining: 6m 21s
6:	learn: 5696.3347243	total: 1.67s	remaining: 6m 19s
7:	learn: 5565.4966811	total: 1.91s	remaining: 6m 19s
8:	learn: 5445.0582605	total: 2.15s	remaining: 6m 19s
9:	learn: 5341.5305044	total: 2.38s	remaining: 6m 18s
10:	learn: 5239.8195738	total: 2.58s	remaining: 6m 12s
11:	learn: 5129.9234291	total: 2.79s	remaining: 6m 9s
12:	learn: 5030.7098772	total: 3.04s	remaining: 6m 10s
13:	learn: 4928.9276491	total: 3.22s	remaining: 6m 4s
14:	learn: 4837.4673648	total: 3.42s	remaining: 6m 1s
15:	learn: 4749.5480590	total: 3.65s	remaining: 6m 1s
16:	learn: 4660.3569762	total: 3.88s	remaining: 6m 1s
17:	learn: 4582.4594938	total: 4.11s	remaining: 6m 1s
18:	learn: 4510.1427582	tot

In [32]:
mean_absolute_error((cat.predict(X_test)), y_test)

2057.8590507045246

In [24]:
mean_absolute_error((cat.predict(X_test)), y_test)

2120.257310651936


## Конец

Ну что детишки... Можете добавлять еще 4 библиотеки в своё резюме датасаентиста!
