# 2. Основы Kaggle

Kaggle — международная платформа для проведения соревнований по анализу данных на основе реальных задач от различных компаний. Эта площадка может похвастаться самым большим Data Science-комьюнити со всего мира — более 200 тысяч участников, с которыми можно взаимодействовать посредством разных активностей.

Площадка Kaggle важна для становления дата-сайентиста: работодатели оценивают активность кандидатов и их достижения на площадке. Для обоих участников рынка труда это удобный инструмент: работодатели имеют возможность увидеть, как кандидат пишет код, излагает мысли, что загружает; а работник может использовать площадку как своё портфолио.

Если перейти во вкладку Competitions, можно увидеть список соревнований разных видов. 

    Соревнование типа Knowledge. За этот вид соревнований для новичков баллы не начисляются. 
    Соревнования с денежной наградой. 
    Соревнования, привязанные к определённым курсам, мероприятиям и так далее. 

Участие в соревнованиях влияет на публичный рейтинг пользователя. 

Рейтинги составляются по четырём видам активностей: 

    Competitions (участие в соревнованиях);
    Datasets (публикация открытых датасетов);
    Notebooks (создание ноутбуков);
    Discussions (публикация сообщений на форуме).

Пользователи Kaggle могут последовательно достичь следующих пяти разных уровней статуса в любой из категорий: Novice, Contributor, Expert, Master и Grandmaster. 

❗️ Для достижения каждого из этих уровней требуется выполнить определённые условия, которые усложняются с каждым шагом в сторону Grandmaster. Рейтинги Kaggle важны для карьеры любого дата-сайентиста: на текущий момент почти все работодатели обращают пристальное внимание на успехи кандидата на этой площадке. Как правило, работодатели при просмотре профиля соискателя на Kaggle обращают внимание на уровни в категориях Competitions и Notebooks — именно эти категории позволяют оценить специфические навыки дата-сайентиста.

# 3. Работа с ноутбуками в Kaggle

Публикация ноутбуков — один из важных пунктов развития дата-сайентиста на Kaggle. Они позволяют показать сообществу свои идеи относительно конкретного соревнования/датасета и получить обратную связь от сообщества.

# 4. Участие в соревновании

Этот бейзлайн построен на основе библиотеки, разработанной в Сбере, — LightAutoML (LAMA). В верхней части ноутбука вы увидите ссылку на GitHub-репозиторий этой библиотеки. 

Библиотека позволяет автоматически строить модели машинного обучения для различных задач, например для бинарной классификации, мультиклассовой классификации и регрессии, на табличных данных (в том числе вещественных и категориальных данных, датах, текстах и даже изображениях). Этот инструмент позволяет сосредоточиться на важных задачах машинного обучения — генерации признаков, выборе метрик, определении целевой переменной и так далее. 

### LAMA не входит в стандартную поставку образа Python на Kaggle, поэтому прежде всего необходимо установить её. 

!pip install -U lightautoml


### Затем импортируем необходимые библиотеки. 

# Standard python libraries
import os
import time

# Essential DS libraries
import numpy as np
import pandas as pd
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
import torch

# LightAutoML presets, task and report generation
from lightautoml.automl.presets.tabular_presets import TabularAutoML
from lightautoml.tasks import Task

### Далее определяем константы (количество потоков, таймаут, имя целевой колонки, размер валидационной выборки и так далее). 

N_THREADS = 4
N_FOLDS = 5
RANDOM_STATE = 42
TEST_SIZE = 0.2
TIMEOUT = 600 # equal to 10 minutes
TARGET_NAME = 'final_price'

### Для максимальной воспроизводимости решения используем команды: 

np.random.seed(RANDOM_STATE)
torch.set_num_threads(N_THREADS)

### Указываем путь к папке с данными: 

INPUT_DIR = '../input/sf-dst-predict-car-price/'

### Загружаем тренировочный датасет (в нём будет 15 колонок): 

train_data = pd.read_csv(INPUT_DIR + 'train_data.csv')
print(train_data.shape)
train_data.head()

### Загружаем тестовый датасет (в нём будет 14 колонок, без колонки с целевой переменной): 

test_data = pd.read_csv(INPUT_DIR + 'test_data.csv')
print(test_data.shape)
test_data.head()

### Загружаем шаблон сабмита (по количеству строк совпадает с тестовыми данными): 

submission = pd.read_csv(INPUT_DIR + 'sample_submission.csv')
print(submission.shape)
submission.head()

### Далее в бейзлайне идёт небольшая заготовка для генерации дополнительных признаков. 

%%time

def create_expert_feats(data):
    pass

create_expert_feats(train_data)
create_expert_feats(test_data)

### Последний пункт подготовительного этапа нашей работы — разбиение на тренировочную (80 %, tr_data) и валидационную (20 %, te_data) выборки. 

tr_data, te_data = train_test_split(
    train_data, 
    test_size=TEST_SIZE, 
    random_state=RANDOM_STATE
)

print(f'Data splitted. Parts sizes: tr_data = {tr_data.shape}, te_data = {te_data.shape}')

tr_data.head()

#### 28 000 строк отойдут в тренировочную выборку, 7 000 — в валидационную. 