# Знакомство с Kaggle.

Безусловно, при изучении какой-либо области обойтись без теории достаточно сложно, особенно, если это такие непростые области как наука о данных и машинное обучение. Но с одним абстрактным пониманием того, как работают алгоритмы и какие существуют метрики, невозможно полноценно погрузиться в ML - всегда нужна практика. Существуют платформы, которые созданы для улучшения и отработки навыков, которые необходимо систематизировать, применив к реальным задачам. Одна из таких платформ - **Kaggle** - является наиболее известным ресурсом с большим количеством реальных задач из мира ML, фактически представленных в виде конкретного техзадания для соревнования по созданию моделей, которое необходимо выполнить. Соответственно, у кого модель в этой задаче работает качественнее, тот и является победителем.

### Почему стоит изучить Kaggle?

Очень часто можно услышать о том, что к реальным задачам опыт в соревнованиях, подобным Kaggle, не имеет никакого отношения. Давайте разберем, что же из себя представляют эти реальные задачи:
1. понимание бизнес-задачи
2. оценка данных на предмет того, можно ли найти ответ на эту бизнес-задачу с помощью этих конкретных данных
3. собрать дополнительные данные, если существующих недостаточно
4. выбрать метрику, которая наиболее точно соответствует бизнес-задаче
5. преобразовать данные, выбрать модель и признаки под нее так, чтобы модель показывала результат

Навыки для первых 4х пунктов из этого списка, очевидно, можно получить, либо перенимая опыт коллег, либо методом проб и ошибок. А вот последний пункт вполне можно прокачать в соревнованиях.

В любом соревновании у нас есть исходные: описанная бизнес-задача, выбранная метрика и собранные данные. Наша задача - собрать все по кусочкам, начиная от подготовки данных для алгоритмов и заканчивая построением как можно лучше работающей модели.

Вообще, соревнования Kaggle можно рассматривать просто как совместные проекты всего активного сообщества Kaggle, потому как там предоставляется возможность воспользоваться опытом и наработками других более опытных участников, задать вопрос в ветке обсуждений и получить отзывы на свою работу. Также можно приобрести отличный навык командной работы.

Стоит упомянуть и о том, что, когда вы только начинаете свой путь в качестве специалиста по машинному обучению, многие работодатели за неимением возможности оценить все ваши навыки на собеседовании, скорее отдадут предпочтение человеку, проекты которого можно посмотреть и оценить в открытых источниках. Естественно, что для специалиста по ML "прокаченный" профиль на одной из лучших платформ для изучения этой области будет являться неоспоримым преимуществом.

Теперь поговорим о том, что же из себя представляет Kaggle и как можно "прокачать" свой профиль.

### Среда Kaggle

Изначально Kaggle был исключительно местом для проведения соревнований по машинному обучению. Однако со временем там появились различные ресурсы для самостоятельного изучения отдельных тем, место для обсуждения различных вопросов и даже онлайн-среда для программирования, которая работает на серверах Kaggle.

Итак, разберем, что из себя представляет платформа Kaggle. Несколько главных разделов Kaggle:
- Datasets (наборы данных)
![](https://248006.selcdn.ru/public/DS.%20Block%202.%20M10/datasets.png)
Множество наборов данных различных типов и размеров, которые можно загрузить. Здесь можно найти интересные данные для изучения или тестирования своих навыков в анализе данных. Если открыть датасет, почти всегда можно увидеть подробную информацию о нем: описание, какие колонки существуют в данных, что означает каждая из них, каковы статистики признаков и т.д.
- Competitions (соревнования)
![](https://248006.selcdn.ru/public/DS.%20Block%202.%20M10/competitions.png)
В каждом соревновании организаторы выкладывают описание задачи, датасеты, метрику, по которой будет оцениваться решение, и устанавливают сроки решения. В день участникам дается 3-5 попыток на посылку варианта решения.
Для каждого соревнования на Kaggle создается своя отдельная страничка, на которой есть раздел с данными, с описанием метрики и ссылками на форумы, где можно делиться идеями, и кернелы, где есть возможность запускать свой код и делиться решениями.
- Kernels (ядра)
![](https://248006.selcdn.ru/public/DS.%20Block%202.%20M10/kernels.png)
Онлайн-среда, работающая на серверах Kaggle. В ней можно писать скрипты на Python/R и работать с Jupyter Notebooks. Преимущество таких ядер в том, что не нужно настраивать среду у себя на компьютере: их можно использовать для анализа любого набора данных, соревнований по машинному обучению или выполнения заданий из раздела Courses. Также можно работать с уже существующими ядрами других участников или поделиться своими.
- Discussion (обсуждения)
![](https://248006.selcdn.ru/public/DS.%20Block%202.%20M10/discussion.png)
В этом разделе можно задавать свои вопросы и получить советы по интересующему моменту от тысяч участников сообщества Kaggle.
- Courses (курсы)
![](https://248006.selcdn.ru/public/DS.%20Block%202.%20M10/courses.png)
Эта вкладка содержит бесплатные практические курсы, которые охватывают минимум, необходимый для начала работы с DataScience-проектами.

Конечно, работодателями больше всего ценятся ваши практические навыки, поэтому участие в соревнованиях и неплохие показатели точно будут плюсом в резюме. Хорошая репутация в Kaggle-коммьюнити тоже может сыграть неплохую роль: прокачивается написанием полезных постов на форуме (например, с описанием нестандартных техник) и созданием кернелов (например, с описанием предварительной обработки данных и выбора признаков).

Далее мы немного подробнее разберем наиболее важные для получения практических навыков разделы Kaggle: среду для соревнований и работу с ядрами. Начнем с первого.

### Среда Kaggle для соревнований

Как мы уже упоминали, скорее всего сначала работодатель посмотрит на ваше участие в соревнованиях: каковы результаты, самостоятельно ли вы их получили или в команде, была ли вообще произведена работа над данными лично вами, а не просто запущен какой-либо публичный кернел. Все это даст ему понять, в каком русле дальше можно проводить беседу. Да и к тому же обсуждать технические детали конкретной задачи определенно интереснее, чем и задавать стандартные вопросы собеседования, и отвечать на них.

Для того, чтобы прокачать свои навыки участия в соревнованиях Kaggle, нужно представлять, что они вообще из себя представляют. Поэтому теперь давайте более детально разберем, какие вкладки присутствуют на каждой страничке соревнования и что из них можно почерпнуть.

![](https://248006.selcdn.ru/public/DS.%20Block%202.%20M10/kaggle_comp.png)

- Overview: описание проблемы, метрики оценки, призы, дедлайны соревнования.
- Data: Все данные, необходимые для участия в соревновании. Данные разделены на тренировочную (train) и тестовую (test) выборки. Для тренировочной известны значения целевой переменной, а для тестовой - нет. Задача заключается в том, чтобы создать модель, которая, будучи обученной на тренировочных данных, выдавала максимальный результат на тестовых. Можно загрузить предоставленные данные в свою среду разработки, а можно работать с ними в ядре Kaggle, к которому нужно просто подключить данные.
- Kernels: работы по этому соревнованию, предоставленные вами или другими участниками сообщества. Это один из наиболее важных ресурсов, потому как там часто можно найти готовые интересные решения, которые можно разобрать или дополнить. Это можно также сделать в Kernels: скопировать скрипт или notebook другого участника, а затем изменить или запустить его.
- Discussion: тоже достаточно полезная вкладка. Тут можно найти обсуждения, в которых участвуют как организаторы соревнования, так и участники, задать уточняющие вопросы или узнать новую информацию из ответов других участников.
- My Submissions: каждый участник делает предсказания для тестовой выборки и отсылает результат на Kaggle через эту вкладку. Далее робот оценивает присланный результат, который отображается на лидерборде.
- Leaderboard: здесь можно посмотреть ваш рейтинг после отправки ответа, однако все устроено несколько сложнее, чем обычная рейтинговая система. На стороне Kaggle тестовые данные делятся в определенной пропорции на публичную (public) и приватную (privat) части. В течение соревнования присланные решения оцениваются на публичной части данных и размещаются на лидерборд, по которому можно оценить свою модель. Окончательное же решение оценивается на приватной части тестовых данных, а итоговый результат попадает в приватный лидерборд, который доступен только по окончании соревнования и по которому оцениваются финальные результаты участников.
- Rules: не самая интересная вкладка, но правила стоит хотя бы прочитать - вдруг вы сможете "выцепить" оттуда что-то полезное. Например, там может быть прописано о возможности использования данных со стороны для обучения модели.
- Team: если вы решите участвовать в соревновании в коллаборации с кем-то, то в этой вкладке сможете управлять членами команды.

В целом, чтобы впечатлить работодателя, совсем необязательно быть в топе лидерборда: все-таки рабочие процессы и соревнования - не одно и то же. Готовое решение, до которого вы дошли самостоятельно, даст вам гораздо больше, чем скопированное из одного из кернелов.

# Работа с ядрами

Теперь расскажем немного о том, как работать с ядрами. 

В самом начале мы уже говорили о том, что работа с кернелами значительно упрощает жизнь, если не хочется "засорять" место на своем компьютере или вообще настраивать необходимую среду разработки. Посмотрим, как с ними работать.

Ядро можно создать двумя путями:
1. используя вкладку Kaggle Kernels
![](https://248006.selcdn.ru/public/DS.%20Block%202.%20M10/kaggle_kernel.png)
2. со вкладки любого датасета
![](https://248006.selcdn.ru/public/DS.%20Block%202.%20M10/kaggle_kernel_data.png)

Как мы уже упоминали, в Kernel можно работать, используя скрипты на Python/R или Notebook. При создании ядра предоставляется выбор:
![](https://248006.selcdn.ru/public/DS.%20Block%202.%20M10/script_note.png)

Далее с ядром можно работать либо как с обычным скриптом, как, например, в SublimeText или PyCharm, либо как с тетрадками в Jupyter Notebook.

Если вы хотите изучить чужой kernel или поработать с ним самостоятельно, откройте вкладку с интересующим ядром и создайте свое с помощью кнопки Copy and Edit.
![](https://248006.selcdn.ru/public/DS.%20Block%202.%20M10/fork.png)
Также ядра можно сделать публичными и приватными.

#### Практика

Предлагаем вам самостоятельно изучить работу с ядрами. Это поможет лучше разобраться с онлайн-средой разработки.

Во многих из уроков мы использовали датасет Titanic - он был взят из одного из соревнований Kaggle. Так как это вводное соревнование, постоянно открытое как для изучения платформы Kaggle, так и для совершенствования навыков участников, то естественно, что у него достаточно много обсуждений и публичных ядер. По [этой ссылке](https://inclass.kaggle.com/arthurtok/introduction-to-ensembling-stacking-in-python) можно найти одно из самых популярных ядер, набравшее большинство голосов участников. Там представлен т.н. end-to-end ML pipeline - построение пайплайна ML, начиная с анализа данных и заканчивая моделью.

**Задание 1.** Скачайте ядро себе на компьютер и запустите ячейки с кодом. Изучите ядро, посмотрите, как автор использует стекинг в своей модели. В предыдущем модуле мы как раз изучали методы ансамбирования алгоритмов, поэтому посмотреть, как эти методы применяются разными людьми, будет полезно.

**Задание 2.** Если вы еще не зарегистрировались на сайте Kaggle, сделайте это. Затем пройдите по той же ссылке и скопируйте к себе это ядро. Удалите ячейки с текстом, все модели и импорт ненужных библиотек. Должны остаться только преобразования данных, графики и разделение на тренировочные и тестовый датасеты. Это пригодится в дальнейшем, когда вы будете выполнять домашнее задание.