# Занятие №2: Откуда брать данные для решения задачи
Порой на ML-хакатонах выдают **обучающие данные**, на которых вы можете обучить свою модель, после чего она будет тестироваться на каком-то закрытом множестве **тестовых данных**. Это хорошая практика, но не всегда так происходит. Порой приходится искать данные для обучения самостоятельно.

**Сегодня мы обсудим:**
- откуда брать данные,
- как их скачивать,
- куда складывать,
- как предобрабатывать данные (потому что разные задачи требуют разной предобработки данных).

Также мы постараемся вынести этот кусок задачи в отдельный файлик, который впоследствии будем запускать через магическую-команду `%run` (о которой мы узнали на прошлом занятии). Это позволит нам ввести модульность в наших Jupyter-ноутбуках, разделять логику и не захламлять код.

Несколько вещей, с которыми мы сегодня познакомимся:
- Платформа [Kaggle](https://www.kaggle.com/),
- Bash-команда `curl` (а также bash-скрипты),
- Библиотека `pandas`,
- Конфигурационные файлы `.yaml`.

Ну и после того, как данные будут скачаны, мы их сможем прогнать через какую-то предобученную модель из библиотеки `transformers` (от платформы [HuggingFace](https://huggingface.co/)) в которой лежат многие современные предобученные модельки, которые можно использовать без какого-либо дополнительного обучения.

In [1]:
%run ./../template.ipynb

Work in template.ipynb successfully finished!


## Польза `config.yaml` файла
При разработке продуктовых приложений имеет место использование **конфигурационных файлов**. В них вы можете прятать:

- секретные ключи от API,
- константные значения,
- разрешаемые ID-шники пользователей
- ...

Польза такого файла в том, что вы не сохраняете эти данные внутри кода, предотвращая тем самым возможные утечки. Но также польза в том, что все константы хранятся в одном месте: их довольно легко поменять, и **они всегда под рукой**. Вам не надо их запоминать или складывать куда-то, где вы теряете над ними контроль.

<div style="text-align:center">
    <img src="https://preview.redd.it/somethingsareforever-v0-hji8aypiql8b1.jpg?auto=webp&s=c74657dbca7c89f8f93359fd342ead46ab4ab97d">
</div>

Однако стоит помнить, что такой файл надо **исключать** из трекинга в `git`. Для этого добавьте его в `.gitignore`. Иначе ваши ключи и переменные могут случайно оказаться в репозитории.

In [3]:
!head ./../.gitignore

# config file
config.yaml

# Byte-compiled / optimized / DLL files
__pycache__/
*.py[cod]
*$py.class

# C extensions
*.so


In [4]:
!cat ./../config.yaml

## Дополняем `template.ipynb`
- Установка нужных библиотек из `requirements.txt`
- Импортируем библиотеки
- Загрузка `config.yaml` файлика

## Скачиваем данные
Обычно данные кладут в `./data/` директорию в корне репозитория. Данные можно скачивать:
- С помощью API (например Kaggle, но для этого нужен токен),
- Командой `curl ...` (по сути тоже руками),
- Руками, скачав архив, и распаковав его.

Для примера возьмем [Twitter Sentiment Analysis](https://www.kaggle.com/datasets/jp797498e/twitter-entity-sentiment-analysis) датасет с Kaggle

<div style="text-align:center">
    <img src="https://i.imgflip.com/8akyzs.jpg">
</div>


In [5]:
# Скачиваем данные
...

In [7]:
# Разбиваем на train/test
...

## Берем предобученную модельку с HuggingFace
На HuggingFace дофига разных предобученных моделек на все случаи жизни:
- NLP classification
- NLP language modeling
- CV classification (на самые разные классы)
- CV object detection
- ...

Для нашей задачи там тоже [есть модели](https://huggingface.co/models?pipeline_tag=text-classification&sort=downloads&search=sentiment)
