# ML трек для курса "Высшая Лига" в Калининграде февраль - март 2025
На этом треке мы будем разбираться, как надо делать ML на хакатонах, чтоб повысить шансы на победу за счет ML на хакатонах. Будем делать это на примере кейса, который вы выбрали командой:
1. Система анализа качества воздуха с датчиков
2. Приложение для ухода за растениями
3. SkillMatch - платформа умного подбора менторов и курсов

Постараемся решить кейс так, чтобы после завершения курса у вас остались не только знания, но и какие-то шаблоны, которые можно будет переиспользовать на реальных хакатонах.

## Чего ожидать от курса?
- Много фидбека по вашим решениям
- Изучения новых инструментов
- Шаблонизация разных компонент ваших решений
- _Иногда шуток_

## Чего **НЕ** ожидать от курса?
- Теоретического обоснования работоспособности моделей

## Кто я такой?
- ML Разработчик в Яндексе
- ex-ML Researcher в Huawei
- Судья Чемпионата и Первенства России ФСП 2024
- Эксперт Цифрового Прорыва 2024

Окончил магистратуру СПбГУ и ШАД, проводил курсы по "ML & Art" в Сириусе,
летнюю школу по Fine-tuning'у ML моделей на факультете.

5 лет занимаюсь машинным обучением. Успел побывать и в роли
исследователя и в роли инженера, который внедряет модели в продакшн.

Компетенции
- ML в поисковых системах
- Использование ML в продуктовых хакатонах
- Быстрый сбор ML пайплайнов
- Дизайн ML экспериментов

## Давайте знакомиться! Чего вы знаете про ML?
- Какие модели / библиотеки уже использовали?
- Какую самую сложную задачу решали?
- Чего хотели бы в ML изучить?
- Какой трек выбрали?

<div style="text-align:center">
    <img src="https://i.pinimg.com/736x/ed/cb/7a/edcb7a56b7dc6fb631b3981f4576b44d.jpg">
</div>

# Занятие 1: Введение в кейсы и как можно прокачиваться на ML хакатонах
- [x] Познакомиться
- [ ] Разобрать кейсы с точки зрения ML
- [ ] Научиться пользоваться "магическими командами" в `.ipynb`
- [ ] Настроить `.ipynb` файлик, который будет нашим шаблоном

# Занятие 1: Как можно прокачиваться на ML хакатонах и введение в кейсы
## Как побеждать на хакатонах с использованием ML?
<div style="text-align:center">
    <img src="https://avatars.mds.yandex.net/i?id=92d645e2f852739e80e800913126b2e58288dfe6f387b21d-12267805-images-thumbs&n=13">
</div>

* Делать решения быстрыми (и подтверждать быстроту замерами)
* Делать reliable решения, которые не подвержены случайным выбросам
* Давать доступ к своей модели
* Уже в конце крутить метрику

## Как можно прокачивать себя для ML хакатонов?
1. Хард скилы
    * Изучаем новые ML-модели для работы с данными
    * Учимся лучше предобрабатывать данные
    * Читаем посты других участников / изучаем чужие решения
2. Оптимизация процессов
    * Заготовка шаблонных функций и `import`ов
    * Заготовка скриптов для инференса и эвала моделей

<div style="text-align:center">
    <img src="https://www.oreilly.com/api/v2/epubs/9781492053187/files/assets/bmlp_0104.png">
</div>


# Кейсы

## Кейс №1 💨 **"Система анализа качества воздуха с датчиков"** 1/2
### Описание проблемы
В современных городах качество воздуха становится критическим фактором здоровья населения. Существующие системы мониторинга часто не предоставляют персонализированной информации и рекомендаций для конкретных пользователей и локаций.

### Требования к решению
* Простая модель прогнозирования на 24 часа
* Базовый анализ трендов
* Простые рекомендации на основе пороговых значений

### ⚠️ Action required! ⚠️ 
* Q1: Что это за задача с точки зрения ML?
* Q2: Какой здесь мог бы быть бейзлайн?

## Кейс №1 💨 **"Система анализа качества воздуха с датчиков"** 2/2
### Задача с точки зрения ML
* Задачу можно отнести к Time Series
* Надо быть аккуратным при сборе обучающих данных (Time leakage)
* Можно строить сложные архитектуры из разных ML модулей
    * Базовый - предсказание на основе табличных данных
    * Новостной - берет данные о близлижащих заводах, и т. п.
    * Визуальный - добавляем данные с камер

### Датасеты
* [Urban Air Pollution Dataset](https://www.kaggle.com/datasets/bappekim/air-pollution-in-seoul)
* [Air Quality Index Dataset](https://www.kaggle.com/datasets/rohanrao/air-quality-data-in-india)
* [Beijing Air Quality](https://www.kaggle.com/datasets/sid321axn/beijing-multisite-airquality-data-set)
* [Air Quality Madrid](https://www.kaggle.com/datasets/decide-soluciones/air-quality-madrid)
* [OpenAQ API - данные о качестве воздуха в реальном времени](https://openaq.org/#/)
* [World Air Quality Index API](https://aqicn.org/api/)

## Кейс №2 🌸 **"Приложение для ухода за растениями"** 1/2
### Описание проблемы
Создать базовое мобильное приложение для помощи в уходе за домашними растениями с простой системой распознавания и базовыми рекомендациями.

### Требования к решению
1. Простая классификация растений:
- Определение 5-7 популярных комнатных растений
- Базовое определение состояния (здоровое/нездоровое)
2. Простые рекомендации:
- График полива на основе вида растения
- Базовые советы по уходу

### ⚠️ Action required! ⚠️ 
* Q1: Что это за задача с точки зрения ML?
* Q2: Какой здесь мог бы быть бейзлайн?

## Кейс №2 🌸 **"Приложение для ухода за растениями"** 2/2
### Задача с точки зрения ML
* Задачу можно отнести к Computer Vision - Image Classification
* Можно экспериментировать с одной моделью, но разными классифицирующими головами
* Можно после классификатора отправлять данные с вопросами про растение в LLM 

### Датасеты
- [Plant Disease Dataset](https://www.kaggle.com/datasets/abdallahalidev/plantvillage-dataset)
- [Plant Seedlings Classification](https://www.kaggle.com/competitions/plant-seedlings-classification/data)
- [Trefle API - API для данных о растениях](https://trefle.io/)
- [Plant.id API - API для идентификации растений](https://web.plant.id/)
- [Oxford Flowers Dataset](https://www.robots.ox.ac.uk/~vgg/data/flowers/)
- [iNaturalist Challenge Dataset](https://www.kaggle.com/c/inaturalist-2019-fgvc6/data)
- [Medicinal Plants Dataset](https://www.kaggle.com/datasets/aryashah2k/indian-medicinal-leaves-dataset)

## Кейс №3 🥷 **"SkillMatch - платформа умного подбора менторов и курсов"**
### Описание проблемы
Создание веб-платформы, которая с помощью ИИ анализирует текущий уровень пользователя и его цели, после чего предлагает оптимальный план развития, включающий комбинацию менторских сессий и онлайн-курсов.

### Требования к решению
- Подбор персонализированного плана обучения
- Определение уровня пользователя
- Построить связи между навыками и курсами
- Определение оптимальной стоимости менторских сессий

### ⚠️ Action required! ⚠️ 
* Q1: Что это за задача с точки зрения ML?
* Q2: Какой здесь мог бы быть бейзлайн?

### Датасеты
1. Для навыков и профессий
   - [LinkedIn Skills Dataset](https://www.kaggle.com/datasets/peopledatalabssf/free-7-million-company-dataset)
   - [O*NET Database (база профессиональных навыков)](https://www.onetonline.org/download/)

2. Для образовательных курсов
   - [Coursera Courses Dataset](https://www.kaggle.com/datasets/siddharthm1698/coursera-course-dataset)
   - [Udemy Courses Dataset](https://www.kaggle.com/datasets/andrewmvd/udemy-courses)
   - [edX Course Data](https://www.kaggle.com/datasets/khusheekapoor/edx-courses-dataset-2021)

3. Для менторства и обучения
   - [Teaching Assistant Evaluation Dataset](https://archive.ics.uci.edu/dataset/73/teaching+assistant+evaluation)
   - [Student Performance Dataset](https://www.kaggle.com/datasets/spscientist/students-performance-in-exams)

4. Для рекомендательной системы
   - [Amazon Product Reviews](https://www.kaggle.com/datasets/cynthiarempel/amazon-us-customer-reviews-dataset)
   - [Movie Lens Dataset (можно адаптировать принципы рекомендаций)](https://grouplens.org/datasets/movielens/)

5. Для анализа профессиональных профилей
   - Indeed Job Postings
   - [GitHub Users Dataset](https://www.kaggle.com/datasets/nikhil25803/github-dataset)

6. Для ценообразования
   - [Online Education Pricing Dataset](https://www.kaggle.com/datasets/imuhammad/edx-courses)

# Содержательная часть - Jupter Notebook
Если еще не установлен, то вот [ссылка](https://jupyter.org/install)

## Как пользоваться магическими командами в Jupyter Notebook?
Магические команды в Jupyter Notebook — это специальные команды, которые обеспечивают доступ к некоторым встроенным функциям и настройкам, а также позволяют управлять средой выполнения. Существуют два типа магических команд: строковые (line magics) и ячеечные (cell magics). Строковые команды начинаются с одного знака процента `%`, а ячеечные — с двух процентов `%%`.

**Строковые магические команды**: они применяются к одной строке кода. 

In [2]:
%timeit x = [i**2 for i in range(1000)]

33.2 μs ± 140 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


**Ячеечные магические команды**: они применяются ко всей ячейке. Например:

In [3]:
%%timeit
x = [i**2 for i in range(1000)]
y = [i**3 for i in range(1000)]

79.9 μs ± 633 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


### Некоторые полезные магические команды

- `%lsmagic`: показывает список всех доступных магических команд.
- `%time` и `%timeit`: измеряют время выполнения кода.
    - `%time` используется для одноразовых измерений,
    - `%timeit` — для многократных.
- `%matplotlib inline`: используется для отображения графиков matplotlib непосредственно в ячейках Jupyter Notebook.
- `%run`: выполняет Python-скрипт из файла.
- `%debug`: запускает интерактивный отладчик после исключения.
- `%%writefile`: записывает содержимое ячейки в файл.


In [4]:
%%writefile my_script.py
def hello():
    print("Hello, world!")

Writing my_script.py


Отдельный интерес представляет команда `%run`, с помощью нее мы можем запускать другие Jupyter Notebook'и

In [1]:
%run template.ipynb

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
100 19.6M  100 19.6M    0     0  5350k      0  0:00:03  0:00:03 --:--:-- 7896k


## И еще полезное!

In [6]:
files = "./.."
!ls -al $files

total 16
drwxr-xr-x   7 obivan  LD\Domain Users   224 Feb  6 11:23 [1m[36m.[m[m
drwxr-xr-x  17 obivan  LD\Domain Users   544 Feb  6 11:19 [1m[36m..[m[m
drwxr-xr-x  12 obivan  LD\Domain Users   384 Feb  6 15:39 [1m[36m.git[m[m
-rw-r--r--   1 obivan  LD\Domain Users  3415 Feb  6 11:20 .gitignore
-rw-r--r--   1 obivan  LD\Domain Users   101 Feb  6 11:23 README.md
drwxr-xr-x   6 obivan  LD\Domain Users   192 Feb  6 16:00 [1m[36mlecture1[m[m
drwxr-xr-x   3 obivan  LD\Domain Users    96 Feb  6 11:23 [1m[36mmisc[m[m


## Домашнее задание
1. Создать репозиторий на гитхабе, в котором вы будете решать выбранный кейс
2. Залить ссылку на репозиторий в Гугл хранилище, которые вам выдали
3. Создать свой template.ipynb и добавить в него все `import`'ы, которые вам часто пригождаются
4. *Добавить часто-используемые функции в ноутбук (ну, вдруг у вас уже накопились)