- Выбрать многоспектральный снимок из открытых источников. Количество каналов снимка должно быть не менее 4.
- Задать вручную классы областей (объектов) на снимке (не менее 4).
- Произвести классификацию точек снимка с использованием метрики Евклида-Махаланобиса.
main.pdf - статья, иллюстрирующая работу по пунктам 1-3. Расстояния, метрики и кластерный анализ.pdf - статья, в которой подробнее описано вычисление расстояния Евклида-Махаланобиса.
Снимки: https://apps.sentinel-hub.com/eo-browser
-
Разработать прогностическую модель для набора данных диабетических обследований diabetes.txt. Использовать логистическую регрессию и метод максимального правдоподобия. Коэффициенты логистической регрессии найти с помощью метода градиентного спуска, который необходимо запрограммировать вручную. Разбить выборку на обучающую и тестовую. Вычислить точность классификации
-
Применить отбор признаков на основе корреляции: выбрать наилучшее признаковое пространство, имеющее на два измерения меньше исходного. Построить новую модель и вычислить точность классификации. Использовать критерий CFS. Сравнить с наивным решением, при котором исключаются два наименее скоррелированных с классификацией признака. Построить тепловую карту для иллюстрации корреляций.
Реализовать фильтрацию спама с помощью наивного байесовского классификатора. Реализовать модель согласно формулам для классификатора с предубеждением. Разбить набор данных на обучающую и тестовую выборки, рассчитать точность классификации. Запрещается использовать сторонние библиотеки с реализацией классификатора.
Выбрать популяционный алгоритм и реализовать его. См. обзор Карпенко А.П. (https://www.dropbox.com/scl/fo/z9xlx70rl04n3a618hick/h?rlkey=qybrvyqmtt57l43dt6q7tyde8&st=7ybktx8s&dl=0). Запрещенные алгоритмы: роя светлячков, бактериальная оптимизация, гармонический поиск, кукушкин поиск, поиск косяком рыб, метод муравьиных колоний.
Разработать генетический алгоритм решения задачи коммивояжера (симметричный вариант). Использовать представление задачи в виде модели на графе. Литература: https://www.dropbox.com/scl/fo/t5zl8rwvrsxc7x8ya62j4/h?rlkey=uofwk30d8ufl79sqk8g7wr9wg&st=me6p2ind&dl=0
Используя универсальный кодировщик предложений (https://www.tensorflow.org/hub/tutorials/semantic_similarity_with_tf_hub_universal_encoder) и косинусное расстояние в качестве метрики выполнить кластерный анализ применительно к набору коротких текстов. Реализовать knn-классификатор, где k - изменяемый параметр. Реализовать семантический поиск для вводимого короткого текста в двух вариантах: во всем наборе данных, внутри определенного классификатором класса для различных значений k. Набор данных: https://www.kaggle.com/datasets/miguelaenlle/massive-stock-news-analysis-db-for-nlpbacktests?select=analyst+ratings+processed.csv [Conference paper] [ББСО, Босачева Татьяна] Determining Of Semantically Close Texts Of Stock Market News Using Natural Language Processing (https://drive.google.com/file/d/10wO-HLjzGtSabxOJN_NOhHJMYtWDxsvt/view?usp=share_link)