Skip to content

Latest commit

 

History

History
24 lines (20 loc) · 2.64 KB

ml.md

File metadata and controls

24 lines (20 loc) · 2.64 KB

Тестовое задание на позицию специалиста по анализу данных в компанию BIOCAD

Одной из задач департамента вычислительной биологии является построение физичных моделей происходящих процессов с целью предсказать результаты эксперимента. Даже при сравнительно низкой точности предсказаний это может быть полезно, если необходимо установить необходимость проведения дорогостоящих анализов. Одной из проблем честных физичных моделей является их высокие требования к вычислительным мощностям. Нередко можно, в ущерб точности и физическому смыслу, построить статистическую модель, работающую на порядки быстрее.

Задача

Данные. В рамках тестового задания Вам дана таблица (concat.CSV) с названием молекулы и рассчитанными свойствами. Нас интересуют QPlogS — логарифм растворимости соединения. Обратите внимание, что остальные столбцы в таблице — тоже целевые переменные (в других задачах) и не могут быть непосредственно использованы для обучения. В другой таблице (1000000.smi) указаны соответствия названий молекул их SMILES-записи, которая отражает их структуру. Вам предлагается построить модель, которая будет предсказывать интересующее нас свойство.

Критерии оценки

  • Интерпретируемость модели: почему она предсказала именно это значение, а не другое?
  • Качество кода: понятен ли Ваш код человеку, не знакомому с этим заданием?
  • Мотивация выбора методов: как Вы объясните свой выбор подхода векторизации молекул? а модели?