Тестовое задание на позицию специалиста по анализу данных в компанию BIOCAD
Одной из задач департамента вычислительной биологии является построение физичных моделей происходящих процессов с целью предсказать результаты эксперимента. Даже при сравнительно низкой точности предсказаний это может быть полезно, если необходимо установить необходимость проведения дорогостоящих анализов. Одной из проблем честных физичных моделей является их высокие требования к вычислительным мощностям. Нередко можно, в ущерб точности и физическому смыслу, построить статистическую модель, работающую на порядки быстрее.
Данные. В рамках тестового задания Вам дана таблица (concat.CSV) с названием молекулы и рассчитанными свойствами. Нас интересуют QPlogS — логарифм растворимости соединения. Обратите внимание, что остальные столбцы в таблице — тоже целевые переменные (в других задачах) и не могут быть непосредственно использованы для обучения. В другой таблице (1000000.smi) указаны соответствия названий молекул их SMILES-записи, которая отражает их структуру. Вам предлагается построить модель, которая будет предсказывать интересующее нас свойство.
- Интерпретируемость модели: почему она предсказала именно это значение, а не другое?
- Качество кода: понятен ли Ваш код человеку, не знакомому с этим заданием?
- Мотивация выбора методов: как Вы объясните свой выбор подхода векторизации молекул? а модели?