Стартап AquaTrack запустил приложение для отслеживания водного баланса, где пользователи могут добавлять напитки и следить за прогрессом. Важно, чтобы приложение работало без ошибок: данные о напитках сохранялись корректно, обновления отображались сразу, а интерфейс реагировал на действия пользователя без задержек.

В типичном процессе тестирования пользовательского интерфейса (UI/UX) компании часто нанимают специалистов, чтобы вручную проверять кнопки, переходы и все возможные сценарии взаимодействия с приложением или веб-сервисом. Этот подход, однако, требует значительных затрат времени и средств, поскольку каждый сценарий взаимодействия приходится проверять вручную.

Но AquaTrack решил оптимизировать этот процесс и сократить затраты с помощью автоматизированного тестирования на основе искусственного интеллекта. Для этих целей они используют OmniParser — инструмент, который автоматически распознает интерактивные элементы на экране, их расположение и функционал, что позволяет в дальнейшем проверять корректность взаимодействия с интерфейсом, запуская приложение в симуляторе и прописывая ИИ сценарии взаимодействия с интерфейсом на естественном языке.

UI (пользовательский интерфейс) и UX (пользовательский опыт) — это ключевые аспекты любого цифрового продукта, будь то веб-приложение, мобильное приложение или десктопный софт. UI отвечает за внешний вид приложения, включая расположение кнопок, меню и других элементов, а UX — за то, насколько удобно и интуитивно пользователи могут с ним взаимодействовать.

Для создания качественного продукта важно, чтобы UI был визуально привлекателен, а UX обеспечивал лёгкость и удобство использования. На этапе тестирования UI/UX проверяются такие аспекты, как корректное отображение элементов, их интерактивность и отзывчивость. Цель тестирования заключается в том, чтобы интерфейс работал предсказуемо, был интуитивным и способствовал положительному опыту взаимодействия, устраняя возможные ошибки и неудобства.

OmniParser — это инновационный инструмент от Microsoft Research, который преобразует скриншоты интерфейса (UI) в структурированные данные. Он помогает распознавать и понимать кнопки, иконки, меню и другие элементы интерфейса, чтобы улучшить взаимодействие пользователя с приложением.

Этот инструмент полезен для автоматизированных тестовых систем, которые проверяют интерфейсы на разных устройствах — от веб-приложений до мобильных и десктопных программ. OmniParser упрощает задачу анализа интерфейсов, помогая находить ошибки и улучшать их функциональность.

С помощью OmniParser можно создать умного AI-тестировщика для приложений, который "видит" экран глазами пользователя и может с ним взаимодействовать как человек: нажимать нужные кнопки, заполнять поля и переключаться между разделами в зависимости от инструкции.

Например, такой помощник может проверить, что кнопка добавления напитка в AquaTrack работает корректно, или протестировать функцию обновления прогресса за день с учётом дневной цели потребления жидкости. 

Пайплайн обработки изображений в OmniParser состоит из двух простых этапов:

YOLOv8 — обнаруживает интерактивные элементы на скриншоте (такие, как кнопки, поля и иконки).
BLIP-2 — генерирует текстовые описания для каждого элемента, связывая его визуальный образ с его функцией, чтобы упростить анализ и понимание работы интерфейса.

YOLO (You Only Look Once) — это легковесная (а значит, быстрая) модель для детекции объектов, которая "одним взглядом" на изображение выделяет bounding boxes — прямоугольники вокруг каждого обнаруженного элемента.

После того как YOLOv8 обнаружил элементы интерфейса, следующий этап — это понять, что каждый элемент означает. Для этого используется модель BLIP-2 (Bootstrapping Language-Image Pre-training), которая умеет генерировать текстовые описания для изображений. По сути, BLIP-2 смотрит на выделенные элементы и объясняет интуитивные функции за ними — например, если это значок корзины, она определит его как «добавить в корзину».

После обнаружения и описания элементов интерфейса OmniParser преобразует все данные в структурированный формат. Это позволяет системам на базе LMM (Large Multimodal Models), таким как GPT-4V или LLaVA (Large Language and Visual Assistant), получать организованный список элементов со всеми необходимыми данными (координаты, назначение, ID), что облегчает интерпретацию интерфейса.

В этой задаче мы будем использовать модель OmniParser с huggingface.

Нам необходимо разработать серию автоматических тестов. Для этого мы будем использовать OmniParser для проверки корректности работы интерфейса.



1. Получение интерактивных элементов
Напишите функцию get_ui_elements, которая будет использовать OmniParser для анализа скриншота. Получите интерактивные элементы с их координатами и описанием.


In [9]:
from PIL import Image
from transformers import AutoProcessor, AutoModelForVisualQuestionAnswering

# Функция для получения интерактивных элементов с экрана AquaTrack
def get_ui_elements(screenshot_path):
    """
    Получает интерактивные элементы с экрана AquaTrack.

    :param screenshot_path: Путь к изображению скриншота.
    :return: Список интерактивных элементов с их координатами и описаниями.
    """
    # TODO: Загрузите процессор модели OmniParser. Используйте AutoProcessor.from_pretrained с названием модели.
    processor = AutoProcessor.from_pretrained("microsoft/OmniParser")
    
    # TODO: Загрузите саму модель OmniParser. Используйте AutoModelForVisualQuestionAnswering.from_pretrained.
    model = AutoModelForVisualQuestionAnswering.from_pretrained("microsoft/OmniParser")

    # TODO: Откройте изображение с помощью библиотеки PIL
    image = Image.open(screenshot_path)

    # TODO: Подготовьте изображение для обработки моделью с помощью processor. 
    # Подсказка: используйте метод processor с параметрами image и return_tensors="pt".
    inputs = processor(image=image, return_tensors = "pt")

    # TODO: Сделайте предсказание с использованием модели. Подайте inputs на вход в model и получите результат.
    outputs = model(**inputs)

    # TODO: Обработайте выходные данные, чтобы получить список интерактивных элементов.
    # Подсказка: используйте атрибут .logits или другие атрибуты outputs для извлечения информации.
    ui_elements = outputs['logits']
    
    return ui_elements



In [10]:
get_ui_elements("aquatrack1.jpg")

OSError: microsoft/OmniParser does not appear to have a file named preprocessor_config.json. Checkout 'https://huggingface.co/microsoft/OmniParser/tree/main' for available files.