# Модуль 3. Мультимодальные и мультизадачные модели. Часть 1

Это вторая часть домашней работы №3 "Реализация Visual Question Answering / Document Question Answering"

## Часть 2. Использование модели

**Цель:** отработать навыки адаптации готовых моделей для решения прикладной задачи на русском языке, а также создание небольших демо для задач.

**В каком виде прислать результат:**

заполненный jupyter-notebook и видеозаписи работы с демо

### [2 балла] Добавить модель переводчика

У вас уже есть готовая модель, которая может по картинке отвечать на текстовые запросы к картинке. Ваша цель --- обобщить эту модель на русский язык, добавив модель переводчик, которая будет переводить запрос на русском языке в запрос на английском языке и передавать его модели. За основу вы можете взять языковую модель (например, https://huggingface.co/Helsinki-NLP/opus-mt-ru-en). Альтернативой может стать реализация функции, делающий api вызов, к приложению переводчика (например, https://libretranslate.com/).

---

**Ожидаемый результат**

В качестве результата в этой секции вам нужно предоставить функции, которые делают перевод с русского на английского и делает инференс модели DocVQA и выводит ответ на русском языке. (В качестве примеров вопросов, можете использовать данные из датасета)


In [None]:
!pip install -q transformers datasets
!pip install -q sentencepiece
!pip install -q git+https://github.com/cocodataset/cocoapi.git#subdirectory=PythonAPI
!pip install -q opencv-python
!pip install -q git+https://github.com/facebookresearch/detectron2.git
!pip install -q gradio
!pip install -q pillow
!pip install -q SpeechRecognition pydub

  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for pycocotools (setup.py) ... [?25l[?25hdone
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
detectron2 0.6 requires pycocotools>=2.0.2, but you have pycocotools 2.0 which is incompatible.[0m[31m
[0m  Preparing metadata (setup.py) ... [?25l[?25hdone


In [1]:
from transformers import MarianMTModel
from transformers import MarianTokenizer
from transformers import LayoutLMv2Processor
from transformers import LayoutLMv2ForQuestionAnswering
from transformers import LayoutLMv2Tokenizer

import torch
import torchvision.transforms as transforms

import gradio as gr
import speech_recognition as sr

from PIL import Image

from huggingface_hub import notebook_login
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [2]:
# Загрузка моделей и токенизаторов для обоих направлений перевода
models = {
    "ru-en": {
        "model_name": "Helsinki-NLP/opus-mt-ru-en",
        "model": None,
        "tokenizer": None
    },
    "en-ru": {
        "model_name": "Helsinki-NLP/opus-mt-en-ru",
        "model": None,
        "tokenizer": None
    }
}

# Функция инициализации модели и токенизатора (если они еще не были загружены)
def load_model_and_tokenizer(direction):
    if models[direction]["model"] is None or models[direction]["tokenizer"] is None:
        models[direction]["model"] = MarianMTModel.from_pretrained(models[direction]["model_name"])
        models[direction]["tokenizer"] = MarianTokenizer.from_pretrained(models[direction]["model_name"])

# Функция для перевода текста
def translate(text, direction):
    load_model_and_tokenizer(direction)
    tokenizer = models[direction]["tokenizer"]
    model = models[direction]["model"]
    inputs = tokenizer(text, return_tensors="pt")
    outputs = model.generate(**inputs)
    translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return translated_text

In [3]:
# Проверка функций перевода
text_ru = "Давайте поговорим об искусственном интеллекте!"
text_en = "Let's talk about artificial intelligence!"

translated_text_ru_en = translate(text_ru, "ru-en")
translated_text_en_ru = translate(text_en, "en-ru")

print("Оригинальный текст RU:", text_ru)
print("Переведенный текст RU-EN:", translated_text_ru_en)
print('-'*73)
print("Оригинальный текст EN:", text_en)
print("Переведенный текст EN-RU:", translated_text_en_ru)



Оригинальный текст RU: Давайте поговорим об искусственном интеллекте!
Переведенный текст RU-EN: Let's talk about artificial intelligence!
-------------------------------------------------------------------------
Оригинальный текст EN: Let's talk about artificial intelligence!
Переведенный текст EN-RU: Давайте поговорим об искусственном интеллекте!


In [4]:
# Загрузка модели, процессора и токенезатора
model_docvqa = LayoutLMv2ForQuestionAnswering.from_pretrained("NeKonnn/layoutlmv2-base-uncased_finetuned_docvqa")
processor_docvqa = LayoutLMv2Processor.from_pretrained("NeKonnn/layoutlmv2-base-uncased_finetuned_docvqa")
tokenizer_docvqa = LayoutLMv2Tokenizer.from_pretrained("NeKonnn/layoutlmv2-base-uncased_finetuned_docvqa")

In [5]:
def ru_inference(image_path, question_ru):
    '''
    Эта функция выполняет обработку изображения и вопроса на русском языке,
    использует модель для извлечения ответа на заданный вопрос из изображения,
    и возвращает ответ на русском языке.

    Параметры:
    image_path: путь к изображению, на котором нужно найти ответ.
    question_ru: вопрос на русском языке, на который нужно ответить.

    Возвращает:
    answer_ru: ответ на вопрос, извлеченный из изображения, на русском языке.
    '''


    image = Image.open(image_path).convert("RGB")
    question_en = translate(question_ru, "ru-en")
    inputs = processor_docvqa(image, question_en, return_tensors="pt")
    outputs = model_docvqa(**inputs)
    answer_start_scores = outputs.start_logits
    answer_end_scores = outputs.end_logits

    # Игнорирование токенов CLS, SEP и PAD для начала и конца ответа
    ignore_index = [tokenizer_docvqa.cls_token_id, tokenizer_docvqa.sep_token_id, tokenizer_docvqa.pad_token_id]
    answer_start_scores[:, ignore_index] = -float("Inf")
    answer_end_scores[:, ignore_index] = -float("Inf")

    # Выбор начального и конечного токенов ответа
    answer_start = torch.argmax(answer_start_scores)
    answer_end = torch.argmax(answer_end_scores) + 1

    # Преобразование индексов в токены и очистка от служебных символов
    answer_tokens = tokenizer_docvqa.convert_ids_to_tokens(inputs["input_ids"][0][answer_start:answer_end])
    answer_tokens = [token for token in answer_tokens if token not in (tokenizer_docvqa.cls_token, tokenizer_docvqa.sep_token, tokenizer_docvqa.pad_token)]

    # Сборка токенов в строку ответа
    answer = tokenizer_docvqa.convert_tokens_to_string(answer_tokens)
    answer_ru = translate(answer, "en-ru")

    return answer_ru

In [25]:
! pip install transformers datasets
! pip install 'git+https://github.com/facebookresearch/detectron2.git'
!sudo apt install tesseract-ocr
!pip install -q pytesseract

Collecting git+https://github.com/facebookresearch/detectron2.git
  Cloning https://github.com/facebookresearch/detectron2.git to /tmp/pip-req-build-9m0knvur
  Running command git clone --filter=blob:none --quiet https://github.com/facebookresearch/detectron2.git /tmp/pip-req-build-9m0knvur
  Resolved https://github.com/facebookresearch/detectron2.git to commit 337ca3490fa7879ceeeadf6c2b73d67504ff4b4f
  Preparing metadata (setup.py) ... [?25l[?25hdone
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
tesseract-ocr is already the newest version (4.1.1-2.1build1).
0 upgraded, 0 newly installed, 0 to remove and 19 not upgraded.


In [14]:
answer = ru_inference("/content/sample_data/text2.jpg", "Что такое информационные технологии?")
print("Ответ:", answer)

Ответ: Компьютерные системы или устройства для доступа к информации. Информационные технологии оказывают значительное влияние на нашу повседневную жизнь. Информационные технологии используются всеми предприятиями вплоть до одного человека и местных операций. Глобальные компании используют их для управления данными и модернизации своих процессов. Даже продавцы смартфонов используют для сбора платежей, а уличные исполнители дают имя для сбора пожертвований. Если вы используете таблицу для каталога, который вы покупаете Рождеством, вы используете информационную технологию.


### [2 балла] Сделать демо на gradio

Модель готова! Теперь было бы круто, если модель можно было захостить и оттестировать на практике. В этом задании вам нужно будет реализовать демо на gradio, которое будет принимать изображение и вопрос, а далее выдавать ответ. Пример демо, аналогично которому вам нужно реализовать модель --- https://huggingface.co/spaces/nielsr/comparing-VQA-models.


**Подсказка:**

В вкладке `Files` на демо вы можете посмотреть реализацию, там нужно заменить инференс, используемой модели, на инференс нашей модели с переводом


**Ожидаемый результат**

В качестве результата в этой секции вам нужно код для запуска демо на градио и видеозапись его работы, где реализован описанный выше функционал. Видео прикрепляйте отдельным файлом.

In [19]:
def ru_inference(image, question_ru):
    '''
    Функция для обработки изображения и вопроса на русском языке,
    для извлечения ответа на заданный вопрос с помощью модели документного вопросно-ответного анализа (DocVQA).
    Ответ извлекается из текста на изображении и переводится на русский язык.

    Параметры:
    image: изображение в формате PIL.Image, на котором нужно найти ответ.
    question_ru: вопрос на русском языке, на который нужно получить ответ из изображения.

    Возвращает:
    answer_ru: ответ на вопрос, извлечённый из текста на изображении и переведённый на русский язык.
    '''

    # Преобразование изображения в тензор PyTorch
    transform = transforms.Compose([
        transforms.ToTensor(),
    ])
    image = transform(image).unsqueeze(0)


    question_en = translate(question_ru, "ru-en")
    inputs = processor_docvqa(image, question_en, return_tensors="pt")
    outputs = model_docvqa(**inputs)
    answer_start_scores = outputs.start_logits
    answer_end_scores = outputs.end_logits

    # Игнорирование служебных токенов при выборе начального и конечного индексов
    ignore_index = [tokenizer_docvqa.cls_token_id, tokenizer_docvqa.sep_token_id, tokenizer_docvqa.pad_token_id]
    answer_start_scores[:, ignore_index] = -float("Inf")
    answer_end_scores[:, ignore_index] = -float("Inf")

    # Выбор начального и конечного токенов для ответа
    answer_start = torch.argmax(answer_start_scores)
    answer_end = torch.argmax(answer_end_scores) + 1

    # Извлечение токенов ответа
    answer_tokens = tokenizer_docvqa.convert_ids_to_tokens(inputs["input_ids"][0][answer_start:answer_end])
    answer_tokens = [token for token in answer_tokens if token not in (tokenizer_docvqa.cls_token, tokenizer_docvqa.sep_token, tokenizer_docvqa.pad_token)]

    # Преобразование токенов в строку ответа
    answer = tokenizer_docvqa.convert_tokens_to_string(answer_tokens)
    answer_ru = translate(answer, "en-ru")

    return answer_ru

In [20]:
# Определение интерфейса Gradio
iface = gr.Interface(
    fn=ru_inference,
    inputs=[gr.Image(type="pil"), gr.Textbox(lines=2, placeholder="Введите вопрос на русском языке")],
    outputs=gr.Textbox(),
)

# Запуск Gradio интерфейса
iface.launch(debug=True)

Setting queue=True in a Colab notebook requires sharing enabled. Setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. This cell will run indefinitely so that you can see errors and logs. To turn off, set debug=False in launch().
Running on public URL: https://dfad1531182258e1c1.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)


Keyboard interruption in main thread... closing server.
Killing tunnel 127.0.0.1:7860 <> https://dfad1531182258e1c1.gradio.live




### [4 балла] Ответы на вопросы голосом

Демо готово! Но кто хочет писать вопросы текстом?
Здесь вам предстоить улучшить ваше демо, чтобы оно могло принимать вопросы голосом. За основу вам предлагается рассмотреть демо https://www.gradio.app/guides/real-time-speech-recognition и добавить соответствуещее окошко в ваше демо. Также вы можете добавить text-to-speech модель, чтобы оно озвучило текстовый ответ (дополнительный балл к оценке)

---

**Ожидаемый результат**

В качестве результата в этой секции вам нужно код для запуска демо на градио и видеозапись его работы, где реализован описанный выше функционал.

In [47]:
!pip install gTTS

Collecting gTTS
  Downloading gTTS-2.4.0-py3-none-any.whl (29 kB)
Installing collected packages: gTTS
Successfully installed gTTS-2.4.0


In [60]:
# Импортируем необходимые библиотеки для TTS
import gtts
import tempfile
from io import BytesIO

In [43]:
def recognize_speech(audio_path):
    r = sr.Recognizer()
    with sr.AudioFile(audio_path) as source:
        audio = r.record(source)
    text = r.recognize_google(audio, language='ru-RU')
    return text

In [66]:
# Функция преобразования текста в речь
def text_to_speech(text, lang='ru'):
    """
    Преобразование данного текста в аудио.

    Параметры:
    text (str): Текст для преобразования в речь.
    lang (str): Языковой код для TTS.

    Возвращает:
    BytesIO: Буфер байтов аудиофайла.
    """
    tts = gtts.gTTS(text=text, lang=lang)
    # Создаем временный файл для сохранения аудио
    temp_file = tempfile.NamedTemporaryFile(delete=False, suffix='.mp3')
    tts.save(temp_file.name)
    return temp_file.name

In [63]:
# Функция обработки изображения и вопроса
def ru_inference(image, question_ru=None, audio=None):
    # Преобразование изображения в тензор PyTorch
    transform = transforms.Compose([transforms.ToTensor()])
    image = transform(image).unsqueeze(0)

    if audio is not None:
        # Если предоставлен аудиофайл, используем функцию распознавания речи
        question_ru = recognize_speech(audio)

    
    question_en = translate(question_ru, "ru-en")

    # Препроцессинг изображения и вопроса
    inputs = processor_docvqa(image, question_en, return_tensors="pt")
    outputs = model_docvqa(**inputs)

    # Игнорирование служебных токенов и извлечение ответа
    ignore_index = [tokenizer_docvqa.cls_token_id, tokenizer_docvqa.sep_token_id, tokenizer_docvqa.pad_token_id]
    answer_start_scores = outputs.start_logits
    answer_end_scores = outputs.end_logits
    answer_start_scores[:, ignore_index] = -float("Inf")
    answer_end_scores[:, ignore_index] = -float("Inf")
    answer_start = torch.argmax(answer_start_scores)
    answer_end = torch.argmax(answer_end_scores) + 1

    # Извлечение токенов ответа и преобразование их в строку
    answer_tokens = tokenizer_docvqa.convert_ids_to_tokens(inputs["input_ids"][0][answer_start:answer_end])
    answer_tokens = [token for token in answer_tokens if token not in (tokenizer_docvqa.cls_token, tokenizer_docvqa.sep_token, tokenizer_docvqa.pad_token)]
    answer = tokenizer_docvqa.convert_tokens_to_string(answer_tokens)

    # Перевод ответа с английского на русский
    answer_ru = translate(answer, "en-ru")
    answer_audio_path = text_to_speech(answer_ru)

    return answer_ru, answer_audio_path

In [65]:
# Создание интерфейса Gradio
iface = gr.Interface(
    fn=ru_inference,
    inputs=[
        gr.Image(type="pil"),
        gr.Textbox(lines=2, placeholder="Введите вопрос на русском языке (или оставьте пустым, если хотите использовать голос)"),
        gr.Audio(sources="microphone", type="filepath")
    ],
    outputs=[
        gr.Textbox(label="Ответ на русском языке"),
        gr.Audio(label="Озвученный ответ")
    ],
    title="Интерфейс для вопросов и ответов",
    description="Загрузите изображение и введите или скажите свой вопрос."
)

# Запуск интерфейса Gradio
iface.launch(debug=True)

Setting queue=True in a Colab notebook requires sharing enabled. Setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. This cell will run indefinitely so that you can see errors and logs. To turn off, set debug=False in launch().
Running on public URL: https://4302736649b4d61985.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)


ERROR:    Exception in ASGI application
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/uvicorn/protocols/http/h11_impl.py", line 408, in run_asgi
    result = await app(  # type: ignore[func-returns-value]
  File "/usr/local/lib/python3.10/dist-packages/uvicorn/middleware/proxy_headers.py", line 84, in __call__
    return await self.app(scope, receive, send)
  File "/usr/local/lib/python3.10/dist-packages/fastapi/applications.py", line 1106, in __call__
    await super().__call__(scope, receive, send)
  File "/usr/local/lib/python3.10/dist-packages/starlette/applications.py", line 122, in __call__
    await self.middleware_stack(scope, receive, send)
  File "/usr/local/lib/python3.10/dist-packages/starlette/middleware/errors.py", line 184, in __call__
    raise exc
  File "/usr/local/lib/python3.10/dist-packages/starlette/middleware/errors.py", line 162, in __call__
    await self.app(scope, receive, _send)
  File "/usr/local/lib/python3.10/dist-pack

Keyboard interruption in main thread... closing server.
Killing tunnel 127.0.0.1:7861 <> https://4302736649b4d61985.gradio.live


