### **Система перевода речи в реальном времени**


Функционал:
  - Распознает речь на входном языке
  - Переводит на целевой язык
  - Синтезирует речь на целевом языке
  - Сохраняет характеристики голоса говорящего

# Установка и импорт

In [None]:
!pip install gradio
!pip install transformers
!pip install translators
!pip install -q TTS

Collecting gradio
  Downloading gradio-5.12.0-py3-none-any.whl.metadata (16 kB)
Collecting aiofiles<24.0,>=22.0 (from gradio)
  Downloading aiofiles-23.2.1-py3-none-any.whl.metadata (9.7 kB)
Collecting fastapi<1.0,>=0.115.2 (from gradio)
  Downloading fastapi-0.115.6-py3-none-any.whl.metadata (27 kB)
Collecting ffmpy (from gradio)
  Downloading ffmpy-0.5.0-py3-none-any.whl.metadata (3.0 kB)
Collecting gradio-client==1.5.4 (from gradio)
  Downloading gradio_client-1.5.4-py3-none-any.whl.metadata (7.1 kB)
Collecting markupsafe~=2.0 (from gradio)
  Downloading MarkupSafe-2.1.5-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.0 kB)
Collecting pydub (from gradio)
  Downloading pydub-0.25.1-py2.py3-none-any.whl.metadata (1.4 kB)
Collecting python-multipart>=0.0.18 (from gradio)
  Downloading python_multipart-0.0.20-py3-none-any.whl.metadata (1.8 kB)
Collecting ruff>=0.2.2 (from gradio)
  Downloading ruff-0.9.1-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.meta

In [None]:
import translators as ts # Переводчик

from IPython.display import HTML # для активации JavaScript

import gradio as gr # Интерфейс
from transformers import pipeline # Запуск модели с HF

from TTS.api import TTS  # API для Text-to-Speech

# Архитектура модели

In [None]:
# @title Включение микрофона
js='''
<script>
navigator.mediaDevices.getUserMedia({audio: true})
</script>
'''
display(HTML(js))

In [None]:
# @title Константы
class RealTimeTranslator():
    def __init__(self):
        # Для выбора языка
        self.langs=("en", "es", "fr","de","it","pt","pl","tr","ru","nl","cs",
                    "ar","zh-cn","ja","hu","ko","hi")

        # Выбор языка для человека (удобочитаемый)
        self.lang_for_user ="""английский (en) испанский (es) французский (fr) немецкий (de)
                        итальянский (it) португальский (pt) польский (pl) турецкий (tr)
                        русский (ru) голландский (nl) чешский (cs) арабский (ar) китайский (zh-cn)
                        японский (ja) венгерский (hu) корейский (ko) хинди (hi)"""

        self.whisper = pipeline("automatic-speech-recognition","openai/whisper-large-v3-turbo")

        self.target_audio_name = 'output.wav' # Целевое название файла

        self.tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", progress_bar=False) # Модель клонирования

    def choice_language(self, lang):
        return True if lang in self.langs else False

    def speech_to_text(self, speech, lang):
        return self.whisper(speech)['text']

    def translate_to_text(self, text, lang):
        return ts.translate_text(text, to_language=lang)

    def translate_speech(self, audio, target_text, lang):
        self.tts.tts_to_file(text=target_text,              # Целевой текст
                        file_path=self.target_audio_name,   # Путь до целевого аудио
                        speaker_wav=audio, # Исходное аудио
                        language=lang           # Целевой язык
                        )
        return self.target_audio_name

rtt = RealTimeTranslator()

# Интерфейс

In [None]:
def gr_choice_language(lang):
    choice = rtt.choice_language(lang)
    if choice:
        return gr.Textbox(interactive=False)
    else:
        gr.Warning("Неправильный ввод!")

def gr_speech_to_text(speech, lang):
    if lang != '':
        return rtt.speech_to_text(speech, lang)
    else:
        gr.Warning('Введите целевой язык!')

def gr_translate_to_text(text, lang):
    if lang != '':
        return rtt.translate_to_text(text, lang)

def gr_translate_speech(audio, target_text, lang):
    if lang !='':
        return rtt.translate_speech(audio, target_text, lang)




with gr.Blocks() as demo:


    with gr.Row():
        with gr.Column():
            language = gr.Textbox(label='Целевой язык аудиофайла',
                                  info=rtt.lang_for_user)

            audio = gr.Audio(sources="microphone", type="filepath")

        with gr.Column():
            sourse_text = gr.Textbox(label='Текст оригинальной записи', interactive=False)
            target_text = gr.Textbox(label='Текст целевой записи', interactive=False)
            target_audio = gr.Audio(label='Аудио на целевом языке', interactive=False)

    language.submit(fn=gr_choice_language,
                    inputs=language,
                    outputs=language)

    audio.stop_recording(fn=gr_speech_to_text, inputs=[audio, language], outputs=sourse_text)\
     .then(fn=gr_translate_to_text, inputs=[sourse_text, language], outputs=target_text)\
     .then(fn=gr_translate_speech, inputs=[audio, target_text, language], outputs=target_audio)


demo.launch()