## Подготавливаем данные

В качестве исходного материала для чат-бота будем использовать ролики с YouTube. Для того, чтобы с ними работать, установим библиотеку [`PyTube`](https://pytube.io/).

In [1]:
%pip install pytube

Defaulting to user installation because normal site-packages is not writeable
Collecting pytube
  Downloading pytube-15.0.0-py3-none-any.whl (57 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m57.6/57.6 kB[0m [31m1.1 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hInstalling collected packages: pytube
[0mSuccessfully installed pytube-15.0.0


Возможно, прежде чем выполнять следующий код, вам потребуется перезапустить Kernel.

### Скачиваем звуковые дорожки к видео

Посмотрим, как можно обратиться к ролику на YouTube по ссылке:

In [1]:
from pytube import YouTube
yt = YouTube("https://www.youtube.com/watch?v=7mWPlXvPG7A")
yt.title,yt.streams

('Yandex Scale 2022. Главный доклад.',
 [<Stream: itag="17" mime_type="video/3gpp" res="144p" fps="6fps" vcodec="mp4v.20.3" acodec="mp4a.40.2" progressive="True" type="video">, <Stream: itag="18" mime_type="video/mp4" res="360p" fps="25fps" vcodec="avc1.42001E" acodec="mp4a.40.2" progressive="True" type="video">, <Stream: itag="22" mime_type="video/mp4" res="720p" fps="25fps" vcodec="avc1.64001F" acodec="mp4a.40.2" progressive="True" type="video">, <Stream: itag="137" mime_type="video/mp4" res="1080p" fps="25fps" vcodec="avc1.640028" progressive="False" type="video">, <Stream: itag="248" mime_type="video/webm" res="1080p" fps="25fps" vcodec="vp9" progressive="False" type="video">, <Stream: itag="136" mime_type="video/mp4" res="720p" fps="25fps" vcodec="avc1.4d401f" progressive="False" type="video">, <Stream: itag="247" mime_type="video/webm" res="720p" fps="25fps" vcodec="vp9" progressive="False" type="video">, <Stream: itag="135" mime_type="video/mp4" res="480p" fps="25fps" vcodec="av

Мы видим, что с каждым видео связано несколько потоков, включая звуковые. Мы можем отфильтровать нужные нам потоки, взять первый из них, и сохранить на диск:

In [2]:
yt.streams.filter(mime_type="audio/webm").first()#.download(output_path="../audio",filename="1.opus")

<Stream: itag="249" mime_type="audio/webm" abr="50kbps" acodec="opus" progressive="False" type="audio">

Возьмём теперь коллекцию видео, и сохраним все звуковые дорожки от них:

In [3]:
videos = ['https://www.youtube.com/watch?v=2T1hRvnIu1U',
          'https://www.youtube.com/watch?v=9O8eEmlSiBw',
          'https://www.youtube.com/watch?v=mPvLf-TqS74']

for i,url in enumerate(videos):
    yt = YouTube(url)
    print(f"Downloading {yt.title}")
    yt.streams.filter(mime_type="audio/webm").first().download(output_path="audio",filename=f"{i}.opus")

Downloading Про людей. ML-команда Yandex Cloud
Downloading Про людей. Команда архитекторов
Downloading Про людей. Команда сетевой инфраструктуры


Для того, чтобы SpeechKit мог распознать речь в файле, файл должен быть в определённом формате и битрейте. Поэтому откроем все наши звуковые дорожки, и сделаем им ресамплинг к частоте 8 kHz с помощью библиотеки `librosa`. Этот процесс может занять некоторое время.

> Вы также можете произвести преобразование форматов и битрейта из командной строки с помощью утилиты `ffmpeg`

In [4]:
import glob
import librosa
import soundfile as sf

target_sr = 8000
for fn in glob.glob("audio/*.opus"):
    print(f"Processing {fn}")
    au,sr = librosa.load(fn,sr=target_sr)
    sf.write(fn.replace('.opus','.ogg'),au,target_sr,format='ogg',subtype='opus')
    

Processing audio/0.opus


  au,sr = librosa.load(fn,sr=target_sr)
	Deprecated as of librosa version 0.10.0.
	It will be removed in librosa version 1.0.
  y, sr_native = __audioread_load(path, offset, duration, dtype)


Processing audio/1.opus


  au,sr = librosa.load(fn,sr=target_sr)
	Deprecated as of librosa version 0.10.0.
	It will be removed in librosa version 1.0.
  y, sr_native = __audioread_load(path, offset, duration, dtype)


Processing audio/2.opus


  au,sr = librosa.load(fn,sr=target_sr)
	Deprecated as of librosa version 0.10.0.
	It will be removed in librosa version 1.0.
  y, sr_native = __audioread_load(path, offset, duration, dtype)


### Распознаём речь с помощью SpeechKit

У SpeechKit есть несколько режимов работы. Для распознавания больших файлов лучше всего подходит [асинхронное распознавание](https://cloud.yandex.ru/docs/speechkit/stt/transcribation). Для асинхронного распознавания необходимо, чтобы исходные файлы лежали в хранилище Yandex S3.

Копируем аудио-файлы в хранилище S3, подключенное к DataSphere, чтобы можно было использовать их для распознавания речи.

> **ВАЖНО:** В рамках мастер-класса сразу несколько участников могут работать с одним хранилищем s3. Поэтому используйте уникальные имена директорий для своих файлов. В данном примере я использую имя **shwars**, которое прошу Вас изменить на какой-то уникальный идентификатор!

In [11]:
user = 'shwars'

In [6]:
!mkdir -p /home/jupyter/datasphere/s3/s3store/shwars/audio
!cp audio/*.ogg /home/jupyter/datasphere/s3/s3store/shwars/audio

Для работы со Speech Kit потребуется [создать ключ API](https://cloud.yandex.ru/docs/iam/operations/api-key/create). Далее, чтобы не указывать ключ в программном коде, нужно определить ключи как **секреты** в DataSphere. После того, как вы это сделаете, ключи станут доступны просто как переменные окружения.

Весь процесс работы [описан в документации](https://cloud.yandex.ru/docs/speechkit/stt/api/transcribation-api).

In [7]:
import os
api_key = os.environ['api_key']

Для запуска распознавания конкретного файла необходимо сделать соответствующий POST-запрос.

In [8]:
import requests

def submit_for_sr(audio_file):
    j = {
        "config": {
            "specification": {
                "languageCode": "ru-RU",
            }
        },
        "audio": {
            "uri": audio_file
        }
    }
    res = requests.post("https://transcribe.api.cloud.yandex.net/speech/stt/v2/longRunningRecognize",
                    json = j,
                    headers = { "Authorization" : f"Api-Key {api_key}" })
    return res.json()['id']

Инициируем распознавание первого файла. Если всё хорошо, в ответ мы получим `id`, который можно использовать для проверки результата операции.

In [9]:
id = submit_for_sr(f'https://storage.yandexcloud.net/s3store/{user}/audio/0.ogg')
id

'e037l6d2kh1stl2a06th'

Следующую ячейку можно запускать несколько раз, пока вы не получите результат распознавания.

In [10]:
requests.get(f"https://operation.api.cloud.yandex.net/operations/{id}",headers = { "Authorization" : f"Api-Key {api_key}" }).json()

{'done': False,
 'id': 'e037l6d2kh1stl2a06th',
 'createdAt': '2023-09-06T11:10:18Z',
 'createdBy': 'ajegm68gol04oa04moef',
 'modifiedAt': '2023-09-06T11:10:18Z'}

Теперь запустим процесс распознавания для всех наших файлов, и затем будем ждать, пока все результаты не будут получены:

In [12]:
d = {}
for fn in glob.glob(f'/home/jupyter/datasphere/s3/s3store/{user}/audio/*.ogg'):
    ext_name = fn.replace('/home/jupyter/datasphere/s3/','https://storage.yandexcloud.net/')
    id = submit_for_sr(ext_name)
    print(f"Submitted {fn} -> {id}")
    d[id] = fn    

Submitted /home/jupyter/datasphere/s3/s3store/shwars/audio/0.ogg -> e03f21gliimn39j5rf2k
Submitted /home/jupyter/datasphere/s3/s3store/shwars/audio/1.ogg -> e030ibfn96oi6v8dei6s
Submitted /home/jupyter/datasphere/s3/s3store/shwars/audio/2.ogg -> e0305sjtmn73smtos6o6


In [13]:
import time 

def check_ready(id):
    res = requests.get(f"https://operation.api.cloud.yandex.net/operations/{id}",headers = { "Authorization" : f"Api-Key {api_key}" })
    res = res.json()
    if res['done']:
        return res['response']
    else:
        return None

txt = {}
while True:
    for k,v in d.items():
        if v in txt.keys():
            continue
        res = check_ready(k)
        if res is None:
            print(f"{k} -> waiting")
        else:
            print(f"{k} -> ready")
            txt[v] = ' '.join([x['alternatives'][0]['text'] for x in res['chunks']])
    if len(txt.keys())==len(d.keys()):
        break
    time.sleep(20)

e03f21gliimn39j5rf2k -> waiting
e030ibfn96oi6v8dei6s -> waiting
e0305sjtmn73smtos6o6 -> waiting
e03f21gliimn39j5rf2k -> waiting
e030ibfn96oi6v8dei6s -> waiting
e0305sjtmn73smtos6o6 -> waiting
e03f21gliimn39j5rf2k -> waiting
e030ibfn96oi6v8dei6s -> waiting
e0305sjtmn73smtos6o6 -> waiting
e03f21gliimn39j5rf2k -> waiting
e030ibfn96oi6v8dei6s -> waiting
e0305sjtmn73smtos6o6 -> waiting
e03f21gliimn39j5rf2k -> ready
e030ibfn96oi6v8dei6s -> waiting
e0305sjtmn73smtos6o6 -> waiting
e030ibfn96oi6v8dei6s -> ready
e0305sjtmn73smtos6o6 -> ready


Теперь сохраним результаты распознавания в текстовые файлы:

In [15]:
os.makedirs(f'/home/jupyter/datasphere/s3/s3store/{user}/text',exist_ok=True)
for k,v in txt.items():
    with open(k.replace('.ogg','.txt').replace('/audio/','/text/'),'w',encoding='utf-8') as f:
        f.write(v)

Мы получили коллекцию текстовых документов, в которых теперь можно организовать полнотекстовый поиск и построить вопрос-ответного бота. Переходим к следующему этапу работы: `LangChainQA.ipynb`