# Векторные представления речи Wav2Vec

Идеи сети BERT, которая создает векторные представления для текста применима и для речи. Так работает сеть Wav2Vec.

Она работает в двух фазах:
- А. Самообучение векторному представлению речи,
- Б. Обучение с учителем предсказанию символов с ошибкой CTC (см. прошлую тему). 

![img](https://cdn.neurosys.com/wp-content/uploads/2021/09/1_training-phases-of-wav2vec-2.0.png.webp)


![img](https://miro.medium.com/max/1400/1*ZM1_82T5btyH7pzDPkBjjw.png)




## А. Самообучение векторному представлению речи.
![img](https://miro.medium.com/max/1400/1*P38rp1OvC5evoiNuceHS6g.png)


Временно`е представление звука **X** пропускается через сверточные слои, которые создают латентное представление **Z**. Оно поступает на сеть Transformer (кодер, в котором используется механизм внимания), где переводится в контекстное представление **C**.

Из представления **Z** создают его квантованное представление **Q**.

Часть токенов (здесь временных отсчетов), как и в BERT, маскируется, а сеть учится восстанавливать из маскированного представления **Z** квантованное **Q** (т.е. **Q** есть цель для **C**). Это самообучение, так как здесь не нужны размеченные данные, а только сами звуки.



### Квантование 
Истинная цель квантования - разбить звук на участки, соответствующие символам, сказать, ага **Z** был такой - значит символы такие, или **Z** был сякой - значит символы сякие. Но, конечно, мы изначально не знаем этого. 

Чтобы с имитировать такой процесс сделали несколько обучаемых кодовых книг G, в которых содержатся кодовые вектора Vg. Вектор  **Z** сравнивается со всеми кодовыми векторами и для каждой книги выбирается наиболее похожий Vg. Отобранные вектора из книг контактенируются и собираются в один с помощью линейного слоя (тоже обучаемого). Отбор ведется с помощью измененного и рандомизированного softmax (а именно Gumbel softmax). 



![img](https://cdn.neurosys.com/wp-content/uploads/2021/09/6_quantization.png.webp)

![img](https://cdn.neurosys.com/wp-content/uploads/2021/09/7_gumbel-softmax.png.webp)

Не смотрите на сложную формулу, в целом это тот же softmax с изменениями:
- будем считать косинусную похожесть sim между векторами z и v.
- добавим шум n
- добавим параметр $\tau$ - "температуру", который регулирует "крутость" максимума. При $\tau \rightarrow 0$ результат выродится в обычый выбор максимума - one-hot вектор.

Интуитивно процесс можно представить так, что мы вписываем в кодовые книги такие вектора, чтобы для как можно большего количества векторов Z нашлись похожие на них. В пределе в книгах оказались бы сами вектора Z (они похожи сами на себя), но размер книг ограничен и есть шум, что заставляет искать (обучать) вектора Vg удовлетворяющие большему количеству Z. 




## Маскирование
Процесс маскировки прост:
- случайно, с заданной вероятностью **p**, отобрать вектора **Z**, которые будут означать начало маски.
- замаскировать **M** векторов следующих последовательно за начальными. Области маскировки могут пересекаться.
- Контрастивная ошибка будет считаться только для центрального отсчета в маске. 

![img](https://cdn.neurosys.com/wp-content/uploads/2021/09/9_masking-m-consecutive-time-steps-1536x574.png.webp)


### Функция ошибки


Функция ошибки для обучения состоит из двух частей:
- контрастивная ошибка для маски и
- ошибка разнообразия

В **контрастивной ошибке** сравнивают текущий вектор контекста **Сt** с положительной целью **Qt** и отрицательными целями $\hat Q_t$, взятыми случайно из других отсчетов маски. Цель обучения сделать так, чтобы **Сt** совпадал с **Qt** и не совпадал с $\hat Q_t$. Это можно сделать с помощью функции похожей на softmax

![img](https://cdn.neurosys.com/wp-content/uploads/2021/09/11_contrastive-loss.png.webp)

**Ошибка разнообразия** оценивает, насколько разнообразны кодовые вектора в кодовых книгах, считая их энтропию. Нечто подобное мы уже делали, когда обучали деревья решений, вспомните, там оценивалась энтропия подмножеств в узлах. Цель здесь - увеличить разнообразие векторов, чтобы они не стали все одинаковыми.

![img](https://cdn.neurosys.com/wp-content/uploads/2021/09/12_diversity-loss.png.webp)



В результате сеть самообучается создавать такие контекстные представления **C**, чтобы быть способной предсказать замаскированные квантованные представления **Q**.
   

## Б. Обучение с учителем.
Самообучение только создает новое векторное представление для речи в контекстных векторах **C**.

Для распознавания речи используют все ту же ошибку CTC, а чтобы ее посчитать, в сеть добавляют  полносвязный слой, который из контекстных векторов возвращает уровни уверенности в символах. 

В этой фазе квантование уже не нужно, ведь оно лишь создавало цели для самообучения.

![img](https://miro.medium.com/max/1400/1*ZM1_82T5btyH7pzDPkBjjw.png)

Важно отметить, что самообучение позволяет создавать векторные представления для речи, которые потом можно использовать для классификации или других задач. 



# Пример распознавания речи
Реализация Wav2Vec (как и других сетей на основе Transformers) сделана в библиотеке 🤗 [Transformers](https://huggingface.co/transformers/), посмотрим пример использования.

In [None]:
# для совместимости поставим предыдушую версию
!pip install imageio==2.4.1

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting imageio==2.4.1
  Downloading imageio-2.4.1.tar.gz (3.3 MB)
[K     |████████████████████████████████| 3.3 MB 5.1 MB/s 
Building wheels for collected packages: imageio
  Building wheel for imageio (setup.py) ... [?25l[?25hdone
  Created wheel for imageio: filename=imageio-2.4.1-py3-none-any.whl size=3303885 sha256=d625290c5d5f6d47c503de1e548a2a942fbe3f9e46bfaabef50e137986101313
  Stored in directory: /root/.cache/pip/wheels/46/20/07/7bb9c8c44e6ec2efa60fd0e6280094f53f65f41767ef69a5ee
Successfully built imageio
Installing collected packages: imageio
  Attempting uninstall: imageio
    Found existing installation: imageio 2.9.0
    Uninstalling imageio-2.9.0:
      Successfully uninstalled imageio-2.9.0
Successfully installed imageio-2.4.1


In [None]:
# устанавливаем
!pip -q install transformers
!pip -q install youtube_dl

[K     |████████████████████████████████| 4.7 MB 5.3 MB/s 
[K     |████████████████████████████████| 120 kB 64.6 MB/s 
[K     |████████████████████████████████| 6.6 MB 6.4 MB/s 
[K     |████████████████████████████████| 1.9 MB 5.2 MB/s 
[?25h

In [None]:
# подключаем
from transformers import Wav2Vec2Tokenizer, Wav2Vec2ForCTC
from IPython.display import Audio

import moviepy.editor as mp
import torch
import librosa
import os

Imageio: 'ffmpeg-linux64-v3.3.1' was not found on your computer; downloading it now.
Try 1. Download from https://github.com/imageio/imageio-binaries/raw/master/ffmpeg/ffmpeg-linux64-v3.3.1 (43.8 MB)
Downloading: 8192/45929032 bytes (0.0%)2744320/45929032 bytes (6.0%)6250496/45929032 bytes (13.6%)9297920/45929032 bytes (20.2%)12730368/45929032 bytes (27.7%)16261120/45929032 bytes (35.4%)19816448/45929032 bytes (43.1%)23412736/45929032 bytes (51.0%)27164672/45929032 bytes (59.1%)30711808/45929032 bytes (66.9%)34291712/45929032 bytes (74.7%)38010880/45929032 bytes (82.8%)41525248/45929032 bytes (90.4%)

In [None]:
# загрузим видео
clip = "https://www.youtube.com/watch?v=7Ood-IE7sx4"

# начало и конец распознавания, секунды
start = 0
end = 20

In [None]:
# скачиваем и переименовываем
os.system('youtube-dl {} --recode-video mp4'.format(clip))
os.system('mv *.mp4 clip.mp4')

0

Извлекаем аудио, будем делать это в 10 секундных нарезках, чтобы сэкономить память.

In [None]:
clip = mp.VideoFileClip("clip.mp4")
end = min(clip.duration, end)

# 
clip_paths = []

# извлекаем аудио
for i in range(start, int(end), 10):
  sub_end = min(i+10, end)
  sub_clip = clip.subclip(i,sub_end) # нарезка

  sub_clip.audio.write_audiofile("audio_" + str(i) + ".mp3") # записываем аудио в файл
  clip_paths.append("audio_" + str(i) + ".mp3")

[MoviePy] Writing audio in audio_0.mp3


100%|██████████| 221/221 [00:00<00:00, 680.74it/s]

[MoviePy] Done.





[MoviePy] Writing audio in audio_10.mp3


100%|██████████| 149/149 [00:00<00:00, 685.16it/s]

[MoviePy] Done.





In [None]:
# Загружаем предобученный Wav2Vec из huggingface
tokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")

Downloading vocab.json:   0%|          | 0.00/291 [00:00<?, ?B/s]

Downloading tokenizer_config.json:   0%|          | 0.00/163 [00:00<?, ?B/s]

Downloading special_tokens_map.json:   0%|          | 0.00/85.0 [00:00<?, ?B/s]

Downloading config.json:   0%|          | 0.00/1.56k [00:00<?, ?B/s]

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'Wav2Vec2CTCTokenizer'. 
The class this function is called from is 'Wav2Vec2Tokenizer'.



Downloading pytorch_model.bin:   0%|          | 0.00/360M [00:00<?, ?B/s]

Some weights of Wav2Vec2ForCTC were not initialized from the model checkpoint at facebook/wav2vec2-base-960h and are newly initialized: ['wav2vec2.masked_spec_embed']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
# Прослушаем 
Audio(clip_paths[0])

Распознаем звук каждой 10 секундной нарезки по одной.

In [None]:
cc = ""

for path in clip_paths:
    # загружаем аудио
    input_audio, _ = librosa.load(path, 
                                sr=16000)

    # токенизируем (переводим в  PyTorch тензоры)
    input_values = tokenizer(input_audio, return_tensors="pt", padding="longest").input_values

    # 
    with torch.no_grad():
      logits = model(input_values).logits # подаем в модель
      predicted_ids = torch.argmax(logits, dim=-1) # выделяем наиболее уверенный токен

    # декодируем в символы
    transcription = tokenizer.batch_decode(predicted_ids)[0]
    cc += transcription + " "





In [None]:
# печатаем результат
print(cc)

IT'S ORGRATICAND I AVE THE HIGH GROUND YOU WONDER AS T MAKE MY NOW GOT SIDES NNNA WIT YOUR WORT 



# Заключение

Число различных моделей распознавания речи велико, постоянно выходят новые и новые. Другие примеры можно посмотреть здесь:

https://colab.research.google.com/github/snakers4/silero-models/blob/master/examples.ipynb#scrollTo=jwKw-yMpDQTL

https://github.com/snakers4/silero-models
https://habr.com/ru/post/519564/


Здоровая критика и сравнения:
https://thegradient.pub/a-speech-to-text-practitioners-criticisms-of-industry-and-academia/ 

# Ссылки

Использованы и адаптированы материалы:


https://colab.research.google.com/github/Muennighoff/ytclipcc/blob/main/wav2vec_youtube_captions.ipynb 

https://towardsdatascience.com/wav2vec-2-0-a-framework-for-self-supervised-learning-of-speech-representations-7d3728688cae

