# Konuşma Tanıma III: Derin Öğrenme Tabanlı Konuşma Modeli İncelemesi
<hr>

### İçerik 
- Geçen dersler
    - Ders 1 ve ders 2 özet
    - Ders 2 ses smınıflandırma sonuçlarının tartışılması
- Konuşma Tanımada bazı terimler
- Ön bilgi: Sequence2sequence modeller
- Hizalama Problemi: CTC Loss

# Ön Bilgi: Sequence2Sequence Modeller

Basit anlamda bir sekanstan başka bir sekansı elde etmek için geliştirilen modellerdir. Sekans zamansal bilgiyi içeren bir veridir, örneğin cümleler (cümledeki bir kelime bir önceki kelimeye bağlıdır. Youtube'da video izlerken 'merhaba' sözcüğünden sonra 'arkadaşlar' kelimesini duymanız 'akşam' kelimesini duymanızdan daha olasıdır.) veya ses dosyaları (ses dosyaları sinyal olduğu için başlı başına bir zamansal veridir.)

<img src="figures/seq2seq.png">

[image reference](https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html)


### RNNs
<img src="figures/rnn.png">

[image reference](https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neural-networks)


### Machine Translation
<img src="figures/machine_trans.png">

[image reference](https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neural-networks)

In [1]:
import torch
import torch.nn as nn
import numpy as np


def get_embedding(word):
    return np.random.rand(1, 300).astype(np.float32)


def get_word_list_english():
    return ["", "go", "came", "hello", "evening", "guys"]


words = ["merhaba", "arkadaşlar"]
embeddings = [get_embedding(w) for w in words]
embeddings = torch.tensor(embeddings)

encoder = nn.RNN(input_size=300, hidden_size=512)
decoder = nn.RNN(input_size=300, hidden_size=512)
classifier = nn.Linear(512, len(get_word_list_english()))

_, context = encoder(embeddings)

predicted_word_list = []
predicted_word = "<start_token>"
hn = context

for i in range(20):
    decoder_input = torch.tensor(get_embedding(predicted_word)).unsqueeze(0)
    outputs, hn = decoder(decoder_input, hn)

    outputs = classifier(outputs)
    probabilities = nn.Softmax(dim=2)(outputs)
 
    predicted_word_index = torch.argmax(probabilities)
    predicted_word = get_word_list_english()[predicted_word_index]
    predicted_word_list.append(predicted_word)


predicted_word_list = ["hello", "guyz"]

Seste aslında bir sekans olduğu için işlenirken içindeki zamansal veriden yararlanılmalı ve bu veriye göre modeller tasarlanmalı/optimize edilmeli. 

<img src="figures/seq_signal_explain.png">

[image reference](https://distill.pub/2017/ctc/)

### Hatırlatma
Peki geçen hafta uyguladığımız ses sınıflandırma modelinde bu zamansal veriyi kullanıyor muyduk?
<img src="../sr_2/figures/model.png" />

### Konuşma Tanıma
##### Mimari 

<img src="figures/deepspeech_model.png">

[image reference](https://arxiv.org/abs/1412.5567)

In [2]:
import warnings
warnings.filterwarnings("ignore")

import librosa
signal, sampling_rate = librosa.load("../sr_1/example_sound.wav", sr=None)
mel_spectrogram = librosa.feature.melspectrogram(signal, sampling_rate)

import librosa.display
import matplotlib.pyplot as plt

plt.figure(figsize=(14, 5))
librosa.display.specshow(librosa.power_to_db(mel_spectrogram, ref=np.max), y_axis='mel', x_axis='time');
plt.colorbar(format='%+2.0f dB');

In [3]:
import torch
import torch.nn as nn
import numpy as np


def get_phoneme_list():
    # http://www.speech.cs.cmu.edu/cgi-bin/cmudict
    return [" ","AA","AE","AH","AO","AW","AY","B","CH","D","DH","EH","ER","EY","F","G","HH","IH","IY","JH","K","L","M","N","NG","OW","OY","P","R","S","SH","T","TH","UH","UW","V","W","Y","Z","ZH"]


embeddings = torch.from_numpy(mel_spectrogram).T.unsqueeze(0)

acustic_model = nn.RNN(input_size=128, hidden_size=512)
classifier = nn.Linear(512, len(get_phoneme_list()))

outputs, context = acustic_model(embeddings)
outputs = classifier(outputs)
probabilities = nn.Softmax(dim=2)(outputs)
print(probabilities.shape)

# loss ???

torch.Size([1, 211, 40])


### Olası çıktılar

<img src="figures/hello.png">
<img src="figures/possible_out.png">

[image references](https://distill.pub/2017/ctc/)

<br>

### Örnek Hizalama (Alignment)

<img src="figures/ctc_paper_fig.png">

[image reference](http://www.cs.toronto.edu/~graves/icml_2006.pdf)

### CTC Loss

Hizalama yapılırken çıkarılan harflerin direk birleştirilememesindeki en büyük problem ardarda tekrar eden harflerdir. Mesela "Hello" kelimesinde iki tane 'l' harfi ardarda iki kere yazılmıştır. Tanıma sonucu olarak alınan 'hhhheeeelllllllllllllloooo' çıktısı direk birleştirilirse 'helo' olarak çıktı alınır ki bu yanlıştır. Bu sorunu çözmek için CTC Loss bir tane boşluk karakteri ϵ tanımlar. Bu karakterin herbir karakteri ayırması beklenir. 

<img src="figures/alignment_ex.png">

[image reference](https://distill.pub/2017/ctc)


### ε (Epsilon) nasıl öğreniliyor?

<img src="figures/ep_learning.png">

[image reference](https://distill.pub/2017/ctc)

### CTC İçerisinde Neler Oluyor?

<img src="figures/alignment_cat.png">

[image reference](https://towardsdatascience.com/better-faster-speech-recognition-with-wav2letters-auto-segmentation-criterion-765efd55449)

In [6]:
# loss = nn.CTCLoss()(probabilities, target, input_lengths, target_lengths)

def get_vocab():
    return {"a": 0, "b": 1, "c": 2, "ç": 3, "d": 4, "e": 5, "f": 6, "g": 7, "ğ": 8, "h": 9, "ı": 10, "i": 11,
            "j": 12, "k": 13, "l": 14, "m":15, "n": 16, "o": 17, "ö": 18, "p": 19, "r":20, "s": 21, "ş": 22,
            "t": 23 ,"u": 24, "ü": 25, "v": 26, "y": 27, "z":28, ' ': 29, "1": 30}


def char_to_num(sentence):
    return torch.tensor([get_vocab()[i] for i in sentence]).unsqueeze(0)


target_sentence = "inşaat için 1 milyar dolarlık yatırım gerekiyor"
target = char_to_num(target_sentence)

T = 211                   # Input sequence length
C = 40                    # Number of classes
N = 1                     # Batch size
S = len(target_sentence)  # Target sequence length 

probabilities = probabilities.requires_grad_().transpose(0,1)


input_lengths = torch.tensor([T], dtype=torch.int)
target_lengths = torch.tensor([S], dtype=torch.int)
probabilities = probabilities

ctc_loss = nn.CTCLoss()
loss = ctc_loss(probabilities, target, input_lengths, target_lengths)
loss.backward()

print(loss)

torch.Size([211, 1, 40])
torch.Size([1])
tensor(-3.6404, grad_fn=<MeanBackward0>)


#### Önemli Noktalar
- Fonem listemizdeki boşluk fonemi
- Mel-spectrogram tensor transpoze

# Referanslar
- https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html
- https://towardsdatascience.com/automatic-speech-recognition-breaking-down-components-of-speech-85d065061517
- https://www.dyslexia-reading-well.com/44-phonemes-in-english.html



- https://pytorch.org/docs/stable/generated/torch.nn.RNN.html?highlight=rnn#torch.nn.RNN
