# PSI5123 - Aprendizagem de Máquina de Sinais de Áudio e Voz

## Librosa

Librosa é uma biblioteca em Python para análise de áudio (numpythonic). Em especial utilizada para aplicações de Music Information Retrieval (MIR).  

In [None]:
%matplotlib inline

import librosa
import numpy as np
import matplotlib.pyplot as plt

In [None]:
x, sr = librosa.load('SA1.WAV')

In [None]:
x.shape

In [None]:
sr

In [None]:
x, sr = librosa.load('SA1.WAV', sr = 16000)

In [None]:
x.shape

In [None]:
sr

In [None]:
librosa.display.waveshow(x,sr=sr)

In [None]:
np.shape(x)[0]

In [None]:
x.shape[0]

In [None]:
# Time vector
t = np.arange(0,x.shape[0])/sr

In [None]:
t

In [None]:
t.shape[0]

In [None]:
plt.plot(t,x)
plt.xlabel('Time (s)')
plt.ylabel('Amplitude')

In [None]:
t = np.linspace(0,x.shape[0]/sr, x.shape[0])

In [None]:
t.shape

In [None]:
fig, ax = plt.subplots()
ax.set(xlim=[0.46, 0.49])
librosa.display.waveshow(x, sr=sr, ax=ax)

### IPython Display

In [None]:
import IPython.display as ipd

In [None]:
ipd.Audio(x, rate = sr)
# She had your dark suit in greasy wash water all year.

# Segmentação

"Short-time" processing methods -> segmentos do sinal são "isolados" e "processados".

Os segmentos geralmente possuem sobreposição entre si.

Exemplo. Considere um vetor $\textbf{x}$ = [0, 1, 2, 3, 4, 5, 6] que precisa ser segmentado (framed) em três partes (tamanho do frame igual a 3) com salto (hop length) igual 2. O resultado seria: 

[[0, 1, 2], [2, 3, 4], [4, 5, 6]]

**Librosa function**

In [None]:
x = np.array([0, 1, 2, 3, 4, 5, 6])

In [None]:
x.shape

In [None]:
frames = librosa.util.frame(x, frame_length = 3, hop_length = 2)

In [None]:
frames

In [None]:
frames.T

In [None]:
x = np.array([0, 1, 2, 3, 4, 5, 6, 7])

In [None]:
frames = librosa.util.frame(x, frame_length = 3, hop_length = 2)

In [None]:
frames.T

In [None]:
x = librosa.util.fix_length(x, size=9)

In [None]:
x

In [None]:
frames = librosa.util.frame(x, frame_length = 3, hop_length = 2)

In [None]:
frames.T

#### Centralização de índice (Centered = True)

O índice $\hat{n}$ pode possuir alinhamento à esquerda, central (i.e., centralizado), ou à direita. 

In [None]:
x = np.array([0, 1, 2, 3, 4, 5, 6])

In [None]:
win_length = 3
hop_length = 1

Exemplo. Considere um vetor $\textbf{x}$ = [0, 1, 2, 3, 4, 5, 6] com segmentação "centralizada", janela de 3 e salto de 1:

[[0 0 1], [0 1 2], [1 2 3], [2 3 4], [3 4 5], [4 5 6], [5 6 0]]

In [None]:
x_pad = np.pad(x, (win_length//2, win_length//2), 'constant', constant_values=(0,0))

In [None]:
x_pad

In [None]:
frames = librosa.util.frame(x_pad, frame_length = win_length, hop_length = hop_length)

In [None]:
frames.T

In [None]:
n_frames = int(((len(x_pad) - (win_length - 1) - 1) / hop_length) + 1)
n_frames

In [None]:
win_length = 4
hop_length = 1

Exemplo. Considere um vetor x = [0, 1, 2, 3, 4, 5, 6] com segmentação "centralizada", janela de 4 e salto de 1:

[[0 0 0 1], [0 0 1 2 ], [0 1 2 3], [1 2 3 4], [2 3 4 5 ], [3 4 5 6], [4 5 6 0], [5 6 0 0]]

In [None]:
x_pad = np.pad(x, (win_length//2, win_length//2), 'constant', constant_values=(0,0))

In [None]:
x_pad

In [None]:
frames = librosa.util.frame(x_pad, frame_length = win_length, hop_length = hop_length)

In [None]:
frames.T

In [None]:
n_frames = int(((len(x_pad) - (win_length - 1) - 1) / hop_length) + 1)
n_frames

### Framing audio data

In [None]:
x_had, sr = librosa.load('SA1.WAV', sr = 16000, mono = True)

In [None]:
x_had

In [None]:
segment_duration = 20e-3
hop_duration = 10e-3 # 10ms/20ms = 50%

frame_length = int(segment_duration * sr)
hop_length = int(hop_duration * sr)

In [None]:
frame_length

In [None]:
hop_length

In [None]:
x_had_pad = np.pad(x_had, (frame_length//2, frame_length//2), 'constant', constant_values=(0,0))

In [None]:
frames = librosa.util.frame(x_had_pad, frame_length=frame_length, hop_length=hop_length)

In [None]:
frames.shape

## Time Domain Methods in Speech Processing

###  Short-time parameters in the time domain:
– short-time energy

– short-time average magnitude

– short-time zero crossing rate

– short-time autocorrelation

– modified short-time autocorrelation

– short-time average magnitude difference function

**Exercício Resolvido**

Abrir o arquivo monofônico *SA1.WAV* utilizando a biblioteca librosa com frequência de amostragem igual a 16 kHz.

Implementar uma função que realiza a **segmentação** do arquivo em **blocos de 20 ms** com sobreposição de **10 ms** (i.e., 50%) e calcule o somatório do valor médio absoluto de cada segmento ($\text{MA}\left[ k \right]=\frac{1}{N}\sum\limits_{n=0}^{N-1}{|s\left[ n \right]|}$, para $k = 0, 1, \cdots, K - 1$, no qual $K$ é o número de seguimentos e $N$ é o número de amostras de cada seguimento). Considere índice centralizado e janelamento retangular.

In [None]:
frames

In [None]:
frames.shape

In [None]:
magnitude = np.mean(np.abs(frames), axis = 0)

In [None]:
magnitude.shape

In [None]:
t_frame = np.arange(0,magnitude.shape[0])*hop_duration

In [None]:
t_frame

In [None]:
t_frame.shape

In [None]:
fig = plt.figure(figsize=(14, 9)) 
ax1 = fig.subplots() 
ax2 = ax1.twinx()
librosa.display.waveshow(x_had,sr=sr, ax=ax1)
ax1.set_xlabel("Time (s)")
ax1.set_ylabel('Amplitude')
ax2.plot(t_frame, magnitude, '-r')
ax2.set_ylim(ymin=-np.max(magnitude), ymax=np.max(magnitude))
ax2.set_ylabel('MA', rotation=-90)

In [None]:
# Implementação com laços

In [None]:
frames.shape

In [None]:
N = frames.shape[0]
K = frames.shape[1]

magnitude_loop = np.zeros(K)

for k in range(K):
    for i in range(N):
        magnitude_loop[k] = magnitude_loop[k] + np.abs(frames[i, k])
    magnitude_loop[k] = magnitude_loop[k]/N

In [None]:
magnitude[0:10]

In [None]:
magnitude_loop[0:10]

In [None]:
np.equal(magnitude, magnitude_loop) # , dtype=np.float64

Implementar uma função que realiza a **segmentação** do arquivo em **blocos de 10 ms** com sobreposição de **5 ms** (i.e., 50%) e calcule o somatório do valor médio absoluto de cada segmento . Considere índice centralizado e janelamento retangular.

In [None]:
segment_duration = 10e-3
hop_duration = 5e-3

frame_length = int(segment_duration * sr)
hop_length = int(hop_duration * sr)

In [None]:
x_had_pad = np.pad(x_had, (frame_length//2, frame_length//2), 'constant', constant_values=(0,0))
frames = librosa.util.frame(x_had_pad, frame_length=frame_length, hop_length=hop_length)

In [None]:
frames.shape

In [None]:
magnitude = np.mean(np.abs(frames), axis = 0)
t_frame = np.arange(0,magnitude.shape[0])*hop_duration

In [None]:
fig = plt.figure(figsize=(14, 9)) 
ax1 = fig.subplots() 
ax2 = ax1.twinx()
librosa.display.waveshow(x_had,sr=sr, ax=ax1)
ax1.set_xlabel("Time (s)")
ax1.set_ylabel('Amplitude')
ax2.plot(t_frame, magnitude, '-r')
ax2.set_ylim(ymin=-np.max(magnitude), ymax=np.max(magnitude))
ax2.set_ylabel('MA', rotation=-90)

**Exercício 1**

Abrir o arquivo monofônico *SA1.WAV* utilizando a biblioteca librosa com frequência de amostragem igual a 16 kHz.

Implementar uma função que realiza a **segmentação** do arquivo em **blocos de 20 ms** com sobreposição de **10 ms** (i.e., 50%) e calcule o somatório do valor da energia de cada segmento ($\text{E}\left[ k \right]=\frac{1}{N}\sum\limits_{n=0}^{N-1}{s^2\left[ n \right]}$, para $k = 0, 1, \cdots, K - 1$, no qual $K$ é o número de seguimentos e $N$ é o número de amostras de cada seguimento). Considere índice centralizado e janelamento retangular.

**Exercício 2**

Abrir o arquivo monofônico *SA1.WAV* utilizando a biblioteca librosa com frequência de amostragem igual a 16 kHz.

Implementar uma função que realiza a **segmentação** do arquivo em **blocos de 20 ms** com sobreposição de **10 ms** (i.e., 50%) e calcule a taxa de cruzamento por zero de cada segmento ($\text{ZCR}\left[ k \right]=\frac{1}{N}\sum\limits_{n=0}^{N-1}{|\text{sgn}[x[n]] - \text{sgn}[x[n-1]]|}$, para $k = 0, 1, \cdots, K - 1$, no qual $K$ é o número de seguimentos e $N$ é o número de amostras de cada seguimento). Considere índice centralizado e janelamento retangular.

**Exercício 3**

Relacione os valores da taxa de cruzamento por zero e energia para distinguir sons vozeados, não-vozeados/surdos e silêncio.

**Exercício 4**

Um método para estimar a frequência fundamental*, F0, é pela função de autocorrelação. Considerando um segmento de $N$ amostras de um sinal de voz, $s[n]$, sua função de autocorrelação, $R[m]$, pode ser calculada por: $R\left[ m \right]=\sum\limits_{n=0}^{N-1-m}{s\left[ n \right]s\left[ n+m \right]} $ , para $m = 0, 1, \cdots, N - 1$. O pico principal na função de autocorrelação está em $m = 0$, localização do zerolag. A distância entre o primeiro máximo e o segundo máximo representa o período (lag) e, consequentemente, dividindo-se o valor da frequência de amostragem pelo lag se obtém uma estimativa do valor de F0. 

Implemente o algoritmo em Python ou MATLAB e utilize um segmento janelado de uma região vozeada do arquivo com o enunciado ``She had your dark suit...'' para estimar o valor de F0.

*Existem variações nos algoritmos de estimação, que podem ser utilizados para a solução deste exercício.


