<a href="https://colab.research.google.com/github/flaviovdf/musica/blob/main/notebooks/lab04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Descomente para rodar no colab
# ! pip install git+https://github.com/flaviovdf/musica.git

Collecting git+https://github.com/flaviovdf/musica.git
  Cloning https://github.com/flaviovdf/musica.git to /tmp/pip-req-build-653f2dwl
  Running command git clone -q https://github.com/flaviovdf/musica.git /tmp/pip-req-build-653f2dwl
Building wheels for collected packages: musica-dcc-ufmg
  Building wheel for musica-dcc-ufmg (setup.py) ... [?25l[?25hdone
  Created wheel for musica-dcc-ufmg: filename=musica_dcc_ufmg-0.1-py3-none-any.whl size=3357 sha256=7630060dc428b2414ec63c8d007ff13edf365edc47b56fe56ef5a0e55123cc51
  Stored in directory: /tmp/pip-ephem-wheel-cache-9mo34non/wheels/94/cb/e0/72e4ee72153bf78a970722ac92a93e8a8f31c1853e32a3d1bc
Successfully built musica-dcc-ufmg
Installing collected packages: musica-dcc-ufmg
Successfully installed musica-dcc-ufmg-0.1


# Transformada de Fourier

**Objetivos**
1. Implementar a *fast fourier transform*

**Resultado Esperado**
1. Entender qual é a matriz base do processamento musical

In [None]:
from μsica import μsf
from μsica import μsp
from numba import jit


import librosa
import librosa.display

import IPython.display as ipd

import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

import numpy as np
import pandas as pd

In [None]:
μsf.download('https://dcc.ufmg.br/~flaviovdf/mir/lab04/files.zip', 'files.zip',
             False)
μsf.extract('files.zip', '.')

files.zip: 1.39MB [00:03, 417kB/s]


In [None]:
μsp.init_matplotlib()
plt.ion()

## Introdução

Como vimos em sala de aula, a Transformada de Fourier é o algoritmo base para realizar tarefas de Recuperação de Informação Musical. Durante as aulas, vimos três versões da transformada:

1. A transformada contínua
1. A transformada discreta
1. A transformada com janelas (ou *short time fourier transform (STFT)*)

Resumindo o assunto em texto, os sinais de áudio podem ser representados misturas complexas que consistem em uma infinidade de diferentes componentes de som. Tais componentes podem ser encontradas fazendo uso da transformada de Fourier. A mesma mapeia um sinal dependente do tempo para um espectro de frequências que revelam as frequências que das quais o áudio é composto.

Em termos simples, um sinal e sua Transformada de Fourier são dois lados da mesma moeda. Por um lado, o sinal exibe as informações de tempo e esconde o informações sobre frequências. Por outro lado, a transformação de Fourier revela informações sobre frequências e oculta as informações de tempo. Para obter de volta as informações de tempo ocultas, Dennis Gabor apresentou no ano de 1946, a transformada de Fourier STFT. 

## Transformada Discreta

A transformada de Fourier é definida como:

\begin{align}
X(k) = \sum_{n=0}^{N-1} e^{-2 \pi i n k / N} x(n) \\
x(n) = \frac{1}{N}\sum_{k=0}^{N-1} e^{2 \pi i n k / N} X(k)
\end{align}

$X(k)$ é a importância de uma frequência no índice $k$. $x(n)$ é o valor do sinal na posição $n$. Como vimos em sala de aula, a mesma pode ser escrita de forma matricial. Para tal, precisamos definir os vetores: $\mathbf{X}[k] = X(k)$ e $\mathbf{x}[n] = x(n)$. Após isto, podemos definir a matriz:

\begin{align}
{\displaystyle \text{DFT}_N ={\begin{pmatrix}1& 1&\cdots &1\\1&\omega^{11}&\cdots &\omega^{2(N-1)}\\\vdots &\vdots &\ddots &\vdots \\1&\omega^{(N-1)1}&\cdots &\omega^{(N-1)(N-1)}\end{pmatrix}}} 
\end{align}

Onde, 

\begin{align}
\omega^{kn} = (e^{-2 \pi i / N})^{kn} \\
\omega^{kn} = e^{-2 \pi kni / N}
\end{align}

Daqui, a transformada é simplesmente o produto: $\mathbf{X} = \text{DFT}_N \cdot \mathbf{x}$. Com, $\mathbf{X}[k] = X(k)$ e $\mathbf{x}[n] = x(n)$.

Sua primeira tarefa é implementar uma função Python que retorna a matriz $\text{DFT}_N$. Lembre-se que definimos $k \in [0, N)$ e $n \in [0, N)$. Tanto os coeficientes quanto o número de posições no sinal é o mesmo.

Observe como a função tem uma chamada `@jit` no começo. Tal chamada deixa o código mais rápido a ajuda os alunos que desejam gerar a matriz com laços. Dentro de funções dessa forma, a biblioteca *numba* compila o código para *C*. Então, você é limitado a usar comandos python, tipos simples como listas e vetores/matrizes numpy dentro da função.

In [None]:
@jit(nopython=True)
def generate_matrix_dft(N):
    return M

O código abaixo vai plotar os coeficientes reais e imaginários da sua matriz. Observe como existe uma redundância. Aproximadamente uma metade de cada matriz (os blocos na digonais) são iguais. Isto vale tanto para a diagonal principal como a secundária. Tal matriz serve como evidência de que computamos mais coeficientes do que precisamos, algo que foi dito em sala de aula, na prática, apenas K/2 coeficientes seriam necessários. 

O código abaixo deve gerar uma saída como:

![](https://dcc.ufmg.br/~flaviovdf/mir/lab04/imgs/saida1.png)

In [None]:
dft_mat = generate_matrix_dft(32)

plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)
plt.title('$\mathrm{Re}(\mathrm{DFT}_N)$')
plt.imshow(np.real(dft_mat), origin='lower', cmap='seismic', aspect='equal')
plt.xlabel('Time index $n$')
plt.ylabel('Frequency index $k$')
plt.colorbar()

plt.subplot(1, 2, 2)
plt.title('$\mathrm{Im}(\mathrm{DFT}_N)$')
plt.imshow(np.imag(dft_mat), origin='lower', cmap='seismic', aspect='equal')
plt.xlabel('Time index $n$')
plt.ylabel('Frequency index $k$')
plt.colorbar()
plt.tight_layout()

Agora escreva uma função para realizar a transformada:

In [None]:
@jit(nopython=True)
def dft(x):
    return X

In [None]:
X = dft(x)

Abaixo fazemos uso da sua função. O código abaixo deve gerar uma saída como:

![](https://dcc.ufmg.br/~flaviovdf/mir/lab04/imgs/saida2.png)

In [None]:
N = 128
n = np.arange(N)
k = 10
x = np.cos(2 * np.pi * (k * n / N) + 2 * (np.random.rand(N) - 0.5)) 

plt.figure(figsize=(10, 3))

plt.subplot(1, 2, 1)
plt.title('$x$')
plt.plot(x)
plt.xlabel('Time (index $n$)')

plt.subplot(1, 2, 2)
plt.title('$|X|$')
plt.plot(np.abs(X))
plt.xlabel('Frequency (index $k$)')
plt.tight_layout()

A seguir, discutimos a famosa transformada rápida de Fourier (Fast Fourier Transform - FFT). O algoritmo FFT foi originalmente descoberto por Gauss em volta de 1805. No ano de 1965, o mesmo foi então redescoberto por Cooley e Tukey em 1965. O algoritmo FFT é baseado na observação de que a aplicação de uma DFT de tamanho par $ N = 2M $ pode ser expressa em termos de aplicação de duas DFTs com metade do tamanho $ M $. O algoritmo explora o fato de que existem relações algébricas entre as entradas $\omega^{kn} = \mathrm{exp}(-2 \pi i / N)^{kn}$ de matrizes DFT.

No algoritmo FFT, calcula-se o DFT dos elementos pares e ímpares de $x(n)$

\begin{align}
(A(0), \dots, A (N / 2-1)) & = \mathrm{DFT}_{N / 2} \cdot (x (0), x (2), x (4), \cdots, x (N-2)) \\
(B(0), \dots, B (N / 2-1)) & = \mathrm{DFT}_{N / 2} \cdot (x (1), x (3), x (5), \cdots, x (N-1))
\end{align}

Com esses dois DFTs de tamanho $N/2$, pode-se calcular o DFT completo de tamanho $N$ por meio de:

\begin{eqnarray}
C(k) & = & \sigma^k \cdot B(k) \\
X(k) & = & A(k) + C(k) \\
X(N / 2 + k) & = & A(k) - C(k) \\
\end{eqnarray}

para $ k \in [0: N / 2 - 1] $. Os números $\sigma^k$ também são chamados de *fatores de torção*. Se $N$ é uma potência de dois, esta ideia pode ser aplicada recusivamente até que se alcance o cálculo de $ \mathrm {DFT}_{1} $ (o caso $ N = 1 $), que é simplesmente multiplicação por um ( ou seja, apenas retornando o sinal de comprimento $ N = 1 $).


Por fim implemente o algoritmo FFT e plote o mesmo resultado do caso anterior. Os comandos python abaixo separam os pares dos ímpares!

```python
x = np.array([0, 1, 2, 3, 4, 5])
x_par = x[::2]
x_impar = x[1::2]
```

In [None]:
x = np.array([0, 1, 2, 3, 4, 5])
x_par = x[::2]
x_impar = x[1::2]

print(x_par)
print(x_impar)

In [None]:
@jit(nopython=True)
def fft(x):
    return X

Compare o tempo de execução dos dois com a chamada abaixo:

In [None]:
import timeit

Ns = [2 ** n for n in range(5, 11)]
times_dft = []
times_fft = []
execuctions = 10

for N in Ns:
    n = np.arange(N)
    x = np.sin(2 * np.pi * 5 * n / N )
    
    time_dft = timeit.timeit(lambda: dft(x), number=execuctions) / execuctions
    time_fft = timeit.timeit(lambda: fft(x), number=execuctions) / execuctions
    times_dft.append(time_dft)
    times_fft.append(time_fft)
    
plt.figure(figsize=(10, 4))
    
plt.plot(Ns, times_dft, '-xk', label='DFT')
plt.plot(Ns, times_fft, '-xr', label='FFT')
plt.xticks(Ns)
plt.legend()
plt.grid()
plt.xlabel('$N$')
plt.ylabel('Tempo de execução (seconds)');

NameError: ignored

## Sinal Real com FFT e STFT

Agora sua tarefa será aplicar a transformada em um sinal real.

![](https://dcc.ufmg.br/~flaviovdf/mir/lab04/imgs/song.png)

O aúdio abaixo toca as notas do piano seguindo a escala cromática. A figura também mostra duas versões do espectograma. Sua resposta final deve parecer com a Fig (b).

In [None]:
ipd.Audio(filename='./files/Scale_Chromatic_Piano.wav')

NameError: ignored

Aplique a transformada de Fourier rápida no mesmo. Para tal, você pode fazer uso do pacote já pronto em python:

In [None]:
from scipy.fft import fft

In [None]:
song, F_s = librosa.load('./files/Scale_Chromatic_Piano.wav')
print(len(song))
print(F_s)

### FFT

O código abaixo carrega a música e indica sua taxa de frequência. Agora, sabendo dos dados abaixo, aplique a Transformada de Fourier usando seu código ou o scipy. Recomendo fazer uso do scipy por corretude! Após isto, responda.

**Questão**: Quais são as três frequência mais importante no sinal? Você deve converter entre índice e frequência aqui. Veja a equação nos slides. Além do mais, você deve descartar metade da saída do código do FFT, é redundante!

> Resposta Aqui. Use Latex

### STFT

Agora vamos fazer uso do código de STFT já pronto em Python. Leia a documentação do mesmo, observe como o mesmo recebe dois argumentos importantes (abaixo os nomes e valores padrão):

1. window='hann'
1. nperseg=256

O primeiro é o tipo de janela. O segundo é o número de elementos por janela.

In [None]:
from scipy.signal import stft

Observe como no plot eu coloquei o np.log para deixar as importâncias mais claras!

In [None]:
f, t, Zxx = stft(song, nperseg=500)

plt.figure(figsize=(20, 10))

plt.pcolormesh(t, f, np.log(np.abs(Zxx)), shading='gouraud')
plt.title('STFT Magnitude')
plt.ylabel('Frequency [Hz]')
plt.xlabel('Time [sec]')
plt.show()

**Questão**: Para cada segundo da música, qual a frequência mais importante? Você pode fazer um código para responder esta questão.