# Imports

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import librosa as lr
from IPython.display import Audio

# STFT

In diesem Notebook wird die STFT implementiert.

Dafür kann die in der letzten Sitzung implementierte DFT-Funktion `calc_dft` verwendet werden:

In [None]:
def calc_dft(x):

    N = x.size
    n = np.arange(N)

    dft = np.zeros((N,), dtype=complex)

    for k in range(N):
        e = np.exp(-1j * 2 * np.pi * n * k / N)
        dft[k] = np.sum(x * e)
    
    return dft

<div style="background-color:lightyellow;border:solid lightgrey;padding:10px">

**Aufgabe:**
    
Implementiert die Funktion `calc_stft`
    
*Tipps:*
- siehe **[Session_03: Time-Framing](/sessions/03_midi_timeframing/03_midi_timeframing.md)**
- Die Ergebnisse der STFT sollen in einer Matrix (= multidimensionaler Array) gespeichert werden (siehe nächster Code-Block) --> Es bietet sich also an, einen leeren Array `stft` zu erstellen, in den man dann im Loop jeweils die Ergebnisse schreibt.
- `stft` muss also so viele Zeilen haben, wie das Fenster lang ist (`window_size`) und so viele Spalten haben, wie viele Fenster insgesamt berechnet werden (`num_wins`)
- Da das Ergebnis der DFT komplexe Zahlen liefert, muss man mit dem `dtype`-keyword beim Erstellen des (numpy-)Arrays `complex` angeben.
- Innerhalb des Loops soll pro Fenster jeweils die DFT berechnet werden (verwende hierfür `calc_dft` oder `np.fft.fft` nach Belieben). Diese DFT soll dann in die jeweilige Spalte der `stft`-Matrix geschrieben werden --> hilfreich: mit `a[start_y:stop_y, start_x:stop_x]` einen bestimmten Ausschnitt einer gegebenen Matrix (hier `a`) referenzieren.

</div>

In [None]:
# f --> frequenz index
# t --> zeit index

np.array([['f0 t0', 'f0 t1', 'f0 t2', 'f0 t3', 'f0 t4', '...'], # freq_coef 0
          ['f1 t0', 'f1 t1', 'f1 t2', 'f1 t3', 'f1 t4', '...'], # freq_coef 1
          ['f2 t0', 'f2 t1', 'f2 t2', 'f2 t3', 'f2 t4', '...'], # freq_coef 2
          ['f3 t0', 'f3 t1', 'f3 t2', 'f3 t3', 'f3 t4', '...'], # freq_coef 3
          ['f4 t0', 'f4 t1', 'f4 t2', 'f4 t3', 'f4 t4', '...'], # freq_coef 4
          ['...',   '...',   '...',   '...',   '...',   '...']]) # ...
#           win 0    win 1    win 2    win 3    win 4    ...

In [None]:
def calc_stft(x, hop_size=200, window_size=500):
    
    ...
    num_wins = ...
    
    stft = np.zeros(...)
    
    for i in range(num_wins):
        
        ...
        
    return stft

Jetzt kann die STFT berechnet und geplottet werden:

In [None]:
x, sr = lr.load('../data/snd/violin.wav', sr=None)

stft = calc_stft(x)

display(Audio(x, rate=sr))

# plot
plt.figure(figsize=(12, 8))

plt.subplot(2, 1, 1)
length = x.size / sr
t = np.linspace(0, length, x.size)
plt.plot(t, x)
plt.xlim(0, length)

plt.subplot(2, 1, 2)
# to dB
plt.imshow(10 * np.log10(np.abs(stft)), aspect='auto', origin='lower', extent=[0, length, 0, sr])
plt.ylim(0, sr / 2)

plt.show()

Überlegung für nächste Woche: Was passiert, wenn man verschiedene window-sizes und hop_lengths verwendet?

In [None]:
# ausführen dieses code-blocks kann ein bisschen dauern
# in stft-funktion lieber np.fft.fft verwenden
window_sizes = [50, 200, 800, 2400, 4800]
for window_size in window_sizes:

    hop_sizes = [window_size / 4, window_size / 2]
    for hop_size in hop_sizes:

        stft = calc_stft(x, hop_size=int(hop_size), window_size=int(window_size))

        print('hop_size:\t%d\nwindow_size:\t%d' % (hop_size, window_size))
        # plot
        plt.figure(figsize=(12, 8))

        plt.subplot(2, 1, 1)
        length = x.size / sr
        t = np.linspace(0, length, x.size)
        plt.plot(t, x)
        plt.xlim(0, length)
        
        plt.subplot(2, 1, 2)
        # to dB
        plt.imshow(10 * np.log10(np.abs(stft)), aspect='auto', origin='lower', extent=[0, np.shape(x)[0] / sr, 0, sr])
        plt.ylim(0, sr / 2)
        plt.show()