## Praktische Aufgaben – Blatt 4

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import scipy
import scipy.io.wavfile
import sklearn
import IPython

### Aufgabe 1: Fast Fourier Transform

Anbei findet ihr die Audiodatei, mit welcher das Spektrogramm aus Blatt 3 erzeugt wurde. Im Folgenden möchten wir selbst das Spektrogramm erzeugen, in welchem die Frequenzen über die Zeit geplottet werden.

**1.** Erzeugt im ersten Schritt eine Zeit-Frequenz-Repräsentation `spectrogram_data`, indem ihr die Amplituden der Frequenzen im Signal in mehreren Zeitintervallen berechnet.

Nutzt hierzu die gegebene Fensterbreite `fft_size` und -verschiebung `fft_shift`,
- multipliziert jedes Fenster mit der Fensterfunktion `window_func`,
- berechnet die FFT, und
- berechnet den Logarithmus auf den Fenstern.

_Hinweis_: `range(start, end, step)` und `np.fft.rfft` können hier sehr hilfreich sein.

In [None]:
sampling_rate, data = scipy.io.wavfile.read('telephone.wav')

fft_size = 2048
fft_shift = 1024
window_func = np.blackman(fft_size)

In [None]:
spectrogram_data = []

# YOUR CODE HERE
raise NotImplementedError()

**2.** Generiert dann im zweiten Schritt das Spektrogramm basierend auf eurer Zeit-Frequenz-Repräsentation `spectromgram_data`.

_Hinweis_: Hier kann euch `plt.imshow` weiterhelfen.

In [None]:
plt.figure(figsize=(6,6))

# YOUR CODE HERE
raise NotImplementedError()

plt.yticks(np.array(range(0, 18)) * (sampling_rate / fft_shift), np.array(range(0, 18)))
plt.ylabel("Zeit [s]")
plt.colorbar()

### 2. Aufgabe: EMG

Im Ordner findet ihr zwei Dateien mit EMG-Aufnahmen `emg_train.npy`, `emg_test.npy` des Unterarms (Elektrodenposition vergl. Bild), sowie entsprechende Labels `emg_train_labels.npy`, `emg_test_labels.npy` (siehe `elek_position.png`).

<img src="elek_position.png" style="width: 30%">

In [None]:
emg_train = np.load("emg_train.npy")
emg_test = np.load("emg_test.npy")

train_labels = np.load("emg_train_labels.npy")
test_labels = np.load("emg_test_labels.npy")

emg_test.shape, test_labels.shape

In den Aufnahmen ist die Hand jeweils am Anfang entspannt (Labelwert 0) und wird dann zuerst stark (Labelwert 2) und dann weniger stark (Labelwert 1) geballt. Die Daten sind mit einer Frequenz von 1000 Hz aufgenommen.

Die Labels geben die Griffstärke für Fenster der Länge 250 ms an.

In [None]:
plt.figure(figsize=(10,5))

ax1 = plt.subplot(2, 1, 1)
plt.plot(emg_train)
plt.gca().set_title('EMG waveform (training data)')
plt.xlabel("Time [ms]")
plt.ylabel("Amplified EMG value")

ax2 = ax1.twinx() 
plt.plot(np.repeat(train_labels, 250), c='orange')
plt.ylabel("Reference Label")

ax1 = plt.subplot(2, 1, 2)
plt.plot(emg_test)
plt.gca().set_title('EMG waveform (test data)')
plt.xlabel("Time [ms]")
plt.ylabel("Amplified EMG value")

ax2 = ax1.twinx() 
plt.plot(np.repeat(test_labels, 250), c='orange')
plt.ylabel("Reference Label")

plt.tight_layout()

**1.** Feature Extraktion
- Fenstert das Signal in 250 ms Fenster  
- Berechnet auf jedem Fenster ein selbstgewähltes Feature, bspw: Energie im 120 Hz Frequenzbin, Gesamtenergie, Summe, Durchschnitt o.Ä.   
- Plottet euer Feature 

In [None]:
train_features = []
test_features = []

# YOUR CODE HERE
raise NotImplementedError()

**2.** Ist dieses Feature geeignet, die Intensität des Greifens zu repräsentieren?

YOUR ANSWER HERE

**3.** Testet euer Feature mit einem Token Klassifikator aus der VL (KNN, SVM, ....). Trainiert hierzu den Klassifikator mit den Trainingsdaten und klassifiziert mit dem trainierten Klassifikator die Testdaten.

_Hinweis_: Nutzt hier gerne `sklearn`!

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

**4.**
Entspricht die erzielte Akkuratheit eurer Erwartung aus **2.**? Wie könnt ihr die Akkuratheit verbessern? **Achtung**: Eure Idee muss nicht umgesetzt werden!

YOUR ANSWER HERE

### 3. Aufgabe: Spracherkennung

Im Folgenden wollen wir eine Nutzerschnittstelle mithilfe von Spracherkennung bauen.

Installiert zunächst die folgenden beiden Pakete in eurer (virtuellen) python Umgebung:

1. Spracherkenner (unter anderem basierend auf *Google Web Speech API*): https://pypi.org/project/SpeechRecognition/
2. Text to Speech (unter anderem basierend auf *Google Text to Speech (TTS) API*): https://pypi.org/project/gTTS/

In [None]:
import speech_recognition as sr
from gtts import gTTS

**1.** Implementiert nun zunächst zwei Hilfsfunktionen (unter Verwendung der beiden Pakete).

- `audio2text` nimmt einen Pfad zu einer englischen Audiodatei und gibt die gesprochene Sprache als String zurück

- `text2audio` nimmt einen (englischen) String und Pfad und schreibt an diesen Pfad eine Audiodatei mit dem vorgelesenen Text  

In [None]:
def audio2text(audio_filename):
    # YOUR CODE HERE
    raise NotImplementedError()
    
def text2audio(text, audio_filename): 
    # YOUR CODE HERE
    raise NotImplementedError()
    
def mp3wavconverter(audio_filename):
    # YOUR CODE HERE
    raise NotImplementedError()
    
# Testet eure Implementierung: 
text2audio("I'd like to go to Namibia. I'm from Germany.", "test.mp3")
IPython.display.Audio('test.mp3', autoplay=True)

**2.** Überlegt euch eine einfache Applikation für eine Nutzerschnittstelle, die Spracherkennung nutzt. Für diese Aufgabe könnt ihr hierunter so viele Zellen einfügen wie nötig.
- Nutzt für die Applikation die eben implementierten Funktionen `audio2text` und `text2audio`. 
- Ihr solltet min. zwei mögliche Nutzereingaben und min. zwei mögliche Systemausgaben erlauben.
- Eure Applikation sollte vom Umfang in etwa den gleichen Arbeitsaufwand haben wie alle obigen Aufgaben kombiniert (mehr ist natürlich erlaubt, gibt aber keine extra Punkte).
- Eure Applikation sollte als Eingabe Sprache annehmen und Sprache ausgeben. Die Eingabe empfiehlt sich via `text2Audio` zu simulieren.

_Hinweis_: Mögliche Ideen wären eine U-Bahn Ansage/Navigation, ein Dungeon (ie "Sie können links und rechts gehen", "ich gehe rechts." ...), etc

