# Preprocessing

In [1]:
import librosa
import numpy as np

def preprocess_audio(audio_path, sample_rate=16000):
    """
    Vorverarbeitung einer Audiodatei: Resampling und Normalisierung.

    Args:
        audio_path (str): Pfad zur Audiodatei.
        sample_rate (int): Ziel-Sampling-Rate (Standard: 16000).

    Returns:
        np.array: Das vorverarbeitete Audio-Signal.
    """
    # Audiodatei laden und resamplen
    audio_signal, _ = librosa.load(audio_path, sr=sample_rate)

    # Zu Mono konvertieren (falls mehrkanalig)
    audio_signal = librosa.to_mono(audio_signal)

    # Normalisieren
    max_val = np.max(np.abs(audio_signal))
    if max_val > 0:
        audio_signal = audio_signal / max_val

    return audio_signal

# Funktion Chroma Features

In [2]:
import librosa
import numpy as np

def calculate_chroma_features(audio_signal, sample_rate=16000, n_fft=1024, hop_length=512):
    """
    Berechnet die mittleren Chroma-Features eines Audiosignals.

    Quelle:
        - Librosa: Chroma Features (Tonhöhenverteilung)
        - https://librosa.org/doc/main/generated/librosa.feature.chroma_stft.html

    Args:
        audio_signal (np.array): Vorverarbeitetes Audio-Signal.
        sample_rate (int): Sampling-Rate des Audiosignals.
        n_fft (int): Anzahl der FFT-Punkte für die Spektralanalyse.
        hop_length (int): Schrittweite zwischen FFT-Berechnungen.

    Returns:
        np.array: Mittlere Chroma-Werte für jede der 12 Tonhöhenklassen.
    """
    # Berechnung der Chroma Features
    chroma = librosa.feature.chroma_stft(y=audio_signal, sr=sample_rate, n_fft=n_fft, hop_length=hop_length)

    # Mittelwert über alle Frames berechnen
    return np.mean(chroma, axis=1)

# Test

In [3]:
import os

# Verzeichnis mit den Audiodateien
audio_dir = "../audio_files/"

# Alle Audiodateien durchsuchen und alphabetisch sortieren
audio_files = sorted([f for f in os.listdir(audio_dir) if f.endswith(".wav")])

# Durch alle Audiodateien iterieren und Chroma Features berechnen
for file_name in audio_files:
    file_path = os.path.join(audio_dir, file_name)

    # Audio vorverarbeiten (Resampling, Mono, Normalisierung)
    audio_signal = preprocess_audio(file_path)

    # Chroma Features berechnen
    chroma_values = calculate_chroma_features(audio_signal)

    # Ergebnisse ausgeben
    chroma_str = ", ".join([f"{val:.4f}" for val in chroma_values])
    print(f"Chroma Features ({file_name}): [{chroma_str}]")

Chroma Features (_noise_pink.wav): [0.5670, 0.6921, 0.7072, 0.7073, 0.6867, 0.6583, 0.6300, 0.5903, 0.6062, 0.5942, 0.5220, 0.5214]
Chroma Features (_noise_white.wav): [0.7030, 0.6787, 0.7016, 0.7180, 0.7098, 0.7543, 0.7780, 0.8113, 0.8395, 0.8388, 0.8500, 0.8310]
Chroma Features (_signal_constant.wav): [0.9979, 0.9818, 0.9454, 0.8925, 0.8258, 0.7519, 0.7969, 0.8670, 0.9267, 0.9710, 0.9956, 0.9983]
Chroma Features (_signal_silence.wav): [0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000]
Chroma Features (_signal_sine.wav): [0.0012, 0.0007, 0.0005, 0.0005, 0.0006, 0.0008, 0.0013, 0.0078, 0.2425, 1.0000, 0.3397, 0.0097]
Chroma Features (_snr_03.wav): [0.3757, 0.3616, 0.3527, 0.3492, 0.3419, 0.4661, 0.5594, 0.4592, 0.4082, 0.4786, 0.4063, 0.4557]
Chroma Features (_snr_10.wav): [0.3483, 0.3405, 0.3205, 0.3116, 0.3187, 0.4231, 0.5190, 0.4422, 0.3976, 0.4391, 0.3927, 0.4255]
Chroma Features (_snr_20.wav): [0.4092, 0.3616, 0.3558, 0.3346, 0.3238, 0

  return pitch_tuning(
