# Data Mining Versuch Music Clustering
* Autor: Prof. Dr. Johannes Maucher
* Datum: 16.10.2015

[Übersicht Ipython Notebooks im Data Mining Praktikum](Data Mining Praktikum.ipynb)

# Einführung
## Lernziele:
In diesem Versuch sollen Kenntnisse in folgenden Themen vermittelt werden:

* Zugriff auf Musikdateien
* Transcodierung von mp3 zu wav 
* Extraktion von Merkmalen in Musikdateien (Feature Extraction)
* Optimierung mit dem genetischen Algorithmus
* Selektion der aussagekräftigsten Merkmale (Feature Selection)
* Clustering von Musikfiles (automatische Playlistgenerierung)


## Vor dem Versuch zu klärende Fragen

### Transcodierung von MP3 nach WAV und Merkmalsextraktion
In diesem Versuch wird der MP3 Decoder [mpg123](http://www.mpg123.de/) eingesetzt. Installieren und testen sie diesen Decoder vor dem Versuch auf ihrem Rechner. Machen Sie sich zunächst mit dem in Kapitel [Gegebene Module zur Transcodierung und Feature Extraction](#Gegebene-Module-zur-Transcodierung-und-Feature-Extraction) aufgeführten Code vertraut. Versuchen Sie Funktion und Ablauf dieses Programms zu verstehen und beantworten Sie folgende Fragen.

1. Was versteht man unter den statistischen Größen _Mittelwert, Standardabweichung, Skewness und Kurtosis_?
2. Was beschreibt die Fourier-Transformierte eines zeitlich ausgedehnten Signals?
3. Mit welcher Samplingrate werden die WAV Dateien abgetastet?
4. Insgesamt werden 42 Merkmale pro Musiksequenz extrahiert. Beschreiben Sie kurz diese Merkmale



**Antworten zu: "Transcodierung von MP3 nach WAV und Merkmalsextraktion"**  

Aufgabe 1:
* Mittelwert: Durschnittswert (Erwartungswert, meist aritmethisches Mittel). Summe aller Werte dividiert durch die Anzahl der Werte.
* Standardabweichung: Mit ihr kann man ermitteln, wie stark die Streuung der Werte um einen Mittelwert ist (genauer gesagt, gibt sie an, wie weit die einzelnen Messwerte im Durchschnitt von dem Erwartungswert / Mittelwert entfernt sind). Zuvor müssen Mittelwert und Varianz berechnet werden, um die Standardabweichung ermitteln zu können. Je kleiner die Streuung, desto besser.
* Skewness:  Statistische Kennzahl, die die Art und Stärke der Asymmetrie einer Wahrscheinlichkeitsverteilung beschreibt. Sie zeigt an, ob und wie stark die Verteilung nach rechts (rechtssteil, linksschief, negative Schiefe) oder nach links (linkssteil, rechtsschief, positive Schiefe) geneigt ist. Jede nicht symmetrische Verteilung heißt schief. Bei symmetrischen Verteilungen ist die Schiefe = 0 (muss umgekehrt aber nicht zwingend der Fall sein). Ist 
die Schiefe > 0, so ist die Verteilung rechtsschief, ist sie < 0, dann ist die Verteilung linksschief. Bei rechtsschiefen Verteilungen sind Werte, die kleiner sind als der Mittelwert, häufiger zu beobachten, so dass sich der Gipfel (Modus) links vom Mittelwert befindet; der rechte Teil des Graphs ist flacher als der linke.
* Kurtosis: Maßzahl für die Steilheit bzw. „Spitzigkeit“ einer (eingipfligen) Wahrscheinlichkeitsfunktion, statistischen Dichtefunktion oder Häufigkeitsverteilung. Die Kurtosis gibt an, wie weit die Randbereiche einer Verteilung von der Normalverteilung abweichen. Verteilungen mit geringer Wölbung streuen relativ gleichmäßig; bei Verteilungen mit hoher Wölbung resultiert die Streuung mehr aus extremen, aber seltenen Ereignissen. Sind die Daten normalverteilt, ist der Kurtosis-Wert = 0. Ein positiver Kurtosis-Wert für eine Verteilung deutet darauf hin, dass sich die Verteilung durch stärker ausgeprägte Randbereiche als die Normalverteilung auszeichnet. Ein negativer Kurtosis-Wert für eine Verteilung deutet darauf hin, dass sich die Verteilung durch schwächer ausgeprägte Randbereiche als die Normalverteilung auszeichnet. 

Aufgabe 2:  
Die Fourier-Transformation ist eine mathematische Beschreibung aus der Fourier-Analyse, wie kontinuierliche, aperiodische Signale in ein kontinuierliches Spektrum zerlegt werden (sie ist die klassische Methode zur Zerlegung eines Signals in seine einzelnen Frequenzen und die anschließende Rekonstruktion aus dem Frequenzspektrum). Die Fourier-Transformtion ist eine Integraltransformation, die einer gegebenen Funktion eine andere Funktion (ihre Fourier-Transformierte) zuordnet. Oder auch: Die Funktion, die dieses Spektrum beschreibt, nennt man Fourier-Transformierte (Spektralfunktion, Frequenzspektrum). Das Ergebnis der Fourier-Transformierten ist das Frequenzspektrum des Signals, welches als Werte auf der X-Achse die Frequenzen (Hz) und auf der Y-Achse die Amplituden der einzelnen Frequenzen hat.

Aufgabe 3:  
In diesem Versuch werden die WAV Dateien mit einer Samplinrate von 10 kHz abgetastet (normalerweise werden Audiodateien allerdings i.d.R. mit einer Samplingrate von 44,1 kHz abgetastet, um dadurch ein hörbares Frequenzspektrum von ca. 22 kHz zu erhalten).

Aufgabe 4:  
Es werden die statistischen Größen Mittelwert, Standardabweichung, Skewness und Kurtosis jeweils für verschiedene Amplituden-Werte (jeweils Freqenzbereiche in Hz / jeweils für alle 10/100/1000 Werte?) extrahiert. Per Fast Fourier Transformation (FFT) wird ausserdem für 10 verschiedene Power-Werte ermittelt, in welchen Frequenzen eine bestimmte Signalstärke (signal's power) vorkommt.

### Matching der Teilsequenzen

1. Nachdem für jedes Musikstück die beiden Teilsequenzen in Form der extrahierten Merkmale vorliegen: Wie kann die Ähnlichkeit zwischen Teilsequenzen ermittelt werden?
2. Welche Numpy- bzw. Scipy-Module können Sie für die Bestimmung der Ähnlichkeit zwischen Teilsequenzen einsetzen?

**Antworten zu: "Matching der Teilsequenzen"**  

Aufgabe 1:   
Man vergleicht die aus den extrahierten Merkmalen generierten Merkmalsvektoren. Sind Musikstücke ähnlich, liegen die Merkmalsvektoren nah beieinander. Beispielsweise über die euklidische Distanz.

Aufgabe 2:  
Numpy:
* np.correlate() (-> *returns the cross-correlation of two vectors*)
* np.linalg.norm() (-> *euclidean*)

Scipy:
* correlation (-> *returns the cross-correlation of two vectors*)
* euclidean

Alternativ:  
Mit dem Modul "Scikit Learn" (scipy.spatial.distance) 

### Genetischer Algorithmus für die Merkmalsselektion

1. Beschreiben Sie die Prozesschritte im genetischen Algorithmus [Genetischer Algorithmus](https://www.hdm-stuttgart.de/~maucher/Python/FunktionenAlgorithmen/html/genAlgTSP.html)
2. In diesem Versuch wird davon ausgegangen, dass Merkmale dann gut sind, wenn durch sie die erste Teilsequenz eines Musikstücks durch einen ähnlichen Vektor wie die jeweils zweite Teilsequenz beschrieben wird. Wie kann mit dieser Annahme der genetische Algorithmus für die Merkmalsselektion angewandt werden. Unter Merkmalsselektion versteht man allgemein die Suche nach den $r$ besten Merkmalen aus einer Menge von insgesamt $R$ Merkmalen. In diesem Versuch werden initial $R=42$ Merkmale extrahiert, aus denen dann die besten $r<R$ Merkmale zu bestimmen sind. Überlegen Sie hierfür speziell wie die Fitnessfunktion, die Kreuzung und die Mutation zu realisieren sind.


**Antworten zu: "Genetischer Algorithmus für die Merkmalsselektion"**  

Aufgabe 1:  
* Erzeugung zufälliger Population: Auswahl von *k* zufälligen Zuständen (Individuen).
* Berechne Fitness der Chromosomen: Bewertung der Zustände mit Fitnessfunktion (= Zielfunktion). Die Fitnessfunktion sollte für bessere Zustände (= fittere Individuen) höhere Werte zurückgeben.
* Selektion: Auswahl für Reproduktion. Fittere Individuen werden mit größerer Wahrscheinlichkeit gepaart.
* Crossover: Setzen des Kreuzungspunktes (zufällig). Anschließßend erzeugen einer neuen Generation durch Kreuzung.
* Mutation: Zufällige Mutation (alten Wert durch neuen ersetzen) einzelner Stellen mit geringer Wahrscheinlichkeit.
* Austausch: Kinder (evtl. mutiert) ersetzen Zustände voriger Population.
* Gegebenenfalls neuer Durchlauf


Aufgabe 2:  
"Irgendwie" über den mittleren Rang? -> tbd.!

### Clustering und Playlistgenerierung

1. Wie kann mit einem hierarchischen Clustering der Musikfiles eine Menge von Playlists erzeugt werden, so dass innerhalb einer Playlist möglichst ähnliche Titel zu finden sind?

**Antworten zu: "Clustering und Playlistgenerierung"**  

Aufgabe 1:  
Über *Complete Linkage* erhält man den maximalen Abstand zwischen verschiedenen Clustern, die dann jeweils alle einen homogenen Inhalt haben. Die einzelnen Cluster sind dann die Playlists, deren Inhalt ähnliche Titel sind.

# Durchführung
## Gegebene Module zur Transcodierung und Feature Extraction
Mit dem in diesem Abschnitt gegebenen Code werden die im Unterverzeichnis _BandCollection_ befindlichen mp3-Files zunächst in wave decodiert. Danach werden aus den wave Dateien Audiomerkmale erhoben.

Von jedem Musikstück werden zwei disjunkte Teilsequenzen erhoben und von beiden Teilsequenzen jeweils ein Merkmalsvektor gebildet. Der Grund hierfür ist: Für die später folgende Bestimmung der wichtigsten Merkmale (Merkmalsselektion mit dem genetischen Algorithmus), wird angenommen dass Merkmale dann gut sind, wenn die aus ihnen gebildeten Merkmalsvektoren für Teilsequenzen des gleichen Musikstücks nahe beieinander liegen und die Merkmalsvektoren von Teilsequenzen unterschiedlicher Musikstücke weiter voneinander entfernt sind. In der Merkmalsselektion werden dann die Merkmale als relevant erachtet, für die diese Annahme zutrifft. 

**Aufgaben:**

1. Stellen Sie im unten gegebenen Code die Verzeichnisse für Ihre Musikdateien (aktuell Unterverzeichnis _BandCollection_) und für den Ort Ihres _mpg123_ Decoders richtig ein.
2. Die verwendete Musiksammlung sollte mindestens 5 verschiedene Interpreten möglichst unterschiedlicher Genres enthalten. Von jedem Interpret sollten mehrere Titel (evtl. ein ganzes Album) enthalten sein.
3. Führen Sie den in diesem Abschnitt gegebenen Programmcode zur Audiofeature-Extraction aus. Damit werden für alle Musiksequenzen jeweils 42 Merkmale extrahiert. Die extrahierten Merkmalsvektoren der jeweils ersten Sequenz werden in das File _FeatureFileTrainingAllList1.csv_ geschrieben, die der zweiten Teilsequen in das File _FeatureFileTestAllList2.csv_. 


In [48]:
import subprocess
import wave
import struct
import numpy
import os
import pandas as pd


numpy.set_printoptions(precision=2,suppress=True)


#Names of features extracted in this module
FeatNames=["amp1mean", "amp1std", "amp1skew", "amp1kurt", "amp1dmean", "amp1dstd", "amp1dskew", "amp1dkurt",
           "amp10mean", "amp10std", "amp10skew", "amp10kurt", "amp10dmean", "amp10dstd", "amp10dskew", "amp10dkurt",
           "amp100mean", "amp100std", "amp100skew", "amp100kurt", "amp100dmean", "amp100dstd", "amp100dskew", "amp100dkurt",
           "amp1000mean", "amp1000std", "amp1000skew", "amp1000kurt", "amp1000dmean", "amp1000dstd", "amp1000dskew", "amp1000dkurt",
           "power1", "power2", "power3", "power4", "power5", "power6", "power7", "power8", "power9", "power10"]


In [49]:
def moments(x):
    mean = x.mean()
    std = x.var() ** 0.5
    skewness = ((x - mean) ** 3).mean() / std ** 3
    kurtosis = ((x - mean) ** 4).mean() / std ** 4
    return [mean, std, skewness, kurtosis]
    

In [87]:
#Feature category 2: Frequency domain parameters
def fftfeatures(wavdata):
    f = numpy.fft.fft(wavdata)
    f = f[2:(int(f.size / 2) + 1)]
    f = abs(f)
    total_power = f.sum()
    f = numpy.array_split(f, 10)
    return [e.sum() / total_power for e in f]


In [51]:
#Creating the entire feature vector per music-file
def features(x):
    x = numpy.array(x)
    f = []

    xs = x
    diff = xs[1:] - xs[:-1]
    f.extend(moments(xs))
    f.extend(moments(diff))

    xs = x.reshape(-1, 10).mean(1)
    diff = xs[1:] - xs[:-1]
    f.extend(moments(xs))
    f.extend(moments(diff))

    xs = x.reshape(-1, 100).mean(1)
    diff = xs[1:] - xs[:-1]
    f.extend(moments(xs))
    f.extend(moments(diff))

    xs = x.reshape(-1, 1000).mean(1)
    diff = xs[1:] - xs[:-1]
    f.extend(moments(xs))
    f.extend(moments(diff))

    f.extend(fftfeatures(x))
    return f


In [52]:
def read_wav(wav_file):
    """Returns two chunks of sound data from wave file."""
    w = wave.open(wav_file)
    n = 60 * 10000
    if w.getnframes() < n * 3:
        raise ValueError('Wave file too short')
    #For each music file 2 sequences, each containing n frames are subtracted. The first sequence starts at postion n,
    #the second sequence starts at postion 2n. The reason for extracting 2 subsequences is, that later on we like to
    #find the best features and in this exercise we assume that good features have the property that they are similar for 2 subsequences
    #of the same song, but differ for subsequences of different songs.
    w.setpos(n)
    frames = w.readframes(n)
    wav_data1 = struct.unpack('%dh' % n, frames)
    frames = w.readframes(n)
    wav_data2 = struct.unpack('%dh' % n, frames)
    return wav_data1, wav_data2


In [None]:
def compute_chunk_features(mp3_file):
    """Return feature vectors for two chunks of an MP3 file."""
    # Extract MP3 file to a mono, 10kHz WAV file
    mpg123_command = '/usr/local/Cellar/mpg123/1.25.10/bin/mpg123 -w "%s" -r 10000 -m "%s"'
    out_file = 'temp1.wav'
    cmd = mpg123_command % (out_file, mp3_file)
    #temp = subprocess.call(cmd)
    temp = subprocess.call(cmd, shell=True)
    # Read in chunks of data from WAV file
    wav_data1, wav_data2 = read_wav(out_file)
    # We'll cover how the features are computed in the next section!
    return numpy.array(features(wav_data1)), numpy.array(features(wav_data2))


In [167]:
fileList = []
featureList1 = []
featureList2 = []
#Specify the name of the directory, which contains your MP3 files here.
# This directory should contain for each band/author one subdirectory, which contains all songs of this author
for path, dirs, files in os.walk('../Resources/BandCollection'):
    print ('-'*10,dirs,files)
    for f in files:
        if not f.endswith('.mp3'):
            # Skip any non-MP3 files
            continue
        mp3_file = os.path.join(path, f)
        #print(path)
        #print(f)
        print(mp3_file)
        # Extract the track name (i.e. the file name) plus the names
        # of the two preceding directories. This will be useful
        # later for plotting.
        tail, track = os.path.split(mp3_file)
        tail, dir1 = os.path.split(tail)
        tail, dir2 = os.path.split(tail)
        # Compute features. feature_vec1 and feature_vec2 are lists of floating
        # point numbers representing the statistical features we have extracted
        # from the raw sound data.
        try:
            feature_vec1, feature_vec2 = compute_chunk_features(mp3_file)
        except:
            print ("Error: Chunk Features failed")
            continue
        #title=str(track)
        title = str(dir1) + '\\' + str(track)
        print ('-' * 20 + title + '-' * 20)
        print ("       feature vector 1:",feature_vec1)
        print ("       feature vector 2:",feature_vec2)
        fileList.append(title)
        featureList1.append(feature_vec1)
        featureList2.append(feature_vec2)


---------- ['LanaDelRey', 'Garrett', 'RageAgainstTheMachine', 'BeastieBoys', 'Adele'] ['.DS_Store']
---------- [] ['03 Blue Jeans (Remastered).mp3', '05 Diet Mountain Dew.mp3', '06 National Anthem.mp3', '08 Radio.mp3', '11 Summertime Sadness.mp3', '02 Off to the Races.mp3', '07 Dark Paradise.mp3', '04 Video Games (Remastered).mp3', '01 Born to Die.mp3', '10 Million Dollar Man.mp3', '12 This Is What Makes Us Girls.mp3', '09 Carmen.mp3']
../Resources/BandCollection/LanaDelRey/03 Blue Jeans (Remastered).mp3
Error: Chunk Features failed
../Resources/BandCollection/LanaDelRey/05 Diet Mountain Dew.mp3
Error: Chunk Features failed
../Resources/BandCollection/LanaDelRey/06 National Anthem.mp3
Error: Chunk Features failed
../Resources/BandCollection/LanaDelRey/08 Radio.mp3
Error: Chunk Features failed
../Resources/BandCollection/LanaDelRey/11 Summertime Sadness.mp3
Error: Chunk Features failed
../Resources/BandCollection/LanaDelRey/02 Off to the Races.mp3
Error: Chunk Features failed
../Resourc

Error: Chunk Features failed
../Resources/BandCollection/Adele/05 Set Fire To The Rain.mp3
Error: Chunk Features failed
../Resources/BandCollection/Adele/09 Rumour Has It.mp3
Error: Chunk Features failed
../Resources/BandCollection/Adele/01 Hometown Glory.mp3
Error: Chunk Features failed
../Resources/BandCollection/Adele/03 Don't You Remember.mp3
Error: Chunk Features failed


In [None]:
# Write feature vecotrs of all music files to pandas data-frame
MusicFeaturesTrain = pd.DataFrame(index=fileList, data=numpy.array(featureList1), columns=FeatNames)
MusicFeaturesTrain.to_csv("FeatureFileTrainingAllList1a.csv")

MusicFeaturesTest = pd.DataFrame(index=fileList, data=numpy.array(featureList2), columns=FeatNames)
MusicFeaturesTest.to_csv("FeatureFileTestAllList2a.csv")

## Matching der Teilsequenzen
In diesem Abschnitt soll ein Verfahren implementiert werden, mit dem die Übereinstimmung der ersten Teilsequenz eines Musikstücks mit den zweiten Teilsequenzen aller anderen Musikstücke berechnet werden kann.

**Aufagben:**
1. Lesen Sie die im vorigen Teilversuch angelegten zwei csv-Dateien in jeweils einen eigenen Pandas Dataframe ein.
2. Skalieren Sie beide Teilsequenzmengen, so dass alle Merkmale eine Standardabweichung von 1 aufweisen. Z.B. mit [http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.scale.html](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.scale.html).
2. Bestimmen Sie zu jeder Teilsequenz aus der Datei _FeatureFileTrainingAllList1.csv_ die euklidische Distanz zu allen Teilsequenzen aus der Datei _FeatureFileTestAllList2.csv_ und schreiben Sie diese Distanzen in eine aufsteigend geordnete Liste. Schreiben Sie auch die zugehörigen Argumente (Teilsequenzen) in eine geordnete Liste, sodass für jede Teilsequenz aus _FeatureFileTrainingAllList1.csv_ die am nächsten liegende Teilsequenz aus _FeatureFileTestAllList2.csv_ an erster Stelle steht, die zweitnächste Teilsequenz an zweiter usw.
3. Bestimmen Sie über alle Teilsequenzen aus _FeatureFileTrainingAllList1.csv_ den **mittleren Rang** an dem die zugehörige zweite Teilsequenz erscheint. Liegt z.B. für die erste Teilsequenz des Musikstücks A die zweite Teilsequenz nur an fünfter Stelle der geordneten nächsten Nachbarliste. Dann würde diese Teilsequenz mit dem Rang 5 in den Mittelwert einfließen.
4. Bestimmen Sie jetzt den mittleren Rang, für den Fall, dass _correlation_ anstelle _euclidean_ als Ähnlichkeitsmaß verwendet wird. Welches Ähnlichkeitsmaß ist für diese Anwendung zu bevorzugen?
5. Diskutieren Sie das Ergebnis


In [None]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import scale
from IPython.display import display

#csv-dateien in pandas dataframe einlesen
def CSVtoPanda(path):
    return pd.read_csv(path, index_col='Unnamed: 0', sep=',', encoding='utf-8')

#skalieren auf standardabweichung = 1
def normalizeFeatures(df):
    scale(df, axis=0, with_mean=False, with_std=True, copy=False)
    


In [None]:
ts1 = CSVtoPanda('FeatureFileTrainingAllList1a.csv')
print 'FeatureFileTrainingAllList1a.csv:'
display(t1.iloc[0:3])
print '\tNormalized:'
normalizeFeatures(t1)
display(t1.iloc[0:3])


ts2 = CSVtoPanda('FeatureFileTestAllList2a.csv')
print 'FeatureFileTestAllList2a:'
display(t2.iloc[0:3])
print '\tNormalized:'
normalizeFeatures(t2)
display(t2.iloc[0:3])



In [None]:
import scipy

def calc_distances(df1, df2, measure='euclidean'):
    distances = {}
    for df1key, df1value in df1.iterrows():
        a = np.array(df1value)
        tuples = []
        for df2key, df2value in df2.iterrows():
            b = np.array(df2value)
            # euklidische distanz zwischen teilsequenzen
            if measure=='euclidean':
                dist = np.linalg.norm(a-b)
            
            else:
                # korrelation zwischen teilsequenzen
                dist = np.correlate(a, b)[0]
            tuples.append((dist, df2key))
        # sortiere tuples nach der distanz
        if measure=='euclidean':
            tuples_sorted = sorted(tuples, key=lambda x: x[0])
        else:
            # tuples absteigend sortieren für korrelation
            tuples_sorted = sorted(tuples, key=lambda x: x[0], reverse=True)
        distances[df1key] = tuples_sorted
    return distances


#euklidische distanz der teilsequenzen
euc_distances = calc_distances(ts1, ts2)
# korrelation anstatt euklidische distanz
correlations = calc_distances(ts1, t2s, measure='correlation')

In [None]:
#distanzen in geordnete liste schreiben
def similaritiesOrdered(distance_dict, elements, correspondingTops):
    counter = 0
    for k, v in distance_dict.items():
        if(counter == elements):
            break;
        print "similarities of \'{}\'".format(k)
        for index in range(0, correspondingTops):
            if(v[index][1] != k):
                print "\t{v[0]: .2f} - {v[1]}".format(v = v[index]) 
            else: 
                print "     >>>{v[0]: .2f} - {v[1]}".format(v = v[index]) 
        print "-" * 20
        counter += 1 
        

In [None]:
#bestimmen des mittleren rankes
def calculateMeanRank(distances):
    sumForMean = 0.0;
    for key in distances:
        for index, pair in enumerate(distances[key]):
            if (pair[1] == key):
                sumForMean += index + 1
                break;
    return sumForMean / len(distances)


print 'Euclidean mean rank: {}'.format(calculateMeanRank(euc_distances))
#korrelation anstatt euklidische distanz
#print 'Correlation mean rank: {}'.format(calculateMeanRank(correlations))


In [None]:
#euklidische distanz
similaritiesOrdered(euc_distances, 3, 3)
#korrelation
similaritiesOrdered(correlations, 3, 3)


#mittlrer rang der euklidischen distanz
print 'Euclidean mean rank: {}'.format(calculateMeanRank(euc_distances))
#mittlerer rang der korrelation
print 'Correlation mean rank: {}'.format(calculateMeanRank(correlations))



**Antworten zu: "Matching der Teilsequenzen"**  

Aufgabe 5:  
* Euklidsche Distanz: Zwei Vektoren können als umso ähnlicher erachtet werden, je kleiner deren euklidische Distanz ist.

* Korrelation: Der (Pearson-)Korrelationskoeffizient misst die lineare Abhängigkeit zwischen zwei Vektoren.

Da (nur) die Standardabweichung normalisiert wurde, und nicht (auch) der Mittelwert, wäre die euklidische Distanz das bevorzugte Ähnlichkeitsmaß.


Aufgabe 6:  
Die euklidische Distanz sollte der Erwartung nach eigentlich das bessere Ergebnis zurückgeben. Für die Berechnung der (Pearson-)Korrelation sollte es bestenfalls eine Normalverteilung und einen linearen Zusammenhang geben. Diesen würde ich hier bei den extrahierten Features der Musikstücke, also den Amplituden/Frequenzen, nicht vermuten.




## Merkmalsauswahl mit dem genetischen Algorithmus
In diesem Abschnitt soll unter Anwendung eines selbst zu implementierenden genetischen Algorithmus eine Untermenge wichtiger Merkmale aus den insgesamt 42 angelegten Merkmalen berechnet werden.
Als Vorlage kann hierfür die Implementierung für die [Lösung des TSP Problems](https://www.hdm-stuttgart.de/~maucher/Python/FunktionenAlgorithmen/html/genAlgTSP.html) herangezogen werden. Anzupassen sind dann jedoch mindestens die Fitness-Funktion, die Kreuzungs- und die Mutationsfunktion. Die Fitness soll so wie im vorigen Teilabschnitt mit dem mittleren Rang berechnet werden. Die Populationsgröße, die Anzahl der auszuwählenden Merkmale und die Anzahl der Iterationen sollen als Parameter einstellbar sein.

Der Fitnesswert des besten Individuums in der Population soll in jeder Iteration gespeichert werden. Der Verlauf dieses besten Fitness-Wertes über den Fortlauf der Iterationen soll graphisch ausgegeben werden.

Ein Pandas Frame, der nur die berechneten wichtigsten Merkmale aus _FeatureFileTrainingAllList1.csv_ enthält soll angelegt und in die csv Datei _subFeaturesTrain1.csv_ geschrieben werden.

**Aufgaben:**
1. Implementieren Sie die die Merkmalsauswahl mit dem genetischen Algorithmus entsprechend der o.g. Beschreibung
2. Beschreiben Sie kurz das Konzept ihrer Kreuzungs- und Mutationsfunktion. 
3. Bestimmen Sie eine möglichst kleine Merkmalsuntermenge mit einem möglichst guten mittleren Rang? Geben Sie sowohl die gefundenen wichtigsten Merkmale als auch den zugehörigen mittleren Rang an.
4. Um wieviel verschlechtert sich der Mittlere Rang, wenn nur die 10 wichtigsten Merkmale benutzt werden?

#### Genetischer Algorithmus für die Music Feature Selection

In [None]:
#Your Code

#### Music Feature Selection

In [None]:
#Your Code

## Clustering und automatische Playlistgenerierung
Implementieren Sie ein hierarchisches Clustering aller Subsequenzen in _subFeaturesTrain1.csv_. Diese _.csv_-Datei enthält nur die im vorigen Schritt ermittelten wichtigsten Merkmale. Das hierarchische Clustering ist in einem Dendrogram der Art wie in der unten gegebenen Abbildung zu visualisieren.

Die gefundenen Cluster sind mit den zugehörigen Musiktiteln in der Konsole auszugeben. 

**Aufgaben:**

1. Optimieren Sie die Parameter

    1. metric (Ähnlichkeitsmaß)
    2. linkage method
    3. Clusteranzahl
    
2. Für welche Parameterkonstellation erlangen Sie das für Sie subjektiv betrachtet günstigste Ergebnis?
3. Überlegen Sie sich Ansätze um diese Art der Musikgruppierung zu verbessern?

![Abbildung Music Clustering](https://www.hdm-stuttgart.de/~maucher/ipnotebooks/DataMining//Bilder/playlistCluster.png "Music Clustering")

**Antworten zu: "Clustering und automatische Playlistgenerierung"**  

Aufgabe 2:  
tbd.

Aufgabe 3:  
Mögliche Ansätze, um die Musikgruppierung zu verbessen, wäre das Betrachten weiterer Daten der Musikstücke auf Meta-Ebene (sofern diese vorhanden bzw. Musikstücke korrekt getaggt sind):
* Genre
* Erscheinungsjahr
* BPM (Beats Per Minute)