# Data Mining Versuch Music Clustering
* Autor: Prof. Dr. Johannes Maucher
* Datum: 16.10.2015

[Übersicht Ipython Notebooks im Data Mining Praktikum](Data Mining Praktikum.ipynb)

# Einführung
## Lernziele:
In diesem Versuch sollen Kenntnisse in folgenden Themen vermittelt werden:

* Zugriff auf Musikdateien
* Transcodierung von mp3 zu wav 
* Extraktion von Merkmalen in Musikdateien (Feature Extraction)
* Optimierung mit dem genetischen Algorithmus
* Selektion der aussagekräftigsten Merkmale (Feature Selection)
* Clustering von Musikfiles (automatische Playlistgenerierung)


## Vor dem Versuch zu klärende Fragen

### Transcodierung von MP3 nach WAV und Merkmalsextraktion
In diesem Versuch wird der MP3 Decoder [mpg123](http://www.mpg123.de/) eingesetzt. Installieren und testen sie diesen Decoder vor dem Versuch auf ihrem Rechner. Machen Sie sich zunächst mit dem in Kapitel [Gegebene Module zur Transcodierung und Feature Extraction](#Gegebene-Module-zur-Transcodierung-und-Feature-Extraction) aufgeführten Code vertraut. Versuchen Sie Funktion und Ablauf dieses Programms zu verstehen und beantworten Sie folgende Fragen.

1. Was versteht man unter den statistischen Größen _Mittelwert, Standardabweichung, Skewness und Kurtosis_?
2. Was beschreibt die Fourier-Transformierte eines zeitlich ausgedehnten Signals?
3. Mit welcher Samplingrate werden die WAV Dateien abgetastet?
4. Insgesamt werden 42 Merkmale pro Musiksequenz extrahiert. Beschreiben Sie kurz diese Merkmale



#### Aufgabe 1
*verwendete Quelle zum Einlesen in Skewness: https://matheguru.com/stochastik/schiefe-linksschief-rechtsschief-symmetrisch.html<br>
 verwendete Quelle zum Einlesen in Kurtosis: http://www.statistics4u.info/fundstat_germ/cc_kurtosis.html*
- Der **Mittelwert** beschreibt den Durchschnittswert einer numerischen Datenmenge. Er ergibt sich aus der Summe aller Elemente der Menge, geteilt durch die Anzahl Elemente in der Menge.
> $a = \{1, 3, 5, 6, 7, 8, 6\}$<br>
$sum(a) = 36$<br>
$len(a) = 7$<br>
$Mittelwert(a) = \frac{sum(a)}{len(a)} = \frac{36}{7}\approx5.14$

- Die **Standardabweichung** ist ein Maß dafür, wie weit die Elemente einer Zahlenmenge verteilt sind. Sie gibt an, wie stark die einzelnen Elemente im Durchschnitt vom Mittelwert der Menge abweichen.
> Berechnung der Standardabweichung:<br><br>
$variance(a) = \frac{(1-5.14)^2+(3-5.14)^2+(5-5.14)^2+(6-5.14)^2+(7-5.14)^2+(8-5.14)^2+(6-5.14)^2}{7}=\frac{34.8572}{7}=4.9796$<br>
$sd(a) = \sqrt{variance(a)}=\sqrt{4.9796}\approx2.23$

- **Skewness** (auf deutsch: Schiefe) gibt an, ob und inwieweit sich eine Verteilungsfunktion zu einer seite 'neigt'. Alle symmetrischen Funktionen haben eine Skewness von 0. Jede nicht-symmetrische Funktion ist hat eine positive (linksschief - Funktion neigt sich nach rechts) oder negative (rechtsschief - Funktion neigt sich nach links) Skewness. Ist eine Funktion linksschief, ist der Median größer als der Mittelwert, ist sie rechtsschief, ist er kleiner.

- Die **Kurtosis** (auf deutsch: Wölbung) gibt an, wie steil/flach eine Verteilungsfunktion im Vergleich zur Normalverteilung zuläuft. Die Normalverteilung hat eine Kurtosis von 0. Ist eine Verteilungsfunktion am Maximum spitzer als die Normalverteilung, ist die Kurtosis > 0. Ist eine Verteilungsfunktion flacher als die Normalverteilung, ist die Kurtosis < 0.

#### Aufgabe 2
*verwendete Quellen zum Einarbeiten: https://www.youtube.com/playlist?list=PLLTAHuUj-zHgvbOordkJ5jLmqcls2ZNrg*

Die Fourier-Transformierte eines zeitlich ausgedehnten (kontinuierlichen) Signals ist die Funktion, die beschreibt, wie das Signal in ein kontinuierliches Frequenzspektrum zerlegt werden kann.

#### Aufgabe 3
mpg123 tastet die MP3-Datei mit einer Rate von 10kHz ab und schreibt die Daten in eine WAV-Datei (*mpg123_command* in *compute_chunk_features*). Diese WAV-Datei wird anschließend in 600 000 Frames ausgelesen (*readframes(n)* mit *n = 60 x 10 000* in *read_wav*).

### Matching der Teilsequenzen

1. Nachdem für jedes Musikstück die beiden Teilsequenzen in Form der extrahierten Merkmale vorliegen: Wie kann die Ähnlichkeit zwischen Teilsequenzen ermittelt werden?
2. Welche Numpy- bzw. Scipy-Module können Sie für die Bestimmung der Ähnlichkeit zwischen Teilsequenzen einsetzen?

### Genetischer Algorithmus für die Merkmalsselektion

1. Beschreiben Sie die Prozesschritte im genetischen Algorithmus [Genetischer Algorithmus](https://www.hdm-stuttgart.de/~maucher/Python/FunktionenAlgorithmen/html/genAlgTSP.html)
2. In diesem Versuch wird davon ausgegangen, dass Merkmale dann gut sind, wenn durch sie die erste Teilsequenz eines Musikstücks durch einen ähnlichen Vektor wie die jeweils zweite Teilsequenz beschrieben wird. Wie kann mit dieser Annahme der genetische Algorithmus für die Merkmalsselektion angewandt werden. Unter Merkmalsselektion versteht man allgemein die Suche nach den $r$ besten Merkmalen aus einer Menge von insgesamt $R$ Merkmalen. In diesem Versuch werden initial $R=42$ Merkmale extrahiert, aus denen dann die besten $r<R$ Merkmale zu bestimmen sind. Überlegen Sie hierfür speziell wie die Fitnessfunktion, die Kreuzung und die Mutation zu realisieren sind.


#### Aufgabe 1

Ein Genetischer Algorithmus (GA) besteht grob aus den folgenden Schritten:

1. Überführe das Problem in eine Zielfunktion und codiere dementsprechend die Variablen der Funktion als Chromosomen. Bestimme die Größe N der Pupulation und die Abbruchkriterien. Lede die Kreuzungs- und die Mutationswahrscheinlichkeit (pk und pm) fest.
2. Definiere eine Bewertungsfunktion, um die Fitness eines Individuums bestimmen zu können. Von dem Fitness ist abhängig, ob das Individuum zur Kreuzung tauglich ist.
3. Generiere eine zufällige gewählte Aunfangspopulation.
4. Berechne die Fitness jedes einzelnen Individuums.
5. Wähle basierend auf ihrer Fitness Paare zur Kreuzung aus.
6. Führe die genetischen Operatoren Kreuzung und Mutation aus.
7. Wiederhole ab Schritt 5, bis die Anzahl der Kinder N erreicht hat.
8. Ersetze die Elternpopulation durch die Kinderpopulation.
9. Wiederhole ab Schritt 5, bis ein Abbruchkriterium erfüllt ist.

Jeder Durchlauf repräsentiert eine Generation.

#### Aufgabe 2

### Clustering und Playlistgenerierung

1. Wie kann mit einem hierarchischen Clustering der Musikfiles eine Menge von Playlists erzeugt werden, so dass innerhalb einer Playlist möglichst ähnliche Titel zu finden sind?

# Durchführung
## Gegebene Module zur Transcodierung und Feature Extraction
Mit dem in diesem Abschnitt gegebenen Code werden die im Unterverzeichnis _BandCollection_ befindlichen mp3-Files zunächst in wave decodiert. Danach werden aus den wave Dateien Audiomerkmale erhoben.

Von jedem Musikstück werden zwei disjunkte Teilsequenzen erhoben und von beiden Teilsequenzen jeweils ein Merkmalsvektor gebildet. Der Grund hierfür ist: Für die später folgende Bestimmung der wichtigsten Merkmale (Merkmalsselektion mit dem genetischen Algorithmus), wird angenommen dass Merkmale dann gut sind, wenn die aus ihnen gebildeten Merkmalsvektoren für Teilsequenzen des gleichen Musikstücks nahe beieinander liegen und die Merkmalsvektoren von Teilsequenzen unterschiedlicher Musikstücke weiter voneinander entfernt sind. In der Merkmalsselektion werden dann die Merkmale als relevant erachtet, für die diese Annahme zutrifft. 

**Aufgaben:**

1. Stellen Sie im unten gegebenen Code die Verzeichnisse für Ihre Musikdateien (aktuell Unterverzeichnis _BandCollection_) und für den Ort Ihres _mpg123_ Decoders richtig ein.
2. Die verwendete Musiksammlung sollte mindestens 5 verschiedene Interpreten möglichst unterschiedlicher Genres enthalten. Von jedem Interpret sollten mehrere Titel (evtl. ein ganzes Album) enthalten sein.
3. Führen Sie den in diesem Abschnitt gegebenen Programmcode zur Audiofeature-Extraction aus. Damit werden für alle Musiksequenzen jeweils 42 Merkmale extrahiert. Die extrahierten Merkmalsvektoren der jeweils ersten Sequenz werden in das File _FeatureFileTrainingAllList1.csv_ geschrieben, die der zweiten Teilsequen in das File _FeatureFileTestAllList2.csv_. 


In [1]:
import subprocess
import wave
import struct
import numpy
import os
import pandas as pd

numpy.set_printoptions(precision=2,suppress=True)

#Names of features extracted in this module
FeatNames=["amp1mean","amp1std","amp1skew","amp1kurt","amp1dmean","amp1dstd","amp1dskew","amp1dkurt","amp10mean","amp10std",
           "amp10skew","amp10kurt","amp10dmean","amp10dstd","amp10dskew","amp10dkurt","amp100mean","amp100std","amp100skew",
           "amp100kurt","amp100dmean","amp100dstd","amp100dskew","amp100dkurt","amp1000mean","amp1000std","amp1000skew",
           "amp1000kurt","amp1000dmean","amp1000dstd","amp1000dskew","amp1000dkurt","power1","power2","power3","power4",
           "power5","power6","power7","power8","power9","power10"]

In [2]:
def moments(x):
    mean = x.mean()
    std = x.var()**0.5
    skewness = ((x - mean)**3).mean() / std**3
    kurtosis = ((x - mean)**4).mean() / std**4
    return [mean, std, skewness, kurtosis]

##### Anmerkung

Der untenstehende Code wurde angepasst, damit er unter Python 2.7 und Python 3.6 ohne Probleme funktioniert. Hierfür wurde ein try-except Block eingebaut, der den benötigten Code der jeweiligen Version beinhaltet. Die Division gibt einen float Wert zurück, der unter 2.7 ohne Probleme verarbeitet werden kann. Bei 3.6 wird ein integer Wert erwartet, dieser wird mit einem int cast zurückgegeben. Hierbei muss draufgeachtet werden, dass nur die Division gecastet wird und nicht die Addition.

In [3]:
#Feature category 2: Frequency domain parameters
def fftfeatures(wavdata):
    f = numpy.fft.fft(wavdata)
    try: # python 2.7
        f = f[2:(f.size / 2 + 1)]
    except: # python 3.6
        f = f[2:(int(f.size / 2) + 1)]
    f = abs(f)
    total_power = f.sum()
    f = numpy.array_split(f, 10)
    return [e.sum() / total_power for e in f]

In [4]:
#Creating the entire feature vector per music-file
def features(x):
    x = numpy.array(x)
    f = []

    xs = x
    diff = xs[1:] - xs[:-1]
    f.extend(moments(xs))
    f.extend(moments(diff))

    xs = x.reshape(-1, 10).mean(1)
    diff = xs[1:] - xs[:-1]
    f.extend(moments(xs))
    f.extend(moments(diff))

    xs = x.reshape(-1, 100).mean(1)
    diff = xs[1:] - xs[:-1]
    f.extend(moments(xs))
    f.extend(moments(diff))

    xs = x.reshape(-1, 1000).mean(1)
    diff = xs[1:] - xs[:-1]
    f.extend(moments(xs))
    f.extend(moments(diff))

    f.extend(fftfeatures(x))
    return f

In [5]:
def read_wav(wav_file):
    """Returns two chunks of sound data from wave file."""
    w = wave.open(wav_file)
    n = 60 * 10000
    if w.getnframes() < n * 3:
        raise ValueError('Wave file too short')
    #For each music file 2 sequences, each containing n frames are subtracted. The first sequence starts at postion n,
    #the second sequence starts at postion 2n. The reason for extracting 2 subsequences is, that later on we like to
    #find the best features and in this exercise we assume that good features have the property that they are similar for 2 subsequences
    #of the same song, but differ for subsequences of different songs.
    w.setpos(n)
    frames = w.readframes(n)
    wav_data1 = struct.unpack('%dh' % n, frames)
    frames = w.readframes(n)
    wav_data2 = struct.unpack('%dh' % n, frames)
    return wav_data1, wav_data2

##### Anmerkung

Bei der Verwendung eines Apple Notebooks muss die Lokation des Decoders wie folgt angegebenen werden.

    mpg123_command = '/usr/local/Cellar/mpg123/1.25.10/bin/mpg123 -w "%s" -r 10000 -m "%s"'
    
Desweiteren muss bei dem subprocess.call der Code mit dem Parameter **shell=True** erweitert werden. Dies ist notwendig bei der Verwendung von Linux,Unix,Mac.

In [6]:
def compute_chunk_features(mp3_file):
    """Return feature vectors for two chunks of an MP3 file."""
    # Extract MP3 file to a mono, 10kHz WAV file
    #mpg123_command = 'C:\Program Files (x86)\mpg123-1.22.0-x86\mpg123-1.22.0-x86\\mpg123.exe -w "%s" -r 10000 -m "%s"'
    #mpg123_command = 'C:\\Program Files (x86)\\mpg123-1.21.0-x86-64\\mpg123.exe -w "%s" -r 10000 -m "%s"'
    #mpg123_command = 'C:\Users\maucher\Downloads\mpg123-1.23.8-x86-64\mpg123-1.23.8-x86-64\\mpg123.exe -w "%s" -r 10000 -m "%s"'
    
    mpg123_command = '/usr/local/Cellar/mpg123/1.25.10/bin/mpg123 -w "%s" -r 10000 -m "%s"'
    out_file = 'temp.wav'
    cmd = mpg123_command % (out_file, mp3_file)
    temp = subprocess.call(cmd, shell=True) #Linux and Mac issue||shell=Treu
    # Read in chunks of data from WAV file
    wav_data1, wav_data2 = read_wav(out_file)
    # We'll cover how the features are computed in the next section!
    return numpy.array(features(wav_data1)), numpy.array(features(wav_data2))

##### Anmerkung

Bei der Durchführung des nachfolgenden Code ist aufgefallen, das einige Musiktitel wohl nicht umwandelbar sind. Dies wird in der Ausgabe mit **Error: Chunk Features Failed** bemerkbar. Diese Musikstücke werden daher auch nicht in die jeweilige .csv Datei gespeichert.

In [7]:
fileList=[]
featureList1=[]
featureList2=[]
#Specify the name of the directory, which contains your MP3 files here.
# This directory should contain for each band/author one subdirectory, which contains all songs of this author
for path, dirs, files in os.walk('../Resources/BandCollection'):
    #print '-'*10,dirs,files
    for f in files:
        if not f.endswith('.mp3'):
            # Skip any non-MP3 files
            continue
        mp3_file = os.path.join(path, f)
        print (mp3_file)
        # Extract the track name (i.e. the file name) plus the names
        # of the two preceding directories. This will be useful
        # later for plotting.
        tail, track = os.path.split(mp3_file)
        tail, dir1 = os.path.split(tail)
        tail, dir2 = os.path.split(tail)
        # Compute features. feature_vec1 and feature_vec2 are lists of floating
        # point numbers representing the statistical features we have extracted
        # from the raw sound data.
        try:
            feature_vec1, feature_vec2 = compute_chunk_features(mp3_file)
        except:
            print ("Error: Chunk Features failed")
            continue
        #title=str(track)
        title=str(dir1)+'\\'+str(track)
        print ('-'*20+ title +'-'*20)
        #print "       feature vector 1:",feature_vec1
        #print "       feature vector 2:",feature_vec2
        fileList.append(title)
        featureList1.append(feature_vec1)
        featureList2.append(feature_vec2)

# Write feature vecotrs of all music files to pandas data-frame
MusicFeaturesTrain=pd.DataFrame(index=fileList,data=numpy.array(featureList1),columns=FeatNames)
MusicFeaturesTrain.to_csv("FeatureFileTrainingAllList1.csv")

MusicFeaturesTest=pd.DataFrame(index=fileList,data=numpy.array(featureList2),columns=FeatNames)
MusicFeaturesTest.to_csv("FeatureFileTestAllList2.csv")

../Resources/BandCollection/LanaDelRey/03 Blue Jeans (Remastered).mp3
--------------------LanaDelRey\03 Blue Jeans (Remastered).mp3--------------------
../Resources/BandCollection/LanaDelRey/05 Diet Mountain Dew.mp3
--------------------LanaDelRey\05 Diet Mountain Dew.mp3--------------------
../Resources/BandCollection/LanaDelRey/06 National Anthem.mp3
--------------------LanaDelRey\06 National Anthem.mp3--------------------
../Resources/BandCollection/LanaDelRey/08 Radio.mp3
--------------------LanaDelRey\08 Radio.mp3--------------------
../Resources/BandCollection/LanaDelRey/11 Summertime Sadness.mp3
--------------------LanaDelRey\11 Summertime Sadness.mp3--------------------
../Resources/BandCollection/LanaDelRey/02 Off to the Races.mp3
--------------------LanaDelRey\02 Off to the Races.mp3--------------------
../Resources/BandCollection/LanaDelRey/07 Dark Paradise.mp3
--------------------LanaDelRey\07 Dark Paradise.mp3--------------------
../Resources/BandCollection/LanaDelRey/04 Vi

--------------------Adele\15 Make You Feel My Love.mp3--------------------
../Resources/BandCollection/Adele/14 I Can't Make You Love Me.mp3
--------------------Adele\14 I Can't Make You Love Me.mp3--------------------
../Resources/BandCollection/Adele/16 Someone Like You.mp3
--------------------Adele\16 Someone Like You.mp3--------------------
../Resources/BandCollection/Adele/05 Set Fire To The Rain.mp3
--------------------Adele\05 Set Fire To The Rain.mp3--------------------
../Resources/BandCollection/Adele/09 Rumour Has It.mp3
--------------------Adele\09 Rumour Has It.mp3--------------------
../Resources/BandCollection/Adele/01 Hometown Glory.mp3
--------------------Adele\01 Hometown Glory.mp3--------------------
../Resources/BandCollection/Adele/03 Don't You Remember.mp3
--------------------Adele\03 Don't You Remember.mp3--------------------


##### Anmerkung für alle Teilaufgaben

Im unteren Zeilenabschnitt werden alle für den Versuch benötigten Packages und Module eingelesen, so das wir alle imports an einer Stelle wiederfinden.

In [8]:
from sklearn import preprocessing
from scipy import spatial

## Matching der Teilsequenzen
In diesem Abschnitt soll ein Verfahren implementiert werden, mit dem die Übereinstimmung der ersten Teilsequenz eines Musikstücks mit den zweiten Teilsequenzen aller anderen Musikstücke berechnet werden kann.

**Aufagben:**
1. Lesen Sie die im vorigen Teilversuch angelegten zwei csv-Dateien in jeweils einen eigenen Pandas Dataframe ein.
2. Skalieren Sie beide Teilsequenzmengen, so dass alle Merkmale eine Standardabweichung von 1 aufweisen. Z.B. mit [http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.scale.html](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.scale.html).
2. Bestimmen Sie zu jeder Teilsequenz aus der Datei _FeatureFileTrainingAllList1.csv_ die euklidische Distanz zu allen Teilsequenzen aus der Datei _FeatureFileTestAllList2.csv_ und schreiben Sie diese Distanzen in eine aufsteigend geordnete Liste. Schreiben Sie auch die zugehörigen Argumente (Teilsequenzen) in eine geordnete Liste, sodass für jede Teilsequenz aus _FeatureFileTrainingAllList1.csv_ die am nächsten liegende Teilsequenz aus _FeatureFileTestAllList2.csv_ an erster Stelle steht, die zweitnächste Teilsequenz an zweiter usw.
3. Bestimmen Sie über alle Teilsequenzen aus _FeatureFileTrainingAllList1.csv_ den **mittleren Rang** an dem die zugehörige zweite Teilsequenz erscheint. Liegt z.B. für die erste Teilsequenz des Musikstücks A die zweite Teilsequenz nur an fünfter Stelle der geordneten nächsten Nachbarliste. Dann würde diese Teilsequenz mit dem Rang 5 in den Mittelwert einfließen.
4. Bestimmen Sie jetzt den mittleren Rang, für den Fall, dass _correlation_ anstelle _euclidean_ als Ähnlichkeitsmaß verwendet wird. Welches Ähnlichkeitsmaß ist für diese Anwendung zu bevorzugen?
5. Diskutieren Sie das Ergebnis


#### Aufgabe 1

###### Codebeschreibung

Die jeweilige .csv Datei wird in einen panda Dataframe geladen. Der Parameter **sep=','** teilt die jeweiligen Argumente und mit dem Parameter **index_col=0** legen wir direkt beim einlesen fest, welche Spalte der Index ist. Der Index bilden bei uns der Interpret mit dem jeweiligen Musiktitel.

In [9]:
# Einlesen (Aufgabe 1)
trainDF = pd.read_csv("FeatureFileTrainingAllList1.csv", sep=',', index_col=0)
testDF = pd.read_csv("FeatureFileTestAllList2.csv", sep=',', index_col=0)

#### Aufgabe 2

###### Codebeschreibung

Beide eingelesenen Dataframes werden wie in der Aufgabe erwartet mit einer Standardabweichung von 1 skaliert.
Durch die Key und Value anpassung direkt beim einlesen in Aufgabe 1, können wir direkt nach der Skalierung die Werte dem jeweiligen Index wieder zuweisen.

In [10]:
# Skalieren (Aufgabe 2)
scaledTrainDF = preprocessing.scale(trainDF)
scaledTestDF = preprocessing.scale(testDF)
# skalierte Werte wieder den Indices zuordnen
trainDF = pd.DataFrame(index=trainDF.index, columns=trainDF.columns, data=scaledTrainDF)
testDF = pd.DataFrame(index=testDF.index, columns=testDF.columns, data=scaledTestDF)

print '-'*48, 'Skalierte Dataframes', '-'*47
print '-'*45, 'FeatureFileTrainingAllList','-'*44
print trainDF
print '\n','-'*46,'FeatureFileTestAllList','-'*45
print testDF
print '-'*117

#### Aufgabe 3

###### Codebeschreibung

Für die Berechnung der Distanzen ist eine Funktion implementiert worden, diese sowohl die **Euklidische Distanz** wie auch die **Pearson Distanz** berechnen kann. Die gewünschte Distanz wird durch den jeweiligen Übergabeparameter festgelegt. So wird für die **Euklidische Distanz** der String **dist_euclid** und für die **Pearson Distanz** der String **dist_correlation** übergeben. Das ganze wird dann in einer aufsteigend geordneten Liste zurückgegeben.

In [11]:
# Distanzen berechnen (Aufgabe 3)
def distance(similarity, trainDataframe, testDataframe):
    allDistDict = {}
    for index, row in trainDataframe.iterrows():
        distDict = {}
        for index2, row2 in testDataframe.iterrows():
            if similarity == 'dist_euclid':
                distDict[index2] = spatial.distance.euclidean(row, row2)
            if similarity == 'dist_correlation':
                distDict[index2] = spatial.distance.correlation(row, row2)

        distList = sorted(distDict.items(), key=lambda t: t[1], reverse=False)
        allDistDict[index] = distList
    return allDistDict

##### Anmerkung

Berechnung der **Euklidischen Distanz** zwischen den Teilsequenzen **FeatureFileTrainingAllList** und **FeatuereFileTestAllList**

In [16]:
allDistancesDictEuclid = distance('dist_euclid', trainDF, testDF)

print '-'*33, 'Bestimmung euklidischen Distanz der Teilsequenzen','-'*33,'\n'
print allDistancesDictEuclid
print '-'*117

--------------------------------- Bestimmung euklidischen Distanz der Teilsequenzen --------------------------------- 

{'LanaDelRey\\02 Off to the Races.mp3': [('BeastieBoys\\06 Pass the Mic.mp3', 5.0798917573487925), ('LanaDelRey\\12 This Is What Makes Us Girls.mp3', 6.6811137602414), ('LanaDelRey\\07 Dark Paradise.mp3', 6.815948827410198), ('RageAgainstTheMachine\\10 Freedom.mp3', 6.847366516987686), ('LanaDelRey\\08 Radio.mp3', 6.915577953877979), ("BeastieBoys\\12 Body Movin' (Fatboy Slim Remix).mp3", 7.002522982119034), ('LanaDelRey\\09 Carmen.mp3', 7.017146910068969), ("Garrett\\04 He's a Pirate (Pirates of the Car 1.mp3", 7.38006652652446), ('BeastieBoys\\07 An Open Letter to NYC.mp3', 7.4321027537782065), ('LanaDelRey\\02 Off to the Races.mp3', 7.54504736354605), ('Garrett\\11 Thunderstruck.mp3', 7.594664368655268), ('Adele\\12 Lovesong.mp3', 7.692227753579186), ('Garrett\\05 Summertime 1.mp3', 7.732188306094197), ('Adele\\17 Rolling In The Deep.mp3', 7.841336205917836), ('Ade

#### Aufgabe 4

###### Codebeschreibung

Implementierte Funktion für die Berechnung des mittleren Rang


In [33]:
def meanRank(allDistDict):
    rankSum = 0
    for key, value in allDistDict.items():
        rank = 1
        for element in value:
            if element[0] == key:
                rankSum = float(rankSum + rank)
            else:
                rank = floatrank +1

    meanRank = float(rankSum / len(allDistDict))
    return meanRank

SyntaxError: can't assign to function call (<ipython-input-33-f0fa0267eca8>, line 9)

##### Anmerkung

Berechung des mittleren Rang bei der Verwendung der **Euklidischen Distanz** für die Teilsequenzen

In [30]:
euclidMeanRank = meanRank(allDistancesDictEuclid)

print '-'*117
print 'Mittlerer Rang bei Verwendung der euklidischen Distanz: ', euclidMeanRank
print '-'*117

---------------------------------------------------------------------------------------------------------------------
Mittlerer Rang bei Verwendung der euklidischen Distanz:  2
---------------------------------------------------------------------------------------------------------------------


#### Aufgabe 5

##### Anmerkung

Berechnung der **Correlation(Pearson) Distanz** zwischen den Teilsequenzen **FeatureFileTrainingAllList** und **FeatuereFileTestAllList**

In [27]:
allDistancesDictCorrelation = distance('dist_correlation', trainDF, testDF)

print '-'*35, 'Bestimmung Pearson Distanz der Teilsequenzen','-'*35,'\n'
print allDistancesDictCorrelation
print '-'*117

----------------------------------- Bestimmung Pearson Distanz der Teilsequenzen ----------------------------------- 

{'LanaDelRey\\02 Off to the Races.mp3': [('BeastieBoys\\06 Pass the Mic.mp3', 0.243264213920229), ('LanaDelRey\\09 Carmen.mp3', 0.47598375368093804), ('LanaDelRey\\08 Radio.mp3', 0.5826183098239559), ('LanaDelRey\\02 Off to the Races.mp3', 0.5880001677151021), ('RageAgainstTheMachine\\10 Freedom.mp3', 0.5983543193205018), ('LanaDelRey\\07 Dark Paradise.mp3', 0.6023697298408153), ('LanaDelRey\\12 This Is What Makes Us Girls.mp3', 0.6071933288536311), ('BeastieBoys\\03 Ch-Check It Out.mp3', 0.6252381136435106), ('BeastieBoys\\07 An Open Letter to NYC.mp3', 0.6349200536885329), ('BeastieBoys\\10 Intergalactic.mp3', 0.7491923100668065), ('LanaDelRey\\06 National Anthem.mp3', 0.7654351229762185), ("BeastieBoys\\12 Body Movin' (Fatboy Slim Remix).mp3", 0.8124982238783335), ('BeastieBoys\\08 Root Down.mp3', 0.8319402271163752), ("Garrett\\04 He's a Pirate (Pirates of the Car 

##### Anmerkung

Berechung des mittleren Rang bei der Verwendung der **Correlation(Pearson) Distanz** für die Teilsequenzen

In [28]:
correlationMeanRank = meanRank(allDistancesDictCorrelation)

print '-'*117
print 'Mittlerer Rang bei Verwendung der Correlation(Pearson) Distanz: ', correlationMeanRank
print '-'*117

---------------------------------------------------------------------------------------------------------------------
Mittlerer Rang bei Verwendung der Correlation(Pearson) Distanz:  2.0
---------------------------------------------------------------------------------------------------------------------


### Diskussion 

#### Aufgabe 5

Es kommt drauf an, welcher Parameter durch die verwendung der Pearson Ähnlichkeit normiert wird. Wenn es die Lautsträke ist, würde es sinn machen. Da wenn zwei Lieder unterschiedlich laut sind jedoch von der Melodie, Rythmus ähnlich sind, auch als Ähnliche erkannt werden sollen. Wenn druch die Pearson Ähnlichkeit die Tonhöhe normiert wird, 

Wenn unterschiedliche Tonhöhen durch die Pearson verloren gehen, ist es nicht sinnvoll diese zu nutzen, da zwei Lieder die in unterschiedlichen oktaven liegen, auch als unterschiedlich erkannt werden sollen.

#### Aufgabe 6

Die zweite Teilsequenz des Liedes ist im Durchschnitt an Position 1 oder 2 der ersten Teilsequenz. Nur bei einzelnen Titeln, die Teilsequenz einen höhreren Rang besitzt, fällt der mittlere Rang höher aus und somit entsteht ein Mittelwert von ca. 2,5.

Zwei Musikstücke angehört um unterschiede zwischen euklid und pearson zu hören. Vorallem bei Sequenzen die sehr weit auseinander geworfen wurden.

## Merkmalsauswahl mit dem genetischen Algorithmus
In diesem Abschnitt soll unter Anwendung eines selbst zu implementierenden genetischen Algorithmus eine Untermenge wichtiger Merkmale aus den insgesamt 42 angelegten Merkmalen berechnet werden.
Als Vorlage kann hierfür die Implementierung für die [Lösung des TSP Problems](https://www.hdm-stuttgart.de/~maucher/Python/FunktionenAlgorithmen/html/genAlgTSP.html) herangezogen werden. Anzupassen sind dann jedoch mindestens die Fitness-Funktion, die Kreuzungs- und die Mutationsfunktion. Die Fitness soll so wie im vorigen Teilabschnitt mit dem mittleren Rang berechnet werden. Die Populationsgröße, die Anzahl der auszuwählenden Merkmale und die Anzahl der Iterationen sollen als Parameter einstellbar sein.

Der Fitnesswert des besten Individuums in der Population soll in jeder Iteration gespeichert werden. Der Verlauf dieses besten Fitness-Wertes über den Fortlauf der Iterationen soll graphisch ausgegeben werden.

Ein Pandas Frame, der nur die berechneten wichtigsten Merkmale aus _FeatureFileTrainingAllList1.csv_ enthält soll angelegt und in die csv Datei _subFeaturesTrain1.csv_ geschrieben werden.

**Aufgaben:**
1. Implementieren Sie die die Merkmalsauswahl mit dem genetischen Algorithmus entsprechend der o.g. Beschreibung
2. Beschreiben Sie kurz das Konzept ihrer Kreuzungs- und Mutationsfunktion. 
3. Bestimmen Sie eine möglichst kleine Merkmalsuntermenge mit einem möglichst guten mittleren Rang? Geben Sie sowohl die gefundenen wichtigsten Merkmale als auch den zugehörigen mittleren Rang an.
4. Um wieviel verschlechtert sich der Mittlere Rang, wenn nur die 10 wichtigsten Merkmale benutzt werden?

#### Genetischer Algorithmus für die Music Feature Selection

In [22]:
#Your Code

#### Music Feature Selection

In [24]:
#Your Code

## Clustering und automatische Playlistgenerierung
Implementieren Sie ein hierarchisches Clustering aller Subsequenzen in _subFeaturesTrain1.csv_. Diese _.csv_-Datei enthält nur die im vorigen Schritt ermittelten wichtigsten Merkmale. Das hierarchische Clustering ist in einem Dendrogram der Art wie in der unten gegebenen Abbildung zu visualisieren.

Die gefundenen Cluster sind mit den zugehörigen Musiktiteln in der Konsole auszugeben. 

**Aufgaben:**

1. Optimieren Sie die Parameter

    1. metric (Ähnlichkeitsmaß)
    2. linkage method
    3. Clusteranzahl
    
2. Für welche Parameterkonstellation erlangen Sie das für Sie subjektiv betrachtet günstigste Ergebnis?
3. Überlegen Sie sich Ansätze um diese Art der Musikgruppierung zu verbessern?

![Abbildung Music Clustering](https://www.hdm-stuttgart.de/~maucher/ipnotebooks/DataMining//Bilder/playlistCluster.png "Music Clustering")