# Tutorial Advanced Noten Part 3: Korpus-Statistik

(version 2022_01_24)

Dieses Tutorial führt in die computergestützten Möglichkeiten einfacher statistischer Abfragen auf der Grundlage von CAMAT (Computer-Assisted Music Analysis Tool) ein, wobei nun, anders als in Part 2, vergleichende Abfragen mehrere Stücke durchgeführt werden. Abgefragt werden 
- einfache statistische Daten (z.B. Taktlänge oder Ambitus der Stimmen) 
- die Verteilungen von Tonhöhenklassen und 
- die Verteilung von Intervallschritten. 

Das Durcharbeiten und Nachvollziehen des Tutoriums soll es Ihnen ermöglichen, mit den vorgestellten computergestützten Methoden eigene Musikbeispiele (Notendateien) zu untersuchen und Vergleiche zwischen verschiedenen Musikstücken durchzuführen.

Zu Beginn steht wieder das Laden verschiedener Bibliotheken mit folgenden Befehlen: 

In [5]:
import sys
import os
sys.path.append(os.getcwd().replace(os.path.join('music_xml_parser', 'ipynb'), ''))

import music_xml_parser as mp
import csv
from IPython.display import HTML, display
import numpy as np
import pandas as pd

In [2]:
# Hier Formatierungsvorgaben für die Tabellenausgabe:

pd.set_option('display.max_rows', 9999)     # Festlegung der max. Zahl der Zeilen
pd.set_option('display.max_columns', 9999)  # Festlegung der max. Zahl der Spalten
pd.set_option('display.width', 100)           # Hiermit mit die Spaltenbreite festgelegt

Im Statistik-Tutorial (Part 2) haben wir uns den ersten Satz aus dem Streichquartett KV. 171 von Wolfgang Amadeus Mozart angeschaut. Nun wollen wir die vier Sätze des Streichquartetts miteinander vergleichen. 

Hier die URL's der vier Dateien: 
- 'https://analyse.hfm-weimar.de/database/03/MoWo_K171_COM_1-4_StringQuar_003_00867.xml', 
- 'https://analyse.hfm-weimar.de/database/03/MoWo_K171_COM_2-4_StringQuar_003_00868.xml',
- 'https://analyse.hfm-weimar.de/database/03/MoWo_K171_COM_3-4_StringQuar_003_00869.xml',
- 'https://analyse.hfm-weimar.de/database/03/MoWo_K171_COM_4-4_StringQuar_003_00870.xml']

Wir könnendie vier Dateien mit dem folgenden Befehl unter der gemeinsamen Bezeichnung 'xml_files' laden: 

In [6]:
xml_files = ['https://analyse.hfm-weimar.de/database/03/MoWo_K171_COM_1-4_StringQuar_003_00867.xml',
             'https://analyse.hfm-weimar.de/database/03/MoWo_K171_COM_2-4_StringQuar_003_00868.xml',
             'https://analyse.hfm-weimar.de/database/03/MoWo_K171_COM_3-4_StringQuar_003_00869.xml',
             'https://analyse.hfm-weimar.de/database/03/MoWo_K171_COM_4-4_StringQuar_003_00870.xml']
# Die vier Dateinamen stehen zwischen in einfachen Apostrophen ' ' 
# und sind durch Kommata voneinander getrennt. 

# Alternativ können Dateien auch von der lokalen Festplatte eingelesen werden: 
# xml_files = ['MoWo_K171_COM_1-4_StringQuar_003_00867.xml', 
#             'MoWo_K171_COM_2-4_StringQuar_003_00868.xml',
#             'MoWo_K171_COM_3-4_StringQuar_003_00869.xml',
#             'MoWo_K171_COM_4-4_StringQuar_003_00870.xml']

# Zuvor müssen allerdings die vier Dateien in folgendem Ornder gespeichert worden sein: 
#    ... / music_xml_parser / data / xmls_to_parse / hfm_database

Mit dem folgenden Befehl ('df = mp.core.corpus.analyse_interval') wird eine Tabelle (oder 'Dataframe' mit der Bezeichnung 'df') erzeugt, die sich anschließend durch den Befehl 'df' im Browser als Tabelle anzeigen lässt oder durch den Befehl 'df.to_csv' als csv-Datei speichern lässt.

Die Berechnung kann - je nach Anzahl und Größe der Dateien - einige Sekunden bis mehrere Minuten dauern...

Zuvor können eine Reihe von Parametern eingestellt werden. 

In [11]:
df = mp.core.corpus.analyse_interval(xml_files,
                          separate_parts=True,                                     
                          include_basic_stats=True,
                          include_pitchclass=True,
                          interval_range=[-5, 5],
                          get_full_axis=False, 
                          get_in_percentage=False) 

Folgende Parameter können verändert werden: 
   
   * xml_files            

= Name der geladenen Notendateien (s. oben)
   
   * separate_parts=True  

Durch diesen Parameter werden die einzelnen Stimmen isoliert. (Die Angabe 'False' ist hier nicht möglich.) 
   
   * include_basic_stats=True  

Für alle Stimmen werden die statistischen Angaben dargestellt. 

   * include_pitchclass=True

Für alle Stimmen wird eine Verteilung der Tonhöhenklassen angeszeigt. (Von 0=C bis 11=B (H).) Wenn dies nicht gewünscht wird, bitte 'include_pitchclass=False' wählen!

   * interval_range=[-6, 6]
   * interval_range=None

Mit diesem Parameter kann man einstellen, welche Intervallfortschreitungen dargestellt werden. Mi [-6, 6] werden z.B. Quinte abwärts (- 6 Halbtöne) bis Quinte aufwärts (+ 6 Halbtöne) dargestellt; alle größeren Intervalle kommen in zwei gemeinsame Restklassen (<6 bzw. >6). Bei 'None' werden *alle* Intervalle, die auftreten, dargestellt.

   * get_full_axis=True

Durch diesen Parameter werden *alle* Intervalle, die auftreten, dargestellt. 

   * get_in_percentage=True
   * get_in_percentage=False

Hierdurch lässt sich zwischen absoluten Häufigkeiten (also der Anzahl der auftretenden Tonhöhenklassen bzw. Intervalle) bei 'False' und relativen Häufigkeiten (also prozentualer Anteil) bei 'True' umschalten. 

Wenn Sie alle Parameter eingestellt haben, aktivieren Sie bitte den folgenden einfachen Befehl 'df', durch den die Tabelle dargestellt wird ('Run'). 

In [10]:
df 

Unnamed: 0,FileName,PartID,PartName,TotalPart,TotalMeasure,PitchMin,PitchMax,Ambitus,TimeSignature,C,C#,D,D#,E,F,F#,G,G#,A,A#,B,<-5,-5,-4,-3,-2,-1,0,1,2,3,4,5,5<
0,MoWo_K171_COM_1-4_StringQuar_003_00867,1,Violino I,1,159,A3,D#6,30,"[4/4, 3/4]",8.09,0.0,13.02,23.47,0.0,11.64,0.39,10.85,10.06,6.11,16.37,4,1,3.92,3.73,7.25,17.84,15.29,6.47,15.49,7.06,1.57,1.37,3.92,5
1,MoWo_K171_COM_1-4_StringQuar_003_00867,2,Violino II,1,159,G3,A#5,27,"[4/4, 3/4]",10.97,0.0,11.33,20.11,0.18,13.89,0.37,10.24,8.96,5.3,18.65,5,0,2.36,1.81,4.9,24.86,15.79,6.53,12.7,10.16,4.17,2.72,3.63,4
2,MoWo_K171_COM_1-4_StringQuar_003_00867,3,Viola,1,159,C3,D#5,27,"[4/4, 3/4]",7.49,0.0,10.42,18.57,0.0,14.98,0.0,13.03,10.1,5.86,19.54,5,1,5.79,6.11,4.82,17.68,13.83,4.5,12.54,7.07,3.86,3.54,6.75,3
3,MoWo_K171_COM_1-4_StringQuar_003_00867,4,Violoncello,1,159,D#2,G4,28,"[4/4, 3/4]",10.97,0.84,9.28,20.68,0.0,13.92,0.0,8.86,8.02,3.38,24.05,4,14,2.92,3.75,0.42,8.33,9.17,6.67,10.0,22.08,1.25,0.42,12.5,1
4,MoWo_K171_COM_1-4_StringQuar_003_00867,AllParts,AllParts,4,159,D#2,D#6,48,"[4/4, 3/4]",9.39,0.13,11.39,20.96,0.06,13.39,0.25,10.76,9.39,5.38,18.9,18,2,3.6,3.54,4.96,18.8,14.27,6.14,13.15,10.36,2.85,2.11,5.65,3
5,MoWo_K171_COM_2-4_StringQuar_003_00868,1,,1,51,G3,G#5,25,[3/4],4.82,4.22,3.01,24.1,0.6,11.45,1.2,12.65,14.46,2.41,21.08,3,1,1.19,5.95,5.95,14.88,13.1,28.57,9.52,1.79,6.55,1.79,4.76,2
6,MoWo_K171_COM_2-4_StringQuar_003_00868,2,,1,51,G3,F5,22,[3/4],20.19,20.19,4.81,16.35,0.0,7.69,0.0,5.77,5.77,3.85,15.38,0,0,1.94,4.85,6.8,15.53,12.62,28.16,10.68,5.83,1.94,1.94,2.91,2
7,MoWo_K171_COM_2-4_StringQuar_003_00868,3,,1,51,D#3,D#5,24,[3/4],9.28,6.19,5.15,28.87,0.0,12.37,0.0,8.25,12.37,1.03,16.49,0,2,0.0,2.08,14.58,25.0,9.38,16.67,5.21,4.17,5.21,2.08,5.21,8
8,MoWo_K171_COM_2-4_StringQuar_003_00868,4,,1,51,D#2,C4,21,[3/4],8.11,5.41,4.5,15.32,0.0,5.41,0.0,15.32,18.92,0.9,26.13,0,5,1.82,6.36,0.91,5.45,8.18,36.36,6.36,13.64,0.91,0.0,10.0,1
9,MoWo_K171_COM_2-4_StringQuar_003_00868,AllParts,AllParts,4,51,D#2,G#5,41,[3/4],9.83,8.37,4.18,21.34,0.21,9.41,0.42,10.88,13.18,2.09,20.08,3,1,1.26,5.03,6.71,14.88,11.11,27.88,8.18,5.87,3.98,1.47,5.66,3


Vergleichen Sie bitte die Häufigkeit der Tonhöhenklassen für verschiedene Sätze und Stimmen. Wählen Sie zur einfacheren Auswertung auch den relativen Anteil in Prozentwerten (get_in_percentage=True). Wie diatonisch bzw. chromatisch sind die einzelnen Sätze und Stimmen gestaltet? 

Was lässt sich zu den Intervallfortschreitungen in den einzelnen Stimmen sagen? Welche Stimme hat die meisten bzw. die größten Sprünge? Bei welcher Stimme dominieren die (kleinen) Intervallschritte? 

Mit dem folgenden Befehl wird die Tabelle als csv-Datei gespeichert.

Bitte zunächst einen lokalen Pfadnamen sowie den Dateinamen eingeben, dann # löschen und 'Run'!

In [None]:
# df.to_csv("/Pfad ... /Tabellenname.csv", sep=';') 

# Durch sep=';' wird ein Semikolon als Trennzeichen zwischen den Zellen gewählt. 
# Dies erleichtert die Darstellung als in externen Tabellen-Software.

Bitte variieren Sie bei erneuten Abfragen die Variable für die Tabelle, z.B. 'df2' statt 'df'. Hier das Beispiel einer Abfrage der Intervalle bis zu 12 Halbtönen, also einer Oktave (aufwärts und abwärts) in Prozenten. Die allgemeinen Tonhöhen und Tonhöhenklassen interessieren nun nicht mehr, daher: 'include_basic_stats=False' und 'include_pitchclass=False'.

In [6]:
df2 = mp.core.corpus.analyse_interval(xml_files,
                          separate_parts=True,                                     
                          include_basic_stats=False,
                          include_pitchclass=False,
                          interval_range=[-12, 12],
                          get_full_axis=False, 
                          get_in_percentage=True) 
df2

Unnamed: 0,FileName,PartID,PartName,<-12,-12,-11,-10,-9,-8,-7,-6,-5,-4,-3,-2,-1,0,1,2,3,4,5,6,7,8,9,10,11,12,12<
0,MoWo_K171_COM_1-4_StringQuar_003_00867,1,Violino I,0,0.78,0.0,0.98,0.98,0.2,0.78,1.37,3.92,3.73,7.25,17.84,15.29,6.47,15.49,7.06,1.57,1.37,3.92,0.0,2.75,3.73,0.78,0.0,0.0,0.39,0
1,MoWo_K171_COM_1-4_StringQuar_003_00867,2,Violino II,0,0.54,0.0,0.36,0.18,0.36,0.18,0.54,2.36,1.81,4.9,24.86,15.79,6.53,12.7,10.16,4.17,2.72,3.63,0.0,1.45,2.54,0.73,0.73,0.0,1.27,0
2,MoWo_K171_COM_1-4_StringQuar_003_00867,3,Viola,0,1.61,0.0,0.64,0.64,0.96,0.96,0.64,5.79,6.11,4.82,17.68,13.83,4.5,12.54,7.07,3.86,3.54,6.75,0.0,0.64,1.61,1.29,0.64,0.64,1.29,0
3,MoWo_K171_COM_1-4_StringQuar_003_00867,4,Violoncello,0,0.83,1.25,0.0,2.08,0.0,11.67,0.83,2.92,3.75,0.42,8.33,9.17,6.67,10.0,22.08,1.25,0.42,12.5,0.42,1.67,0.0,0.83,0.83,0.42,0.83,0
4,MoWo_K171_COM_1-4_StringQuar_003_00867,AllParts,AllParts,0,0.87,0.19,0.56,0.81,0.37,2.23,0.87,3.6,3.54,4.96,18.8,14.27,6.14,13.15,10.36,2.85,2.11,5.65,0.06,1.74,2.36,0.87,0.5,0.19,0.93,0
5,MoWo_K171_COM_2-4_StringQuar_003_00868,1,,0,1.19,0.0,0.0,0.0,0.0,0.0,0.0,1.19,5.95,5.95,14.88,13.1,28.57,9.52,1.79,6.55,1.79,4.76,0.0,2.38,0.6,0.6,0.6,0.0,0.6,0
6,MoWo_K171_COM_2-4_StringQuar_003_00868,2,,0,0.0,0.0,0.97,0.0,0.0,0.0,0.0,1.94,4.85,6.8,15.53,12.62,28.16,10.68,5.83,1.94,1.94,2.91,0.0,0.97,1.94,1.94,0.97,0.0,0.0,0
7,MoWo_K171_COM_2-4_StringQuar_003_00868,3,,1,0.0,0.0,0.0,1.04,0.0,0.0,0.0,0.0,2.08,14.58,25.0,9.38,16.67,5.21,4.17,5.21,2.08,5.21,0.0,5.21,0.0,0.0,1.04,0.0,1.04,1
8,MoWo_K171_COM_2-4_StringQuar_003_00868,4,,0,1.82,0.0,0.0,0.0,0.0,4.55,0.91,1.82,6.36,0.91,5.45,8.18,36.36,6.36,13.64,0.91,0.0,10.0,0.0,0.91,0.0,1.82,0.0,0.0,0.0,0
9,MoWo_K171_COM_2-4_StringQuar_003_00868,AllParts,AllParts,0,0.84,0.0,0.21,0.21,0.0,1.05,0.21,1.26,5.03,6.71,14.88,11.11,27.88,8.18,5.87,3.98,1.47,5.66,0.0,2.31,0.63,1.05,0.63,0.0,0.42,0


Wie unterscheiden sich die einzelnen Sätze (und Stimmen) hinsichtlich der auftretenden Intervalle? Welche Intervalle treten häufig auf - welche (fast) nie?

Und nun viel Spaß bei der vergleichenden Untersuchung der Verteilung von Tonhöhenklassen und Intervallfortschreitungen zwischen Kompositionen Ihrer Wahl!!