# Tutorial Basics Noten Part 3: Korpus-Statistik

(version 2022_01_03)

Dieses Tutorial führt in die computergestützten Möglichkeiten einfacher statistischer Abfragen auf der Grundlage von CAMAT (Computer-Assisted Music Analysis Tool) ein, wobei nun, anders als in Part 2, vergleichende Abfragen mehrere Stücke durchgeführt werden. Abgefragt werden 
- einfache statistische Daten 
- die Verteilungen von Tonhöhenklassen und 
- die Verteilung von Intervallschritten. 

Das Durcharbeiten und Nachvollziehen des Tutoriums soll es Ihnen ermöglichen, mit den vorgestellten computergestützten Methoden eigene Musikbeispiele (Notendateien) zu untersuchen und Vergleiche zwischen verschiedenen Musikstücken durchzuführen.

Zu Beginn steht wieder das Laden verschiedener Bibliotheken mit folgenden Befehlen: 

In [1]:
import sys
import os
sys.path.append(os.getcwd().replace(os.path.join('music_xml_parser', 'ipynb'), ''))

import music_xml_parser as mp
import csv
from IPython.display import HTML, display
import numpy as np
import pandas as pd

In [2]:
# Hier Formatierungsvorgaben für die Tabellenausgabe:

pd.set_option('display.max_rows', 9999)     # Festlegung der max. Zahl der Zeilen
pd.set_option('display.max_columns', 9999)  # Festlegung der max. Zahl der Spalten
pd.set_option('display.width', 100)           # Hiermit mit die Spaltenbreite festgelegt

Im Statistik-Tutorial (Part 2) haben wir uns den ersten Satz aus dem Streichquartett KV. 171 von Wolfgang Amadeus Mozart angeschaut. Nun wollen wir die vier Sätze des Streichquartetts miteinander vergleichen. Hierzu laden wir alle vier Sätze unter herunter und speichern sie auf der Festplatte unseres COmputers im Ordner: 

    ... / music_xml_parser / data / xmls_to_parse / hfm_database

(Ein direkter Download aus dem Internet ist in der aktuellen Version leider nicht möglich.)

Hier die URL's der vier Dateien: 
- 'https://analyse.hfm-weimar.de/database/03/MoWo_K171_COM_1-4_StringQuar_003_00867.xml', 
- 'https://analyse.hfm-weimar.de/database/03/MoWo_K171_COM_2-4_StringQuar_003_00868.xml',
- 'https://analyse.hfm-weimar.de/database/03/MoWo_K171_COM_3-4_StringQuar_003_00869.xml',
- 'https://analyse.hfm-weimar.de/database/03/MoWo_K171_COM_4-4_StringQuar_003_00870.xml']

Bitte jeweils speichern mit Rechtsklick, Speichern unter ...

Nun können wir die vier Dateien mit dem folgenden Befehl unter der gemeinsamen Bezeichnung 'xml_files' laden: 

In [3]:
#xml_files = ['MoWo_K171_COM_1-4_StringQuar_003_00867.xml', 
#             'MoWo_K171_COM_2-4_StringQuar_003_00868.xml',
#             'MoWo_K171_COM_3-4_StringQuar_003_00869.xml',
#             'MoWo_K171_COM_4-4_StringQuar_003_00870.xml']
xml_files = ['https://analyse.hfm-weimar.de/database/03/MoWo_K171_COM_1-4_StringQuar_003_00867.xml',
             'https://analyse.hfm-weimar.de/database/03/MoWo_K171_COM_2-4_StringQuar_003_00868.xml',
             'https://analyse.hfm-weimar.de/database/03/MoWo_K171_COM_3-4_StringQuar_003_00869.xml',
             'https://analyse.hfm-weimar.de/database/03/MoWo_K171_COM_4-4_StringQuar_003_00870.xml']
# Die vier Dateinamen stehen zwischen in einfachen Apostrophen ' ' 
# und sind durch Kommata voneinander getrennt. 

Mit dem folgenden Befehl ('df = mp.core.corpus.analyse_interval') wird eine Tabelle (oder 'Dataframe' mit der Bezeichnung 'df') erzeugt, die sich anschließend durch den Befehl 'df' als Tabelle anzeigen lässt oder durch den Befehl 'df.to_csv' als csv-Datei speichern lässt.

Die Berechnung kann - je nach Anzahl und Größe der Dateien - einige Sekunden bis mehrere Minuten dauern...

Zuvor können eine Reihe von Parametern eingestellt werden. 

In [None]:
df = mp.core.corpus.analyse_interval(xml_files,
                          separate_parts=True,                                     
                          include_basic_stats=True,
                          include_pitchclass=True,
                          interval_range=[-5, 5],
                          get_full_axis=False, 
                          get_in_percentage=False) 

Folgende Parameter können verändert werden: 
   
    xml_files            
= Name der geladenen Notendateien (s. oben)
   
    separate_parts=True  
Durch diesen Parameter werden die einzelnen Stimmen isoliert. (Die Angabe 'False' ist hier nicht möglich.) 
   
    include_basic_stats=True  
Für alle Stimmen werden die statistischen Angaben dargestellt. 

    include_pitchclass=True
    include_pitchclass=False
Für alle Stimmen wird eine Verteilung der Tonhöhenklassen angeszeigt. (Von 0=C bis 11=B (H).)

    interval_range=[-6, 6]
    interval_range=None
Mit diesem Parameter kann man einstellen, welche Intervallfortschreitungen dargestellt werden. Mi [-6, 6] werden z.B. Quinte abwärts (- 6 Halbtöne) bis Quinte aufwärts (+ 6 Halbtöne) dargestellt; alle größeren Intervalle kommen in eine gemeinsame Restklasse. Bei 'None' werden *alle* Intervalle, die auftreten, dargestellt.

    get_full_axis=True
    get_full_axis=False
Duch diesen Parameter werden *alle* Intervalle, die auftreten, dargestellt. 

    get_in_percentage=True
    get_in_percentage=False
Hierdurch lässt sich zwischen absoluten Häufigkeiten (also der Anzahl der auftretenden Tonhöhenklassen bzw. Intervalle) bei 'False' und relativen Häufigkeiten (also prozentualer Anteil) bei 'True' umschalten. 

Wenn Sie alle Parameter eingestellt haben, aktivieren Sie bitte den folgenden einfachen Befehl ('Run'). 

In [None]:
df 

In [None]:
# Mit dem folgenden Befehl wird die Tabelle als csv-Datei gespeichert.
# Bitte zunächst einen lokalen Pfadnamen sowie den Dateinamen eingeben, 
# dann # löschen und 'Run'!

# df.to_csv("/Pfad ... /Tabellenname.csv", sep=';') 

# Durch sep=';' wird ein Semikolon als Trennzeichen gewählt. 
# Dies erleichtert die Darstellung als in externen Tabellen-Software.

Bitte variieren Sie bei erneuten Abfragen die Variable für die Tabelle, z.B. 'df2' statt 'df'. Hier das Beispiel einer Abfrage der Intervalle bis zu 12 Halbtönen (aufwärts und abwärts) in Prozenten. 

In [None]:
df2 = mp.core.corpus.analyse_interval(xml_files,
                          separate_parts=True,                                     
                          include_basic_stats=False,
                          include_pitchclass=False,
                          interval_range=[-12, 12],
                          get_full_axis=False, 
                          get_in_percentage=True) 
df2