Version 0.0.2

Für die grafische Anwendung und die Ereignisse für das Ispy-WebGL muss die for_masterclass.zip im Ordner `data` entpackt werden.
Die `.ig` Dateien müssen nach der durchgeführten Mischung/Unterteilung im Ispy-WebGL importiert werden. Die detaillierten Informationen zu den importierten `.ig` Dateien finden sich unter `detailed_information`.

Im Rahmen dieser Aufgabe sollen die Schüler die Möglichkeit erhalten Ereignisbilder bestimmten Zerfällen zuzuordnen und durch die Zusammenfassung der Ergebnisse Aussagen über die Signifikanz zu treffen einen bestimmten Überschuss festgestellt zu haben.

In [None]:
import sys
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

sys.path.append("..")

from include.RandomHelper import check_data_state
check_data_state()

Die im Rahmen dieser Aufgabe verwendeten Ereignisbilder sind aus den [veröffentlichten Datensätzen aus dem Jahr 2012](http://opendata.cern.ch/record/5500) entnommen worden. In dem 'data' Ordner befinden sich beispielhaft Ereignisse, die einen Zerfall in zwei Z-Bosonen und anschließend vier Leptonen beinhalten. Ebenfalls sind darin Zerfälle in zwei Photonen oder zwei W-Bosonen und anschließenden zwei Leptonen und zwei Neutrinos. Die nicht $H\rightarrow ZZ \rightarrow 4\ell$ Zerfälle sollen die unterschiedlichen Zerfallsmöglichkeiten aufzeigen. Für die anschließende Zusammenfassung der Ereignisse werden nur die Zerfälle in vier Leptonen verwendet. Die Darstellung erfolgt mithilfe vom [Ispy-webgl-Interface](http://ispy-webgl.web.cern.ch/ispy-webgl/)<sup>[1](https://iopscience.iop.org/article/10.1088/1742-6596/396/2/022022)</sup>.


Die Aufgabe der Schüler besteht darin in den vorgewählten Ereignissen bestimmte Zerfälle zu finden und eine invariante Masse für den Fall eines Zerfalls in vier Leptonen zu bestimmen. 
Die noch fehlendne Größen wie die Komponenten der einzelnen Viererimpulse können von den Schülern durch das Anwenden von Grundlagen der Vektorrechnung bestimmt werden (Siehe dazu beispielhaft `get_energy_px_py_pz` weiter unten).
Mithilfe dieser und weiterer Größen können die Schüler nach $$M_{\mathrm{inv}}=\sqrt{\left( \sum_i E_i \right)^2 - \left( \sum_i \vec{p}_i \right)^2}\, ,$$ die invariante Masse bestimmen. Die Fragestellungen der elektrischen Ladungen der aus dem Z-Boson zerfallenen Leptonen oder die Kombination von Leptonen nur aus den gleichen Familien können aus den zusätzlichen Informationen im Ispy-webgl-Interface beim Betrachten einzelner ausgewählten Teilchen entnommen werden.

Für die Berechnung von Invarianten Massen oder anderen für sie wichtigen Größen steht es den Schülern frei Funktionen selbst zu erstellen/erstellte Funktionen zu verwenden.

In [None]:
# May be implemented by pupils
import numpy as np

def get_energy_px_py_pz(pt:list, eta:list, phi:list):
    pt, eta, phi = np.array(pt), np.array(eta), np.array(phi)
    # eta = -ln(tan(theta/2))
    theta = 2 * np.arrayctan(np.exp(-eta))
    p = pt / np.cos(np.pi / 2. - theta)
    px, py, pz = pt * np.cos(phi), pt * np.sin(phi), np.sqrt(p ** 2 - pt ** 2)
    # m << E: 
    energy = p
    return energy, px, py, pz
    
def invariant_mass_four_lepton(px: list, py: list, pz:list, energy=None):
    px, py, pz= np.array(px), np.array(py), np.array(pz)
    energy_sum = np.sum(energy) if energy is not None else np.sum(np.sqrt(px ** 2 + py ** 2 + pz ** 2))
    return np.sqrt(energy_sum ** 2 - (np.sum(px) ** 2 + np.sum(py) ** 2 + np.sum(pz) ** 2))

#...

$\eta$ die Pseudorapidität, eine räumliche Koordinate, die den Winkel zwischen einem Vektor und der Strahlenachse angibt und wird in der obigen Funktion wieder in den Raumwinkel $\theta$ umgerechnet. Die Strahlenachse zeigt in die z-Richtung. Der Transversalimpuls liegt in der x-y-Ebene und wird durch seine Länge und dem Azimutalwinkel $\phi$ beschrieben.

Für die Berechnung der Energie ($E^2 = m^2 + p^2 \stackrel{p\gg m}{\approx} p^2$) wird der Umstand genutzt, dass die betrachteten Impulse (> 5 GeV) deutlich größer sind als die Ruhemassen der Elektronen (0,51 MeV) bzw. Myonen (105,7 MeV).

In [None]:
# possible calculations

# my_pt = []
# my_eta = []
# my_phi = []

# my_energy, my_px, my_py, my_pz = get_energy_px_py_pz(pt=my_pt, eta=my_eta, phi=my_phi)
# my_mass = invariant_mass_four_lepton(px=my_px, py=my_py, pz=my_pz, energy=my_energy)
# print(my_mass)

Die Darstellung erfolgt mithilfe des [IspyWebGL](https://zenodo.org/record/3886676) Interfaces des CMS-Detektors. Das Laden der Ereignisse erfolgt wie folgt: Die gewünschten IG-Dateien können in dem Ordner `data/for_event_display_ig_files` über die `Download` Option temporär gespeichert werden und anschließend über die IspyWebGL Option `Open` eingelesen werden.

In [None]:
%%html
<iframe src="https://ispy-webgl.web.cern.ch/ispy-webgl/" width="100%" height="700"></iframe>

Die Ergebnisse können die Schüler anschließend in der grafischen Anwendung zum Histogramm zusammentragen.

In [None]:
from include.widget.HiggsWidgetMyBinderVersion import HiggsWidget as HW

In [None]:
hw = HW(language="DE")
hw.run

Unter 'Ansicht - MC Simulationen an' können die Simulationen von Higgs Hypothesen für andere Higgs Massen betrachtet werden und unter 'Ansicht - Signal MC Skalierung an' passend skaliert werden.

Für die Bewertung, welches der Signal Simulationen am passendsten ist, soll eine Größe von Schülern bestimmt (und implementiert) werden, die einen Unterschied zwischen zwei Hypothesen quantifiziert. In `for_pupils_statistcs_basic_examples_v_0-0-1_DE` wird der Signifikanzwert $p_0$, bestimmt aus $\chi^2$ zur Bewertung einer Hypothese vorgestellt. Nun sollen direkt zwei Hypothesen miteinander verglichen werden ($H_0$: nur Untergrund (blau) bzw. $H_{1, i}$: Untergrund und eine Signalhypothese der Masse $m_i$). Die Wahl dieser Größe steht einem frei zur Auswahl und kann durch die Modifikation der nachfolgenden Funktion entsprechend angepasst und verändert werden.

Vorgestellt wird das Verhältnis aus zwei [Likelihood-Funktionen](https://de.wikipedia.org/wiki/Likelihood-Funktion). Eine Likelihood Funktion kann als eine Gesamtwahrscheinlichkeit interpretiert werden die Messung $\{X_1, X_2, ... X_n \}$ unter einer bekannten Wahrscheinlichkeit der einzelnen Ereignisse in beliebiger Reihenfolge zu messen. Um das Beispiel aus `for_pupils_statistcs_basic_examples_v_0-0-1_DE` zu verwenden: Wie Wahrscheinlich ist es bei einem idealen Würfel $\{1,1,2,6,3\}$ zu messen?

Die Antwort (Wenn noch zusätzlich die Reihenfolge nicht von Bedeutung ist, so kommt noch ein zusätzlicher Faktor als Anzahl der möglichen Kombinationen hinzu, der jedoch später beim Bilden des Verhältnises sich wieder rauskürzt): $$P_{\mathrm{tot}} = \prod_{X_i\in \{1,1,2,6,3\}} P(X_i) = P(1)\cdot P(1)\cdot P(2)\cdot P(6)\cdot P(3) = \frac{1}{6^5} \, .$$
Die Likelihood-Funktion kann wie folgt definiert werden: $$\mathcal{L} = \prod_{X_i}^N P(X_i)\, ,$$ und ist damit ähnlich zu $P_{\mathrm{tot}}$. Die Wahrscheinlichkeit einzelne Ereignisse zu erhalten kann auch als eine Funktion ausgedrückt werden, wenn die Ereignisse nicht mehr diskret, sondern kontinuierlich sind. In der Anwendung werden nur Histogramme betrachtet. Für diese lässt sich $P(X_i)$ schreiben als: $$ P(X_i) = \frac{A_i^{X_i} }{X_i!} \mathrm{e}^{-A_i} \, $$ was der Poisson Statistik entspricht. $X_i$ ist die Anzahl an gemessenen Ereignissen in einem Bin des Histogramms, $A_i$ die erwartete Anzahl an Ereignissen in dem jeweiligen Bin. In dem Verhältnis der zwei Likelihood Funktionen ist einmal $A_i =A_{i,U}$ für nur den Untergrund und $A_{i, U+S}$, das den Untergrund und ein Signal darstellt. Um das Verhältnis numerisch gut berechnen zu können wird der Logarithmus von dem Verhältnis bestimmt.


In [None]:
# Exemplary code

def statistische_beurteilung(measurement,  # Messung
                             background_simulation,  # Simulation des Untergrundes
                             signal_simulation,  # Simulation des Signals
                             background_name="b",  # Name des Untergrundes (optional)
                             signal_name="s"  # Name des Signals (optional)
                             ):

    # Logarithmus der Likelihoodfunktion für nur Untergrund
    b_nll = sum(bac_s - m + m * np.log(m / bac_s) for (m, bac_s) in zip(measurement,
                                                                        background_simulation) if float(m) != 0.0)
    # Logarithmus der Likelihoodfunktion für nur Untergrund und Signalsimulation
    bs_nll = sum((bac_s + sig_s) - m + m * np.log(m / (bac_s + sig_s)) for (m, bac_s, sig_s) in zip(measurement, 
                                                                                                    background_simulation, 
                                                                                                    signal_simulation) if float(m) != 0.0)
    
    # Verhältnis der zwei ln(L) Funktionen. 
    # Der Faktor 2 ist der Einfachheit halber zum Vergleich mit anderen Größen eingeführt
    nlr_ = 2 * (b_nll - bs_nll)
    # wir wollen nur einen Überschuss an Ereignissen Feststellen. Das entspricht nur einem positiven Verhältnis
    q0_ = np.round(nlr_, 3) if nlr_ > 0 else 0
    
    # Bennennung optional
    bn_, sn_ = background_name, signal_name
    #name_ = f"$ 2 \\ln \\left( \\dfrac{{ \\mathcal{{L}}_{{ {bn_} + {sn_} }} }}{{ \\mathcal{{L}}_{{ {bn_} }} }}  \\right)$"
    name_ = f"2 $\mathrm{{lnLR}}_{{ {sn_} }}$"
    
    # Die Rückgabe muss ein Tupel aus dem Namen (str) und dem Wert (float/int) sein
    return name_, q0_

Je größer der Wert aus dem Verhältnis der beiden Likelihood-Funktionen ist, desto besser passt die Kombination aus Signal und Untergrund anstatt des alleinigen Untergrundes. Die Wahl eines Grenzwertes, an dem die Hypothese $H_0$ verworfen wird, ist dabei bis zu einem gewissen Grad willkürlich. Für einen hohen Wert wird die Wahrscheinlichkeit der Zurückweisung der Nullhypothese $H_0$ obwohl diese richtig ist verringert ([Fehler erster Art](https://de.wikipedia.org/wiki/Fehler_1._und_2._Art#Fehler_1._Art)), jedoch nicht ausgeschlossen. Die Problematik der Bestätigung der Nullhypothese, obwohl die Alternativhypothese wahr ist ([Fehler zweiter Art](https://de.wikipedia.org/wiki/Fehler_1._und_2._Art#Fehler_2._Art)) geschieht, wenn die Signalstärke nicht von den natürlichen Fluktuationen, die bei solchen Messungen immer auftreten, zu unterscheiden ist.

Die Motivation hinter der Betrachtung des Verhältnisses der beiden Likelihoods besteht darin, dass bereits für sehr geringe Anzahl an Ereignissen (wie es in diesem Beispiel der Fall ist) eine analytische Form zur Beschreibung des p Wertes (die genaue Herleitung ist an dieser Stelle nicht so wichtig) gefunden werden kann und keine aufwändigen zusätzlichen Betrachtungen notwendig sind. Der so bestimmbare p Wert kann einfach in ein Wert für die Signifikanz umgerechnet werden: Das entspricht gerade der Wurzel des Verhältnisses.

$N \sigma$ entspricht damit der Fläche unter der Ausschweifung einer Gaußverteilung, beginnend $N \sigma$ weit weg von dem Mittelwert und entspricht der Wahrscheinlichkeit (p Wert, siehe das Notebook zu statistischen Grundlagen), dass die beobachtete Messung rein zufälliger Natur ist. In anderen Wissenschaften typischer p-Wert beträgt $0.05$ was etwa $1.96 \sigma$ entspricht. In der experimentellen Teilchenphysik muss dagegen bereits für ein Indiz die $3\sigma$ Grenze überschritten werden ($p=2,7 \cdot 10^{-3}$). Von einer Entdeckung in der Experimentalphysik spricht man ab einem Wert größer als $5\sigma$ ($p=5,7 \cdot 10^{-7}$). Mit den für diesen Versuch bereitgestellten Messungen kann von den Schülern das Indiz für ein Higgs Boson festgestellt werden.

Die Signalverteilungen werden mit der bekannten Theorie erstellt. Die Abweichung der jeweiligen Skalierung von dem Faktor 1 kann zudem darauf hindeuten, dass in der Theorie mögliche Berücksichtigungen nicht vollständig erfasst sind. Gleichzeitig muss die Fluktuation der Messung mitberücksichtigt werden, das ebenfalls in einer Skalierung von $\mu$ resultiert - es ist nur möglich ganzzahlige Ereignisse zu messen. Die nicht ganzzahligen Vorhersagen resultieren aus der Skalierung der Simulation an die integrierte Luminosität der Messung, ähnlich wie in `for_pupils_statistcs_basic_examples_v_0-0-1_DE`.


Die Schüler sollen somit unter der Berücksichtigung der skalierten Signalverteilungen und der vorherigen Festlegung einer Grenze, die der Wert das Verhältnis überschreiten muss, die am besten passendste Signalsimulation bestimmen.

In [None]:
hw.stat_eval_func = statistische_beurteilung
hw.run