# $\mathrm{H} \rightarrow \mathrm{ZZ}$ : Entdeckung des Higgs-Bosons
---------------------------------------
von Artur Monsch und Artur Gottmann

Zuletzt aktualisiert am 18. Dezember 2020

-----------------------------------

Im Jahr 2012 wurde am CERN das bereits vorhergesagte Higgs-Boson entdeckt und damit eine Bestätigung des Standardmodells der Teilchenphysik erreicht. Einer der Zerfallskanäle, die zur Entdeckung führten, war der Zerfall in vier Leptonen. Dieser ist im Vergleich zu den anderen Zerfallskanälen ideal für die Analyse geeignet, die Sie nun in Form dieses Notebooks durchführen können.

Das Notebook ist der erste Teil dieser Analyse und beschäftigt sich hauptsächlich mit den simulierten und gemessenen Datensätzen. Ziel ist es, die Sensitivität zu erhöhen und ein hohes Verhältnis zwischen dem Untergrund und dem Signal in den simulierten Datensätzen zu erreichen. Am Ende der Aufgabe soll die Signifikanz an der durchgeführten Messung abgeschätzt werden. Anhand dieser Signifikanz kann eine erste Aussage über den Nachweis des Higgs-Bosons getroffen werden. Eine detaillierte statistische Behandlung der Signifikanz bis hin zur Kombination von Messungen zur Erhöhung der Signifikanz wird im zweiten Teil vorgestellt.

Als Inspiration für diese Übung kann die folgende [Beispielanalyse](http://opendata.cern.ch/record/5500) aufgeführt werden.

In [None]:
import sys
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

sys.path.append("..")

# Ereignisbilder
------------------

Zum Kennenlernen der Signaturen von Proton-Proton-Kollisionsereignissen, die vom CMS-Experiment aufgezeichnet wurden, können Sie die Visualisierung des CMS-Detektors zusammen mit den Beispielen der aufgezeichneten
Ereignissen mit dem [**Ispy-WebGL-Webinterface**](https://github.com/cms-outreach/ispy-webgl) betrachten. Die verschiedenen Komponenten des CMS-Mehrzweck-Detektors, die zum Nachweis verschiedener Teilchen verwendet werden, sind in dem [**ausgewählten Detektorschnitt**](https://cds.cern.ch/record/2120661/files/CMSslice_whiteBackground.png?subformat=icon-1440) dargestellt:
<center><img src="https://cds.cern.ch/record/2120661/files/CMSslice_whiteBackground.png?subformat=icon-1440" width=75%></center>


Bei der Verwendung von Ispy-WebGL können Sie sich mit der Funktionalität der einzelnen Komponenten vertraut machen, indem Sie sie diese im Menü 'Detector' aktivieren und Ereignisse mit interessanten Signaturen aus den Ereignissammlungen auswählen. Versuchen Sie auch, 'Physics-Objects' im entsprechenden Menü einzuschalten.


<div class="alert alert-info">
Wählen Sie für jeden der unten aufgeführten Zerfälle zwei Beispiele aus und speichern Sie diese als Bild. Wie sähe ein typisches Signal dieser einzelnen Zerfälle im Detektor aus?

- $\mathrm{H} \rightarrow \mathrm{ZZ} \rightarrow 4\ell$
- $\mathrm{H} \rightarrow \gamma \gamma$
- $\mathrm{H} \rightarrow \mathrm{W}^+ \mathrm{W}^- \rightarrow 2\ell 2\nu$

</div>


Die Einschaltfunktionen einzelner Detektorkomponenten und die Möglichkeit, die einzelnen Ereignisse als Bilder zu speichern, können innerhalb der Benutzeroberfläche durchgeführt werden. Um die Ereignissammlung zu öffnen, müssen Sie zunächst die Datei `Event_collection.ig` aus dem Ordner `./data/for_event_display/ig_files/` lokal herunterladen. Anschließend kann innerhalb der Benutzeroberfläche unter dem Reiter "Öffnen" - Ordnersymbol - diese Datei (lokale Datei öffnen) ausgewählt und geöffnet werden. Die Bilder lassen sich dann nach dem Speichern mit `<img src="your img url or path">` in einer Markdown-Zelle direkt in das Notebook einfügen.

> Hinweis:
> `.ig` Datenformat ist ähnlich wie ein `.zip` Archiv und enthält eine oder mehrere Ereignisdateien und wird von ISpy verwendet, das von CMS zur Anzeige von Ereignissen genutzt wird.

Mit einer Internetverbindung:

In [None]:
%%html
<iframe src="https://ispy-webgl.web.cern.ch/ispy-webgl/" width="100%" height="700"></iframe>

Ohne eine Internetverbindung: Öffnen Sie die Datei `index.html` aus dem [Github Repository](https://github.com/cms-outreach/ispy-webgl) lokal in einem Webbrowser, nachdem Sie das GitHub Repository sich zuvor lokal kopiert haben.

Die wesentliche Aufgabe in diesem Abschnitt ist eine manuelle Klassifizierung der Ergebnisse nach ihren Zerfallskanälen anhand der Ereignisbilder. Die Klassifizierung wird später mit einer für diesen Zweck entwickelten Software automatisiert, um eine große Anzahl von Ereignissen in kurzer Zeit zu analysieren, anstatt jedes einzelne Kollisionsereignis Bild für Bild zu betrachten.


Der Fokus dieser Übung liegt auf der Wiederentdeckung des Zerfalls des Higgs-Bosons in zwei Z-Bosonen, die wiederum in vier geladene Leptonen zerfallen, $H\rightarrow ZZ\rightarrow 4\ell$.
Von allen geladenen Leptonen werden nur Elektronen und Myonen in der Analyse verwendet, da die Zerfälle des Z-Bosons in zwei $\tau$-Leptonen, $Z\rightarrow\tau\tau$, viel schwieriger zu handhaben sind,
und es schwieriger sein wird, das $H\rightarrow ZZ$-Signal von Hintergrundsignalen zu unterscheiden.


>Ausführliche Erklärungen:
>
>Die $\tau$-Leptonen zerfallen, bevor sie die erste Schicht des Spurendetektors erreichen, aber es ist möglich, sie aus den beobachteten Endzuständen zu rekonstruieren. Die Schwierigkeit ergibt sich aus den zusätzlichen Neutrinos in den $\tau$-Leptonenzerfällen. Da diese einen Teil der Energie wegtragen, wird der $H\rightarrow ZZ$-Peak in der ${m}_{4\ell}$-Verteilung - $\ell$ entspricht in diesem Fall den sichtbaren Zerfallsprodukten des $\tau$-Leptons -
verschmiert und zu niedrigeren Energien hin verschoben. Daher ist es viel schwieriger, $H\rightarrow ZZ$ Ereignisse von dem Untergrund zu unterscheiden (insbesondere $Z\rightarrow 4 \ell$),
wenn $\tau$-Leptonen verwendet werden.

### Mögliche Lösung:
-------------------------------------
* $\mathrm{H} \rightarrow \mathrm{ZZ} \rightarrow 4\ell$    
  (Bitte ergänzen Sie hier Ihre Notizen und fügen die ausgenommenen Bilder ein.)
* $\mathrm{H} \rightarrow \gamma \gamma$    
 (Bitte ergänzen Sie hier Ihre Notizen und fügen die ausgenommenen Bilder ein.)
* $\mathrm{H} \rightarrow \mathrm{W}^+ \mathrm{W}^- \rightarrow 2\ell 2\nu$    
  (Bitte ergänzen Sie hier Ihre Notizen und fügen die ausgenommenen Bilder ein.)
--------------------------------------

# Datenformat
-------------------------------

Im Verlauf dieser Übung werden benutzerdefinierte Klassen vorgestellt, die den Zeitaufwand und die Komplexität bei der Verarbeitung der Datensätze reduzieren. Diese Klassen bauen auf Paketen wie `numpy`, `pandas` oder `matplotlib` auf und fassen Schritte zusammen, die sonst bei der Verwendung dieser Pakete durchgeführt werden müssten, z. B. um ein bestimmte kinematische Variablen einzelner Teilchen zu erhalten.

Im Allgemeinen handelt es sich um eine gängige Vorgehensweise, die Sie auch auf Ihre zukünftigen Analysen anwenden können: Es ist nicht notwendig, jedes Mal, wenn Sie neue Datensätze verarbeiten möchten, alles von Grund auf neu zu schreiben. Stattdessen ist es sinnvoll, eine Zwischenschicht zwischen Ihren Analyse-Workflows und den vorhandenen Paketen zu schaffen.

Die Original-Datensätze sind mehrere TB groß und eine zeiteffiziente Verarbeitung erfordert einen Cluster von Worker-Nodes, auf denen sie mehrere Stunden laufen muss. Die im Folgenden verwendeten Datensätze sind dagegen nur einige MB groß und können im Rahmen dieser Übung recht schnell prozessiert werden. Es wurde eine sehr grobe Vorauswahl der Ereignisse getroffen und nur die für die Analyse notwendigen Variablen herausgeschrieben: bestimmte Informationen über das Ereignis, die einzelnen Leptonen, und den daraus rekonstruierten Teilchen. In einem Ereignis sind zudem mindestens vier Leptonen und maximal acht.

Das in dieser Übung verwendete Datenformat, aus dem alle benötigten Größen entnommen werden, ist ein modifiziertes, von Menschen lesbares `.csv`Format. Es gibt drei Datensätze. In der Übung wird versucht das Verhältnis zwischen Signal und Untergrund zu maximieren. Hierzu werden die Monte Carlo Simulationen für den Untergrund (`MC_2012_ZZ_to_4L.csv`) und den Signal (`MC_2012_H_to_ZZ_to_4L.csv`) durch das Anwenden der von Ihnen entwickelten Filter auf das ganze Ereignis bzw. der einzelnen Leptonen reduziert.

Wenn die Wahl der Filterwerte abgeschlossen ist, werden die Filter auf die im Jahr 2012 durchgeführte Messung (`CMS_Run2012_[B,C].csv`) angewendet.

In [None]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from include.Helper import load_dataset, save_dataset
from tqdm import tqdm

from IPython.display import display
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 50)

df_bkg_init = load_dataset("../data/for_long_analysis/mc_init/MC_2012_ZZ_to_4L_[105,155].csv")
df_sig_init = load_dataset("../data/for_long_analysis/mc_init/MC_2012_H_to_ZZ_to_4L_[105,155].csv")

In [None]:
df_bkg_init

In [None]:
df_sig_init

Angaben zu den in den Datensätzen enthaltenen Größen:
- **run_evnt_lumisec** sind ereignisspezifische Variablen und stellen die Eindeutigkeit der einzelnen Ereignisse sicher
- **leptons** enthält eine Liste von Leptonen des jeweiligen Ereignisses. Alle wichtigen Informationen über diese sind im jeweiligen `Lepton` Objekt festgehalten. Eine detailliertere Aufschlüsselung wird im Weiteren gegeben. Die Liste ist hierbei absteigend nach dem Transversalimpuls der Leptonen sortiert und enthält somit Leptonen mit den höchsten Transversalimpulsen.
- **z1, z2** sind die vorab rekonstruierten Z-Bosonen aus dem Ereignis. Von diesen ist immer jeweils der Vierer-Vektor gespeichert.
- **four_lep** ist ebenfalls ein Vierer-Vektor der vier Leptonen invarianten Masse, die aus der Rekonstruktion der beiden Z-Bosonen folgt.
- **changed** ist dagegen keine physikalische Größe, sondern dient lediglich dazu nicht notwendige nochmalige Rekonstruktion zu vermeiden. Dieser wird bei der Anwendung der Filter auf `True` gesetzt, falls sich die Anzahl der Leptonen in einem Ereignis ändern sollte. Eine genauere Erklärung folgt dann in dem Filterabschnitt.

# Lepton Objekt, TLorentzVector und Zugriff auf kinematische Größen
-----------

In diesem Abschnitt wird nun kurz auf das `Lepton` Objekt, sowie dem `TLorentzVector` eingegangen und einige nützliche Funktionalitäten angeschnitten, die Neuimplementation und/oder umständliche Operationsschritte vermeiden könnten.

Fangen wir hierzu mit dem `Lepton` an, wo wir zunächst eine Liste aus Leptonen aus dem ersten Ereignis im Untergrund nehmen:

In [None]:
one_event_leptons = df_bkg_init.loc[0].leptons
one_event_leptons

Es soll zunächst nur ein Lepton betrachtet werden. Hierzu kann entweder über `one_event_leptons[0]` auf diesen zugegriffen werden oder - falls erwünscht explizit erstellt werden. Hierzu sollte noch die Lepton Klasse importiert werden.

In [None]:
from include.Particle import Lepton
from uproot3_methods.classes.TLorentzVector import TLorentzVector

one_lepton = Lepton(lv=TLorentzVector(x=-16.588, y=38.981, z=-7.3221, t=42.992), charge=-1, flavour='e', 
                    relpfiso=0.103053, dxy=-0.000581222, dz=0.00161887, sip3d=0.369838)
one_lepton

Zu den einzelnen Größen, die ein solches Lepton beschreiben:

- **TLorentzVector** ist der vierer Vektor. Die einzelnen Komponenten sind immer die Impulskomponenten, entsprechend analog dazu ist die Energie t zugeordnet: `(x,y,z,t)->(px,py,pz,E)`
- **charge** ist die elektrische Ladung des Lepton
- **flavour** unterscheidet, ob es sich um ein Myon (`"m"`) oder um ein Elektron (`"e"`) handelt
- **relpfiso** ist die relative Isolation der Leptonen. Sie ist die Summe über die Transversalimpulse aller nicht leptonischen Teilchen geteilt durch den Transversalimpuls des betrachteten Lepton, berechnet in einem Kegel in $(\Delta\eta, \Delta\phi)$ um das Lepton. Um eine ungenaue Rekonstruktion und Fehlidentifikation mit anderen Teilchen zu vermeiden, ist eine gute relative Isolation wichtig: je kleiner der Wert, desto besser, da es zu weniger Teilchen um das betrachtete Lepton herum führt und das Teilchen, bzw. die messbaren Größen - in diesem Fall des Leptonen - im Detektor besser bestimmt werden können.
- **sip3d** ist die Signifikanz des 3D-Stoßparameters, und **dxy** und **dz** sind die Stoßparameter (in cm) quer bzw. längs in Bezug auf die Strahlachse. Diese Größen erlauben es, Leptonen aus primären Zerfällen, wie von einem Z-Boson, von Leptonen zu unterscheiden, die aus Zerfällen von langlebigen Teilchen, wie B-Mesonen, stammen, die außerhalb des primären Vertizes stattfinden.


Ebenso können weitere Größen, wie die Pseudorapitität $\eta$ oder der Azimutalwinkel $\phi$, die zur Beschreibung des Lepton herangezogen werden können, analog wie aus dem `TLorentzVector` entnommen werden. Die möglichen Attribute können mit der `dir()` Funktion aufgelistet werden, wobei die `__method__` für uns nicht weiter notwendig sind.

In [None]:
print([it for it in dir(Lepton) if  not it.startswith("__")])

Die Z-Bosonen, sowie der `four_lep` vierer Vektor sind als `TLorentzVector` abgespeichert - auf gleiche Attribute (bis auf die Lepton spezifischen) kann genauso zugegriffen werden.

In [None]:
print(df_bkg_init.loc[0].z1)
print(df_bkg_init.loc[0].z1.mass)

Für die Erstellung von Histogrammen wird ein eigener pandas Accessor verwendet, der die Konvertierung der einzelnen Größen aus den einzelnen Ereignissen übernimmt.

In [None]:
from include.QuantityAccessors import ParticleQuantitySeriesAccessor

Diese Zwischenschicht kann über `quantity` auf Lepton Objekte oder vierer Vektoren aus den rekonstruierten Teilchen angewendet werden um anschließend eine `pandas.Series` zu erhalten, mit der wie gewohnt weiter verfahren werden kann.

In [None]:
fig, ax = plt.subplots()
print(df_bkg_init.z1.quantity.px)
df_bkg_init.z1.quantity.px.hist(bins=100, range=(-100, 100), ax=ax, label="Z$_1$-Boson")
ax.set_xlabel("$p_x$ in GeV")
ax.set_ylabel("Ereignisse")
plt.legend()
plt.show()

Für die einzelnen Leptonen kann noch zudem eine separate Auswahl getroffen werden, in der unterschieden werden kann, ob nur Elektronen bzw. Myonen  betrachtet werden und ob alle Leptonen aus den Ereignissen zur Betrachtung herangezogen werden oder ob nur der erste Lepton in dem jeweiligen Ereignis - mit dem höchsten Transversalimpuls - betrachtet werden soll. 

In [None]:
fig, ax = plt.subplots(ncols=3, nrows=1, figsize=(20, 5))
df_bkg_init.leptons.quantity.px.hist(bins=100, range=(-100, 100), ax=ax[0], 
                                     label="Allen Leptonen")
df_bkg_init.leptons.quantity(flavour="e").px.hist(bins=100, range=(-100, 100), ax=ax[1], 
                                                  label="Elektronen/Positronen")
df_bkg_init.leptons.quantity(flavour="e", lep_num=[0, 1]).px.hist(bins=100, range=(-100, 100), ax=ax[2], 
                                                                  label=f"Ersten zwei Elektronen/Positronen")

[(_ax.set_xlabel("$p_x$ in GeV"), _ax.set_ylabel("Leptonenanzahl"), _ax.legend()) for _ax in ax]

plt.show()

# Erstellung und Anwendung von Filtern
----------

Zur Signalanreicherung können nun bestimmte Filter angewendet werden, die entweder einzelne Leptonen aus den Ereignissen oder ganze Ereignisse verwerfen. Ein Beispiel für einen Leptonenfilter kann die Bedingung für ein minimalen Transversalimpuls der Leptonen sein.

Aus physikalischer Sicht ist es notwendig diesen minimalen Transversalimpuls zu verlangen, da unterhalb eines festgelegten Wertes die Wahrscheinlichkeit einer fehlerhaften Identifikation des Lepton steigt. Für den CMS-Detektor und den verwendeten Datensatz beträgt der minimale Wert des Transversalimpulses für die Myonen $5 \, \mathrm{GeV}$ und für die Elektronen $7 \, \mathrm{GeV}$. In einem Ereignis werden somit alle Leptonen die diese Bedingung nicht erfüllen entfernt. Nach dieser Anwendung können in einem Ereignis mehr als vier oder weniger als vier Leptonen geben, wodurch im zweiten Fall keine Rekonstruktion von zwei Z-Bosonen mehr möglich ist. Folglich muss das Ereignis komplett verworfen werden.

Die allgemeine Aufgabe für ein Leptonenfilter ist dann damit durch die zwei (bzw. drei) folgenden Punkte gegeben:
1. Berechnung der notwendigen physikalischen Größe nach der gefiltert wird, sofern diese nicht bereits vorhanden ist
2. Anwendung der Filterbedingung auf jeden einzelnen Lepton in dem Ereignis, wobei ggf. nach dem Leptonen Flavour unterschieden werden muss
3. Überprüfung, ob die Minimalanzahl an Leptonen erfüllt wird.

Um nicht die einzelnen Punkte für jeden Filter neu schreiben zu müssen ist es sinnvoll zwei Hilfsfunktionen einzuführen, auf die in jedem Filter zurückgegriffen wird. Wir fangen von hinten an und führen eine Hilfsfunktion ein, die die Mindestanzahl an Leptonen innerhalb eines Ereignisses überprüft.

In [None]:
def check_min_lepton_number(row: pd.Series):
    """
    Überprüft, ob in einem Ereignis - einer Zeile im 
    Datensatz - die Mindestanzahl an Leptonen für die 
    Rekonstruktion vorhanden ist.
    
    row: pd.Series;
    
    return: bool
    """

    if row.channel != "2e2mu": # Flavour Unterscheidung nicht notwendig
        return len(row.leptons) >= 4

    if row.channel == "2e2mu": # Flavour Unterscheidung notwendig
        _flavour_count = lambda x: sum([1 for lepton in row.leptons if lepton.flavour == x])
        return (_flavour_count("e") >= 2) and (_flavour_count("m") >= 2)

Die zweite Hilfsfunktion ist ein generischer Lepton Filter, der eine Operation - in unserem Fall immer eine Funktion - auf alle Leptonen innerhalb eines Ereignisses anwendet und bestimmte Leptonen nach dem Anwenden der Operation verwirft.

In [None]:
def generic_lepton_filter(row, operation):
        """
        Funktion, die eine Maske für die Leptonen in einem Ereignis 
        basierend auf einer Operation erstellt und diese auf die
        Leptonen im Ereignis anwendet.
        
        row: pd.Series - ein Ereignis
        operation: Filterbedingung für ein Lepton;
                   Für den Fall, in dem die Unterscheidung nach Leptonen Flavour notwendig ist:
                   Form: {"e": lambda lepton: <operation>, "m": lambda lepton: <operation>}
                   Für den Fall, in dem die Unterscheidung nach Leptonen Flavour nicht notwendig ist:
                   Form: lambda lepton: <operation>
                   
        return: pd.Series
        """
        
        # Erstellung einer Filtermaske für den Fall...
        if isinstance(operation, dict):  # ... einer Unterscheidung nach dem Flavour
            _mask = np.array([operation[lep.flavour](lep) for lep in row.leptons])
        else:  # ... keiner Unterscheidung nach dem Flavour
            _mask = np.array([operation(lep) for lep in row.leptons])
        
        row.leptons = row.leptons[_mask]  # Anwendung der erstellten Filtermaske
        
        if not check_min_lepton_number(row):  # Überprüfung nach der Mindestanzahl an Leptonen
            # Ein Eintrag in der Zeile wird zu "nan" gesetzt und später aussortert
            row.run_event_lumisec = np.nan  
        else:
            # Auswahl für eine wiederholte Rekonstruktion anhand der verbliebenen Leptonen
            row.changed = len(_mask) != sum(_mask)
        
        return row

`generic_lepton_filter` kann nun für die Anwendung von Leptonenfiltern wie folgt benutzt werden (`check_min_lepton_number` wird, wie oben zu sehen auch implizit durch das Ausführen von `generic_lepton_filter` angewendet. 

In [None]:
def filter_pt_min(row):
    _used_operation = {"m": lambda lep: lep.pt > 5, "e": lambda lep: lep.pt > 7}
    return generic_lepton_filter(row, _used_operation)

Für den Fall, dass keine Unterscheidung zwischen den Lepton Flavour notwendig ist, würde die Variable `_used_operation` sich vereinfachen lassen zu

```Python
_used_operation = lambda lep: <something that returns a bool>
```

Das Anwenden der Filter geschieht über das bereits bekannte `pd.DataFrame.apply(myfunction, axis=1)`. Die Verwerfung von allen Ereignissen, die die Mindestanzahl an Leptonen nicht erfüllen (`row.run_event_lumisec = np.nan `) erfolgt über `pd.DataFrame.dropna()`. Um im weiteren Verlauf der Aufgabe das Anwenden der Filter etwas kompakter zu gestalten:

In [None]:
def apply_filter_functions(dataframe, filter_function_list):
    new_dataframe = dataframe
    for filter_function in filter_function_list:
        tqdm.pandas(desc=f"{filter_function.__name__:<30}")
        new_dataframe = new_dataframe.progress_apply(filter_function, axis=1)
        new_dataframe = new_dataframe.dropna()
    return new_dataframe

Hier wurde die `apply` Methode von `pandas` durch `progess_apply` von `tqdm` ersetzt, um ein visuelles Feedback über den Fortschritt zu geben. Ausgegeben wird immer das modifizierte `pd.DateFrame`. Dieser kann entweder einer neuen Variable zugeordnet werden oder explizit das alte `pd.DateFrame` überschreiben. Ist das alte `pd.DateFrame` überschrieben gibt es keine Möglichkeit diesen Vorgang wieder umzukehren außer den Kernel neu starten! Es ist möglich eine Sicherung der bereits prozessierten Datensätze über `save_dataset` zu speichern:

```Python
from include.Helper import save_dataset
save_dataset(dataframe, "new_name.csv")
```
Die Anwendung des oben implementierten Filter nach dem minimalen Transversalimpuls:


In [None]:
df_bkg_after_pt_min = apply_filter_functions(df_bkg_init, [filter_pt_min])
print(df_bkg_init.shape, df_bkg_after_pt_min.shape)

Ein Beispiel für den Ereignisfilter dagegen kann die Forderung nach einer Kombinationsmöglichkeit der elektrischen Ladung sein. Kann eine Kombination aus vier Leptonen (wobei paarweise derselbe Leptonen Flavour eingehalten werden muss) innerhalb eines Ereignisses - der mehr als vier Leptonen beinhalten könnte - nicht erfüllt werden, dann wird das Ereignis verworfen.

In Code kann diese Ausschlussbedingung als eine Hilfsfunktion wie folgt aussehen:

In [None]:
# Nützliche pythoneigene Bibliothek zur Kombinatorik u. Ä. Problemstellungen
import itertools

def valid_charge_combination(charges, num=4):
    # Alle num-fache Kombinationen von charges mit vorzeitigem Abbruch
    for combination in itertools.combinations(charges, num): 
        if np.sum(combination) == 0:
            return True 
    else:
        return False

Die eigentliche Filterfunktion für diesen Ereignisfilter wäre:

In [None]:
def filter_electric_charge(row):    
        # Unterscheidung zwischen den Zerfallskanälen
        if row.channel != "2e2mu": # Alle Leptonen haben den gleichen Flavour
            charge_list = [lep.charge for lep in row.leptons]
            if not valid_charge_combination(charge_list, 4):
                # Ein Eintrag in der Zeile wird zu "nan" gesetzt und später aussortiert
                row.run_event_lumisec = np.nan
        
        if row.channel == "2e2mu":  # Mischkanal: Es muss nach dem Flavour unterschieden werden
            charge_list_mu = [lep.charge for lep in row.leptons if lep.flavour == "m"]
            charge_list_el = [lep.charge for lep in row.leptons if lep.flavour == "e"]
            if not valid_charge_combination(charge_list_mu, 2) or not valid_charge_combination(charge_list_el, 2):
                row.run_event_lumisec = np.nan
            
        return row

Das Anwenden von `filter_electric_charge` auf `df_bkg_init` würde zu keiner Veränderung führen, da die bereits erfolgreiche Rekonstruktion der Z-Bosonen diese Filterbedingung impliziert. Aus diesem Grund ist es sinnvoll, diesen Filter erst nach einem Leptonenfilter anzuwenden.

In [None]:
df_bkg_after_pt_min_q = apply_filter_functions(df_bkg_init, [filter_pt_min, filter_electric_charge])

Wenn vor dem Anwenden des Leptonenfilters es mehr als vier Leptonen in einem Ereignis gab und nach dem Anwenden immer noch vier Leptonen existieren, dann ist eine erneute Rekonstruktion für die ausgewählten Ereignisse notwendig, da ggf. eine besser Rekonstruktion der Z-Bosonen möglich ist. Für den Fall von `filter_pt_min` und anschließendem `filter_electric_chagre` ergibt sich in dem Datensatz eine Anzahl an veränderten Ereignissen:

In [None]:
sum(df_bkg_after_pt_min_q.changed)

Diese erneute Rekonstruktion kann analog zu `apply_filter_functions` ausgeführt werden:

In [None]:
from include.ReconstructionFunctions import reconstruct_zz

def reconstruct(dataframe, pt_exact=None):
    new_dataframe = dataframe
    tqdm.pandas(desc=f"{reconstruct_zz.__name__:<30}")
    new_dataframe = new_dataframe.progress_apply(lambda x: reconstruct_zz(x, pt_dict=pt_exact), axis=1, raw=True)
    new_dataframe = new_dataframe.dropna()
    new_dataframe.four_lep = new_dataframe.z1 + new_dataframe.z2
    return new_dataframe

Das in den Argumenten erwähnte `pt_exact` ist zum Beispiel von der Form `{1: 15, 2: 10, 3: 0, 4: 0}` und macht eine größere Einschränkung an die Transversalimpulse der zur Rekonstruktion verwendeten Leptonen. Für diesen Fall wird beispielsweise sichergestellt, dass in den für die Rekonstruktion verwendeten Leptonen es mindestens ein Lepton gibt, der die Bedingung $p_T > 15 \, \mathrm{GeV}$ und zwei die Bedingung $p_T > 10 \, \mathrm{GeV}$ erfüllen. Eine genauere Motivation und die dazugehörige Aufgabe folgt weiter unten. Für die erneute Rekonstruktion wird in diesem Fall das vorher erzeugte `df_bkg_after_pt_min_q` überschrieben:


In [None]:
df_bkg_after_pt_min_q = reconstruct(df_bkg_after_pt_min_q)

Die direkte Auswirkung auf den Transversalimpuls lässt sich dann wie bereits oben beschrieben visualisieren:

In [None]:
fig, ax = plt.subplots()
df_bkg_init.leptons.quantity.pt.hist(bins=100, range=(0, 100), ax=ax, label="Vor dem Filter")
df_bkg_after_pt_min_q.leptons.quantity.pt.hist(bins=100, range=(0, 100), ax=ax, label="Nach dem Filter")
ax.set_xlabel("$p_T$ in GeV")
ax.set_ylabel("Leptonenanzahl")
ax.legend()
plt.show()

<div class="alert alert-info">
Andere Variablen aus dem Datensatz können in gleicher Weise visualisiert werden.   
    
  * Sieht die Verteilung der Transversalimpulse wie erwartet aus?
  * Bei welchen anderen Größen ist die Auswirkung durch die Anwendung dieser beiden Filter festzustellen?
  * Gibt es in den Verteilungen anderer Größen Abweichungen von der Erwartung?
</div>

# Erstellung weiterer Selektionsbedingungen
-------

Wie am Beispiel der Bedingung des minimal notwendigen Transversalimpulses gezeigt, werden in diesem Abschnitt weitere Selektionsbedingungen implementiert und von Ihnen definiert. Die Grenzwerte für die einzelnen Bedingungen können Sie selbst wählen. Dazu ist die Visualisierung der Verteilungen, wie Sie sie bereits in den vorherigen Abschnitten gesehen haben, hilfreich.

Probieren Sie ruhig verschiedene Einstellungen für die Selektionsbedingungen aus, da die Signalempfindlichkeit Ihrer Analyse je nach Wahl eines Schwellenwertes für eine Größe variieren kann. Versuchen Sie daher, eine sinnvolle Kombination zu finden.

Eine Begründung für die von der CMS-Kollaboration gewählten Schwellenwerte für die Entdeckung des Higgs-Bosons im Jahr 2012 finden Sie in der [**offiziellen Veröffentlichung**](https://arxiv.org/pdf/1207.7235.pdf). Dieses Paper ist eine Kombination aller Zerfallskanäle des Higgs-Bosons, die für die Entdeckung untersucht und kombiniert wurden, daher können Sie sich beim Lesen auf den Zerfall in vier Leptonen konzentrieren. Falls Sie Interesse haben, können Sie sich auch die anderen Zerfallskanäle anschauen - für die Übung ist das aber nicht notwendig.

Sie können die Wahl der Selektionsschwellen auch in Bezug auf die im Paper vorgeschlagenen Werte variieren, um zu versuchen, ein besseres Ergebnis zu erhalten. Denken Sie aber daran, dass die Wahl der Werte für die Schwellenwerte auf Untersuchungen mit den MC-Simulationen und nicht auf den gemessenen Daten beruhen sollte, um eine voreingenommene Suche nach einem Signalpeak zu vermeiden.

Im Folgenden sollen weitere Filter von Ihnen nach dem obigen Prinzip implementiert werden. Bei der Wahl der geeigneten Schwellenwerte können sie die [**offizielle Veröffentlichung**](https://arxiv.org/pdf/1207.7235.pdf)) als Grundlage nehmen und nach eigenem Ermessen auch davon abweichen.
<div class="alert alert-info">
Es sollen mindestens die folgenden Filter implementiert werden:

* **Leptonenfilter** für die:
    * **Relativen Isolation** (`relpfiso`), die alle Leptonen verwirft, deren Wert für die relative Isolation größer als ein zu wählender Schwellenwert ist.
        
        Warum ist es wichtig, diese näher zu betrachten?
    * **Pseudorapidität** (`eta` oder `pseudorapidity`) der einzelnen Leptonen. Hierbei soll die Detektorgeometrie berücksichtigt und abgewogen werden, ob eine Unterscheidung nach Lepton Flavour sinnvoll ist.
    
    (*Hinweis*: Myonen können als MIPS angesehen werden. Das folgende [**Bild**](http://hep.fi.infn.it/CMS/software/ResultsWebPage/Images/Geometry/Tracker_SubDetectors_x_vs_eta.gif) zeigt das "Material Buget" des CMS Detektors)
    * **Stoßparameter** der einzelnen Leptonen, die alle Leptonen verwirft, die einen `(dz, dxy, sip3d)` Schwellenwert überschreiten.
    
    Welche Leptonen werden durch das Anwenden dieses Filterschrittes aussortiert?
* **Ereignisfilter** für:
    * **Genauere Einhaltung der Werte für den Transversalimpuls** von Leptonen in einem Ereignis. Zum Beispiel kann gefordert werden, dass es mindestens einen Lepton mit einem Transversalimpuls größer als $20 \, \mathrm{GeV}$ gibt, und einen weiteren der die Bedingung $p_T > 10 \mathrm{GeV}$ erfüllt. Nach dem Anwenden dieses Filters sollte die gewählte Bedingung als ein `dict` (`pt_exact`) an die `reconstruct` Funktion übergeben werden (s. o.).
    
    Geben Sie einen möglichen Grund für diesen Filter an.
    * Wahl passender **Intervall(e) für die Masse der Z-Bosone(n)** um einen Off-Shell und einen On-Shell Z-Boson zu erhalten.
    
    Was ist ein Off-Shell Z-Boson?    
    Warum wird versucht eine derartige Kombination zu rekonstruieren?
</div>


# Finale Anwendung von Filter- und Rekonstruktionsschritten auf simulierte und gemessene Datensätze
---------------------------------------

In diesem Abschnitt werden die zuvor von Ihnen implementierten Bedingungen an die Selektion und neuen Größen für die gesamten Datensätze angewendet. Auch die tatsächliche Messung wird hier nun eingeführt. Wenn Sie also mit einigen Schwellenwerten der Anforderungen noch nicht zufrieden sind, sollten Sie diese ändern, bevor Sie diesen Abschnitt ausführen.

Außerdem wird dadurch sichergestellt, dass Sie die Messung nicht vorher sehen und versuchen, Ihre Schwellenwerte der Anforderungen an die Messung anzupassen - dies würde der Idee einer blinden Analyse widersprechen, die vor dem Betrachten der Daten optimiert wird, um Voreingenommenheit durch die Subjektivität zu vermeiden.

In [None]:
# Zu erweiternde Liste mit den eigenen implementierten Filtern
final_filter_function_list = [filter_pt_min, filter_electric_charge]

df_measurement_init = load_dataset("../data/for_long_analysis/ru_init/CMS_Run2012_[B,C].csv")

# Anwendung der Filter auf alle Datensätze
df_bkg = apply_filter_functions(df_bkg_init, final_filter_function_list)
df_sig = apply_filter_functions(df_sig_init, final_filter_function_list)
df_measurement = apply_filter_functions(df_measurement_init, final_filter_function_list)

# Anwendung der Rekonstruktion bei geänderten Ereignissen:

# Ersetze durch die gewählten Werte
chosen_pt_exact_dict = {1:0, 2:0, 3:0, 4:0}
df_bkg = reconstruct(df_bkg, pt_exact=chosen_pt_exact_dict)
df_sig = reconstruct(df_sig, pt_exact=chosen_pt_exact_dict)
df_measurement = reconstruct(df_measurement, pt_exact=chosen_pt_exact_dict)

# Anwendung des Filters zur Selektion von den Massen der Z-Bosonen innerhalb eines gewählten Intervalls:
# df_bkg = apply_filter_functions(df_bkg, <your func>)
# df_sig = apply_filter_functions(df_sig, <your func>)
# df_measurement = apply_filter_functions(df_measurement, <your func>)

# Betrachtung der finalen Verteilungen
-----------------------

Nun können alle Kanäle in einem Histogramm zu kombinieren, einige konkrete Variablen betrachtet und sichergestellt werden, dass eine ausreichende Übereinstimmung zwischen den simulierten Datensätzen und den gemessenen Datensätzen besteht. In den bisherigen Visualisierungen wurden die simulierten Datensätze in Form von Histogrammen ohne zusätzliche Skalierung dargestellt.

In diesem Abschnitt sollen die Histogramme der simulierten Datensätze so skaliert werden, dass sie der integrierten Luminosität der gemessenen Daten entsprechen, und es wird eine Zusammenführung der drei Zerfallskanäle zu einem einzigen Histogramm vorgenommen. Diese Skalierung und Zusammenführung kann für jedes Histogramm-Bin wie folgt ausgedrückt werden:

$$N_{\mathrm{bin}} = \sum_{i\in\{4\mu, 4e, 2\mu2e\}} N_{\mathrm{bin},i}\frac{\mathcal{L}_{\mathrm{exp}}\sigma_i k}{N_{\mathrm{tot},i}} \quad (*)$$

Dabei ist $N_{\mathrm{tot},i}$ die Gesamtzahl der Ereignisse aus der Monte-Carlo-Simulation des jeweiligen Kanals, $N_{\mathrm{bin},i}$ die tatsächliche Anzahl der Ereignisse in der betrachteten Histogramm-Bin und $\sigma_i$ der Wirkungsquerschnitt des jeweiligen Kanals.

Der Korrekturfaktor $k$ ($k=1$ für die Signalsimulation und $k=1.386$ für die Untergrundsimulation) ist ein für diese Simulation spezifischer Skalierungsfaktor, der nur deshalb eingeführt wurde, weil die Untergrundsimulation bis zur Präzision nächsthöherer Ordnung in der QCD (NLO) simuliert wurde. Im Gegensatz dazu erfordert die von Ihnen durchgeführte Analyse eine Genauigkeit von next-to-next-leading-order in QCD (NNLO), um alle Effekte zu berücksichtigen.

Anstelle einer neuen Simulation stellte sich heraus, dass die Einführung dieses globalen Korrekturfaktors das bestehende Problem von NLO$\rightarrow$NNLO löst.

Der $\mathcal{L}_{\mathrm{exp}}$ ist die integrierte Luminosität der verwendeten Messdaten.

Um Verwirrung zu vermeiden, ist es wichtig, darauf hinzuweisen, dass diese Skalierung nicht ereignisweise erfolgt, sondern auf das gesamte Histogramm (genauer gesagt auf die Histogramme der einzelnen Kanäle) angewendet wird.

Außerdem wird hier nur die Simulation des Higgs-Boson-Signals für eine Higgs-Boson-Masse von 125 GeV verwendet, im Gegensatz zu der Veröffentlichung, die auch simulierte Datensätze anderer Massenhypothesen nutzt. Warum diese Simulation - unter Berücksichtigung der vorhandenen, veröffentlichten Messung - die geeignete ist, wird im zweiten Teil der Aufgabe erläutert.

Für die Skalierung in $(*)$ wird die Hilfsfunktion `mc_hist_scale_factor` verwendet. Als Argumente werden der Zerfallskanal (`channel = "2e2mu" | "4e" | "4mu"`) und der betrachtete Prozess (`process = "background" | "signal"`) übergeben.

In [None]:
from include.Helper import mc_hist_scale_factor as mhsf

mhsf(channel="2e2mu", process="background"), mhsf(channel="4e", process="signal")

<div class="alert alert-info">
Visualisieren sie die Verteilung
    
   * der vier Leptonen invarianten Masse
   * der Masse der Z-Bosonen
   * einiger kinematischer Größen der Leptonen, Z-Bosonen und der vier Leptonen invarianten Masse

Geben Sie die Unsicherheiten auf die Messung an und vergleichen diese mit der Vorhersage aus den simulierten Datensätzen. Wo sehen sie Abweichungen von dem Untergrundprozess?

*Hinweis*: Masken unterschiedlicher Kanäle können für die Bildung von Histogrammen direkt angewendet werden und haben zum Beispiel die Form `dataframe[dataframe.channel == "4e"]`.
</div>

# Schätzung der statistischen Signifikanz
--------------------

Die Idee der Bestimmung der statistischen Signifikanz werden Sie im zweiten Teil dieser Übung kennenlernen.


Eine einfache Abschätzung für die Signifikanz kann jedoch bereits hier erfolgen durch:

$$ Z = \sqrt{-2\left( s+(s+b)\ln\left( \frac{b}{s+b} \right) \right)} \, ,$$

wobei $b$ die Anzahl der Untergrundereignisse und $s$ die Anzahl der Signalereignisse ist. Die Details, wie man die obige Formel für die Signifikanz $Z$ herleitet, findet man in [**arXiv:1007.1727**](https://arxiv.org/abs/1007.1727).

<div class="alert alert-info">

* Wo in dieser Gleichung werden die gemessenen Daten implizit berücksichtigt?
* Schätzen Sie die Signifikanz des Higgs-Bosons mit der Masse von 125 GeV ab. Welche Aussagen können Sie über diesen Wert machen? 
* Leiten Sie einen Term für die Signifikanz unter der Annahme ab, dass $s\ll b$ ist, und interpretieren Sie Ihr Ergebnis. Vergleichen Sie es mit vorherigem Ergebnis.
* Ändert sich etwas, wenn Sie eine andere Anzahl von Bins verwenden oder ein anderes Massenintervall betrachten und wenn ja, warum?
    
*Hinweis*: Sie können das Histogramm aus dem vorherigem Abschnitt unter der Anwendung von entsprechenden Masken weiterverwenden.
</div>