# Statistik mit CMS Open Data

Mit Python können leicht statistische Werte der CMS Daten berechnet werden. In diesem Jupyter Notebook lernen wir, wie Mittelwert $\bar x$, Varianz $\sigma^2$ und Standardabweichung $\sigma$ berechnet werden.

Wir werden dazu echte Teilchenphysikdaten benutzen, die am CMS Experiment aufgenommen wurden. In der Datei _Jpsimumu_\__Run2011A.csv_ befinden sich ausgewählte Ereignisse der CMS Primärdateien [1] mit den spezifischen Eigenschaften [2].

Beginnen wir die Berechnung damit, die benötigten Python-Module zu importieren und die Daten zu laden.
<br>
<br>
<br>
[1] CMS collaboration (2016). DoubleMu primary dataset in AOD format from RunA of 2011 (/DoubleMu/Run2011A-12Oct2013-v1/AOD). CERN Open Data Portal. DOI: [10.7483/OPENDATA.CMS.RZ34.QR6N](http://doi.org/10.7483/OPENDATA.CMS.RZ34.QR6N).
<br>
[2] Thomas McCauley (2016). Jpsimumu. Jupyter Notebook file. https://github.com/tpmccauley/cmsopendata-jupyter/blob/hst-0.1/Jpsimumu.ipynb.

### Import der Module und plotten des Histogramms

Beginnen wir mit einigen grundlegenden Einstellungen für Python:

In [None]:
# Import the needed modules. Pandas is for the data-analysis, numpy for scientific calculation
# and matplotlib.pyplot for making plots. Modules are named as pd, np and plt.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Jupyter Notebook uses "magic functions". With this function it is possible to plot
# the histogram straight to notebook.
%matplotlib inline

# Create a new DataFrame structure from the file "Jpsimumu_Run2011A.csv"
dataset = pd.read_csv('Data/Jpsimumu_Run2011A.csv')

# Create a Series structure (basically a list) and name it to "inv_mass".
# Save the column "M" from the "dataset" to the variable "inv_mass".
inv_mass = dataset['M']

<br>
Nun plotten wir das Histogramm der Invarianten Masse aus unserem Datensatz:

In [None]:
plt.hist(inv_mass, bins=500)
plt.show()

### Mittelwert $\bar x$

Der Mittelwert kann einfach mit der Funktion _mean( )_ aus dem Modul _numpy_ berechnet werden.
Berechnen wir den Mittelwert der Invarianten Masse:

In [None]:
mean_masses = np.mean(inv_mass)
print(mean_masses)

### Varianz $\sigma^2$

Die Varianz berechnet sich nach folgender Gleichung:

$$\sigma^2 = \frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n}.$$

Mit Python lässt sich die Varianz mit der Funktion _var( )_ aus dem Modul _numpy_ berechnen.
Versuchen wir es einmal:

In [None]:
variance = np.var(inv_mass)
print(variance)

### Standard Abweichung $\sigma$

Da die Standardabweichung die Wurzel der Varianz ist, können wir sie in Python mit der Funktion _sqrt( )_ aus dem Modul _numpy_ berechnen. Die Funktion _sqrt( )_ berechnet die Quadratwurzel eines gegebenen Wertes.

In [None]:
sd = np.sqrt(variance)
print(sd)