# Tilastollista laskentaa CMS:n datalla

Pythonilla voidaan laskea helposti tilastollisia tunnuslukuja CMS:n avoimelle datalle. Tutustutaan seuraavaksi keskiarvon, varianssin ja keskihajonnan laskemiseen. Käytetään CMS:n törmäysdataa tiedostossa _Jpsimumu_\__Run2011A.csv_, johon on valittu tietyin kriteerein [1] törmäystapahtumia CMS:n vuoden 2011 DoubleMu-datasetistä [2]. 

Aloitetaan laskeminen hakemalla tarvittavat moduulit sekä data, ja valitsemalla datasta valmiiksi lasketut invariantin massan arvot.
<br>
<br>
<small>
[1] Thomas McCauley (2016). Jpsimumu. Jupyter Notebook file. https://github.com/tpmccauley/cmsopendata-jupyter/blob/hst-0.1/Jpsimumu.ipynb.
<br>
[2] CMS collaboration (2016). DoubleMu primary dataset in AOD format from RunA of 2011 (/DoubleMu/Run2011A-12Oct2013-v1/AOD). CERN Open Data Portal. DOI: [10.7483/OPENDATA.CMS.RZ34.QR6N](http://doi.org/10.7483/OPENDATA.CMS.RZ34.QR6N).
</small>

### Alustus ja histogrammin piirtäminen

In [None]:
# Haetaan tarvittavat moduulit. Nimetään pandas-moduuli 'pd'ksi, numpy-moduuli 'np'ksi
# ja matplotlib.pyplot 'plt'ksi.
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt

datasetti = pd.read_csv('https://raw.githubusercontent.com/cms-opendata-education/cms-jupyter-materials-finnish/master/Data/Jpsimumu_Run2011A.csv')
inv_massa = datasetti['M']

<br>
Piirretään datasettimme invarianteista massoista aluksi histogrammi:

In [None]:
plt.hist(inv_massa, bins=500)
plt.show()

Tarkastellaan seuraavaksi vain piikin ympäristöön sijoittuvia tietoja. Tallennetaan rajatut arvot muuttujaan *piikkidata* ja rajatun alueen invariantit massat muuttujaan *piikki_invmassa*.

In [None]:
piikkidata = datasetti[(inv_massa>3.0) & (inv_massa<3.2)]
piikki_invmassa = piikkidata['M']
plt.hist(piikki_invmassa, bins=200)
plt.show()

### Keskiarvo $\bar x$

Keskiarvon laskeminen onnistuu kätevästi _numpy_-moduulin funktiolla _mean( )_. Lasketaan keskiarvo käyttämämme koko datasetin invarianteille massoille:

In [None]:
keskiarvo = np.mean(inv_massa)
print(keskiarvo)

Verrataan sitä piikin läheisyyteen rajattujen invarianttien massojen keskiarvoon:

In [None]:
piikki_keskiarvo = np.mean(piikki_invmassa)
print(piikki_keskiarvo)

### Varianssi $\sigma^2$

Varianssille on määritetty lauseke $$\sigma^2 = \frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n}.$$

Pythonilla varianssin laskeminen onnistuu _numpy_-moduulin funktiolla _var( )_. Lasketaan koko datan invarianteille massoille varianssi

In [None]:
varianssi = np.var(inv_massa)
print(varianssi)

ja vastaavasti piikin läheisyydessä

In [None]:
piikki_varianssi = np.var(piikki_invmassa)
print(piikki_varianssi)

### Keskihajonta $\sigma$

Koska keskihajonta on varianssin neliöjuuri, voimme laskea invarianteille massoille keskihajonnan helposti edellä lasketun varianssin avulla. Käytetään _numpy_:n funktiota _sqrt( )_, joka laskee sille annetun arvon neliöjuuren. Jälleen koko datalle saadaan

In [None]:
keskihajonta = np.sqrt(varianssi)
print(keskihajonta)

ja piikin läheisyydessä

In [None]:
piikki_keskihajonta = np.sqrt(piikki_varianssi)
print(piikki_keskihajonta)

Mistä erot tilastollisissa tunnusluvuissa johtuvat? Mistä voidaan tietää, mistä arvoista ne tulisi laskea?