# Invariantin massan histogrammin piirtäminen

Tässä harjoituksessa opetellaan piirtämään invariantin massan histogrammi Pythonilla. Aineistona käytetään CMS-kokeen vuonna 2011 keräämää dataa hiukkastörmäyksistä, joissa on havaittu kaksi myonia [1]. Tässä harjoituksessa käytettävään CSV-tiedostoon on karsittu edellä mainitusta datasta kiinnostavia tapahtumia, joissa myoneille laskettu invariantti massa on välillä 8–12 GeV [2].

Tutustu alla oleviin koodisoluihin ja niissä #-merkillä erotettuihin kommenttiriveihin sekä aja koodia. Huomaa, että normaalisti koodia ei kommentoitaisi näin runsaasti, nyt vain on erityisesti haluttu antaa lisätietoa käytetyistä komennoista.
<br>
<br>
<br>
<small>
[1]  CMS collaboration (2016). DoubleMu primary dataset in AOD format from RunA of 2011 (/DoubleMu/Run2011A-12Oct2013-v1/AOD). CERN Open Data Portal. DOI: [10.7483/OPENDATA.CMS.RZ34.QR6N](http://doi.org/10.7483/OPENDATA.CMS.RZ34.QR6N).
<br>
[2] Thomas McCauley (2016). Ymumu. Jupyter Notebook file. https://github.com/tpmccauley/cmsopendata-jupyter/blob/hst-0.1/Ymumu.ipynb.
</small>

## Lyhyesti teoriaa

Kuten aiemmin on opittu, maailmassamme on erilaisia säilymislakeja, joiden avulla voidaan selittää fysikaalisia ilmiöitä. Mentäessä pienempiin kokoluokkiin aina hiukkastasolle asti, tarvitaan erilaisia säilymislakeja ilmiöiden tarkasteluun. Yksi hiukkastasolla säilyvistä suureista on nimeltään *invariantti massa* $M$, joka voidaan laskea CMS-ilmaisimen tuottamasta mittausdatasta. On kuitenkin syytä huomata, että invariantti massa on matemaattinen käsite, ei siis fysikaalinen massa.

Otetaan esimerkiksi tilanne, jossa hiukkanen A hajoaa kahdeksi hiukkaseksi B ja C niin nopeasti, ettei hiukkasta A ehditä havaita. Invariantin massan käsitteen avulla on edelleen mahdollista selvittää hiukkasen A massa, sillä hiukkasten B ja C invariantti massa on yhtäsuuri kuin hiukkasen A fysikaalinen massa. Kun tunnetaan hiukkasten B ja C massa, liikkeen nopeus ja suunta sekä energia, niille voidaan laskea invariantti massa ja tästä päätellä hiukkasen A massa. Tässä tehtävässä käytämme valmiiksi laskettuja invariantin massan arvoja.

## Aloitetaan!

Kun luet tätä esimerkkiä, aja kaikki koodisolut järjestyksessä klikkaamalla solua ja painamalla näppäimistöltä *Ctrl + Enter*. Näppäinyhdistelmän sijaan voit myös klikata työkalupalkin *run cell, select below* -painiketta. <br>
Aluksi kaikkien solujen vieressä olevan *ln[ ]* sulkujen sisällä ei pitäisi näkyä mitään. Ajon aikana suluissa näkyy \*, joka merkitsee ajon olevan käynnissä. Kun ajo on valmis, sulkuihin ilmestyy ajojen lukumäärää osoittava luku.

### 1) Alustus 

In [None]:
# Haetaan tarvittavat paketit ja käytetään komentoa '%matplotlib inline', joka mahdollistaa
# histogrammin piirtämisen suoraan koodisolun tulosteeseen.
# Komennolla 'as' voidaan nimetä paketti uudelleen, jolloin siihen voi viitata lyhyesti
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

# Jos notebookia käytetään Python 2:lla, tarvitaan histogrammin teksteihin tuki ääkkösille.
from __future__ import unicode_literals

### 2) Datan hakeminen

Alkuvalmisteluiden jälkeen siirrytään hakemaan CMS:n dataa käyttöömme notebookiin. <br>
Luodaan DataFrame-rakenne (periaatteessa taulukko), johon tallennetaan kaikki csv-tiedostossa oleva data.
Annetaan luomallemme DataFramelle nimi *datasetti*. Luetaan muuttujaan tiedosto, joka sijaitsee yhtä ylemmässä kansiotasossa olevassa kansiossa *Data*.

In [None]:
# Tiedot tallennetaan muuttujaan nimeltä datasetti
datasetti = pd.read_csv('../Data/Ymumu_Run2011A.csv')

In [None]:
# Tarkistetaan, montako riviä tiedostossamme on
len(datasetti)

In [None]:
# Muuttujaan tallennetut tiedot voidaan tarkistaa tulostamalla sen viisi ensimmäistä riviä.
datasetti.head()

# Mitä tapahtuu, jos sulkuihin laittaa lukuarvon?

Taulukon viimeisessä sarakkeessa on mittausdatasta laskettujen invarianttien massojen arvot kussakin tapahtumassa. Käytämme tämän sarakkeen tietoja myöhemmin, joten ne kannattaa tallentaa omaan muuttujaansa.

In [None]:
# Luodaan muuttuja 'invariantti_massa', johon tallennetaan muuttujan 'datasetti' sarakkeen 'M' arvot, eli
# kahden myonin invariantille massalle valmiiksi lasketut arvot.
invariantti_massa = datasetti['M']

### 3) Histogrammin piirtäminen

Nyt jäljellä on enää vaihe, jossa luomme histogrammin hakemistamme invariantin massan arvoista. Histogrammi on pylväskaavio, joka kuvaa kuinka monta törmäystapahtumaa on osunut kunkin invariantin massan arvon kohdalle. Paketissa matplotlib.pyplot on sisäänrakennettuna komento *hist*, jonka avulla voidaan piirtää histogrammi helposti.

In [None]:
# Suoritetaan histogrammin piirtäminen pyplot-moduulin avulla:
plt.hist(invariantti_massa, bins=100, range=(8,12))

# Näillä riveillä ainoastaan määritellään otsikko sekä akseleiden tekstit.
plt.xlabel('Invariantti massa [GeV/c²]')
plt.ylabel('Tapahtumien lukumäärä')
plt.title('Kahden myonin invariantin massan histogrammi \n') # \n luo uuden rivin otsikon muotoilua varten

# Tehdään kuvaaja näkyväksi.
plt.show()

# Aja koodi useampaan kertaan:
# Mitä tapahtuu, jos muutat binien määrää? Mitä bins määrittää? Mikä on mielestäsi paras arvo?
# Entä range? Mitä käy, jos otat rangen määritelmän kokonaan pois? 

### 4) Analyysi

- Mitä histogrammi kertoo?
- Mitä tapahtuu noin 9,45 GeV/$c^2$:n kohdalla?