# Sovitteen tekeminen, poikittaisliikemäärä ja pseudorapiditeetti

Tämän harjoitteen tarkoituksena on tarkastella jakaumien sovittelua dataan sekä tutustutaan hieman poikittaisliikemäärän ja pseudorapiditeetin käsitteisiin. Käytettävä data on [CMS](https://home.cern/about/experiments/cms)-kokeen avointa dataa.

### Sovitteen tekeminen

Piirretään aluksi histogrammi valitusta datasta, jotta nähdään mahdolliset kiinnostavat kohdat (ts. mille osalle sovite
halutaan tehdä), sekä ladataan tarvittavat moduulit, data yms.

In [None]:
# Tarvitaan normaalijakauman (sovitteen) selvittämiseksi
from scipy.stats import norm
from scipy.optimize import curve_fit

import pandas as pd
import numpy as np
import matplotlib.mlab as mlab
import matplotlib.pyplot as plt

In [None]:
# Valitaan Dimuon_DoubleMu tarkasteltavaksi dataksi
data = pd.read_csv('http://opendata.cern.ch/record/545/files/Dimuon_DoubleMu.csv')

# Lasketaan invariantti massa, mikäli avattu data ei sitä sisällä
data['M'] = np.sqrt(2*data.pt1*data.pt2*(np.cosh(data.eta1-data.eta2) - 
                    np.cos(data.phi1-data.phi2)))

# Tallennetaan kaikki invariantit massat iMass muuttujaan
iMass = data['M']

# Piirretään invariantin massan histogrammi
n, bins, patches = plt.hist(iMass, 300, facecolor='g')
plt.xlabel('invMass (GeV)')
plt.ylabel('Määrä')
plt.title('Invariantin massan histogrammi')

plt.show()

90 GeVin kieppeillä näyttäisi olevan piikki, rajataan haluttu data sinne.

In [None]:
min = 85
max = 97

# Rajataan haluttu alue. rajMass sisältää nyt kaikki massat, jotka jäävät min ja max arvojen välille
rajMass = iMass[(min < iMass) & (iMass < max)]

# Lasketaan normaalijakauman µ & sigma käyttäen scipyn norm.fit-funktiota
(mu, sigma) = norm.fit(rajMass)

# Histogrammi rajatusta datasta. Huomaa, että tässä data on normalisoitu (density)
n, bins, patches = plt.hist(rajMass, 300, density = 1, facecolor='g')

# mlab.normpdf laskee normaalijakauman y-arvon annetuilla µ:llä ja sigmalla,
# piirretään samaan kuvaan histogrammin kanssa myös normaalijakauma
y = norm.pdf(bins, mu, sigma)
l = plt.plot(bins, y, 'r-.', linewidth=3)


plt.xlabel('invMass (GeV)')
plt.ylabel('Todennäköisyys')
plt.title(r'$\mathrm{Histogrammi\ ja\ sovite,\ missä:}\ \mu=%.3f,\ \sigma=%.3f$' %(mu, sigma))

plt.show()

Noudattaako invariantin massan jakauma normaalijakaumaa?

Miten datan rajaaminen vaikuttaa jakaumaan? (Kokeile rajata dataa eri tavoin muuttamalla min ja max arvoja)


Entä miksi data täytyy normalisoida? (Testaa itse miten kuvaaja muuttuu jos poistat normalisoinnin (koodissa siis density))

### Tarkennettu malli: relativistinen Breit-Wigner

Koetetaan tarkentaa edellistä tulosta.

In [None]:
# Tarkastellaan samaa aluetta keräten hieman lisää muuttujia talteen.

lower_limit = 85
upper_limit = 97
nbins = 100

plt.figure()
heights, bin_edges, _ = plt.hist(iMass, bins=nbins, range=(lower_limit,upper_limit))
plt.xlabel('Invariantti massa (GeV)')
plt.ylabel('Tapahtumien lukumäärä')
plt.show()

In [None]:
# Breit-Wigner -jakauma on suhteellisuusteorian mukainen, hiukkasen massaan ja elinaikaan 
# Heisenbergin epämääräisyysperiaatteen kautta liittyvä kuvaus. 


def breitwigner(E, gamma, M, a, b, A):
    y = np.sqrt(M**2*(M**2+gamma**2))
    K = 2*np.sqrt(2)*M*gamma*y/(np.pi*np.sqrt(M**2+y))
    return a*E+b+A*(K/((E**2-M**2)**2+M**2*gamma**2))

In [None]:
def bin_centers(bin_edges):
    if len(bin_edges) > 1:
        return [0.5 * (bin_edges[i] + bin_edges[i+1]) for i in range(len(bin_edges)-1)]
    else:
        print("At least two bins are needed.")

In [None]:
bins = bin_centers(bin_edges)

# tässä määritellään parametreja sovitteelle ja iteroidaan niitä tarkemmiksi edellisten yritteiden kautta

accuracy = 1e-5
p0 = [4, 90, 1, 100, 100]
while True: # Silmukka pyörii haluttuun tarkkuuteen asti
    best, covariance = curve_fit(breitwigner, bins, heights, p0=p0)
    error = max(abs(p0-best))
    if error < accuracy: 
        break
    p0 = best

print(*best)

# tämän solun ajaminen todennäköisesti sylkäisee "int object is not callable"-virheilmoituksen nykyversiossa,
# älä hämmenny. Seuraava kohta toimii silti kunnes ehdimme korjata koodin siistimmäksi.

In [None]:
# Piirretään sovite kuvaan.

plt.figure(figsize = (10,5))
plt.plot(bins, breitwigner(np.array(bins), *best), color = "black")
plt.hist(data.M, bins=nbins, range=(lower_limit,upper_limit), color = "red", alpha = 0.4)
errors = np.sqrt(np.diag(covariance))
param_strings = ["Gamma","M","a","b","A"]
for i in range(len(best)):
    print("{2:5} = {0:.3f} +/- {1:.3f}".format(best[i],errors[i],param_strings[i]))
    
plt.xlabel("\n Invariantti massa (GeV)", fontsize = 15)
plt.ylabel("Tapahtumien lukumäärä", fontsize = 15)
plt.show()

Näyttääkö sovite paremmin mittauksien mukaiselta? Mitä käy jos muokkaat tarkasteluväliä laajemmaksi molemmissa tapauksissa?

## Poikittaisliikemääristä ja pseudorapiditeetista

Poikittaisliikemäärällä  $ p_t$ tarkoitetaan liikemäärää, joka on kohtisuorassa suihkun kulkusuuntaan nähden. Se on laskettavissa
x- ja y -suuntaisista liikemääristä tuttuun tapaan vektorianalyysiä käyttäen, mutta sen suuruus löytyy myös suoraan ladatusta datasta.

Pseudorapiditeettia kuvaa datassa oleva sarake Eta $(\eta)$, ja se käytännössä kertoo hiukkasen kulman suhteessa suihkulinjaan. Myöhemmin vastaan tuleva kuva esittää $\eta$:n ja kulman suhteen hieman tarkemmin.

Tarkastellaan ensin miltä poikittaisliikemäärien jakauma näyttää

In [None]:
# Muuttuja allPt sisältää nyt kaikki poikittaisliikemäärät
allPt = pd.concat([data.pt1, data.pt2]) 
# pandas paketin concat-komento (concatenate) yhdistää valitut tiedot
# (concat palauttaa tässä DataFrame tyyppisen muuttujan, tässä tapauksessa se tosin sisältää vain yhden 
# nimeämättömän sarakkeen, joten myöhemmin ei tarvitse valita haluamaansa saraketta allPt-muuttujasta)R


# Piirretään histogrammi näistä

plt.hist(allPt, bins=400, range = (0,100))
plt.xlabel('$p_t$ (GeV)', fontsize = 12)
plt.ylabel('Määrä', fontsize = 12)
plt.title('Histogrammi poikittaisliikemääristä', fontsize = 15)

plt.show()

Näyttäisi siltä, että suurin osa arvoista sijoittuu välille [0,10]. Miksi?

In [None]:
# ehto määrittää, minkä energian alapuolella olevat tapahtumat valitaan (pt < ehto). Tätä voi vaihdella ja
# tarkastella sen vaikutuksia tuloksiin.
ehto = 100

# sPt = data[(np.absolute(data.pt1) > ehto) & (np.absolute(data.pt2) > ehto)]
pPt = data[(data.pt1 < ehto) & (data.pt2 < ehto)]

# Tallennetaan kaikki käsiteltävät etat ja poikittaisliikemäärät muuttujiin
allpPt = pd.concat([pPt.pt1, pPt.pt2])
allEta = pd.concat([pPt.eta1, pPt.eta2])

In [None]:
# Piirretään niistä scatterplot-kuvaaja.

plt.scatter(allEta, allpPt, s=1)

plt.ylabel('$p_t$ (GeV)', fontsize=13)
plt.xlabel('Pseudorapiditeetti ($\eta$)', fontsize=13)
plt.title('Poikittaisliikemäärä ($p_t$) vs. pseudorapiditeetti \n', fontsize=15)

plt.show()

<img src = "https://upload.wikimedia.org/wikipedia/commons/thumb/9/93/Pseudorapidity.svg/800px-Pseudorapidity.svg.png"
alt = "Pseudorapiditeetti" style = "height: 300px" align="left">

Vasemmalla olevasta kuvasta näkee pseudorapiditeetin ($\eta$) ja kulman ($\theta$) välisen yhteyden (jos $\eta = 0$, niin tapahtuma on
kohtisuorassa säteen kulkusuuntaan nähden).

Vertaile tätä kuvaa yllä olevaan kuvaajaan ja pohdi alla olevia kysymyksiä.

### Kysymyksiä

Mistä kuvaajan muoto johtuu? Miksei pieniliikemääräisiä hiukkasia havaita $\eta$:n arvoilla [-1,1]?

Miksi poikittaisliikemäärän käsite ylipäätään on kiinnostava?

### Jatkohaaste: resoluutio

Pystyisitkö tekemään invariantin massan histogrammin (tai useamman), joiden käyttämä data riippuu pseudorapiditeetin saamista arvoista? Ts. halutaan massa-lukumäärä -kuvaaja, joka rakentuu vain tietyissä $\eta$ rajoissa esiintyvistä havainnoista.

In [None]:
# Koodaa tänne!