# Lisää sarake muuttujaan DataFrame

Tässä esimerkissä käydään läpi csv-tiedoston tuominen Jupyteriin, kuinka sen tietojen avulla voidaan suorittaa laskuja ja kuinka lasketut arvot voidaan lisätä tallennettuun taulukkoon. Tässä esimerkissä lasketaan invariantin massan arvot eri tapahtumille.

### Datan tuominen

Tarvitsemme paketit *pandas* ja *numpy* tiedostojen lukemiseen ja laskutoimitusten suorittamiseen.

In [1]:
import pandas as pd
import numpy as np

Luetaan tiedot tiedostosta _Zmumu_Run2011.csv_, joka on kansiossa _Data_. Tallennetaan luetut tiedot muuttujaan _datasetti_.

In [2]:
datasetti = pd.read_csv('../Data/Zmumu_Run2011A.csv')

Tarkistetaan muuttujaan tallennettujen tietojen sisältö tulostamalla viisi ensimmäistä riviä

In [3]:
datasetti.head()

Unnamed: 0,Run,Event,pt1,eta1,phi1,Q1,dxy1,iso1,pt2,eta2,phi2,Q2,dxy2,iso2
0,165617,74969122,54.7055,-0.432396,2.57421,1,-0.074544,0.499921,34.2464,-0.98848,-0.498704,-1,0.071222,3.42214
1,165617,75138253,24.5872,-2.0522,2.86657,-1,-0.055437,0.0,28.5389,0.385163,-1.99117,1,0.051477,0.0
2,165617,75887636,31.7386,-2.25945,-1.33229,-1,0.087917,0.0,30.2344,-0.468419,1.88331,1,-0.087639,0.0
3,165617,75779415,39.7394,-0.712338,-0.312266,1,0.058481,0.0,48.279,-0.195625,2.97032,-1,-0.049201,0.0
4,165617,75098104,41.2998,-0.157055,-3.04077,1,-0.030463,1.22804,43.4508,0.590958,-0.042756,-1,0.044175,0.0


ja lisäksi muuttujan _datasetti_ tyyppi. Tyyppiä tarvitaan myöhemmin, kun halutaan lisätä tähän taulukkoon uusi sarake.

In [4]:
type(datasetti)

pandas.core.frame.DataFrame

### Laskutoimitusten suorittaminen

Lasketaan invariantti massa $M$ seuraavan kaavan mukaisesti hyödyntämällä pakettia _numpy_:

$$M = \sqrt{2p_{T1}p_{T2}(\cosh(\eta_1-\eta_2)-\cos(\phi_1-\phi_2))}.$$

In [5]:
invariantti_massa = np.sqrt(2*datasetti.pt1*datasetti.pt2*(np.cosh(datasetti.eta1-datasetti.eta2) - np.cos(datasetti.phi1-datasetti.phi2)))

Tarkistetaan muuttujaan *invariantti_massa* tallennetut arvot tulostamalla muuttujan sisältö:

In [6]:
print(invariantti_massa)

0         89.885744
1         88.810987
2         88.472502
3         90.332620
4         90.514507
5         78.860094
6         92.362439
7         63.757254
8         93.118647
9         92.941701
10        88.896587
11        85.363437
12        87.934228
13        90.414225
14        65.034823
15        89.348601
16        91.297563
17        92.258489
18        92.493002
19        68.358712
20        92.112023
21        91.171556
22        85.909734
23        91.645777
24        88.392430
25        91.760237
26        91.179805
27        91.785881
28        91.349970
29        99.112667
            ...    
10553     91.027596
10554     93.261764
10555     76.810535
10556     80.206206
10557     89.126026
10558     96.116627
10559     89.928690
10560     87.901985
10561     90.919888
10562     90.767179
10563     63.837491
10564     76.605770
10565     67.312657
10566     89.984530
10567     94.494826
10568     89.234208
10569     91.644511
10570     67.081134
10571     91.920312


Lisätään lasketut invariantin massat alkuperäiseen taulukkoon, joka on tallennettu muuttujaan _datasetti_. Tarkistetaan ennen tätä muuttujan *invariantti_massa* tyyppi.

In [7]:
type(invariantti_massa)

pandas.core.series.Series

Koska *invariantti_massa* on tyyppiä Series, niin se täytyy muuttaa samaan muotoon muuttujan _datasetti_ kanssa. Nimetään DataFrameksi muunnettu muuttuja *inv_massat* ja annetaan sarakkeen nimeksi *M*.

In [8]:
inv_massat = invariantti_massa.to_frame('M')

Nyt muuttujat *datasetti* ja *inv_massat* voidaan yhdistää käyttämällä komentoa *merge*. Tallennetaan yhdistelmä muuttujaan *lisa_data*.

In [9]:
lisa_data = datasetti.merge(inv_massat, left_index=True, right_index=True)
lisa_data.head()

Unnamed: 0,Run,Event,pt1,eta1,phi1,Q1,dxy1,iso1,pt2,eta2,phi2,Q2,dxy2,iso2,M
0,165617,74969122,54.7055,-0.432396,2.57421,1,-0.074544,0.499921,34.2464,-0.98848,-0.498704,-1,0.071222,3.42214,89.885744
1,165617,75138253,24.5872,-2.0522,2.86657,-1,-0.055437,0.0,28.5389,0.385163,-1.99117,1,0.051477,0.0,88.810987
2,165617,75887636,31.7386,-2.25945,-1.33229,-1,0.087917,0.0,30.2344,-0.468419,1.88331,1,-0.087639,0.0,88.472502
3,165617,75779415,39.7394,-0.712338,-0.312266,1,0.058481,0.0,48.279,-0.195625,2.97032,-1,-0.049201,0.0,90.33262
4,165617,75098104,41.2998,-0.157055,-3.04077,1,-0.030463,1.22804,43.4508,0.590958,-0.042756,-1,0.044175,0.0,90.514507


Lasketut invariantin massan arvot ovat nyt uuden taulukon viimeisessä sarakkeessa *M*.