# CMS:n CSV-muotoisten datatiedostojen käyttö Jupyterissa

CMS-kokeen keräämää avointa dataa voidaan käsitellä erilaisissa tiedostomuodoissa. Yksi helposti käsiteltävä vaihtoehto on tarkastella dataa CSV-tiedostoissa (comma-separated values). CSV-tiedosto on periaatteessa tavallinen tekstitiedosto, joka sisältää pilkulla ja riveillä erotettuja arvoja.

### CSV-tiedoston lukeminen

CSV-tiedostojen lukeminen notebookissa onnistuu esimerkiksi Pythonin _pandas_-moduulin avulla. Luetaan kansiossa _data_ oleva CSV-tiedosto _Zmumu_\__Run2011A.csv_ ja tallennetaan sen sisältö muuttujaan _datasetti_. Käyttämäämme CSV-tiedostoon on valittu törmäystapahtumia tietyin kriteerein [1] CMS:n vuoden 2011 DoubleMu-datasetistä [2].
<br>
<br>
<br>
[1] Thomas McCauley (2016). Zmumu. Jupyter Notebook file. https://github.com/tpmccauley/cmsopendata-jupyter/blob/hst-0.1/Zmumu.ipynb.
<br>
[2]  CMS collaboration (2016). DoubleMu primary dataset in AOD format from RunA of 2011 (/DoubleMu/Run2011A-12Oct2013-v1/AOD). CERN Open Data Portal. DOI: [10.7483/OPENDATA.CMS.RZ34.QR6N](http://doi.org/10.7483/OPENDATA.CMS.RZ34.QR6N).

In [1]:
import pandas

datasetti = pandas.read_csv('../Data/Zmumu_Run2011A.csv')

Voimme tarkastaa, mitä kaikkea tietoa hakemamme tiedosto sisältää. Käytetään _pandas_-moduulin komentoa _head( )_, jolloin solun tulosteeseen ilmestyy komennon eteen kirjatun DataFrame-muuttujan viisi ensimmäistä riviä ([pandas-dokumentaatio](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.head.html)).

In [2]:
datasetti.head()

Unnamed: 0,Run,Event,pt1,eta1,phi1,Q1,dxy1,iso1,pt2,eta2,phi2,Q2,dxy2,iso2
0,165617,74969122,54.7055,-0.432396,2.57421,1,-0.074544,0.499921,34.2464,-0.98848,-0.498704,-1,0.071222,3.42214
1,165617,75138253,24.5872,-2.0522,2.86657,-1,-0.055437,0.0,28.5389,0.385163,-1.99117,1,0.051477,0.0
2,165617,75887636,31.7386,-2.25945,-1.33229,-1,0.087917,0.0,30.2344,-0.468419,1.88331,1,-0.087639,0.0
3,165617,75779415,39.7394,-0.712338,-0.312266,1,0.058481,0.0,48.279,-0.195625,2.97032,-1,-0.049201,0.0
4,165617,75098104,41.2998,-0.157055,-3.04077,1,-0.030463,1.22804,43.4508,0.590958,-0.042756,-1,0.044175,0.0


<br>
Huomaa, että muuttujassa _datasetti_ rivejä on toki olemassa paljon enemmän. Tarkastetaan rivien määrä komennolla _len(datasetti)_, joka kertoo sille annetun muuttujan pituuden.

In [3]:
len(datasetti)

10583

### Arvojen tarkastelu ja valitseminen

Tulosteesta nähdään, että hakemamme CSV-tiedoston sisältö on tallentunut koodissamme taulukkoon (DataFrame-taulukkorakenteeseen). Taulukon rivit kuvaavat eri törmäystapahtumia (events), ja sarakkeet sisältävät erilaisia tallennettuja arvoja tapahtumille. Osa arvoista on ilmaisimen mittaamia, ja osa on laskettu näiden mitattujen arvojen avulla.

Taulukossa oleviin arvoihin päästään käsiksi _pandas_-moduulin avulla. Käyttämämme datasetti sisältää esimerkiksi kummankin myonin varaukset, taulukossa sarakkeilla _Q1_ ja _Q2_. Voimme hakea vaikkapa jokaisen tapahtuman ensimmäisen myuonin varauksen kirjoittamalla seuraavanlaisen koodin:

In [4]:
datasetti['Q1']

0        1
1       -1
2       -1
3        1
4        1
5       -1
6       -1
7       -1
8        1
9       -1
10      -1
11       1
12       1
13      -1
14       1
15      -1
16       1
17      -1
18       1
19       1
20      -1
21       1
22      -1
23      -1
24       1
25       1
26       1
27       1
28      -1
29       1
        ..
10553    1
10554   -1
10555    1
10556   -1
10557   -1
10558   -1
10559    1
10560    1
10561   -1
10562    1
10563    1
10564    1
10565    1
10566   -1
10567   -1
10568   -1
10569   -1
10570   -1
10571    1
10572   -1
10573    1
10574    1
10575   -1
10576    1
10577    1
10578   -1
10579    1
10580   -1
10581    1
10582    1
Name: Q1, Length: 10583, dtype: int64

Nyt tulosteeseen ilmestyi datasetin sarakkeella _Q1_ olevat arvot, eli ensimmäisen myonin varauksen arvot (kaikki eivät toki tulostu, sillä arvoja on yli 10000). Vasemmalla olevat luvut kertovat rivin indeksin ja oikeanpuoleiset luvut ovat varauksen arvoja. Koodissa _Q1_:n tilalla voisi olla mikä tahansa muu datatiedoston ensimmäisellä rivillä esiintyvä arvon tunnus (pt1, eta1, phi1, ...).

Mikäli halutaan valita esimerkiksi vain 10 ensimmäistä varauksen arvoa, onnistuu se käyttämällä .loc-metodia. Metodissa hakasulkuihin on ensin kirjattu niiden rivien indeksit, jotka halutaan valita (rivit 0--10), ja sen jälkeen sarakkeen nimi, jolta rivit valitaan (_Q1_).

In [6]:
datasetti.loc[0:10, 'Q1']

0     1
1    -1
2    -1
3     1
4     1
5    -1
6    -1
7    -1
8     1
9    -1
10   -1
Name: Q1, dtype: int64

### Muita huomioita

- Arvojen valitsemiseen on käytettävissä myös muita vaihtoehtoja. Esimerkiksi tästä [Stack Overflow -linkistä](http://stackoverflow.com/questions/31593201/pandas-iloc-vs-ix-vs-loc-explanation) löytyy _pandas_-moduulin muita valintakomentoja selityksineen. CSV-tiedostoja voi lukea myös muiden moduuleiden tai kirjastojen avulla.
- Huomaa, että eri CSV-tiedostot sisältävät eri dataa riippuen siitä, minkälaisista törmäystapahtumista tiedosto on luotu. Voit aina tarkistaa tiedoston sisällön avaamalla sen joko Jupyterissa tai tekstieditorissa.