# Histogrammin piirtäminen valitun datamäärän perusteella

Tässä tehtävässä tutustutaan siihen, miten kerätyn datan määrä vaikuttaa muodostettavaan histogrammiin. Havainnollistettavana suureena käytetään edellisessä esimerkissä esiteltyä invarianttia massaa. Käytettävä data on peräisin CERNin CMS-ilmaisimen mittaustuloksista.

### CMS-ilmaisin

CERNissä LHC-hiukkaskiihdyttimellä kiihdytetään hiukkassuihkuja ja törmäytetään niitä toisiinsa. CMS-ilmaisimella voidaan havaita ja mitata näissä törmäyksissä syntyneitä hiukkasia. Alla olevassa kuvassa on CMS-ilmaisin avattuna.

<img src="https://raw.githubusercontent.com/cms-opendata-education/cms-jupyter-materials-finnish/master/Kuvat/CMS_avattu.jpg" alt="CMS-ilmaisin avattuna" style="height: 400px">

(Kuva: Domenico Salvagnin, https://commons.wikimedia.org/wiki/File:CMS@CERN.jpg)
<br>

### 1) Tilanteen alustus

Aloitetaan koodilla, joka alustaa tarvittavat muuttujat ja paketit histogrammin piirtämistä varten. Tutustu koodin seassa oleviin kommentteihin ja aja koodi klikkaamalla ensin solu aktiiviseksi ja painamalla sitten näppäinyhdistelmää Ctrl + Enter. Tämän jälkeen voit siirtyä vaiheeseen kaksi.

In [None]:
# Haetaan tarvittavat paketit. Pandas on data-analyysiä varten, numpy tieteellistä laskentaa ja
# matplotlib.pyplot mahdollistaa kuvaajien piirtämisen. Annetaan näille lyhyemmät nimet (pd, np ja plt),
# jotta myöhemmin niitä käytettäessä ei tarvitse kirjoittaa koko paketin nimeä.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# Luodaan uusi DataFrame-rakenne CMS:n mittausdataa sisältävästä tiedostosta "Zmumu_Run2011A_massoilla.csv".
# Annetaan luodulle DataFramelle nimi 'datasetti'.
datasetti = pd.read_csv('https://raw.githubusercontent.com/cms-opendata-education/cms-jupyter-materials-finnish/master/Data/Zmumu_Run2011A_massoilla.csv')

# Mitä tallennettu tiedosto sisältää? Tarkista tulostamalla ainakin viisi ensimmäistä riviä.
# Kirjoita koodi alle.


In [None]:
# Luodaan Series-rakenne (joka on periaatteessa yksiulotteinen taulukko) ja annetaan sille nimi "invariantti_massa".
# Annetaan tälle arvot 'datasetti'-DataFramen sarakkeelta 'M'.
invariantti_massa = datasetti['M']

# Montako invariantin massan arvoa muuttujaan 'invariantti_massa' on tallennettu? Kirjoita koodi alle.


Tällä kertaa haluamme itse valita, montaako invariantin massan arvoa käytetään histogrammin piirtämiseksi. Tätä varten meidän tarvitsee luoda tyhjä taulukko, jonne voidaan myöhemmin tallentaa haluttu määrä arvoja.

In [None]:
# Luodaan tyhjä taulukko 'valitut', johon tullaan tallentamaan valittu määrä invariantin massan arvoja.
valitut = []

### 2) Datan määrän valitseminen ja histogrammin piirtäminen

Alla oleva koodi kysyy käyttäjältä valittavien tapahtumien määrän ja piirtää sen jälkeen invariantin massan histogrammin valitulle datamäärälle. Tässä esimerkissä histogrammi piirretään toisella tavalla kuin aiemmin.

Aja koodi klikkaamalla koodisolu aktiiviseksi ja painamalla näppäinyhdistelmää *Ctrl + Enter*. Voit ajaa koodia aina uudestaan näppäinyhdistelmällä *Ctrl + Enter*, jolloin voit syöttää uuden datamäärän eri ajoilla.

### Tehtävä

Tarkastele koodia. Mitä luulet tapahtuvan, jos
- annat tapahtumien määräksi muun kuin kokonaisluvun?
- annat datan määräksi suuremman arvon kuin mitä dataa on saatavilla?
- tulosteiden alusta poistaa *\n*?

Kokeile, osuiko ennustuksesi oikeaan!

Tutki, miten valitun datan määrä vaikuttaa histogrammiin.
- Mitä arvoa invariantin massan eri tulokset näyttäisivät lähestyvän?
- Mitä voit päätellä tästä arvosta?
- Miten binien määrä vaikuttaa histogrammin tulkintaan?

In [None]:
# Pyydetään käyttäjältä tapahtumien määrä ja tallennetaan sen muuttujaan 'lkm'.
# Koodi vaatii toimiakseen kokonaislukusyötteen (integer)
lkm = int(input('Syötä haluttu tapahtumien määrä: '))

# Luodaan if-silmukka, joka tutkii syötettyä tapahtumien määrää eli muuttujan 'lkm' arvoa.
if lkm > len(invariantti_massa):
    print('''\n Datan määrä on valittu suuremmaksi kuin mitä dataa on saatavilla, joten pyytämääsi
 histogrammia ei voitu piirtää. Maksimiarvo datan määrälle on %i.''' % len(invariantti_massa))

else:    
    for f in range(lkm):
        M = invariantti_massa[f]
        valitut.append(M)
    print('\n Valitsit koko datasta %i arvoa invariantille massalle.' %(lkm))

# Käytetään numpy-paketin histogram-funktiota, ja luodaan histogrammi valituista invarianteista massoista.
# Nimetään histogrammi "histogrammi1":ksi.
histogrammi1 = np.histogram(valitut, bins=120, range=(60,120))


# Mitä tapahtuu, jos muutat yllä olevia binien ja rangen arvoja?


# Valmistellaan histogrammin piirtoa.
# Määritetään histogrammin palkkien leveys sekä histogrammin keskikohta.
hist1, bins1 = histogrammi1
width1 = 1.0*(bins1[1] - bins1[0])
center1 = (bins1[:-1] + bins1[1:])/2

# Piirretään histogrammi matplotlib.pyplotin avulla.
plt.bar(center1, hist1, align='center', width=width1)

# Nimetään x- ja y-akselit sekä annetaan histogrammille otsikko.
plt.xlabel('Invariantti massa [GeV/c²]')
plt.ylabel('Tapahtumien lukumäärä pylvästä kohti', fontsize=10)
plt.title('Invariantin massan histogrammi kahdelle myonille\n', fontsize=15)

# Asetetaan y-akseli vakioksi välille 0-800.
axes = plt.gca()
axes.set_ylim([0,800])


# Kokeile muuttaa y-akselin näytettävää väliä. Mitä tapahtuu, jos et määrittele sitä lainkaan?
# Voit kokeilla kommentoimalla koodirivin #-merkin avulla.

# Miten saat muutettua x-akselin väliä? Mistä nykyinen väli tulee?


# Nollataan lopuksi valitut arvot uutta valintaa varten.
valitut = []