<a href="https://colab.research.google.com/github/PKvasnick/PeakFit/blob/master/Data_check.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Fitování píků

Nacházíte se v Google Colab notebooku, který vám pomůže vybrat a nafitovat píky v spektru. Notebook sídlí v GitHub repozitáři na adrese `https://github.com/PKvasnick/PeakFit/blob/master/PeakFit_dev.ipynb`. Z repozitáře ho otevřete kliknutím na modré tlačítko `Open in Colab`.

**Důležité**  Než začnete s notebookem cokoli dělat, vytvořte si vlastní kopii - z menu `File` vyberte jednu z možností `Save a Copy to...`. Tím nejen získáte lookálni kopii notebooku, kterou si případně můžete modifikovat dle libosti, ale také vytvoříte nové cloudové Pythonovské prostředí pro spouštění notebooku - tedy odlišné od těch, v nichž se práve pokouší spustit notebook vaši spolužáci. 

Jednotlivými kroky procházíte klikaním na trojúhelníčky ▷ v černém poli na levém okraji příslušných buněk. Pokud se spletete, 

* jestli chcete zopakovat poslední krok, klikněte na symbol pro odchod pod šipkou (změní se na x, když na něj najedete myší). Tím se vymaže předchozí výstup buňky. Pak znova klikněte na trojúhelníček pro opakované spuštění kódu tohoto kroku.
* prostě celý notebook znova načtěte, nebo zvolte z menu `Runtime -> Restart Runtime` a začněte znovu. 

Pokud vás zajímá kód, kterým se realizují jednotlivé kroky, klikněte pravým tlačítkem do šedého pásu kolem trojúhelníčku, a zvolte `Form -> Show code`.

Jakékoli stížnosti a připomínky prosím na `peter.kvasnicka@mff.cuni.cz`



## 1. Načtení spektra vybraného vzorku a spektra pozadí
V tomto kroku načtete ze soubovorého systému vašeho počítače datové soubory pro požadovaný vzorek a pro pozadí,`Vzorek-X_YYYs.dat` a `Vzorek-Ref_YYYs.dat`.

Klikněte na trojúhelníček ▷ v černém poli v levém horném rohu u následujících dvou buněk, a když ikonka ožije, klikněte na `Prohledávat` a vyberte požadovaný soubor. 

In [None]:
#@title <-- Načtěte z počítače soubor pro požadovaný vzorek

import sys
from io import StringIO
from google.colab import files
import numpy as np
import pandas as pd

def read_spectrum():
  '''
  Načte datový soubor ze souborového systému do Pandas
  dataframu a z názvu dekóduje označení dat a čas měření.
  Název souboru se očekává ve tvaru Vzorek-XXX_YYYs.txt.
  '''
  uploaded = files.upload() # Widget, vrací dict (název, obsah)
  filename = list(uploaded.keys())[0]

  # Parse filename
  print('Reading data from: {}'.format(filename))
  sample_id = filename[(filename.find('-')+1):filename.find('_')]
  print('Sample id        : {}'.format(sample_id))
  acc_time_str = filename[(filename.find('_')+1):filename.find('s.txt')]
  acc_time = int(acc_time_str)
  print('Acc. time        : {} sec'.format(acc_time))
  df = pd.read_table(filename, sep = " ")
  print('Read {} rows.'.format(len(df)))
  return sample_id, acc_time, df

sample_id, sample_time, df = read_spectrum()

In [None]:
#@title <-- Načtěte z počítače soubor pro pozadí

bg_id, bg_time, bg_df = read_spectrum()

# Kontrola
if bg_id != 'Ref':
  print('VAROVÁNÍ: Načtené spektrum není spektrum pozadí!')
  print('Pokud jste se spletli, můžete tento krok zopakovat.')
#





## Sjednocení a zobrazení dat

Pozadí je nutno přeškálovat podle doby měření, aby ho bylo možno odečíst od spektra vzorku. Pak si zobrazíme výslednou tabulku, abychom viděli, že se data načetla rozumně. 

In [None]:
#@title <-- Sjednocení a zobrazení dat

# Sjednotíme data - careful with data types
# FIXME: Normalizing with a Bulgarian constant
time_factor = 1.0
amplif = sample_time / bg_time * time_factor
df['Bg_counts'] = (bg_df.Counts * amplif + 0.5).astype(int)
df['Net_counts'] = df.Counts - df.Bg_counts

# Initial range for plot
xmin = np.min(df.Energy_keV.values)
xmax = np.max(df.Energy_keV.values)
xm = 0.5 * (xmin + xmax)
d = 0.5 * (xmax - xmin)
x0 = xm - 0.5 * d
x1 = xm + 0.5 * d

df

## 3. Vykreslení spektra vzorku a blanku

V tomto kroku si nakreslíme spektra vzroku, blanku a jejich rozdílu, abychom si mohli vybrat oblast, kde chceme nafitovat pík, a zvolit typ pozadí. 

Pracujete s rozdílovým - zeleným spektrem, kde vyznačujete "oblast zájmu" - ROI. V následujícím kroku 4 se touto oblastí proloží kombinace polynomu a gaussiánu. 

In [None]:
#@title <-- V zobrazeném spektru vyberte oblast kolem píku (ROI) a zvolte tvar pozadí

from plotly import graph_objects as go
from IPython.display import display, clear_output
import ipywidgets as widgets

# Create figure
fig = go.Figure()

fig.add_trace(
    go.Scatter(x=df.Energy_keV, y=df.Bg_counts, name='Blank', mode = 'lines', line_width = 0.7)
    ).add_trace(
    go.Scatter(x=df.Energy_keV, y=df.Counts, name='Sample', mode = 'lines', line_width = 0.7)
    ).add_trace(
    go.Scatter(x=df.Energy_keV, y=df.Net_counts, name='Net sample')
    )

# Set title
fig.update_layout(
    title_text="Spektrum vzorku a pozadí"
)

# -------------------------------------------------------
# Oblast ROI
# -------------------------------------------------------

fig.update_layout(
    shapes = [
      {
        "x0": x0,
        "x1": x1,
        "y0": 0,
        "y1": 1,
        "type": "rect",
        "xref": "x",
        "yref": "paper",
        "opacity": 0.2,
        "fillcolor": "#d3d3d3"
      }]
)

# -------------------------------------------------------
# ROI slider
# -------------------------------------------------------

rs = widgets.FloatRangeSlider(
    value=[x0, x1],
    min=xmin,
    max=xmax,
    step=0.05,
    description='ROI',
    disabled=False,
    continuous_update=False,
    orientation='horizontal',
    readout=True,
    readout_format='.1f',
    layout = widgets.Layout(width = '94%')
)

def on_range_update(slider):
  fig.update_shapes(dict(x0 = rs.value[0], x1 = rs.value[1]))
  clear_output()
  fig.show()
  display(rs)
  display(bg_buttons)

rs.observe(on_range_update)

# -----------------------------------------------------------------------
# Tvar pozadí
# -----------------------------------------------------------------------
bg_labels = ['Konstantní pozadí', 
             'Lineární pozadí', 
             'Kvadratické pozadí']

output_radio_selected = widgets.Text('Kvadratické pozadí')

bg_buttons = widgets.RadioButtons(
    options=bg_labels,
    value=bg_labels[2],
    description='Typ pozadí:',
    layout={'width': 'max-content'}, 
    disabled=False
)

def bg_buttons_observer(sender):
    output_radio_selected.value = bg_buttons.value

bg_buttons.observe(bg_buttons_observer, names=['value'])
# -------------------------------------------------------
# Vysypeme na displej
# -------------------------------------------------------

fig.show()
display(rs)
display(bg_buttons)

Několik rad:
* Může se stát, že vaše spektrum je široké a úzký pík se vám pomocí slajdru špatně vybírá. Nic nezkazíte, když ze zdrojových dat odmažete nezajímavou část spektra a začnete znovu, z užšího spektra se vám bude vybírat pohodlněji. 
* Vybírejte pík vždy i s malým okolím. Pozadí se fituje kvadratickým polynomem, a fit bude hezčí, když se bude mít čeho chytit. 
* Pokud fitujete hodně asymetrický pík, zkuste fit s lineárním nebo konstantním pozadím.
* Zvolte konstantní pozadí, fitujete-li osamělý pík.

## 4. Fitování píku

Po spuštění se program pokusí nalézt optimální kombinaci gaussiánu a polynomu zvoleného stupně, která co nejlépe vystihujte spektrum ve zvolené oblasti. Nemusí se vám to povest napoprvé, v případě neúspěchu klidně začněte od 3. kroku.

In [None]:
#@title <-- Nafitujte vybraný pík

from scipy.stats import norm
from scipy.optimize import curve_fit
from scipy.interpolate import UnivariateSpline
from math import sqrt, exp, log

# Subset df acc to ROI
low, high = rs.value

df_fit = df[np.logical_and(df.Energy_keV > low, df.Energy_keV < high)].copy()
df_fit['Errors'] = np.sqrt(df_fit.Counts)

# Dynamic definition of polynomial part
bg_degree = 0
while bg_buttons.value != bg_labels[bg_degree]:
  bg_degree += 1

init_polyvals = [0] * (bg_degree + 1)

def bg_poly(x, a):
  p = np.zeros_like(x)
  for i in range(len(a)):
    p = p*x + a[i]
  return p

def gauss(x, N0, mean, sigma):
  return N0 * norm.pdf(x, mean, sigma)

def gauss_and_bg(x, N0, mean, sigma, *polyvals):
  return bg_poly(x, polyvals) + gauss(x, N0, mean, sigma)
  
popt, pcov = curve_fit(
    gauss_and_bg, 
    df_fit.Energy_keV, 
    df_fit.Net_counts, 
    [1000,0.5*(high+low), 0.5*(high-low), *init_polyvals] 
)

# Peak stats:
dE = np.mean(np.diff(df.Energy_keV))

def get_raw_params(x,y):
  '''
  Returns total number of counts, centroid and FWHM of a peak-like reagion
  '''
  errors = np.sqrt(y)
  y_spline = UnivariateSpline(x,y,errors)
  area = y_spline.integral(x[0],x[-1])
  smooth = y_spline(x)
  centroid = np.average(x, weights = smooth)
  maximum = np.max(smooth)
  left = 0
  while smooth[left] < 0.5 * maximum:
    left += 1
  right = len(smooth)-1
  while smooth[right] < 0.5 * maximum:
    right -= 1
  fwhm = x[right] - x[left]
  return area, centroid, fwhm

def get_raw_errors(x,y):
  '''
  Resample residuals to get errors for area, centroid, fwhm.
  '''
  errors = np.sqrt(y)
  y_spline = UnivariateSpline(x,y,errors)
  smooth = y_spline(x)
  n_resamples = 100
  areas = np.zeros(n_resamples)
  centroids = np.zeros(n_resamples)
  fwhms = np.zeros(n_resamples)
  for resample in range(n_resamples):
    y_res = np.random.poisson(smooth)
    errors_res = np.sqrt(y_res)
    res_spline = UnivariateSpline(x, y_res, errors_res)
    areas[resample] = res_spline.integral(x[0], x[-1])
    res_smooth = res_spline(x)
    centroids[resample] = np.average(x, weights=res_smooth)
    res_maximum = np.max(res_smooth)
    left = 0
    while res_smooth[left] < 0.5 * res_maximum:
      left += 1
    right = len(res_smooth)-1
    while res_smooth[right] < 0.5 * res_maximum:
      right -= 1
    fwhms[resample] = x[right] - x[left]
    return np.std(areas), np.std(centroids), np.std(fwhms)

area, centroid, fwhm = get_raw_params(
    df_fit.Energy_keV.values, 
    df_fit.Net_counts.values)
area_err, centroid_err, fwhm_err = get_raw_errors(
    df_fit.Energy_keV.values, 
    df_fit.Net_counts.values)
N0 = area/dE
sig2fwhm = 2*sqrt(2*log(2))
peak_stats = pd.DataFrame(dict(
    Parameter=[
               'left_ROI_edge', 
               'right_ROI_edge',
               'Counts_ROI', 
               'Centroid_ROI',
               'FWHM_ROI',
               'Acc_time',
               'Rate_ROI',
               'Counts_peak',
               'Cetroid_peak',
               'FWHM_peak',
               'Rate_peak',
               'Counts_bg'
               ],
    Unit=['keV', 
          'keV', 
          '', 
          'keV', 
          'keV', 
          's', 
          'Hz', 
          '', 
          'keV',
          'keV', 
          'Hz',
          ''
          ],
    Value=[
           low, 
           high, 
           N0, 
           centroid,
           fwhm,
           sample_time,
           N0/sample_time,
           popt[0]/dE,
           popt[1],
           sig2fwhm*popt[2], 
           popt[0]/dE/sample_time,
           N0 - popt[0]/dE
           ],
    Error=[None,
           None,
           area_err/dE, 
           centroid_err,
           fwhm_err,
           0, 
           sqrt(N0)/sample_time,
           sqrt(pcov[0,0])/dE,
           sqrt(pcov[1,1]),
           sig2fwhm*sqrt(pcov[2,2]),
           sqrt(pcov[0,0])/dE/sample_time,
           sqrt(pcov[0,0])/dE
           ],
    Comment=[
             'Pravý okraj ROI',
             'Levý okraj ROI',
             'Počet countů v ROI',
             'Vážený střed ROI',
             'FWHM pro ROI',
             'Čas nabírání',
             'County/s v ROI',
             'Počet countů v píku (fit)',
             'Poloha píku (fit)',
             'Šířka píku (fit)',
             'County/s v píku (fit)',
             'Počet countů v pozadí (fit)'
    ]
))

df_fit['Fit'] = df_fit.apply(lambda row: gauss_and_bg(row.Energy_keV, *popt), axis = 1)
df_fit['Bg'] = df_fit.apply(lambda row: bg_poly(row.Energy_keV, popt[3:]), axis = 1)

fig.add_trace(
    go.Scatter(x=df_fit.Energy_keV, y=df_fit.Fit)
)
fig.add_trace(
    go.Scatter(x=df_fit.Energy_keV, y=df_fit.Bg)
)
fig.show()

print('PEAK FIT SUMMARY:')
pd.options.display.float_format = '{:.2f}'.format
peak_stats

Může se stát, že fit neskonverguje nebo bude špatný. V takovém případě 
* zkuste mírně změnit výběr oblasti fitování ve 3. kroku
* zkuste jiný tvar pozadí

Postup můžete opakovat pro další píky i bez resetování notebooku: Klikněte na symbol pod spouštěcím trojúhelníčkem (když na něj najedete kurzorem myši, promění se v `x`), aby se vymazal graf spekter - ten jinak kumuluje všechny výsledky fitů.

**Důležité** Tabulka parametrů píku se dalším fitem přepíše, takže si ji zkopírujte, než přejdete k novému spektru.

## Vysvětlivky

### Analýza ROI

Pro vybrané ROI počítáme celkový počet countů, centroid a šířku peaku. 
* Spektrum se v oblasti ROI vyhladí splajnem
* Celkový počet countů se počítá jako součet countů ve vyhlazeném spektru
* Centroid se počítá jako vážený průměr přes hodnoty vyhlazeného spektra
* Šířka - FWHM - se počítá doslovně lokalizací hodnnot v polovině výšky maxima nebo okrajú ROI
* Chyby u těchto parametrů se počítají pomocí simulace - pomocí vyhlazenéo spektra generujeme z Poiissonova rozdělení repliky, z nich výše uvedeným způsobem počítáme parametry a uvádíme standardní odchylku přes 100 takovýchto replik. 

### Analýza píků (fit)

Spektrum v ROI fitujeme kombinací polynomu nultého (_*Konstantní pozadí*_), prvního (_*Lineární pozadí*_), resp. druhého (_*Kvadratické pozadí*_) stupně a gaussiánu. 

Odhady chyb parametrů fitu pocházejí z kovarianční matice chyb, kterou poskytuje fitovací procedura. 

## Poznámky

1. Pokud si chcete udělat pořádek v souborech, které jste už načetli, klikněte na symbol 📁 nahoře nalevo. 
2. Změny v notebooku, otevřeném z GitHub repozitáře, vám systém nedovolí uložit. Udělejte si vlastní kopii, nejsnadněji notebook skopírujete na Google Drive.